现代汉语

现代汉语语义词典规格说明书:面向自然语言处理的语义知识库

现代汉语语义词典规格说明书:面向自然语言处理的语义知识库

JournalofChineseLanguageandComputing,13(2)159-

为了增强计算机对汉语语义的解析水平,现有的基于词义工程的手段尚不尽如人意;鉴于此,我们亟需探索新的研究途径,以打破这一技术难题。

现有词义工程局限

目前,全球多个国家正致力于开发机用语义词典,其中包括美国的一些类似项目。不过,到目前为止,规模较大的词义工程项目普遍采用词义分类的方式,并伴随一些属性描述。这种分类体系主要是对词义进行静态的汇集与归类,却未将词义纳入组合的视角进行深入分析。因此,在自然语言处理系统中,这种分类体系所能起到的作用相对较小。它所发挥的功效,相较于其他方法,显得比较有限。

新词典的重要性

为了提升计算机的自动分析能力,我们必须参考现有研究成果。在这方面,北京大学计算语言学研究所表现突出,他们对所研发的汉英词语搭配知识库词典(SKCC)进行了大规模的扩充,成功纳入了4.9万条汉语名词、动词、形容词和成语。该词典对每个词条的配价细节和语义搭配规则都做了详尽的解释,这一特性为中文信息处理系统在进行语义自动分析时提供了稳固的依据。

应用与修订情况

北京大学计算研究所自四年前开始,就对该词典进行了大范围的应用和推广,并且在修订工作中付出了大量的努力。在修订过程中,新版SKCC不仅对原有内容进行了更新,还增加了14,663个名词、动词、形容词,以及1993个区别词、时间词等。在汉英机器翻译系统的应用上,新版SKCC能够为句义分析提供强有力的支撑。

语义分类体系调整

国内学者和海外研究者对汉语的语义分类体系进行了深入研究,并取得了一系列的成果,例如梅家驹和林杏光的研究。不过,经过四年的实际应用测试,我们发现现行的分类方法在处理汉语信息时存在一些缺陷。为了促进资源共享,并适应汉英机器翻译的要求,我们对语义词典的分类体系进行了较大的调整。对名词的归类,我们进行了系统化的调整;对于动词的划分,我们采取了借鉴与改良的策略;而在形容词的划分上,我们则细致地将其分为了五大类别和二十九个细分类别。

分类的适用原则

在各类词语的基本分类里,只包括那些具有上下位关系的同义词。这种分类主要针对名词和动词的基本语义类别。根据汉语句子的分析需求,我们还需要适当补充一些内容。我们不需要完全复制语义类中的直接下位概念,比如在“(物质)”这个语义类别里,并没有涵盖那18个直接下位概念。

新分类的合理性

总体来说,经过调整后的新语义分类显得更加合理。名词的分类变得更加细致,而动词、形容词、数词和副词的分类则相对较为粗略。这种分类方法有助于我们揭示名词性成分与动词性组合成分之间的不同组合形态。

大家对这一新建立的语义分类方法有何见解?它在哪些具体方面还有改进的空间?期待您的点赞与分享,同时热切希望您能在评论区发表您的宝贵观点。

更多内容