北师大发布古汉语词义标注语料库,助力文言文与古诗词词义理解
北师大发布古汉语词义标注语料库,助力文言文与古诗词词义理解
古汉语词义标注语料库由两部分组成,一是词义知识库,二是义项标注语料库。词义知识库中已收录了315个常用词汇。在此基础上,我们收集并标注了从先秦至明清时期的古汉语语料,共计5.8万条,总字数超过164万字。凭借这些详实的数据,我们可以更深入地掌握古汉语词汇的演进过程。这些数据囊括了众多朝代和文体,为研究者提供了多角度分析词义变迁的素材,是研究古汉语不可或缺的宝贵资料。
词义标注语料库概述
古汉语词义标注语料库由两部分组成,一是词义知识库,二是义项标注语料库。词义知识库中已收录了315个常用词汇。在此基础上,我们收集并标注了从先秦至明清时期的古汉语语料,共计5.8万条,总字数超过164万字。如此庞大的数据收集工作,为后续研究打下了坚实的基础。
凭借这些详实的数据,我们可以更深入地掌握古汉语词汇的演进过程。这些数据囊括了众多朝代和文体,为研究者提供了多角度分析词义变迁的素材,是研究古汉语不可或缺的宝贵资料。
词义标注算法的用途
词义标注算法,源于词义标注语料库,其应用价值显著。在构建义项演变模型、分析义项间亲疏关系、以及词典编纂工作中,它为研究者带来了新的研究角度。例如,在编纂词典时,它能协助判断义项的合并与拆分,以及探究义项的引申关系等问题。
此算法亦能为古文及古诗中的词语解释提供帮助。阅读古时经典,若遇难以辨识的词义,借助此算法,我们能更精确地理解其意,这对于传承和发扬传统文化大有裨益。
义项标注工作开展
团队成员选择了国家语言文字工作委员会的“语料库在线”古代汉语部分以及CCL古汉语语料库作为数据来源。他们按照朝代对语料进行了均衡抽样,保证了各个朝代的语料所占比例恰当,从而能更公正地展现不同时期词语含义的差异性。
之后进行词义标注作业,对句子中指明的关键词进行恰当的词义划分。这一步骤要求具备专业知识并需谨慎判断,标注的精确度将直接关系到后续研究与应用的质量。
义频信息统计
根据语料库的标注数据,我们团队会搜集并记录每个词在不同语料中出现的频次和分布情况,然后将这些信息录入到词义知识库中。这些数据可以显示出某个词在不同文本中的使用频率和分布模式。
这有利于研究者对词义流行度和演变走向进行探究。例如,某些词义在特定朝代使用较多,而在其他朝代则相对罕见。借助义频数据,可以直观地把握这些变迁。
语境特征探索
思想通过词义传达,通过词义标注的语料库挑选例句,有助于找出该词义在语境中的共性。杨逢彬先生在翻译《论语》与《孟子》时,特别强调了研究词义分布的必要性。
近年来,流行的预训练语言模型BERT能够提取词语的“语境向量”,这个向量中包含了词在上下文中的关键信息。它能精确地找到词义对应的语境特征,这对于判断词义有着重要的帮助。
词义标注与分布分析
若提供新的表述和需要明确的多义词,机器能挑选出与该表述最贴近的语境特征向量,进而确定多义词在特定语境下的含义。这样做显著提升了词义辨析的准确性和处理速度。
要掌握多义词各个含义出现的频率,需要搜集包含该词的所有文献句子,并对每句进行词义标记,这样就能观察到该词在不同时期、不同书籍中的意义分布,从而为研究词义变化提供直接的证据。
在阅读古文时,您是否遇到过难以解读的词句?欢迎您点赞、转发本篇文章,并在评论区留下您的看法,一起交流学习。