语言学

英语语言学术语表相关:词频、语境、语料库及提取方法探讨?

英语语言学术语表相关:词频、语境、语料库及提取方法探讨?

摘 要: 在国外学者的词频研究方法、语境研究方法和语料对比方法的基础上,以英语语言学 56 万余字的语料为基础,提出了四个步骤的术语表研制方法,并且归纳出了 359 个英语语言学

确定某个专业领域的专门词汇不是一件简单的事情,统计词的出现次数、分析语言环境、对比不同文本资料等手段都有各自的优点和不足,怎样才能把这些方法运用得当,从而准确找到所需要的术语呢?下面将对此进行说明。

词频遴选法

词频选择是获取专业词汇的常用方法。这种方法认为,如果一个词语出现的次数多,或者经常和固定词语组合出现在特定类型的文章里,那么这个词语很可能是专业词汇。例如在医疗行业,“心电图”“血常规”这些词用得很多,它们很可能就是专业词汇。但是这种做法也有不足之处,像“穿上”和“脱下”这类频繁出现但并非专业词汇的短语,容易混入专业词汇集合,从而降低筛选的专业性。

语境区分法

语境区分法是通过分析单词出现的具体场景来分辨专业词汇和普通词汇的。有些“关键”词汇,虽然单独出现的次数不多,但跟特定词语组合在一起时,共同出现的几率很大。以法律文件为例,“不可抗力”这个词,经常和某些特定词汇连用,尽管它整体出现的频率不算高,但属于专业术语。而词频统计方法可能会忽略这类词组,因为它只统计单个词语的使用次数。

语料对比法

通过对比分析特定领域文本资料与其他文本资料中词汇的出现次数,可以分辨出专业术语和普通词语或短语。比如在信息技术行业,“人工智能”在计算机专业文本资料里的出现次数远远超过其他行业,这样就能把它和一般性词汇区分开。这种做法能够有效过滤掉不同行业里常见的高频词汇。

词频法的局限

词频统计方法虽然简单,不过它无法剔除那些出现次数多的非专业短语。由两三个词语组成的短语,在各种类型的文本里都十分常见,它们在通过词频筛选出的术语集合里占据了很大比例,给术语的识别带来了麻烦,使得专业术语的纯净性下降,进而影响到后续的学术工作和实际应用。

NC - Value理论应用

NC - Value理论认为,在表示“关键”概念的语境里,候选的专门名词需要加大其分量。采用排除常见词的方法,正是这一理论的反向实践,所谓排除常见词,指的是那些意义不大的词语或短语,它们能够筛除掉自身或者与之相连的词组,如同用筛子淘出真金,只留下有价值的术语。

术语提取结果

这套方法依照既定步骤操作,将FTW的数值定为10.00,由此识别出681个属于语言学语域的术语组合,也就是LAC - 681。这些组合中,包含2到5个词语的部分,其数量与其他参照资料相比要少得多。为了提高筛选的准确性,必须运用资料对比的手段,将那些值得怀疑的词组剔除掉。

你觉得哪种方法在操作中效果最好?大家快来参与讨论,并且可以给这篇文章点个赞,同时转发出去。

更多内容