语言学

计算语言学的定义、特点:可操作性、工程性及全局考量

计算语言学的定义、特点:可操作性、工程性及全局考量

计算语言学第1页,共49页,编辑于2022年,星期三一、计算语言学的定义:是利用计算计研究和处理自然语言的学科。狭义:指的是通过建立形式化的计算模型

计算语言学研究领域,不断更新我们对语言与计算机交互的理解,实践成果持续增加,同时存在一些尚未解决的难题,确实值得关注。

计算语言学定义

计算语言学是一门借助电脑探究和操作日常交流的学问。从专门角度讲,它借助构造计算化规范,让机器能够解析、操作、领会并表述日常交流。比如智能翻译应用,就是运用这种办法把一种交流方式转变为另一种交流方式。这门学问的问世,为语言和电脑的融合开启了新途径。

语言分析具备很强的实践性。哪怕不清楚语句确切内容,依然能借助计算语言学的手段,确定其语法构造和核心意义。比如遇到不熟悉的文字表述,运用相关学科的工具,可以逐步拆解其构造,把握大概含义,这对于语言掌握和学术探讨都非常有益。

注重全局与一般

计算语言学强调语言分析的整体视角和普遍规律,探讨具有普遍意义的现象。传统语言学则更侧重剖析内在机制。以语言发展为例,前者着眼于宏观走向,后者则细致考察具体词汇或语法现象的深层动因。

这项研究工作有助于我们从整体上理解语言演变的情况。比如在分析全球语言沟通的动向时,计算语言学能够考察各种语言在国际交往中的普及程度和演变过程,从而为语言政策的拟定和文化沟通提供依据。

汉字信息处理之书写

汉字记录信息时需要逐个字进行书写,这种方式比较简单。以前人们记录文字主要依靠手写或者使用打字机,现在电脑已经成为主要的记录工具。电脑上具有识别汉字的功能,这是中文信息处理中一个关键的部分,它能够自动分辨出印刷体和手写的汉字。

一个有效的文字辨识装置由扫描设备、中央处理单元等构成。它运作方式是,通过扫描设备将文件等送入计算机,分析其特征并与字库对照,然后呈现识别信息。中国内地和台湾省在文字辨识研究领域取得重要进展,已经攻克了多种文字识别的难题。

汉字信息处理之识别技术

打印件辨别的精准度通常在九成五左右,识别印刷文字的技术需要分辨文本段落等不同部分,各个部分采用不同的处理方法,文本部分实施识别,表格部分进行专门分析识别,图像部分执行压缩或储存。

图像分割、特征获取和文字辨认是印刷中文字符识别的关键技术。图像分割包含行和字的分离,特征获取分析单个字符图像的特点,文字辨认根据特征进行分类匹配。最后通过语言知识修正识别的偏差。

语音识别成果

清华大学电子工程系研发的通用汉语连续语音识别系统准确率高达94.8%,已达到实际应用标准。针对词汇量较小的特定场景,非特定人语音识别系统的准确率超过98%。目前,部分通信产品已集成语音识别通话功能,同时也有语音备忘录等应用产品。

人们借助电话线路,运用能听懂人话的软件,可以方便地查找资料,而且效果相当不错。这种能听懂人话的电话软件,在全球每年的销售额已经超过一亿美元,从中可以看出它的市场潜力非常可观。

汉字输入方法

形码和音码输入方法都有各自的优点。形音输入法依据字形进行编码,重复率不高,一般只需四键,比较适合专业打字员输入资料,就算不认识字也可以按照字形输入。

语音输入法跟人的说话思路差不多,可以一边想内容一边打字。它的按键就在普通电脑键盘上,不需要换掉原来的键盘,用起来很方便,现在大家平时聊天和写东西都用得挺多的。

使用文字转换或声音转换功能时,是否碰到过什么有意思的情况呢?可以在留言区讲述,同时记得给这篇文章点赞和转发。

更多内容