古代文学

大数据对古代文学经典文本分析的影响,及古籍统计新认知?

大数据对古代文学经典文本分析的影响,及古籍统计新认知?

大数据及其相应技术已经对社会知识体系及思维方式产生重大影响。基于这一技术对古代文学经典文本进行深度而高效的分析,可使文学研究进入更宏观的视野

通过翻阅纸质材料,与运用数据方法分析文本,人们对知识的理解方式差异很大,后者能够让我们接触以前没见过的学术资料,现在就具体谈谈这个情况。

字词统计价值

文本分析的基础是进行字词统计。以小说这类文献为例,其中排名靠前的几部作品,由于篇幅长、题材宽泛、语言风格多样,导致用字数量相对较多。在编纂蒙学读物时,比如《千字文》和《百家姓》这类书籍,编纂者会在有限的篇幅和内容深度的限制下,有意识地提升用字数量。这样的做法有助于学童在短时间内掌握更多的汉字,从而突显了字词统计对于学习的实际帮助作用。

TTR_H模型修正

统计字频比的方法比单纯计数更精确,因此采用了计算语言学里常用的TTR_H方法。调查数据表明,字频比最大的文献是蒙学教材,《千字文》的字频比值为1。这表明该模型在分析各类文献时有效,能协助我们更科学地掌握文献中的字词使用状况,为相关研究提供了可信的参考。

字频分别计算

字数分析时,虚词和实词一般分开统计。虚词在汉语发展史等学科中常作参考数据,也是比较不同作品写作特点的重要依据。《尚书》里“惟”出现次数最多,这显示了古代汉语和后世汉语的差异,各种虚词的使用比例能区分不同作者的写作特点。

语词统计辨文风

把词汇分析的范围扩大到最常用的百个词,可以用来讨论唐代和宋代诗歌风格的区别问题。严羽说的“宋朝注重道理”的看法,在词汇统计的结果里得到了支持。宋诗里像“一生”“世间”这些表达哲理的“道理之词”的排名提高了。唐诗里排在第一位的表示时间的词是“今天”,而宋诗中则是“十年”这类词,这说明唐代和宋代在时间观念和情感抒发上有所不同。

意象选用差异

吉川把“燃烧与持续”的研究重点放在了意象的对比上,提出了“唐代诗人多描绘夕阳,宋代诗人多描写雨水”的看法。夕阳象征着燃烧的景象,雨水则代表着持续的景象,这种现象体现了唐宋诗人不同的审美追求和情感抒发方式。如果统计相关的词语使用频率,就能发现他们在意象选择上存在的不同。

大数据助力研究

传统书籍的代表作界限分明,不过它们的篇幅还是让学者们无法完全通晓。借助海量数据收集和计算技术,有时候会产生出乎意料却又合乎情理的发现,仿佛是自发产生的。哪怕只是通过分析文字或词汇出现的次数,这样的小方法也能帮助我们开始探索文献的新途径。

文本分析还有哪些领域可以做得更好?大家热烈参与讨论,请支持并转发这篇文章。

更多内容