资源摘录

内容选编自大邓和他的Python(微信公众号) 

演化计算是有个十分有趣的话题,但如果我们有一个历时语料库,能够做什么呢?

根据实际经验,我们可以从词语考察、语义计算、热度计算、文化计算、媒体对比、语法研究等六个方面开展工作。

用途名称技术手段应用场景
词语考察分词、词频统计通用词表等编写
语义计算共现词、MI搭配、依存搭配搭配等语义词典编写
热度计算流通度计算、术语提取流行语等发布
文化计算颜色计算、性别计算文化变迁
媒体对比媒体差异计算传播学研究
语法研究语法模式检索语法教材与词典编写

1、词语考察 

词语计算,旨在利用分词、词频统计等方法,实现某一特色词语,领域词语的收集工作,例如构建领域术语表等,

2、语义计算 

语义计算,旨在利用共现词,互信息,依存等方式,得到词语的常用搭配,以及高频共现词语,以实现对词语上下文的刻画。这个可以作为词语聚类的重要特征。

3、热度计算 

热度计算,主要针对的是历时的文本数据,由于时间线的天然存在,可以通过流通度计算等方式查看不同时间窗口内的词语热度情况以及热度演化。

4、文化计算 

由于词语实际上是文化的载体,如包含了社会对某种文化或者观点的偏好与认知,如词语的性别计算、情感计算、幽默计算等,而随着时间的标签,可以看到不同时期下的文化发展,如对女性和男性的刻板形象变化。

5、媒体对比 

不同的媒体在语言表达上会有不同特点,比如参考消息更偏向于国际事实,人民日报更关注国内新闻,新闻联播更是国内和国外精准消息的浓缩表达。从中可以看出不同时期下不同媒体的用词差异。

6、语法研究

语言是一个不断变化的对象,其用法在几十年来有的发生了重要变化,如从先吃饭到吃饭先这一高频表达的转换,也透露着语言在形式语法上的变化。