发 表 你 的 评 论 ......
还没有评论,抢沙发...

全部热门评论

【论文故事】快乐就写在我们的语言里
#互联网

一项对10种不同人类语言的大数据分析表明,这些语言的常用词汇中,都是正面词汇更多,并且这种现象不受词汇使用频率的影响。[1]研究论文于2月10日发表在《美国科学院院刊》(PNAS)上。果壳网科学人对论文第一作者,美国佛蒙特大学的彼得·谢里丹·多兹(Peter Sheridan Dodds)进行了采访。

早在1969年,就有心里语言学家提出了波丽安娜假说(Pollyanna Hypothesis),该假说认为人类在交际过程中,普遍更喜欢使用带有正面色彩的词汇。然而,以往的研究都没能对此进行有力证明。这一次,研究者们利用大数据分析,对这一假说进行了更深层次的探究。

研究者首先选取了10种来源和文化背景不同的语言,包括:英语、西班牙语(墨西哥)、法语、德语、葡萄牙语(巴西)、韩语、中文(简体)、俄语、印尼语和阿拉伯语。在这些语言中,研究者重点关注了那些使用频率最高的词汇,“但由于不可能将一种语言中的所有词汇都按使用频率排序,因此我们分语料库(corpus,在语言学上意指大量的文本,通常经过整理,具有既定格式与标记)进行研究。”多兹向科学人解释说。研究共使用了24个语料库,来源包括书籍、新闻报道、社交媒体、网络、电视剧和电影字幕以及歌词。

多兹表示:“我们以往对英语常用词汇的研究发现,带有正面色彩的词汇更多,在此基础之上,我们想要了解这一现象是否也存在于其它语言当中。”从各个语料库中,研究者们最终选取了每种语言最常用的约1万个词汇,并让以各语言为母语的人给每个词汇的正面程度打分。最终,每个词汇获得了50次评分,总评分次数为500万次。

评分示例。受调查者需要对每个词语的正面程度打分(1为最负面,9为最正面,5为中性)。图片来源:研究论文

分析结果显示,所有语料库中都是正面色彩的词汇较多。不过,不同语言中词汇的正面程度分布之间还是存在一些微小差异。多兹指出:“拉丁美洲的语料库中(西班牙语、葡萄牙语),快乐程度的中值和其变化幅度(方差)都较大。而在快乐程度的方差上(下图右侧),4个英语语料库的都排得很靠前,而中文和俄文词语的方差则较小。”

10种语言,共24个语料库的词汇正面程度分布。从每个语料库选取了最常用的5000个词汇,黄色部分为得分>5的区域而蓝色部分为得分<5的区域,灰色线连接各分布之间的十分位点。左图为按评分中值大小(红色竖线)排列,而右图为按方差大小(分散程度)排列。图片来源:研究论文

对各个语料库的进一步分析发现,每个词汇的正面程度得分与该词汇的使用频率基本没有联系。研究者们以语料库中使用频率排名连续的500个词汇为区间,发现各个区间内得分的十分位点基本一致,并未受到使用频率的影响。

词汇的正面程度与使用频率之间并无联系,各个词汇使用频率排名区间的正面程度分布基本一致,显示词汇为随机挑选。图片来源:研究论文

另外,研究者们还进一步将10种语言两两配对(共45对),并利用谷歌翻译找出其中意思相同的词汇,并对它们的正面程度得分进行比较。结果显示,在不同语言中,表达同一意思的词汇得分也很一致。也就是说,对于那些研究中没有涉及的语言,可以通过参考语言中某个词汇在其他语言中对应词汇的正面程度,做出大致估计。

研究者们通过大数据分析证明了波丽安娜假说,不过他们的目标不止这一个。多兹表示:“我们一开始想要测量文字中的情绪,并用这些信息开发工具,来测量各种大型文本中所用词汇的正面程度。包括通过推特(Twitter)上的文字来分析人们的情绪,以及跟踪文学作品中的情绪变化。”(这两项功能可访问hedonometer.org)他还说:“我们目前正在建设panometer.org网站,这个网站将会对推特上的各种话题进行分析,包括健康、饮食、睡眠不足等。我们的长期目标之一,就是用大数据来描绘人们生活的各个方面。而这些测量工具可以帮助决策者、城市管理者、记者、公司等获得相关信息,比如消费者对某种产品的评价。”

hedonometer.or网站上英语推特词汇的平均正面程度分析图,可选择时间跨度,点击每个圆点还可以看到当天使用频率最高的词汇。图片来源:hedonometer.org

多兹表示,研究团队希望进一步研究更多的语言以及不同的语料库,但由于研究难度大并且较昂贵,他们目前正在申请所需经费。(编辑:球藻怪)

参考文献:

  1. Peter Sheridan Dodds et al. Human language reveals a universal positivity bias.PNAS, 2015 DOI: 10.1073/pnas.1411678112

文章题图:listen-hard.com