文章原名:Inducing Domain-Specific Sentiment Lexicons from Unlabeled Corpora
作者:William L. Hamilton, Kevin Clark, Jure Leskovec, Dan Jurafsky
单位:Department of Computer Science, Stanford University, Stanford CA
译者:涂存超
链接:
https://arxiv.org/pdf/1606.02820v1.pdf(可戳下方阅读原文)
词的情感决定于它在哪个领域被使用。在计算社会科学中,往往需要使用一个与领域相关的情感词表。在这篇论文中,我们将特定领域的词表示与一个标签传播的框架相结合,利用一个较小的种子词集合,来获得特定领域的情感词表。结果显示,我们提出的方法在从特定领域的语料获取情感词表的任务上,获得了最好的效果。我们纯靠语料驱动的方法要优于那些依靠人工处理的资源(例如WordNet)的方法。利用我们的框架,我们获得并发布了英语语料上150年以来的历史情感词表,以及针对Reddit上250个在线社区的针对特定社区的情感词表。我们发布的历史词表显示,超过5%的非中性词在过去的150年来情感极性发生了变化。针对特定社区的情感词表揭露了情感是如何在不同社区变化的。
这篇文章提出了SENTPROP框架,具有如下四个特点:
1. Resource-light: 在不需要大规模语料及人工标注资源的情况下,能得到精确的表现。
2. Interpretable: 利用小的样例词集合,在保证可解释性的同时,还能避免情感歧义。
3. Robust: 基于重复采样的标准差提供了一种对于词在标记的情感倾向上置信度的评测方法。
4. Out-of-the-box: 不需要依赖与特定领域相关的一些指导信号。
具体来说,该框架包含以下几步:
1.构建词表图
首先,该先利用SVD对与词共现相关的一个矩阵进行矩阵分解,得到每个词的300维的向量表示。之后,对每个词语与它的k近邻(根据余弦相似度),计算两个词之间边的权重,如下所示:
2.根据种子集合传播情感极性
有权的词表图构建完成后,利用随机游走的方法,将初始种子集合中有标记的情感标签传播给其他词。最后,会得到未标记的词在正向情感和负向情感上的得分。
3.重采样来确保鲁棒性
传播的情感得分必然会受到初始种子集合的影响。这里通过对初始的种子集合进行B次抽样,每次抽取同样大小的种子集合,来进行情感极性传播。这样,一个节点在一个情感上可以得到的B个情感值,对这B个情感值计算标准差,可以作为对该情感的置信度。
这篇文章通过重构已知的词表,来评测提出的框架的效果。本文选取了三个不同领域的情感词表,包括Standard English, Finance以及Twitter,如下所示。
此外,本文选取了情感二分类(正向、负向)、三分类(正向、负向、中性)以及Kendall相关度来评价实验效果。下面是在三个数据集上,进行三个任务的结果:
可以看到,这篇文章提出的SENTPROP与已有的最先进的方法,在所有情形下都是可比的。同时,它在仅使用小规模领域相关的语料时,也能够得到较高的准确率。
此外,本文还进行了构建特定社区的词表的任务。这篇文章对每个reddit社区,选取了频度最高的5000个非停用词,来构建它们的情感词表。
下表展示的是不同社区对于同一个词的情感差别。
最后,本文还展示了词的情感在历史中随着时间变化的情况,以“Lean”、“Pathetic”两个词为例,一个逐渐由负向变成正向,一个由正向变成负向,如下图所示:
本文提出了一种自动构建准确的与领域相关的情感词表的方法。此外,本文还提出了一种新颖的再采样的方法,来衡量每个词在不同情感下得分的置信度。本文还探讨了词的情感随着领域的不同以及历史的不同而发生的变化。具体来说,一个词的情感依赖于它被使用的领域或者社区,同时一个词的情感也会随着历史的变化而发生改变。