不同应用领域的属性级情感分析任务会有不同的命名。例如,有些领域称之为基于主题的情感分析,主题描绘的是实体的一个属性;有些领域称之为基于实体的情感分析,情感分析的目标就是实体。在观点定义的结构化五元组中,观点评价对象包含实体和属性两类信息,因此基于实体的情感分析属于基于属性的情感分析的范畴。实现基于属性的情感分析,需要完成2.1.6 节所定义的6个基本任务。
5.1 属性级情感分类方法
同篇章级和句子级情感分类一样,属性级情感分类通常也有基于监督学习与基于词典的无监督学习这两类方法。区别在于属性级情感分类需要考虑观点评价对象,因此上述方法在应用时与先前有明显区别。此外,还可以将两种方法结合使用。
5.1.1 基于监督学习的方法
属性级与句子级使用相同的机器学习算法(如SVM、朴素贝叶斯分类器等),但是在之前任务中所使用的特征在处理属性级情感分类时不再有效。针对这一问题主要有两种解决方法:
- 生成依赖于评价对象(实体或属性)的特征。这种方法假设表征观点评价对象的实体和属性已经被事先识别出来,而上述特征用来表征这些目标实体、属性词和其他词语之间的句法关系。此外,该方法还会用到传统句子、篇章级情感分类所用到的与观点评价对象无关的特征。目前监督学习主要使用这种方法。
- 确定句子中每处情感表达的作用范围,从而判别当前情感表达是否包含目标实体或属性。例如,“Apple is doing very well in this bad economy”,情感词bad的作用范围仅仅涵盖economy,并不包括Apple。这种方法假设系统已经知道句子中所包含的每处情感表达。
Boiy 和Moens(2009)给出了一种方法,计算每一个特征词的权重,用以表征该词和目标实体、属性间的距离。他们定义了三种权重:
- 深度差异。特征权重与该特征词和目标实体在句法树中的深度差异成反比。
- 路径距离。特征权重与该特征词和目标实体在深度优先搜索时的距离成反比。
- 简单距离。特征权重与该特征词与目标实体在句子中的距离成反比。
5.1.2 基于词典的方法
为了考虑观点评价对象,可以使用上一节所提到的两种方法,当然也可以将这两种方法结合起来:
- 在利用情感聚合函数计算观点评价对象的情感倾向时,考虑情感表达词与目标实体或属性在句子中的距离;
- 通过计算每个情感表达词的作用范围,来判断当前情感词是否作用于目标实体或属性。这一过程需要利用情感表达词和观点评价对象之间的句法关系。
基于词典的属性级情感分类方法所需的基本处理模块或资源包括:
- 包含情感词、短语、俚语、组合规则(见5.2节)的情感表达词典;
- 处理不同语言和句子类型的规则集;
- 情感聚合函数或情感词与目标观点评价对象间的句法关系集合。
这里介绍一个简单的基于词典的属性级情感分类方法(Ding et al.,2008)。假定目标实体和属性已经得到,则该方法主要有如下四个步骤(句子中观点评价对象标记为斜体):
- 标记情感表达词或短语。每个正面的情感表达得分+1,负面的情感表达得分-1。如“The voice quality of this phone is not good, but the battery life is long”。由于 good 是一个表达正面的情感词,因此通过这步操作后,句子变成“The voice quality of this phone is not good[ +1],but the battery life is long”。
- 处理情感转折词。在这步操作后,情感分析结果就变为“The voice quality of this phone is not good[ -1],but the battery life is long”。
- 处理but从句。转折词或短语通常改变情感倾向,需要专门处理。出现在转折词前的观点与转折词之后的观点通常具有相反的情感倾向,如果一边的观点倾向还不确定,而另一边的观点倾向已经确定,则可以用这个规则来识别还不确定的那一边的观点倾向性。这个假设很重要,因为并不是在所有情况下but均意味着观点倾向的转折。通过本步骤处理,例句变为“The voice quality of this phone is not good[ -1], but the battery life is long[ +1]”。
- 聚合情感打分。假设句子包含属性集合{a1,…,am},情感表达集合{se1,…,sen}以及通过上述1-3步得到的每个情感表达的情感得分。得分计算使用如下公式,dist(sej,ai)是句s中属性ai和情感表达sej的距离,sej.ss是sej的情感得分。如果最终得分为正,表明句s中属性ai的观点是正面的,若最终得分为负,则句 s 中属性ai 的观点是负面的,否则为中性。
%3D%5Csum%7Bs%20e%7Bj%7D%20%5Cin%20s%7D%20%5Cfrac%7Bs%20e%7Bj.%7D%20%20s%20s%7D%7B%5Coperatorname%7Bdist%7D%5Cleft(s%20e%7Bj%7D%2C%20a%7Bi%7D%5Cright)%7D%0A#card=math&code=%5Coperatorname%7Bscore%7D%5Cleft%28a%7Bi%7D%2C%20s%5Cright%29%3D%5Csum%7Bs%20e%7Bj%7D%20%5Cin%20s%7D%20%5Cfrac%7Bs%20e%7Bj.%7D%20%20s%20s%7D%7B%5Coperatorname%7Bdist%7D%5Cleft%28s%20e%7Bj%7D%2C%20a_%7Bi%7D%5Cright%29%7D%0A&id=IcrlH)
为了使这种方法更有效,可以通过确定情感表达作用的范围,而不是用词距离来确定当前情感表达是否匹配目标实体和属性。一个明显的做法是利用情感表达和他们目标之间的关系,具体包括:
- 句法依存关系。通常包含形容词一名词、动词-副词依赖关系。如“his camera takes great pictures”,利用形容词(great)和名词(pictures)之间的依存关系,可以确定目标实体(picture)与情感表达(great)之间具有语义关系。
- 情感词自身是目标属性。 很多的形容词是与评价对象强相关的,既表达情感,又指示属性。如 expensive 通常指的是 price,beautiful 指的是 appearance。这种名词称为其对应形容词的属性名词。
- 语义关系。语义关系通常很难被识别,其常常与单个词或短语的意思和使用方式密切相关。
另一种提升基于词典的情感分类方法的有效途径是自动地发现那些上下文依赖的情感词的情感倾向。
5.1.3 两种方法的优缺点
基于监督学习的情感分类方法的关键优势是:学习算法可通过优化的手段从各种特征中自动学到一个有效的分类模型。但这些在学习算法中所习得的特征,大部分情况下很难应用于基于词典的分类方法。此外,基于监督学习的方法过分依赖于训练集,针对不同
领域,需要人工标注训练数据。目前在情感分析领域,针对领域自适应问题的研究主要集中在篇章级情感分类任务。这是由于篇章包含了更多的分类特征。此外,监督学习方法也不利于扩展,只有错误问题频繁出现后,已有算法才能学到正确的模式或特征。
基于词典的分类方法能够有效避免上面提到的大部分问题,面对大规模、多领域的实际应用场景,具有很好的效果。在工业界,很多上线的实际系统都使用这类方法。其关键优点是非常鲁棒,领域独立,不依赖于为每一个领域手动标记的大规模训练数据。这类方法也便于算法的扩展和提升,当错误产生后,可以简单地通过修改已有规则或者增加新的规则及时修正。
基于词典的情感分类方法也有缺点。构建分类所需的知识库(包括词典、模板、规则等)需要消耗大量的人力与物力。虽然基于词典的分类方法具有领域无关性,但是在面对一个新领域的情感分类任务,依然需要一些操作来处理新领域所特有的语言现象。主要是对于那些情感倾向依赖于领域和上下文的情感词及短语进行处理。如suck 大部分情况下是表示负面的情感,但是在被用来评价吸尘器时,说明该吸尘器具有较强的吸尘能力,表达了正面的情感。
目前仅仅依赖于监督学习或无监督学习的机器学习方法不太可能在这个领域取得显著进步。面对情感分析任务,随着数据集的规模越来越大,需要设计更复杂的机器学习算法自动学习通用和领域特有的知识。
5.2 情感组合规则
除了情感词和短语,还有很多不同类型的语言构成方式能够表达情感,那就是情感组合规则。可以按照如下策略使用所构建的情感组合规则来识别文本中的情感倾向。
- 情感组合规则可以与情感分析词典一样,作为词典的核心构件使用与基于词典的情感分类。
- 情感组合规则可以作为特征支撑已有基于监督学习的情感分类算法。
通常情况下,情感组合规则是与语言无关的。在此列出英文中常用来表达情感信息的组合规则。针对其他语言,可以将这些规则在目标语言中进行词、短语的实例化,可以毫不费力地将这些规则应用于中文情感分析任务。在此先不考虑在实际系统中规则是如何表示的,首先从定义的角度描述这些规则。然后研究否定词、情感词、并列连词(如but)对文本中情感倾向的影响。这些规则除了指示文本的情感倾向之外,很多规则也能指出观点评价的对象(实体和属性)。我们可以使用这些情感规则抽取观点对象(实体和属性);确保系统能够正确地将观点信息与相对应的目标进行关联。
5.2.1 情感组合规则概述
以下列出一些情感组合规则,随着研究的深入,会发现更多的规则。像个别情感词一样,句中触发了情感规则并不能说明此句中就包含了观点或情感。简单起见,以下规则中只列出词的词根形式。对于一个词,在不同的语法角色下呈现的形态称为词的形态,如词solve,它的形态有solve、solves、solving、solved。
- 一般性情感规则。这是顶层的,最具通用性的规则。利用这些规则的所构建的应用通常与上下文相关。
P为正面情感表达,可以是情感词典中出现的词、短语或俚语(民间语言)、混合型正面情感表达。N为负面情感表达。
NEGATION NE(或PO)。这种模式代表对负面(正面)的情感表达的再否定。
MODAL NE(或PO)。这种模板代表助动词与负面(正面)情感表达的组合模式。如“This car should have a better engine”。
#BUT NE(或PO)。这类模板表示情感表达与关联词 but( 也称为反义词)相关。“#”代表情感表达句段位于 but 前。
NE(或PO)BUT#。情感表达出现在but之后的句段。 - 减弱或增强情感词的情感强度。
在句子中,情感增强和减弱的文本表达可以出现在 PO/NE 前,也可以出现在 PO/NE后面。例如: “This drug has reduced my pain.”。这类句子常用动词表达情感增强与减弱的含义,但是,也能用其他词性的词表达同一含义。例如“My pain disappeared after taking the drug.“。这些句子都通过属性(pain)隐含地表达了情感信息。 - 减少或增加潜在正面属性(positive potential item,PPI)或潜在负面属性(negative potential item,NPI)的数量。
“Lenovo has cut their revenue forecast.”
“Lenovo has increased the battery life of their laptops.”
“Sony has increased the price of the camera.“
这里的revenue、battery life 称为PPI, 因为顾客希望收入、电池续航增加;price 称为 NPI,因为顾客不希望商品的价格高。
同样,”减弱“概念可以扩展到”消失“、”消除“。如:”my hope has gone.”。PPI/NPI具有领域依赖性,例如,在经济领域中,growth和budget属于PPI,但在贷款领域中,interest rate 和 down payment 对借款人而言是 NPI。PPI 和 NPI 可以通过自动、半自动或全人工的手段进行抽取。Wen 和 Wu(2011)提出了一种基于自举的文本分类算法,并在中文语料中实验表明其有效性。 - 情感词(PO或NE)的比较级。(1)在这一类型的规则中,情感词多是名词或名词短语;(2)实际应用场景也会触发其他一些情感组合规则。如下面的more pain表达负面的情感,但是加上 reduced 后,情感极性就从负面变为正面。
“This drug has reduced more pain than my previous drug.” - 对PPI/NPI表示更小、更少、更大或更多。
“This phone gives me more battery life.“
“The price of the car is high.” - 产生、消耗资源或废弃物。如果一个实体产生大量的资源或消耗大量的废物,通常是正面的,反之常是负面的。
资源(resource)是一种 PPI,废弃物是一种 NPI(规则3)。这种情况下,能被其他与PPI 和 NPI 相关的规则所触发,如“This device reduces the gas consumption by 20%”。在特定领域内,需要对资源或废弃物的文本表达进行挖掘和抽取。 - 期望或不被期望的事实性表达。许多客观或事实的表达能暗示一定程度上正面或负面的情感倾向。如“After taking the drug, my blood pressure went up to 410”。对于事实期望或不被期望的表达会因领域而异,很难处理。Zhang和Liu(2011b)提出了一种简单的自动挖掘方法,对这些暗示情感的属性名词进行挖掘与发现。
- 表现出期待发生或不发生的行为。跟规则7类似。对于行为信息期待发生或不发生的文本表达也与领域相关,同样难以处理。通常情况下,行为信息通过一些动词或动词短语触发。如雇佣(hiring)是正面的情感倾向, laying off、skips frames,表现出负面的情感倾向。
- 符合预期。若实体达到甚至超过预期,则表达了正面的情感倾向,否则为负面的情感倾向。
- 部分和整体情感。满足这一类型规则的句子通常是复合句,句中包含不同的情感信息。我们需要计算针对句中某个实体整体情感倾向,但也不能忽略句中所包含的子句的情感倾向,例如:“The price of this phone is high, but overall it is a great phone.“。这个句子比较特殊,它给出了针对目标实体的整体情感倾向。
“BUT_OVERALL_IS NE(PO)”表示尽管句子一部分是表达了负面(正面)的情感,但是整体上是正面(NE)或者负面(PO)的情感倾向。系统需要事先检测这些特殊的句子,一个有效的指示特征是主句往往提及实体类型甚至实体名称。但是,我们也需要了解如下信息:(1)虽然这些句子的整体情感倾向集中在主句中,但并不意味着我们应该忽略从句中的情感表达。这里用“ * “对主句和从句进行标记。(2)句子的从句通常不会表达句子的整体情感,但事实上有时也会例外。 - Having everything or nothing:如果一个实体涵盖了某个用户想要的全部东西,则表达了对这个实体的褒义的观点。相反,某个用户想要的全部东西当前实体一个都没有涵盖,则表达的是对这个实体贬义的观点。
“This car has everything that my mother really wants.”
“This plan has nothing that I need.”
在使用这个规则时,我们应该考虑以下例外的情况,它们非常难处理,例如:
“This car has everything that is bad.”
”This car has nothing bad.“
- Being exact the way that one wants:如果某样东西恰好是某用户想要的,则表达的是对当前实体褒义的情感。对于此类情感表达的组合规则是多样的。PO规则只能覆盖一小部分。
“This phone is designed exactly the way that I wanted.” - Having or using some positive or negative potential items,or having something that one wants:如果一个实体包含了一些评价为正面的东西(PPI)或者任何用户想要的东西,则用户倾向于对这个实体表达褒义的观点。如果一个实体包含了一些评价为负面的东西(NPI),则用户倾向于对这个实体表达贬义的观点。
“Google has the answer.”
“This vacuum cleaner has/uses bag.”
这里answer是一个PPI,bag在吸尘器领域是一个NPI(老式的吸尘器才使用尘包)。
- Saving or wasting resources:
- Causing or prevnenting negative or positive effects or situations:
“This drug caused my back pain”
- Solving problems or making improvements:
“The company has fixed the voice quality problem.”
- Destorying positive or negative items:
“They kill a great idea.”
- Capable of performing some action:如果一个实体能够触发一个有用的或者没用的东西,则表达出的情感是正面或负面的
“This car can climb very steep hills.”
- Keeping or breaking one’s promise:
%20%7D%20%5C%5C%0A%5Ctext%20%7B%20NE%20%7D%20%26%20%3A%3A%3D%5Ctext%20%7B%20break%20promise%20%7D%0A%5Cend%7Barray%7D%0A#card=math&code=%5Cbegin%7Barray%7D%7Bll%7D%0A%5Ctext%20%7B%20PO%20%7D%20%26%20%3A%3A%3D%5Ctext%20%7B%20keep%20%28promise%20%7D%20%5Cmid%20%5Ctext%20%7B%20words%29%20%7D%20%5C%5C%0A%5Ctext%20%7B%20NE%20%7D%20%26%20%3A%3A%3D%5Ctext%20%7B%20break%20promise%20%7D%0A%5Cend%7Barray%7D%0A&id=zaNuo)
- “Taking or enduring pain or abuse”:这里的负面表达通常与suffering、pain、abuse、hardship等相关。
- Throwing away something:
%20%5C%5C%0A%5Ctext%20%7B%20PO%20%7D%20%26%20%3A%3A%3D%20%26%20%5Ctext%20%7B%20THROW%5C_AWAY%20%7D%5B%5Ctext%20%7B%20NE%20%7D%20%5Cmid%20%5Ctext%20%7B%20NPI%20%7D%5D%20%5C%5C%0A%5Ctext%20%7B%20THROW%5C_AWAY%20%7D%20%26%20%3A%3A%3D%20%26%20%5Ctext%20%7B%20do%20away%20with%20%7D%20%5Cmid%20%5Ctext%20%7B%20get%20rid%20of%20%7D%20%5Cmid%20%5Ctext%20%7B%20sell%20off%20%7D%20%5Cmid%20%20%5Ctext%20%7B%20throw%20way%20%7D%20%5Cmid%20%5Cldots%0A%5Cend%7Barray%7D%0A#card=math&code=%5Cbegin%7Barray%7D%7Blll%7D%0A%5Ctext%20%7B%20NE%20%7D%20%26%20%3A%3A%3D%20%26%20%5Ctext%20%7B%20THROW%5C_AWAY%20%7D%28%5Ctext%20%7B%20PO%20%7D%20%5Cmid%20%5Ctext%20%7B%20PPI%20%7D%29%20%5C%5C%0A%5Ctext%20%7B%20PO%20%7D%20%26%20%3A%3A%3D%20%26%20%5Ctext%20%7B%20THROW%5C_AWAY%20%7D%5B%5Ctext%20%7B%20NE%20%7D%20%5Cmid%20%5Ctext%20%7B%20NPI%20%7D%5D%20%5C%5C%0A%5Ctext%20%7B%20THROW%5C_AWAY%20%7D%20%26%20%3A%3A%3D%20%26%20%5Ctext%20%7B%20do%20away%20with%20%7D%20%5Cmid%20%5Ctext%20%7B%20get%20rid%20of%20%7D%20%5Cmid%20%5Ctext%20%7B%20sell%20off%20%7D%20%5Cmid%20%20%5Ctext%20%7B%20throw%20way%20%7D%20%5Cmid%20%5Cldots%0A%5Cend%7Barray%7D%0A&id=O0EFE)
- Staying away from,drifting away,or coming back to something:远离某样不希望得到的东西所表达的情感是褒义的,而远离某样希望得到的东西表达的是贬义的情感。其中COME_BACK_TO通常并不表达观点信息。
“You should stay away from this car.”
%20%7D%20%5C%5C%0A%26%26%20%5Cmid%20%5Ctext%20%7B%20DRIFT%5C_AWAY%5C_FROM%20PO%20%7D%20%5C%5C%0A%26%26%20%5Cmid%20%5Ctext%20%7B%20DRIFT%5C_AWAY%5C_FROM%20NE%20%7D%20%5C%5C%0A%5Ctext%20%7B%20PO%20%7D%20%26%3A%3A%3D%26%20%5Ctext%20%7B%20COME%5C_BACK%5C_TO%20ENTITY%20%7D%0A%5Cend%7Barray%7D%0A#card=math&code=%5Cbegin%7Barray%7D%7Blll%7D%0A%5Ctext%20%7B%20NE%20%7D%20%26%3A%3A%3D%26%20%5Ctext%20%7B%20STAY%5C_AWAY%5C_FROM%20%28ENTITY%20%7D%20%5Cmid%20%5Ctext%20%7B%20ASPECT%29%20%7D%20%5C%5C%0A%26%26%20%5Cmid%20%5Ctext%20%7B%20DRIFT%5C_AWAY%5C_FROM%20PO%20%7D%20%5C%5C%0A%26%26%20%5Cmid%20%5Ctext%20%7B%20DRIFT%5C_AWAY%5C_FROM%20NE%20%7D%20%5C%5C%0A%5Ctext%20%7B%20PO%20%7D%20%26%3A%3A%3D%26%20%5Ctext%20%7B%20COME%5C_BACK%5C_TO%20ENTITY%20%7D%0A%5Cend%7Barray%7D%0A&id=W5ljA)
- Supporting or voting for something:如果一个实体 E1 支持另一个实体 E2,则实体 E1对于实体 E2 表达了褒义的观点。如果一个实体 E1 支持一个负面(或正面)的东西,则对于实体 E1 的观点是负面(或正面)的。
- Associated or friendly with something:
- Choosing this or something else:
%20ENTITY%20%7D%20%5C%5C%0A%20%26%26%5Ctext%20%7B%20ENTITY%20is%20the%20way%20to%20go%20%7D%20%5C%5C%0A%20%26%26%5Ctext%20%7B%20this%20is%20it%20%7D%20%5C%5C%0A%20%26%26%5Ctext%20%7B%20(search%20%7C%20look)%20no%20more%20%7D%20%5C%5C%0A%20%26%26%5Ctext%20%7B%20CHOOSE%20ENTITY%20%7D%20%5C%5C%0A%20%26%26%5Ctext%20%7B%20check%20ENTITY%20out%20%7D%20%5C%5C%0A%5Ctext%20%7B%20NE%20%7D%26%3A%3A%3D%20%26%20%5Ctext%20%7B%20forget%20(this%20%7C%20it%20%7D%20%5Cmid%20%5Ctext%20%7B%20ENTITY)%20%7D%20%5C%5C%0A%20%26%26%5Ctext%20%7B%20keep%20looking%20%7D%20%5C%5C%0A%20%26%26%5Ctext%20%7B%20look%20elsewhere%20%7D%20%5C%5C%0A%20%26%26%5Ctext%20%7B%20CHOOSE%20(another%20one%20%7D%20%5Cmid%20%5Ctext%20%7B%20something%20else)%20%7D%20%5C%5C%0A%5Ctext%20%7B%20CHOOSE%20%7D%26%3A%3A%3D%20%26%5Ctext%20%7B%20buy%20%7D%20%5Cmid%20%5Ctext%20%7B%20check%20%7D%20%5Cmid%20%5Ctext%20%7B%20check%20out%20%7D%20%5Cmid%20%5Ctext%20%7B%20choose%20%7D%20%20%5Cmid%20%5Ctext%20%7B%20grab%20%7D%20%20%5Cmid%20%5Ctext%20%7B%20purchase%20%7D%20%5Cmid%20%5Ctext%20%7B%20select%20%7D%20%5Cmid%20%5Cldots%20%5C%5C%0A%5Ctext%20%7B%20ENTITY%20%7D%26%3A%3A%3D%20%26%5Ctext%20%7B%20this%20%7D%20%5Cmid%20%5Ctext%20%7B%20this%20ENTITY%5C_TYPE%20%7D%20%5Cmid%20%5Ctext%20%7B%20ENTITY%5C_NAME%20%7D%0A%5Cend%7Barray%7D%0A#card=math&code=%5Cbegin%7Barray%7D%7Bll%7D%0A%5Ctext%20%7B%20PO%20%7D%26%3A%3A%3D%20%26%20%5Ctext%20%7B%20ENTITY%20is%20for%20you%20%7D%20%5C%5C%0A%20%26%26%5Ctext%20%7B%20ENTITY%20is%20it%20%7D%20%5C%5C%0A%20%26%26%5Ctext%20%7B%20ENTITY%20is%20the%20one%20%7D%20%5C%5C%0A%20%26%26%5Ctext%20%7B%20ENTITY%20is%20your%20baby%20%7D%20%5C%5C%0A%20%26%26%5Ctext%20%7B%20go%20%28with%20%7C%20for%29%20ENTITY%20%7D%20%5C%5C%0A%20%26%26%5Ctext%20%7B%20ENTITY%20is%20the%20way%20to%20go%20%7D%20%5C%5C%0A%20%26%26%5Ctext%20%7B%20this%20is%20it%20%7D%20%5C%5C%0A%20%26%26%5Ctext%20%7B%20%28search%20%7C%20look%29%20no%20more%20%7D%20%5C%5C%0A%20%26%26%5Ctext%20%7B%20CHOOSE%20ENTITY%20%7D%20%5C%5C%0A%20%26%26%5Ctext%20%7B%20check%20ENTITY%20out%20%7D%20%5C%5C%0A%5Ctext%20%7B%20NE%20%7D%26%3A%3A%3D%20%26%20%5Ctext%20%7B%20forget%20%28this%20%7C%20it%20%7D%20%5Cmid%20%5Ctext%20%7B%20ENTITY%29%20%7D%20%5C%5C%0A%20%26%26%5Ctext%20%7B%20keep%20looking%20%7D%20%5C%5C%0A%20%26%26%5Ctext%20%7B%20look%20elsewhere%20%7D%20%5C%5C%0A%20%26%26%5Ctext%20%7B%20CHOOSE%20%28another%20one%20%7D%20%5Cmid%20%5Ctext%20%7B%20something%20else%29%20%7D%20%5C%5C%0A%5Ctext%20%7B%20CHOOSE%20%7D%26%3A%3A%3D%20%26%5Ctext%20%7B%20buy%20%7D%20%5Cmid%20%5Ctext%20%7B%20check%20%7D%20%5Cmid%20%5Ctext%20%7B%20check%20out%20%7D%20%5Cmid%20%5Ctext%20%7B%20choose%20%7D%20%20%5Cmid%20%5Ctext%20%7B%20grab%20%7D%20%20%5Cmid%20%5Ctext%20%7B%20purchase%20%7D%20%5Cmid%20%5Ctext%20%7B%20select%20%7D%20%5Cmid%20%5Cldots%20%5C%5C%0A%5Ctext%20%7B%20ENTITY%20%7D%26%3A%3A%3D%20%26%5Ctext%20%7B%20this%20%7D%20%5Cmid%20%5Ctext%20%7B%20this%20ENTITY%5C_TYPE%20%7D%20%5Cmid%20%5Ctext%20%7B%20ENTITY%5C_NAME%20%7D%0A%5Cend%7Barray%7D%0A&id=lUhTo)
- Under control or out of control:
- Undercutting or undermining some positive effort:
- Cannot wait to do something to a desirable(PO)or undesirable(NE)item:同样,当cannot wait后面不跟一个负面或
者正面的东西时,通常表达褒义的情感。例如:“I cannot wait to get an iPhone”
- Positive or negative( potential)items return:当返回一个正面的东西(PO)或者PPI时,通常表达的是褒义的情感。当返回一个负面的东西(NE)或者NPI时,通常表达的是贬义的情感。例如:
“My pain has returned.”
“This drug got my life back.”
%20%5Ctext%20%7B%20RETURN%20%7D%20%5C%5C%0A%5Ctext%20%7B%20PO%20%7D%20%26%20%3A%3A%3D(%5Ctext%20%7B%20PO%20%7D%20%5Cmid%20%5Ctext%20%7B%20PPI%20%7D)%20%5Ctext%20%7B%20RETURN%20%7D%20%5C%5C%0A%5Ctext%20%7B%20RETURN%20%7D%20%26%20%3A%3A%3D%5Ctext%20%7B%20bring%20back%20%7D%20%5Cmid%20%5Ctext%20%7B%20come%20back%20%7D%20%5Cmid%20%5Ctext%20%7B%20get%20back%20%7D%20%5Cmid%20%5Ctext%20%7B%20is%20back%20%7D%20%20%5Cmid%20%5Ctext%20%7B%20return%20%7D%20%5Cmid%20%5Cldots%0A%5Cend%7Barray%7D%0A#card=math&code=%5Cbegin%7Barray%7D%7Bll%7D%0A%5Ctext%20%7B%20NE%20%7D%20%26%20%3A%3A%3D%28%5Ctext%20%7B%20NE%20%7D%20%5Cmid%20%5Ctext%20%7B%20NPI%20%7D%29%20%5Ctext%20%7B%20RETURN%20%7D%20%5C%5C%0A%5Ctext%20%7B%20PO%20%7D%20%26%20%3A%3A%3D%28%5Ctext%20%7B%20PO%20%7D%20%5Cmid%20%5Ctext%20%7B%20PPI%20%7D%29%20%5Ctext%20%7B%20RETURN%20%7D%20%5C%5C%0A%5Ctext%20%7B%20RETURN%20%7D%20%26%20%3A%3A%3D%5Ctext%20%7B%20bring%20back%20%7D%20%5Cmid%20%5Ctext%20%7B%20come%20back%20%7D%20%5Cmid%20%5Ctext%20%7B%20get%20back%20%7D%20%5Cmid%20%5Ctext%20%7B%20is%20back%20%7D%20%20%5Cmid%20%5Ctext%20%7B%20return%20%7D%20%5Cmid%20%5Cldots%0A%5Cend%7Barray%7D%0A&id=nn7CF)
- Emerging from undersirable situation:
“This company has emerged from the poor economy.”
%20%7D%20%5C%5C%0A%5Ctext%20%7B%20COME%5C_OUT%5C_FROM%20%7D%20%26%20%3A%3A%3D%20%26%20%20%5Ctext%20%7B%20back%20from%7Ccome%20out%7Cemerge%20from%7C…%20%7D%20%5C%5C%0A%5Cend%7Barray%7D%0A#card=math&code=%5Cbegin%7Barray%7D%7Blll%7D%0A%5Ctext%20%7B%20PO%20%7D%20%26%20%3A%3A%3D%20%26%20%20%5Ctext%20%7B%20COME%5C_OUT%5C_FROM%28NE%7CNPI%29%20%7D%20%5C%5C%0A%5Ctext%20%7B%20COME%5C_OUT%5C_FROM%20%7D%20%26%20%3A%3A%3D%20%26%20%20%5Ctext%20%7B%20back%20from%7Ccome%20out%7Cemerge%20from%7C…%20%7D%20%5C%5C%0A%5Cend%7Barray%7D%0A&id=BSm3X)
- Positive(negative) outweighing negative(positive):
- Changing from positive(or negative) to negative(or positive):
- Something that is going to die:
- Extending one’s ability or maing it difficult:
%20%5C%5C%0A%26%20%26%20%5Cmid%20%5Ctext%20%7B%20MAKE%5C_DIFFICULT%20(NPI%20%7D%20%5Cmid%20%5Ctext%20%7B%20NE%20%7D)%20%5C%5C%0A%26%20%3A%3A%3D%20%26%20%5Ctext%20%7B%20ENABLE%20(NPI%20%7D%20%5Cmid%20%5Ctext%20%7B%20NE)%20%7D%20%5C%5C%0A%26%20%26%20%5Cmid%20%5Ctext%20%7B%20MAKE%5C_DIFFICULT%20(PPI%20%7D%20%5Cmid%20%5Ctext%20%7B%20PO)%20%7D%20%5C%5C%0A%26%20%3A%3A%3D%20%26%20%5Ctext%20%7B%20allow%20%7D%20%5Cmid%20%5Ctext%20%7B%20enable%20%7D%20%5Cmid%20%5Ctext%20%7B%20make%20it%20easy%20%7D%20%5Cmid%20%5Cldots%20%5C%5C%0A%5Ctext%20%7B%20ENABLE%20%7D%20%26%20%3A%3A%3D%20%26%20%5Ctext%20%7B%20make%20it%20(difficult%20%7D%20%5Cmid%20%5Ctext%20%7B%20hard%20%7D%20%5Cmid%20%5Ctext%20%7B%20impossible%20%7D)%20%5Cmid%20%5Cldots%0A%5Cend%7Barray%7D%0A#card=math&code=%5Cbegin%7Barray%7D%7Blll%7D%0A%5Ctext%20%7B%20PO%20%7D%20%26%20%3A%3A%3D%20%26%20%5Ctext%20%7B%20ENABLE%20%28PPI%20%7D%20%5Cmid%20%5Ctext%20%7B%20PO%20%7D%29%20%5C%5C%0A%26%20%26%20%5Cmid%20%5Ctext%20%7B%20MAKE%5C_DIFFICULT%20%28NPI%20%7D%20%5Cmid%20%5Ctext%20%7B%20NE%20%7D%29%20%5C%5C%0A%26%20%3A%3A%3D%20%26%20%5Ctext%20%7B%20ENABLE%20%28NPI%20%7D%20%5Cmid%20%5Ctext%20%7B%20NE%29%20%7D%20%5C%5C%0A%26%20%26%20%5Cmid%20%5Ctext%20%7B%20MAKE%5C_DIFFICULT%20%28PPI%20%7D%20%5Cmid%20%5Ctext%20%7B%20PO%29%20%7D%20%5C%5C%0A%26%20%3A%3A%3D%20%26%20%5Ctext%20%7B%20allow%20%7D%20%5Cmid%20%5Ctext%20%7B%20enable%20%7D%20%5Cmid%20%5Ctext%20%7B%20make%20it%20easy%20%7D%20%5Cmid%20%5Cldots%20%5C%5C%0A%5Ctext%20%7B%20ENABLE%20%7D%20%26%20%3A%3A%3D%20%26%20%5Ctext%20%7B%20make%20it%20%28difficult%20%7D%20%5Cmid%20%5Ctext%20%7B%20hard%20%7D%20%5Cmid%20%5Ctext%20%7B%20impossible%20%7D%29%20%5Cmid%20%5Cldots%0A%5Cend%7Barray%7D%0A&id=KmAvB)
- Forced to do something:
- Comparing with something desirable or undesirable:
%20%5C%5C%0A%26%20%5Cquad%20%5Cquad%20%5Ctext%20%7B%20ON%5C_PAR%20NE%20%7D%20%5C%5C%0A%5Ctext%20%7B%20PO%20%7D%20%26%20%3A%3A%3D%5Ctext%20%7B%20ON%5C_PAR%20PO%20%7D%20%5C%5C%0A%5Ctext%20%7B%20SUB%5C_PAR%20%7D%20%26%20%3A%3A%3D%5Ctext%20%7B%20subpar%20%7D%20%5Cmid%20%5Ctext%20%7B%20worse%20than%20%7D%20%5Cmid%20%5Cldots%20%5C%5C%0A%5Ctext%20%7B%20ON%5C_PAR%20%7D%20%26%20%3A%3A%3D%5Ctext%20%7B%20better%20than%20%7D%20%5Cmid%20%5Ctext%20%7B%20like%20%7D%20%5Cmid%20%5Ctext%20%7B%20on%20par%20%7D%20%5Cmid%20%5Ctext%20%7B%20the%20same%20as%20%7D%20%5Cmid%20%5Cldots%0A%5Cend%7Barray%7D%0A#card=math&code=%5Cbegin%7Barray%7D%7Bll%7D%0A%5Ctext%20%7B%20NE%20%7D%20%26%20%3A%3A%3D%5Ctext%20%7B%20SUB%5C_PAR%20%7D%28%5Ctext%20%7B%20PO%20%7D%20%5Cmid%20%5Ctext%20%7B%20NE%20%7D%29%20%5C%5C%0A%26%20%5Cquad%20%5Cquad%20%5Ctext%20%7B%20ON%5C_PAR%20NE%20%7D%20%5C%5C%0A%5Ctext%20%7B%20PO%20%7D%20%26%20%3A%3A%3D%5Ctext%20%7B%20ON%5C_PAR%20PO%20%7D%20%5C%5C%0A%5Ctext%20%7B%20SUB%5C_PAR%20%7D%20%26%20%3A%3A%3D%5Ctext%20%7B%20subpar%20%7D%20%5Cmid%20%5Ctext%20%7B%20worse%20than%20%7D%20%5Cmid%20%5Cldots%20%5C%5C%0A%5Ctext%20%7B%20ON%5C_PAR%20%7D%20%26%20%3A%3A%3D%5Ctext%20%7B%20better%20than%20%7D%20%5Cmid%20%5Ctext%20%7B%20like%20%7D%20%5Cmid%20%5Ctext%20%7B%20on%20par%20%7D%20%5Cmid%20%5Ctext%20%7B%20the%20same%20as%20%7D%20%5Cmid%20%5Cldots%0A%5Cend%7Barray%7D%0A&id=ZiBSK)
- Hign or low on a ranked list:绝大多数是很难识别的
- Doing things automatically:做期望得到的事情通常表达褒义的观点,相反,做不期望得到的事情通常表达贬义的观点。
%20AUTIMATICALLY%20%7D%20%5C%5C%0A%5Ctext%20%7B%20NE%20%7D%20%26%20%3A%3A%3D%5Ctext%20%7B%20(NE%20%7C%20NPI)%20AUTIMATICALLY%20%7D%20%5C%5C%0A%5Ctext%20%7B%20AUTIMATICALLY%20%7D%20%26%20%3A%3A%3D%5Ctext%20%7B%20automatically%20%7D%20%5Cmid%20%5Ctext%20%7B%20by%20itself%20%7D%20%5Cmid%20%5Cldots%0A%5Cend%7Barray%7D%0A#card=math&code=%5Cbegin%7Barray%7D%7Bll%7D%0A%5Ctext%20%7B%20PO%20%7D%20%26%20%3A%3A%3D%5Ctext%20%7B%20%28PO%20%7C%20PPI%29%20AUTIMATICALLY%20%7D%20%5C%5C%0A%5Ctext%20%7B%20NE%20%7D%20%26%20%3A%3A%3D%5Ctext%20%7B%20%28NE%20%7C%20NPI%29%20AUTIMATICALLY%20%7D%20%5C%5C%0A%5Ctext%20%7B%20AUTIMATICALLY%20%7D%20%26%20%3A%3A%3D%5Ctext%20%7B%20automatically%20%7D%20%5Cmid%20%5Ctext%20%7B%20by%20itself%20%7D%20%5Cmid%20%5Cldots%0A%5Cend%7Barray%7D%0A&id=rci5D)
- Positive(negative)initially,but become negative(positive)later:这种类型的句子在产品评论中经常出现,特别是指目标产品的质量非常低,耐用性很差。通常情况下,后半句中的情感对前半句的情感进行了覆盖。这种类型由于需要句子内的篇章分析,因此很难检测。
“The car worked very well until yesterday.”
“At first this seemed prohibitive to me,but they do give a lot of discount.”
- Positive but not positive enough:这一规则类别与规则集 39非常类似,但是缺乏时间信息或者序列信息辅助检测。同样,在这样的句子中,后半句的情感通常覆盖前半句的情感。这类句子通常使用but、although或者类似的词,或者使用表示BUT_STILL的文本表达。同样,由于识别这类句子也需要篇章级别的分析,因此这一任务也很困难。
“This car is good but not good enough.”
“Although they have made a lot of improvement to the car,it is still lousy.”
5.2.2 情感减弱和情感增强表达
如规则2、3所讨论的,指示情感减弱(DECREASE)的一些常用动词根据其使用方式,可以分为如下几类。
- 针对NPI和NE的情感减弱表达(DECREASE-N)。如 alleviate、avoid、lessen、relieve、resolve、soothe、waive 等。
“The noise level has subsided.”
“The school waived my tuition fees.” - 针对PPI和PO的情感减弱表达(DECREASE-P)。如 lack、lose、omit、miss等。
“I really miss the smoothing capability of the old version. - 出现在PO/NE/PPI/NPI 后的情感减弱表达(DECREASE-after)。如die off、die out、disappear、fade、go away、slip、vanish、wither等。当这些动词和动词短语用成动名词形式时,PO/NE/PPI/NPI能出现在DECREASE表达后。
”My neck pain has disappeared.”
“The company is experiencing a period of dwindling profits.” - 出现在 PO/NE/PPI/NPI 前的情感减弱表达(DECREASE-before)。如quit和stop。
“This machine quit working on the second day.” - 主动语态和被动语态。如果句子是主动语态,DECREASE表达通常出现在PO/NE/PPI/NPI前,例如:“The earphone can block surrounding noise.”。如果句子换成被动语态,情况相反。例如:“The surrounding noise is blocked by the earphone effectively.”因此,知道句子为主动或被动语态很重要,判别句子是主动或被动语态依赖于精准的句法分析。
- 名词的情感减弱表达。情感减弱表达也可以是名词,通常是动词的名词形式,如remove(verb)和removal(noun),reduce(verb)和reduction(noun)。
“This promotion offers a big price reduction.”NPI词(price)出现在情感减弱表达词(reduction)前。
情感增强表达同情感减弱表达类似,相对来说,情感增强表达的类型较少。
5.2.3 SMALL_OR_LESS 和 LARGE_OR_MORE 表达
关于质量、大小、长度、数量、速度等形容词与 PO/NE/PPI/NPI一起,利用5.2.1小节中的规则4、5 组合形成LESS、MORE、SMALL_OR_LESS和LARGE_OR_MORE表达。表达数量的形容词。也称之为量词,包含表示少量的量词(SMALL-Q),表示中等数量的量词(NEUTRAL-Q),表示大量的量词(LARGE-Q)。除此之外,还有 no、free of和free from等类似功能的表达。
SMALL-Q。这类词或短语有:few、little、only a little、a/one little bit、a small number of、free、free of、no、not many、not much、rare、a tiny amount of、tight,也包含那些表示0数量的词语。下面的句子包含了表达量少的量词,其中蕴含了正面或负面的情感。此外,有些情况下,百分数也表现为少量的意思。
“This bank is very tight on credit. “
“The price is only one third of what it was two years ago.”
“The price is only 40% of what it was two years ago.”
NEUTRAL-Q。这类词或短语包括some、any、several、a fair amount of、a number of 和enough。除了 enough,它们通常不会蕴含情感表达。
“They provide enough space for kids to play around.”这里space是类似于PPI的资源。
LARGE-Q。这类表达有 an awful lot of、a bundle of、a great/good deal of、a large amount of、a load of、a lot of、much、a plenty of、a ton of和tons of。包含了这些词或短语的句子会显式或隐式表达情感信息。此外,有些情况下,表示倍数的词也用来表示情感信息。
“This machine uses a lot of electricity。
在比较型句中,比较量词标记为MORE-Q 和LESS-Q,也可以表达情感信息。
MORE-Q。这些词或短语包括 more、most、a larger number of、plenty more、a larger amount of 等。
LESS-Q。这些词或短语包括fewer、least、fewest、less、a smaller amount of 和 a smaller quantity of 等。
表示大小(size)的形容词。我们利用两个概念表示大小:LARGE和SMALL。
LARGE:big、enormous、hefty、huge、large、massive 等。
SMALL:meager、minimum、small、tiny等。
对于比较级形式:LARGER和SMALLER,有:
LARGER:bigger、greater、larger等。
SMALLER:smaller、lesser、tinier等。
表示重量(weight)的形容词。
HEAVY:heavy、weighted、weighty等。
LIGHT:light、featherweight、lightweight、weightless等。
对于比较级形式:HEAVIER和LIGHTER,有:
HEAVIER: heavier。
LIGHTER:lighter。
表达长度(length)的形容词。
LONG:long。
SHORT:short。
对于其比较级形式:LONGER 和SHORTER,有:
LONGER:longer。
SHORTER:shorter。
表示程度(degree)的形容词。
HIGH:high。
LOW:low。
对于其比较级形式:HIGHER和LOWER,有:
HIGHER:higher。
LOWER:lower。
表达速度(speed)的形容词。
FAST:fast、immediate、quick、swift 和 rapid。
SLOW:crawling、like a snail、like a tortoise、lagging、slow、slow-moving、snaillike、tortoiselike 等。
对于其比较级形式:FASTER和SLOWER,有:
FASTER:faster。
SLOWER:slower。
最后,针对LESS、MORE、SMALL_OR_LESS 和 LARGE_OR_MORE 等概念,我们的定义如下:
5.2.4 情感词的定义
一个词通常有多个含义,只有少数的情感词会在任何上下文环境都表达情感信息。如great是一个正面情感词,但是great grandfather(曾祖父)中的great不表达任何情感。某些情况下可通过词性来判断情感词是否表达情感,但即使在同样的词性下,由于表达的语义不同,情感表达也不相同。
pretty 和 terribly。pretty 可用作形容词、动词或名词,通常表示正面的情感,但也会表达负面情感,例如cost a pretty penny(花了很多钱)。然而当用它来修饰形容词或副词时,通常不表达情感信息,而是对情感词起到修饰限定作用,例如pretty good,系统应当忽略他自身默认的情感信息。terribly bad 和 terribly good,有一种“非常”或“极端”的感觉,但是当它不用来修饰形容词时,则会表达一种很强的负面情感,例如“This car is terribly built”。
easily、clearly和well通常表达正面的情感倾向。但是当它们跟情感动词一起使用时并不表达情感,只起到加深程度的作用。此外,当他们以主动语态修饰 be 动词时,也不表达任何情感,实例如下:
“This machine gets damaged easily.
“This is clearly a bad phone.
smell。smell 可以是动词,也可以是名词。没有相关的情感词时,不管用作名词还是动词,smell 时常表现出负面情感。当句子的情感表达依赖出现在smell前后的情感词时,smell 通常不表现情感。
“This car smells.”
“This perfume smells good.”
“This room has a smell.”
“This room has a foul smell.”
5.3 否定和情感
5.2.1节中所提到的规则大部分过于依赖依存语法,本节中将不用类似的规则来展示否定词的用法。
5.3.1 否定词
- 直接否定正面或负面的情感表达,如:
“Nobody likes this car.” - 一些没有情感词的句子,通过表达了期望或意愿来表达情感,如:
“The fridge door cannot be opened.”
在这类文本中,我们很难识别表达了期望和意愿的文本或动作,因此也很难识别这句话中的情感倾向。上面这句例子由于句中没有情感转换的现象,因此否定词没有对句中的情感进行转换。 - 不用情感词就否定了表达期待或不期待意愿的状态。
“No bag is used on this vacuum cleaner anymore.”
没有情感词表达的情况下,也很难知道特定领域的期望是什么。所以,在这种情况下很难处理。如果不知道“老式吸尘器都有吸尘袋,频繁更新吸尘袋很麻烦”这一知识,则很难判断该句表达了什么情感。 - 比较句中的情感表达。
“This car is not better than my previous car.”
“This car is not the best car in the market.”
第一个句子可能对汽车没有负面的评价,因为这两辆车可能表现一样。第二句类似。但是实际应用中把这两句话都应该看作针对“this car”的负面评价,其情感转移通常与上下文相关。 - 双重否定。
“There is nothing that it cannot do.” - not后面是名词短语。这种情况下not 通常不改变或不表达实体、属性的情感倾向,除非修饰的名词本身就是情感词。
“Evo runs Android not the Windows mobile software.”
“She is not a beauty.”
“She is not a nice person.”
第一句的 not不改变或表达任何情感,后两句 not 后的名词短语表达了期望发生的状态,not反转了它们的情感倾向。 - 祈使句的否定词。祈使句给出命令、请求通常不表达情感,否定词通常也不改变情感。
“Do not bring a calculator.” - 短语或成语的否定。短语和成语中的否定词应该被看成短语和成语的一部分,而不是单独看成一个否定词,如:believe it or not、cannot wait to等。
出现了否定词的句子有可能表达或者也有可能不表达任何显式或隐式的情感。但是如果句中不用情感词或没有表达任何期望或不期望的状态、行为时,通常这句话并不表达情感信息。难点问题是很难识别句中是否表达了期望或不期望的状态或行为。
5.3.2 never
never常用来表达强烈的正面或负面的情感倾向,下面的例子中,never作为否定词起到了强烈否定的作用。
“I will never buy another product from eBay.”
“I never liked any Apple products.”
但never也有很多其他不同的用法,在很多情况下,never并不改变句子中的情感倾向,需要特殊处理。具体如下:
- 在一组同类型目标实体中,只对其中一个实体表达了正面评价。
“I will never buy any other brand of vacuum.” - 对于目标表达了从来都不so good/bad(or this/that good or bad)或者 better/worse的情感。在这类句子中,情感词的用法、表达了期望或不期望意愿状态的文本对于判别整句的情感倾向十分重要,如:
“My carpets were never this clean.”
“I have never had such a clean house.” - 对于未曾经遇到或经历过的事情、事物表达出期望或不期望意愿的状态。
“I never had a vacuum blowing out a clean smell before.”
对于 never 这几类特殊用法的处理方式,在识别整句的情感倾向时,我们需要在处理过程中忽略never 本身所表达的否定情感。
5.3.3 其他常用的情感转换词
hardly、barely、rarely、seldom。这些词很多情况下能够改变句中原本情感倾向。以“It works”和“It hardly works”为例子,这里 works表达了正面情感,hardly work 表达反面情感。
little、few、rare。a little 和a few不属于这类词的范畴。当 little 和 few 跟其他意思的词一起使用时,不表达任何情感倾向。
“Few people like this product.”
“This little machine is great.”
fail to、refuse to、omit、neglect。
“This camera fails to impress me.”
“The fridge door refuses to open.”
far from、nowhere( even ) near/close。
“This car is nowhere near perfect.”
“This car is far from perfect.”
5.3.4 否定词移动现象
利用动词 think、believe 等表达否定的态度时,通常情况下会把否定词放在 think、believe的前面。
“I do not think this is a good car.”
有趣的是,当使用情态动词时,句中的情感可能不会发生反转,例如:
“I did not believe that this car could work so well.”
实际上,情态动词 would、should、could、might、need、must、ought to 是另一类情感转换词。
5.3.5 否定范围
当情感词不在否定词的作用范围之内,则该情感词的倾向性也不会因为该否定词而发生反转。例如:horrible 不在 not 的作用范围之内,因此 not 不会改变情感词 horrible 的情感倾向。
“I did not drive my car on that horrible road.”
Jia等(2009)提出了一些基于句法的处理规则,其中定义了否定词(词或短语)和它之后的其他词(包括标点符号)之间的词语间隔。一个基本的原则是否定词作用范围不应跨越其所在的从句。他们也额外定义了四条规则约束对这一基本规则进一步修正。
情感动词规则。当在一个否定的文本表达中对于某个情感动词表达了否定的意思时,否定词的作用范围在情感动词后立即结束。
情感形容词规则。当一个形容词性的情感词与离它最近的一个含有否定意思的系动词或者其他动词与之间具有系动词或补足句子成份的依存关系,则该形容词后面就是否定词作用范围的结尾。
情感名词规则。当一个名词性情感词被用作一个否定表达作用的动词的宾语时,该名词就是否定作用范围的结尾。
这里需要指出,否定作用范围不包括否定转移情况,否定转移需要用前面章节提到的规则单独处理。
5.4 情态和情感
情态动词在句子中对于情感的表达具有很大的影响。在英语中,有三种情态类型:
义务情态(Deontic modality)。通常是对要求人们做或者(不)允许做些事的态度的表达,例如:obligation 和 permission。
“Sony must improve the reliability of their laptops.”
“This company should reduce the price of their products.”
流行情态(Epidemic modality)。关于一个命题为真的推理和判断,如:
“Sony might have solved its picture quality problem.”
动态情态(Dynamic modality)。通常是与能力或意志有关,如:
“The camera can take great pictures.”
英语中重要的情态动词有:can、may、will、shall 和 must 及其相应的各种时态。这些情态动词与否定词结合,对情感的判别与分析十分重要。epidemic modality类型的句子包含很多不确定性,因此这类句子通常不表达清晰的情感。相较而言,义务情态和动态情态类型的情态动词与情感表达关联更加紧密。
can 和 could。很多情况下,它们表达了完成某件事的能力( dynamic modality),这时它们会表达正面的情感,例如:
“I can count on Apple.”
could和can在和比较级(JJR、RBR)联合使用时,通常表达负面的情感。但是,有些不是比较句的句子也表达负面情感,如:
“The voice quality could be improved. ”
这里,虽然 improved 不是比较词,但它表达了一种更加期待的状态。当否定词与比较级一起出现时,根据比较级中情感词倾向的不同,可能表达正面,也可能表达负面情感。例如:
“I cannot be happier with this product.”
在判别句子的情感倾向时,cannot 和 could not 也能简单当作否定词处理,例如“This car cannot do a fast reverse”。但是有些情况下,cannot作为否定词并不表达任何情感,例如“I cannot say whether this camera is good or not”。这是由于 say在cannot 的作用范围之外。
will 和 would。当 could、would 与表达正面情感词一起结合使用时,通常情况下会表达负面情感。它们与比较级相结合,会表达负面情感。
“It would have been a good car.“
“I would like something better than this.”
“I did not believe that this phone would work so/this well.”这句话对 the phone 表达了正面的观点。这说明时态对句子情感的判别具有重要的作用。如果这句话换成“I do not believe that the phone will work well”,则其中的观点倾向就为负面的情感。
shall和should。should 常与比较词一起结合,表达负面的情感。尽管句子中出现了比较级,但这些句子本身并不是比较句。
”This car should be less expensive.”
不同于could,should与否定词一起使用时,常表达的是负面的情感,例如:
“They should not make the screen so big.”
need和must。当没有否定词时,need在情感表达中具有和should一样的用法。must后面接动词时,与 need 的用法和作用是一样的。当need与否定词相结合时,它通常表达正面的情感,例如:
“This phone needs a good/better screen.”
“iPhone allows you to make a call without the need of using your figures.“
have to、had better 和 better。这些情态短语在表达观点和情感时的用法与must一样。有趣的是,其否定的表达通常表达了正面的情感。例如:
“Sony had better improve its products.”
“With this feature, you no longer have to use your fingers.”
want、wish、hope 和 like。这几个动词由于不是助动词,因此它们不是情态动词。但是这几个动词在句子中常常起到情态动词的作用。例如:
“I wish the iPhone had a bigger screen.“
5.5 并列连词but
连词用来连接主句和从句,其有两种类型:并列连词( and、or、but 等)和从属连词(after、because、when、where、that、which 等)。
but 用作介词。but 表示除了( except(for)、apart from、bar)的意思。强调 but连接的从句中所提到的目标对象,而不强调主句中所提到的目标对象。例如:
“I like all Honda models but the CRV.“
在这种类型中,but常用在 everyone、nobody、anything、anywhere、all、no、none、any和every后面。这就引出一个问题:如何处理那些未提及的目标或实体。在实际应用中,为了简化实际系统的分析,只处理明确显式提到的实体和观点,即对于第一句,只分析出这句话对 CRV 表达了负面评价。
but 用作连词。用来连接两个可对比的从句:
“The picture quality of this camera is great, but the battery life is short.”
but前后两个句子中的观点是对立的。所以,如果我们能够先确定其中一个观点的倾向,则可以推断出另一个观点的倾向。
“The seat is slightly uncomfortable but not too bad.”
“Fuel economy is very good but not what is stated.”
如第一句中 but 后面的从句,只是弱化了针对 seat 的负面情感,并没有真正改变该句中情感倾向。第二句也一样。如果 but 前后的从句针对同一事物表达了观点,则赋予他们不同倾向的情感标记。
当然,也有更复杂的情况,实际应用中对比并不意味着 but 前后的观点是完全对立的。与but有相似含义的词和短语,如:although、despite、however、instead of、on the other hand。在许多含有but的成语或短语中,but有时指示这里存在观点对比,有时也没有这样的指示。在这种情况下,要忽略but,不对其处理。
5.6 非观点内容的情感词
实体名中包含情感词。如:保险公司可能取名 Progressive,电商公司取名 Best Buy,好莱坞电影名称Pretty Woman等。一些特定商业领域的名称也会包含情感词。例如beauty salon、beauty parlor和beauty shop等。
功能名中包含情感词。如:视频播放器的前进(fast forward)和后退按钮(fast rewind)。另一个例子是beauty treatment,这里指的是美容的基本步骤。
针对这一问题,一个可能的解决方案是通过预构建这类实体和功能名的列表对目标句子进行预处理。实体名称相对容易确定,但是对于功能名称,人们在书写功能名称时,几乎不用字母大写表示,因此很难做到对功能名称的精准识别。通常情况下,我们需要使用基于语法的规则进行识别。例如,当情感名词(beauty等)后面跟着另一个名词,这种情况下,beauty通常不表达任何情感。但是,也有例外。
祝贺和祝福。通常情况下,这类文本表达多包含情感词。例如:good morning、good day、happy birthday。我们可以很容易地就把这类型的文本表达列举出来,并在预处理环节中依据列表中的结果直接将其处理。当然,我们也可以采用一些方法自动发现和识别这类文本表达。这类文本通常出现在聊天、邮件等文本信息的最后结束段。
作者的自我评价。
“I know Lenovo laptops very well.“
“Lenovo knows the needs of their customers very well.”
第一句中的情感词well是作者对作者自身的评价,而没有对Lenovo laptops发表任何观点。第二句是对Lenovo表达了正面的评价。在产品评论中,评价作者自身的句子并不多见。但是,在论坛讨论中,作者可能是专家或对产品、服务很有经验的用户。
除了上面提及的,还有很多包含情感表达的文本表达的句子,并没有表达任何观点信息。例如:
- 不确定。例如,“I am not sure whether the iPhone is the best phone for me or not.“
- 行为意图。例如,“I am looking for a good iPhone case.”
- 普遍事实。例如, “No insurance means that you have to pay high cost.“
- 商业广告。例如,“Buy this great camera and win a trip to Hawaii.”
- 已有印象。例如,“I thought this car was not good, but after driving it for a few weeks,I simply love it.“
由于少有针对这些类型句子的研究,因为我们很难知道上述类型句子在普通句子中的比例情况。进一步说,目前为止,尽管人们能够很好、很轻松地理解上述内容,但是让机器自动处理它们仍然是一个巨大挑战。
5.7 规则表示
规则表示即表示复杂的情感表达以及相关的处理规则的方法。其需要能够很好地支持观点信息的检测以及从中识别出相应的情感倾向和观点评价的对象(包括实体或者实体属性)。
下面介绍在我们的Opinion Parser系统中所使用的规则描述语言。这种语言遵循默认-异常的处理机制(default-and-exception),这是因为几乎没有情感词在不同场景下的情感倾向是唯一不变的。每个词的情感倾向都用一个默认的情感倾向(使
用最频繁的情感)和异常集合(其他情感倾向)表示。其中的规则描述了那些非默认的情感倾向标记以及相对应的上下文场景。
系统中所使用的符号集为SYMBOL,可以是词(WORD-spec),也可以是两个重要词的间隔(GAP_spec)。SYMBOL中的语法如下:%22%20%7D%20%5C%5C%0A%5Ctext%20%7B%20WORD%20%7D%20%26%20%3A%3A%3D%20%20%26%20%5Ctext%20%7B%20WORD%5C_set%20%7D%20%5Cmid%20%5Ctext%7B(%22(%22%7D%20%5Ctext%20%7B%20not%20WORD%5C_set%20)%22%20%7D)%7C%2B%7C-%5Cmid%20%5Ctext%20%7B%20ASPECT%20%7D%20%20%5Cmid%20%5Ctext%20%7B%20ENTITY%20%7D%20%5Cmid%20%5Ctext%20%7B%20nil%20%7D%20%5C%5C%0A%5Ctext%20%7B%20POS%20%7D%20%26%20%3A%3A%3D%20%26%20%5Ctext%20%7B%20POS%5C_set%20%7D%20%5Cmid%20%5Ctext%7B(%22(%22%7D%20%5Ctext%20%7B%20not%20POS%5C_set%20%22%20)%20%22)%7D%20%5Cmid%20%5Ctext%20%7B%20nil%20%7D%20%5C%5C%0A%5Ctext%20%7B%20VOICE%20%7D%20%26%20%3A%3A%3D%20%26%20%5Ctext%20%7B%20active%20%7D%20%5Cmid%20%5Ctext%20%7B%20passive%20%7D%20%5Cmid%20%5Ctext%20%7B%20nil%20%7D%20%5C%5C%0A%5Ctext%20%7B%20LOC%5C_range%20%7D%20%26%20%3A%3A%3D%20%26%20(%5Ctext%20%7B%22(%22%20start%20%7D%20%5Cmid%20%5Ctext%20%7B%20end%20%7D)%20%5Ctext%20%7B%20START%20END%20%22)%20%7D%20%5Cmid%20%5Ctext%20%7B%20nil%20%7D%20%5C%5C%0A%5Ctext%20%7B%20TARGET%5C_loc%20%7D%20%26%20%3A%3A%3D%20%26%20%5Ctext%20%7B%20self%20%7D%20%5Cmid%20%5Ctext%20%7B%20left%20%7D%20%5Cmid%20%5Ctext%20%7B%20right%20%7D%20%5Cmid%20%5Ctext%20%7B%20nil%20%7D%20%5C%5C%0A%5Ctext%20%7B%20ACTION%20%7D%20%26%20%3A%3A%3D%20%26%20%2B%5Cmid%20%5Ctext%20%7B%20-%20%7D%20%5Cmid%20%5Ctext%20%7B%20nil%20%7D%20%5C%5C%0A%5Ctext%20%7B%20GAP%5C_spec%20%7D%20%26%20%3A%3A%3D%20%26%20%5Ctext%20%7B%22(%20%22%20gap%20RANGE%20POS%20%22)%22%20%7D%20%5C%5C%0A%5Ctext%20%7B%20RANGE%20%7D%20%26%20%3A%3A%3D%20%26%20%20%5Ctext%20%7B(%22(%22%20MIN%20MAX%20%22)%20%7D)%20%5Cmid%20%5Ctext%20%7B%20CHUNK%20%7D%20%5Cmid%20%5Ctext%20%7B%20nil%20%7D%20%5C%5C%0A%5Ctext%20%7B%20CHUNK%20%7D%20%26%20%3A%3A%3D%20%26%20%5Ctext%20%7B%20np%20%7D%20%5Cmid%20%5Ctext%20%7B%20vp%20%7D%20%5Cmid%20%5Ctext%20%7B%20pp%20%7D%20%5Cmid%20%5Ctext%20%7B%20clause%20%7D%20%5Cmid%20%5Ctext%20%7B%20nil%20%7D%0A%5Cend%7Barray%7D%0A#card=math&code=%5Cbegin%7Barray%7D%7Blll%7D%0A%5Ctext%20%7B%20SYMBOL%20%7D%20%26%20%3A%3A%3D%20%26%20%5Ctext%20%7B%20WORD%5C_spec%20%7D%20%5Cmid%20%5Ctext%20%7B%20GAP%5C_spec%20%7D%20%5C%5C%0A%5Ctext%20%7B%20WORD%5C_spec%20%7D%20%26%20%3A%3A%3D%20%26%20%5Ctext%20%7B%20%22%28%22word%20WORD%20POS%20VOICE%20LOC%5C_range%20TARGET%5C_loc%20%7D%20%20%5Ctext%20%7B%20ACTION%20%22%29%22%20%7D%20%5C%5C%0A%5Ctext%20%7B%20WORD%20%7D%20%26%20%3A%3A%3D%20%20%26%20%5Ctext%20%7B%20WORD%5C_set%20%7D%20%5Cmid%20%5Ctext%7B%28%22%28%22%7D%20%5Ctext%20%7B%20not%20WORD%5C_set%20%29%22%20%7D%29%7C%2B%7C-%5Cmid%20%5Ctext%20%7B%20ASPECT%20%7D%20%20%5Cmid%20%5Ctext%20%7B%20ENTITY%20%7D%20%5Cmid%20%5Ctext%20%7B%20nil%20%7D%20%5C%5C%0A%5Ctext%20%7B%20POS%20%7D%20%26%20%3A%3A%3D%20%26%20%5Ctext%20%7B%20POS%5C_set%20%7D%20%5Cmid%20%5Ctext%7B%28%22%28%22%7D%20%5Ctext%20%7B%20not%20POS%5C_set%20%22%20%29%20%22%29%7D%20%5Cmid%20%5Ctext%20%7B%20nil%20%7D%20%5C%5C%0A%5Ctext%20%7B%20VOICE%20%7D%20%26%20%3A%3A%3D%20%26%20%5Ctext%20%7B%20active%20%7D%20%5Cmid%20%5Ctext%20%7B%20passive%20%7D%20%5Cmid%20%5Ctext%20%7B%20nil%20%7D%20%5C%5C%0A%5Ctext%20%7B%20LOC%5C_range%20%7D%20%26%20%3A%3A%3D%20%26%20%28%5Ctext%20%7B%22%28%22%20start%20%7D%20%5Cmid%20%5Ctext%20%7B%20end%20%7D%29%20%5Ctext%20%7B%20START%20END%20%22%29%20%7D%20%5Cmid%20%5Ctext%20%7B%20nil%20%7D%20%5C%5C%0A%5Ctext%20%7B%20TARGET%5C_loc%20%7D%20%26%20%3A%3A%3D%20%26%20%5Ctext%20%7B%20self%20%7D%20%5Cmid%20%5Ctext%20%7B%20left%20%7D%20%5Cmid%20%5Ctext%20%7B%20right%20%7D%20%5Cmid%20%5Ctext%20%7B%20nil%20%7D%20%5C%5C%0A%5Ctext%20%7B%20ACTION%20%7D%20%26%20%3A%3A%3D%20%26%20%2B%5Cmid%20%5Ctext%20%7B%20-%20%7D%20%5Cmid%20%5Ctext%20%7B%20nil%20%7D%20%5C%5C%0A%5Ctext%20%7B%20GAP%5C_spec%20%7D%20%26%20%3A%3A%3D%20%26%20%5Ctext%20%7B%22%28%20%22%20gap%20RANGE%20POS%20%22%29%22%20%7D%20%5C%5C%0A%5Ctext%20%7B%20RANGE%20%7D%20%26%20%3A%3A%3D%20%26%20%20%5Ctext%20%7B%28%22%28%22%20MIN%20MAX%20%22%29%20%7D%29%20%5Cmid%20%5Ctext%20%7B%20CHUNK%20%7D%20%5Cmid%20%5Ctext%20%7B%20nil%20%7D%20%5C%5C%0A%5Ctext%20%7B%20CHUNK%20%7D%20%26%20%3A%3A%3D%20%26%20%5Ctext%20%7B%20np%20%7D%20%5Cmid%20%5Ctext%20%7B%20vp%20%7D%20%5Cmid%20%5Ctext%20%7B%20pp%20%7D%20%5Cmid%20%5Ctext%20%7B%20clause%20%7D%20%5Cmid%20%5Ctext%20%7B%20nil%20%7D%0A%5Cend%7Barray%7D%0A&id=X0Wui)
WORD_SPEC:代表具体的某个词,由7个部分组合而成。
word:代表具体的词。
WORD:是可能或可选的词列表( WORD_list),或者是不指任何词集合(not WORD_set)。
POS:词可选的词性标签集(POS_list),或者不属于任何词性标签(not POS_set)。
VOICE:主动或被动语态。
LOC_range:句中词的位置,当前词的位置应该位于START(第一个词)和END(最后一个词)之间。
TARGET_loc:观点对象与该词的位置关系:self意味着这个词就是观点评价对象,left意味着观点评价对象在当前词的左侧,right意味着在当前词的右侧。
ACTION:当前词的情感倾向。+、-和 nil分别代表正面、负面和中性。
ASPECT或ENTITY:指的是这个词属于一个实体或实体的属性。
nil:不指定任何东西。
GAP_spec:表示间隔规范,包含三个组分。其中,gap表示间隔规范的一些特殊的固定词。
RANGE:表示间隔范围。MIN表示最小间隔的大小(如0表示无间隔);MAX表示最大间隔的大小。
CHUNK:名词短语(np)、动词短语(vb)、介词短语(pp),或从句(clause)。
下面举个例子:“throwing something away”。可以用如下的正则表达式表示规则,基于这个规则,相应的句子可以被识别为负面的情感倾向:
((word( "throw" )nil active nil right - )
(gap np nil)
( word("away") nil nil nil left nil))
句子“I want to throw the iPhone away”与此规则匹配。其中 throw 匹配到规则中的 action 上。观点对象位于 throw 和 away
之间,他们之间的间隔是名词短语。虽然上述规则描述是一种极富表现力的语言,但仍有很多复杂的情感表达不能用这种语言
表达。
5.8 词义消歧和指代消解
Akkaya等(2009)首先研究了主观词词义消歧(subjectivity word sense disambiguation,SWSD)问题。其任务是判别语料库中的词是表达了主观的语义信息还是表达了客观的语义信息。有些词既有主观又有客观的含义,主观词用于客观信息表达是观点挖掘与情感分析中错误的主要来源。Akkaya 等人通过构造了一个监督SWSD模型,利用上下文信息,来消除主观词典中的词在具体句子中的主客观歧义问题。该算法参照词义消歧(WSD)中常用的机器学习特征。但是在同样的数据下,主客观消歧的效果总比传统 WSD 的效果好。
指代消解已在NLP圈子中进行了广泛的研究,其任务是确定句子、篇章中多个文本表达的语义同指对象。Ding和Liu(2010)提出了一种监督学习方法解决实体和属性级的指代消解问题,这篇论文主要贡献在于设计了两个与情感有关的特征,并利用情感分析结果帮助指代消解。第一个特征基于在普通句和比较句上的情感分析结果,其基本思想是句中的情感倾向具有一致性。例如“The Nokia phone is better than this Motorola phone.It is cheap too.”第一句告诉我们对Nokia phone 的评价是正面的(比较句),但是对Motorola phone 的评价相反(比较句),第二句是正面的评价,可以推断出 it 指 Nokia phone。但是如果第二句“It is cheap too”换成“It is also expensive”,it 可能指代 Motorola phone。第二个特征考虑哪个情感词具体评价了句子中的实体和实体属性。例如“I bought a Nokia phone yesterday.The sound quality is good.It is cheap too”。这里it 指Nokia phone,这是由于 sound quality在本句中不是用cheap来修饰。得到这个特征,系统需要知道目标情感词和实体、实体属性的寓意关系,即目标情感词通常用来评价哪些实体和实体属性,这种关系可以通过对语料库分析得到。