情感分析课程作业——情感分析与观点挖掘读书笔记——第一、二章
第一章
情感分析,又叫做观点挖掘,是研究分析人类对于某些实体,如产品、服务、组织、个体、问题、事件、话题及它们的属性等的观点、情感、评估、评价、态度、情绪。情感分析、观点挖掘、观点萃取、情感挖掘、主观性分析、影响分析、情绪分析、评论分析等都归属于情感分析这一大类。
1.1 情感分析的应用
在生活中,我们寻求他人观点用以:
- 个人对商品的选择与购买
- 商家了解产品或服务的评价
- 政治选举
为什么要使用情感分析:
- 网络上用于发表观点的不同的网站众多
- 观点可能隐藏在长篇大论之中
- 独自筛选总结困难,因为需要自动的情感分析系统
意见分析器(Opinion Parser)
1.2 情感分析研究
1.2.1 分析的不同层次
三个主要层次:
- 文档层次:从文章整体角度考虑情感倾向。不适用于评价或比较多个物体的文章。
- 句子层次:判断句子的观点(积极、消极、中立),类似于主观性分类。
- 实体与方面层次:从某一实体或者某实体的某方面进行分析。
对于观点的分类:
- 普通评论
- 比较性评论
1.2.2 情感词典及相关问题
尽管情感词汇对于情感分析来说是十分重要的,但是只是使用它们是不够充分的:
- 有些词汇不能明确的区分为积极或消极;
- 有些句子虽然包含情感词汇,但是只是客观陈述,不表达情感;
- 有些句子虽然不包含情感词汇,但是表达出了某些情感;
- 存在反语。
1.2.3 自然语言处理问题
情感分析涉及到自然语言处理的各个方面,许多NLP中的未解问题使得情感分析更加困难。但是由于情感分析不需要完整的了解句子的语义,只需要理解其中的某些方面(观点的积极与消极等),因而也为NLP的研究者们提供了一定的平台。
1.3 垃圾观点检测
由于人们可以匿名发表一些评论,虽然因此可能会出现一些非常有价值的观点,但是这也导致了恶意评论掩盖真实评论的情况。如果我们要发现这些垃圾观点,就不仅需要自然语言处理,也需要对于数据的挖掘。
第二章
情感分析的问题:情感分析问题的结构化,利用框架的方式将各类问题联系起来。由于情感分析研究的这类评论带有强大主观性,因此若想拥有实际的应用性则需要从许多不同的用户那里搜集大量的相关评论。相比于较易分析的产品评价,社会政策的讨论往往较为复杂、存在更多的反语和讽刺。
2.1 问题定义
2.1.1 观点定义
将一条 opinion 分为四个部分:(g ,s ,h ,t )
- g —— target 对象
- s —— sentiment 情感
- h —— holder 评论者
- t —— time 时间
如果进一步考虑,则可以将观点的对象这一实体分为不同的方面考虑,继而则形成了五元组:(e ,a ,s ,h ,t ),其中:
- e —— entity 实体
- a —— aspect 方面
2.1.2 情感分析任务
主要分为以下几个任务:
情感分析的目的、实体分类和表达的定义、各方面分类和表达的定义、显性方面表达的定义、隐形方面表达的定义、实体模型、观点文献的模型
总结得到六个任务:
Task1:提取整体并分类
Task2:提取方面并分类
Task3:提取观点持有者并分类
Task4:提取时间并规范化
Task5:提取情感并分类
Task6:观点的五部分 (e ,a ,s ,h ,t )的综合
2.2 观点总结
由于我们往往需要获取不只一个用户的观点,而是需要统计大量的评论,这使得我们需要对于它们进行总结,需要兼顾质量和数量。
2.3 观点的不同类型
一般性和比较性观点
明确性和暗示性观点
2.4 主观性和情绪
主观性评论与客观性评论:
- 主观评论往往表现了个人的一些观点和感觉,客观则是包含一些事实信息。
- 主观评论可能不包含任何感情,客观语句也可能暗示一些情感或观点。
情感(emotion):
- 主观性的感觉或想法
- 五个情感等级
- emotional negative
- rational negative
- neutral
- rational positive
- emotional positive
2.5 作者及读者立场
不同层次立场的人看待相同的问题可能会产生不同的乃至相反的想法
本博客所有文章除特别声明外,均采用 CC BY-SA 3.0协议 。转载请注明出处!