学位论文 > 优秀研究生学位论文题录展示
主观性文本的情感极性分析研究
作 者: 任德斌
导 师: 胡明涵
学 校: 东北大学
专 业: 计算机软件与理论
关键词: 情感分析 情感极性分类 bootstrapping PMI-IR 语义反转
分类号: TP391.1
类 型: 硕士论文
年 份: 2009年
下 载: 162次
引 用: 1次
阅 读: 论文下载
内容摘要
随着互联网的快速发展,我们可以从网上获取的信息和资源也在呈几何级数的增长。对于文本资源,尤其是用户主动发布的评论,进行挖掘和分析,识别出其情感倾向及演化规律,可以更好地理解用户的消费习惯,分析热点舆情,也可以为政府,企业和其他机构在决策时提供重要的依据。本文首先介绍了情感分析研究的动因,面临的挑战以及广阔的应用前景。然后聚焦于本领域研究的重点——情感极性分类上。对它的特点,关键概念和研究方法进行了较为详尽的论述。与传统的基于主题的文本分类相比,情感分类任务自身的特征使得在解决相关问题时,我们不仅要考虑问题的共性,更要结合问题特点,因地制宜。针对电影评论和产品评论这样的主观性文本中包含的情感倾向,本文运用两种基于不同思想的方法对情感极性分类进行了多角度的研究:(1)基于情感词典的情感极性分类方法。本文在以General Inquiry为情感词典的基础上,提出基于bootstrapping框架下的PMI-IR词典扩充算法,有效地提高了极性分类性能。并且融入具有情感极性反转作用的语义单元进行对比实验。实验结果在加入语义单元后得到明显提升。(2)基于机器学习的情感极性分类方法。本文结合实例对现今情感极性分类问题中存在的难点,进行了较为详尽的分析,提出了利用评论性文章最富于情感信息的后四分之一片段来构建特征空间的思想,并且经由多种文本特征选取方法以及Naive Bayes分类器和SVM分类器对多个主观性文本特征进行了对比实验。表现出色的实验结果证明了本文提取文本片段中情感信息方法的有效性。
|
全文目录
摘要 5-6 Abstract 6-10 第1章 绪论 10-18 1.1 研究背景 10-12 1.2 技术要点 12-13 1.3 应用及前景 13-16 1.4 本文组织结构 16-18 第2章 情感分析的关键概念与文本特征 18-26 2.1 情感分析的关键概念 18-22 2.2 主观性文本特征 22-25 2.3 本章小结 25-26 第3章 情感分析的研究要点及方法 26-40 3.1 语料的选择 26 3.2 基于情感的分类 26-31 3.2.1 与基于事实的分类的对比 27-28 3.2.2 导致情感分析难度增加的因素 28-31 3.3 领域和主题的相关研究 31-34 3.3.1 领域适应性 31-33 3.3.2 主题相关性 33-34 3.4 无监督的学习方法 34-36 3.4.1 无监督的词典生成 34-35 3.4.2 其它无监督的方法 35-36 3.5 关联信息对分类的影响 36-38 3.5.1 文档与句子的关联信息 36-37 3.5.2 谈话者之间的关联信息 37-38 3.6 本章小结 38-40 第4章 基于情感词典的情感极性分类 40-50 4.1 基于bootstrapping的方法 40-41 4.2 系统设计 41-44 4.2.1 基于General Inquiry的情感词典 41-42 4.2.2 基于PMI-IR的方法 42 4.2.3 基于bootstrapping框架下的PMI-IR词典扩充算法 42-44 4.2.4 情感极性反转语义单元 44 4.3 实验设置 44-47 4.3.1 实验语料 45-46 4.3.2 词缀修剪 46-47 4.4 实验结果及分析 47-49 4.5 本章小结 49-50 第5章 基于机器学习的情感极性分类 50-64 5.1 文本分类方法 50-57 5.1.1 文本分类的定义 50 5.1.2 文本分类的方法 50-57 5.2 系统设计 57-58 5.3 实验设置 58-59 5.3.1 实验语料 58-59 5.3.2 特征选取 59 5.4 实验结果及分析 59-62 5.5 本章小结 62-64 第6章 总结与展望 64-66 参考文献 66-70 致谢 70
|
相似论文
- 基于博客搜索的博文情感倾向性分析技术的研究,TP391.1
- 数据挖掘技术在世博客流与社交媒体预测中的研究与应用,TP311.13
- 基于关联规则和图排序的句子情感倾向性研究,TP391.1
- 长期演进系统下入侵检测关键技术的研究,TP393.08
- 基于HowNet的中文语义倾向性分析技术研究,TP391.1
- 互联网公关传播效果评估研究,G206
- Pricing Switch-Option-Embedded Notes in a LIBOR Market Model,F224
- 面向中文Web评论的情感分析技术研究,TP391.1
- 基于情感分析的新闻浏览平台关键技术研究,TP391.1
- 面向产品领域的细粒度情感分析技术,TP391.1
- 面向Web文本的产品意见挖掘算法研究,TP391.1
- 语音情感分析业务系统的设计与实现,TN912.34
- 基于混合方法的复杂命名实体抽取研究,TP391.1
- 面向信息检索的文本内容分析,TP391.3
- 文本挖掘在中医药中的若干应用研究,TP399
- 中文网络客户评论中的产品特征挖掘方法研究,TP391.1
- 文本倾向性分析中的情感词典构建技术研究,TP391.1
- 语音情感识别的研究与应用,TP391.42
- 在线社会网络上SPAM行为检测方法研究,TP393.08
- 基于整合文本挖掘方法的中医证与分子生物学知识的关联分析系统,TP311.52
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com
|