学位论文 > 优秀研究生学位论文题录展示

文本情感倾向性分析与研究

作 者: 张彬
导 师: 杨志晓
学 校: 河南工业大学
专 业: 模式识别与智能系统
关键词: 情感倾向 基准词 褒贬度 依存关系 文本分类
分类号: TP391.1
类 型: 硕士论文
年 份: 2011年
下 载: 136次
引 用: 0次
阅 读: 论文下载
 

内容摘要


文本的情感倾向性研究是当前计算机领域、智能信息领域、自然语言处理领域中比较活跃的一个分支,它通过对文本中的评论对象的情感倾向进行分析,可以判断出评论者对评论对象的情感倾向是褒义的还是贬义的。文本情感倾向性分析被广泛地应用于信息检索、信息过滤、情感识别等领域。文本按照颗粒度的大小可以分为三个级别:词语、句子、篇章。对这三个级别的文本进行情感倾向分析所使用的方法既有联系又有区别,本文是从最基本也是最主要的词语着手进行研究,在词语情感倾向研究的基础上完成句子和篇章级的情感倾向分析和研究。本文的主要研究工作和成果有:(1)词语的情感倾向性分析。本文对基于知网的词语语义相似度算法进行了改进,通过测试,改进后的算法提高了知网情感字典中的词语语义倾向判别的准确率。(2)句子短语的情感倾向性分析。本文根据自然语言处理中的句子词语与词语之间的依存关系,来提取句子短语中的修饰词和情感词,然后通过SO-PMI算法来计算句子的情感倾向的极性和情感强度。测试中,对情感基准词的提取采用了一种新的算法,使基准词涵盖的范围更加广泛,提取后的情感基准词不仅适用于一般领域还适用于特定的领域。(3)文本的情感倾向分析。本文使用文本分类的方法对文本的情感倾向进行分析,测试中将提取后的情感词作为文本特征,使用了SVM分类器实现了对文本的褒贬分类。

全文目录


摘要  4-5
Abstract  5-6
目录  6-8
第一章 绪论  8-13
  1.1 引言  8
  1.2 研究背景  8
  1.3 国内外研究现状  8-12
  1.4 本文的主要工作  12
  1.5 论文安排  12-13
第二章 词语级的情感倾向性分析  13-28
  2.1 自然语言处理  13-15
  2.2 基于知网的词语语义相似度  15-17
    2.2.1 词语关系的衡量指标  15-16
    2.2.2 词语相似度的计算方法  16-17
  2.3 知网的结构  17-19
    2.3.1 知网的义原  17-18
    2.3.2 基于《知网》的词语相似度计算  18-19
  2.4 基于《知网》的词语情感倾向性计算  19-21
    2.4.1 基于《知网》的词语情感倾向性计算方法改进  20-21
  2.5 点态互信息 SO-PMI  21-22
  2.6 潜在语义分析方法  22-23
  2.7 实验及其分析  23-26
    2.7.1 测试集  23-24
    2.7.2 基准词的选取  24-25
    2.7.3 实验概述  25-26
    2.7.4 实验分析  26
  2.8 本章小结  26-28
第三章 句子的情感倾向性分析  28-43
  3.1 引言  28
  3.2 短语模板  28-30
  3.3 短语情感倾向的计算  30-31
  3.4 词的依存关系分析  31-35
    3.4.1 副词的提取  32-35
  3.5 句子的情感倾向分析  35-36
  3.6 基于语法分析的句子情感倾向算法  36-39
    3.6.1 文本预处理  36-37
    3.6.2 基准词的选择  37-38
    3.6.3 短语模板的匹配  38
    3.6.4 短语的情感倾向的计算  38-39
  3.7 实验及其分析  39-42
  3.8 本章小结  42-43
第四章 文本分类方法  43-57
  4.1 文本分类概述  43
  4.2 文本分类的流程  43-44
  4.3 文本表示模型  44-46
    4.3.1 布尔逻辑模型 BLM  44-45
    4.3.2 向量空间模型 VSM  45-46
  4.4 特征提取  46-48
  4.5 常用的文本分类方法  48-54
  4.6 分类效果评估  54-55
    4.6.1 查全率  54
    4.6.2 查准率  54
    4.6.3 F_Score  54-55
  4.7 实验及其分析  55-56
  4.8 本章小结  56-57
第五章 总结和观望  57-58
  5.1 工作总结  57
  5.2 工作展望  57-58
参考文献  58-62
致谢  62-63
个人简介  63

相似论文

  1. 基于仿生模式识别的文本分类技术研究,TP391.1
  2. 互联网上旅游评论的情感分析及其有用性研究,TP391.1
  3. 面向主题的Web文档自动文摘生成方法研究,TP391.1
  4. 基于本体的食品投诉文档文本分类研究,TP391.1
  5. 基于本体的中文科技论文分类研究,TP391.1
  6. 高、低剂量率γ线照射对哺乳类细胞生长存活及DNA损伤修复的影响,R818
  7. 集合多标签文本分类研究,TP391.1
  8. 多分类器系统在日语依存关系解析中的研究,TP391.1
  9. 基于依存关系的旅游景点评论文本倾向分析,TP391.1
  10. 基于Vague集的网络舆情研究,TP393.09
  11. 基于依存关系的中文语义角色标注研究,TP391.1
  12. 指代消解中待消解项识别研究,TP391.1
  13. 基于集成学习的垃圾短信多级分类技术研究,TN929.53
  14. 结合本体HowNet的中文文本分类研究,TP391.1
  15. 基于决策树分类算法的Web文本分类研究,TP391.1
  16. 软件缺陷自动分派研究,TP311.52
  17. 基于关联技术的中文文本分类研究,TP391.1
  18. 基于概率的潜在语义分析模型在搜索引擎商业文本分类系统中的应用研究,TP391.1
  19. 网络舆情分析关键技术研究与实现,TP393.09
  20. 模糊理论在文本分类中的应用研究,O159
  21. 基于支持向量机的文本分类器设计与实现,TP391.1

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com