学位论文 > 优秀研究生学位论文题录展示

面向中文Web评论的情感分析技术研究

作 者: 周城
导 师: 肖卫东
学 校: 国防科学技术大学
专 业: 管理科学与工程
关键词: 中文Web评论 情感分析 文本分类 情感词典 情感倾向
分类号: TP391.1
类 型: 硕士论文
年 份: 2011年
下 载: 261次
引 用: 2次
阅 读: 论文下载
 

内容摘要


随着网络技术的迅猛发展,网络已成为越来越多的人们获取信息的重要来源,同时,也成为人们表达自己观点的平台。对迅速增长的网上文本资源,尤其对用户主动发布的评论进行挖掘和分析,识别出其情感倾向及演化规律,可以更好地理解用户的行为,分析热点舆情,也可以为政府,企业和其他机构在决策时提供重要的依据。本文首先介绍了情感分析的研究背景和应用前景;然后以中文Web评论为研究对象,对其概念、特点进行了介绍;接下来按照Web评论的情感分析流程,分别从Web评论的获取和预处理、Web评论的情感分析方法两方面进行了深入研究。其中,对于Web评论的情感分析,本文分别研究了基于文本分类技术和基于情感词典的文本情感分析方法。文本情感分析的价值在于从某一主题的评论中分析得出总结性的结论,这首先涉及到从网络上获取大量的评论数据。同一主题的评论通常集中在某些站点,同一站点的网页呈现高度结构化。针对这一特点,本文设计了基于消息中间件的网页实时处理技术来并行下载和预处理网页,得到可供情感分析的评论数据。接着,本文运用了两种基于不同思想的情感分析方法:(1)基于文本分类技术:首先在传统特征选择方法基础上提出了基于相关性和冗余度的联合特征选择算法,旨在删除冗余特征,保留有利于分类的特征,从而提高文本情感分类效果;最后采用支持向量机的文本分类方法进行情感极性分类。(2)基于情感词典技术:利用《知网》建立情感词典,并计算中文词语的情感倾向,接着根据短语结构进一步计算文本中短语的情感倾向值,最后通过求和获得整个评论的情感倾向值。最后,以网络上的公开评论数据集和课题获取的手工标注数据集为实验测试数据,对文中提出的两种情感分析方法进行对比分析,实验结果表明:本文提出的两种情感分析方法均是有效的,而且基于情感词典的方法在性能上要略优于基于文本分类的方法。

全文目录


摘要  9-10
ABSTRACT  10-11
第一章 绪论  11-22
  1.1 研究背景  11-13
  1.2 国内外研究现状和发展趋势  13-19
    1.2.1 国外研究现状  13-15
    1.2.2 国内研究现状  15-18
    1.2.3 发展趋势  18-19
  1.3 本文主要研究工作  19-20
  1.4 本文的组织结构  20-22
第二章 中文Web评论获取和预处理  22-34
  2.1 网络爬虫  22-23
  2.2 网页信息提取  23-25
  2.3 评论文本预处理  25-28
    2.3.1 中文分词  25-26
    2.3.2 停用词过滤  26-28
  2.4 基于消息中间件的网页实时处理技术  28-33
    2.4.1 消息中间件  28-30
    2.4.2 网页实时处理系统的设计  30-31
    2.4.3 性能测试  31-33
  2.5 本章小结  33-34
第三章 基于文本分类技术的Web评论情感分析  34-45
  3.1 文本分类相关技术  34-39
    3.1.1 特征选择方法  34-36
    3.1.2 文本表示  36
    3.1.3 特征权重计算  36-37
    3.1.4 文本分类算法  37-39
  3.2 基于相关性和冗余度的联合特征选择方法  39-43
    3.2.1 组合特征选择方法  39-40
    3.2.2 相关概念定义  40-41
    3.2.3 算法描述  41-43
  3.3 基于文本分类的评论情感分析方法  43-44
  3.4 本章小结  44-45
第四章 基于情感词典的Web评论情感分析  45-56
  4.1 《知网》介绍  45-48
    4.1.1 概念和义原  45-48
    4.1.2 HowNet中的情感词典  48
  4.2 情感词典的构建  48-52
    4.2.1 基于HowNet的情感词典构建  48-50
    4.2.2 动态情感词词典的构建  50
    4.2.3 未登录情感词的情感倾向计算  50-52
  4.3 基于情感词典的评论情感分析方法  52-55
    4.3.1 修饰副词处理  52-53
    4.3.2 动态情感词处理  53-54
    4.3.3 评论的整体情感倾向分析  54-55
  4.4 本章小结  55-56
第五章 实验及结果分析  56-63
  5.1 实验数据集  56-57
    5.1.1 手工标注数据集  56
    5.1.2 公开数据集  56-57
  5.2 文本情感分析的评价指标  57-58
    5.2.1 准确率与召回率  57
    5.2.2 微平均和宏平均  57
    5.2.3 F_1指标  57-58
  5.3 基于文本分类技术的情感分析实验  58-60
    5.3.1 实验流程  58
    5.3.2 实验结果与分析  58-60
  5.4 基于情感词典的情感分析实验  60-62
    5.4.1 实验流程  60-61
    5.4.2 实验结果与分析  61-62
  5.5 本章小结  62-63
第六章 结论  63-65
  6.1 主要工作与创新点  63-64
  6.2 进一步研究工作  64-65
致谢  65-66
参考文献  66-72
作者在学期间取得的学术成果  72

相似论文

  1. 基于仿生模式识别的文本分类技术研究,TP391.1
  2. 互联网上旅游评论的情感分析及其有用性研究,TP391.1
  3. 基于数据分布特征的文本分类研究,TP391.1
  4. 基于博客搜索的博文情感倾向性分析技术的研究,TP391.1
  5. 面向文本分类的改进K近邻的支持向量机算法研究,TP391.1
  6. 基于树型条件随场的特定域事件提取方法研究,TP391.1
  7. 网络教育新闻文本分类系统的设计与实现,TP391.1
  8. 一种于经验数据的软件缺陷修复工作量预测模型研究,TP311.53
  9. 数据挖掘技术在世博客流与社交媒体预测中的研究与应用,TP311.13
  10. 跨语言文本分类的研究,TP391.1
  11. 基于分类模型监测电子商务违禁信息的研究与实现,TP393.09
  12. 基于博客的作者声誉度分析,TP393.092
  13. 基于关联规则和图排序的句子情感倾向性研究,TP391.1
  14. 基于语义分析的文本挖掘研究,TP391.1
  15. 面向互联网中文舆情信息的情感倾向分析,TP391.1
  16. 网络舆情分析关键技术研究与实现,TP393.09
  17. 基于概率的潜在语义分析模型在搜索引擎商业文本分类系统中的应用研究,TP391.1
  18. 基于关联技术的中文文本分类研究,TP391.1
  19. 软件缺陷自动分派研究,TP311.52
  20. 基于决策树分类算法的Web文本分类研究,TP391.1
  21. 结合本体HowNet的中文文本分类研究,TP391.1

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com