学位论文 > 优秀研究生学位论文题录展示

领域自适应的中文情感分析词典构建研究

作 者: 唐都钰
导 师: 秦兵
学 校: 哈尔滨工业大学
专 业: 计算机科学与技术
关键词: 情感分析 领域自适应 情感词语 情感词语抽取 情感极性识别
分类号: TP391.1
类 型: 硕士论文
年 份: 2012年
下 载: 85次
引 用: 0次
阅 读: 论文下载
 

内容摘要


随着Web2.0的迅猛发展,用户在互联网上的行为发生了巨大的改变,越来越多的人们在互联网上表达个人观点,由被动的接受信息转为参与创建互联网资源,由此互联网信息量的爆炸式剧增使得单纯依靠人工的方法收集和整理信息已远不能满足越来越多的需求。因此,如何从海量的互联网信息中自动挖掘和整理主观性信息尤为重要,情感分析任务应运而生。情感分析是自然语言处理领域的一个重要话题,旨在对无结构的主观性文本进行分析、处理和归纳,最终形成方便机器理解和用户使用的结构化数据。情感分析是一个多学科综合的研究领域,内容涉及多层语言分析技术,按照处理文本粒度的不同可以将情感分析分为篇章级、句子级和词语级。情感词是情感分析的重要组成部分,很多上层情感分析任务如篇章级、句子级和评价搭配识别等都需要情感词典的支持,构建高质量的情感词典对情感分析尤为重要。而由于不同领域的情感表达方式不同,甚至有可能同一个词语在不同领域表达相反的极性,很难构建一个复杂的情感词典满足所有要求。本文提出了一种基于半指导方法的情感词典构建框架,算法流程共包括3个步骤,分别是情感词种子的获取、构建语义图和计算情感分值。其中情感词种子通过大规模用户评论数据进行自动获取;语义图的构建依赖于外部的语义资源,如同义词词林;我们分别尝试了Topic-Sensitive PageRank和标签传播算法计算情感分值。此外,本文还尝试结合有指导学习方法和随机最小割算法进行情感词语极性识别,实验结果表明,随机最小割算法可以有效提高情感极性识别效果。在此基础上,本文在提出了基于统计分析的领域情感分析词典构建方法,主要流程包含领域评价对象抽取、领域情感词语抽取和情感词语的极性识别。其中领域评价对象抽取模块我们使用了统计分析的方法;情感词语抽取模块以情感路径的方式表达情感词语和领域评价对象之间的关系,并使用句法路径构建情感路径模版;最后对情感词语进行极性识别。最后,本文设计并实现了领域自适应的情感分析词典抽取平台SWMine,主要包括领域评价对象抽取、领域情感词语抽取和情感词语极性识别,并设计了数据的表示形式以及可视化样例,可以为商家和用户提供更好地服务。

全文目录


摘要  4-6
Abstract  6-11
第1章 绪论  11-31
  1.1 课题背景  11-12
  1.2 课题的研究目的和意义  12-13
  1.3 情感分析的研究现状  13-23
    1.3.1 情感分析的基本任务  13-14
    1.3.2 篇章级情感分析  14-16
    1.3.3 句子级情感分析  16-17
    1.3.4 词语级情感分析  17-21
    1.3.5 微博情感分析  21-23
  1.4 情感分析资源综述  23-29
    1.4.1 自动获取情感语料方法  23-24
    1.4.2 英文情感分析资源  24-26
    1.4.3 中文情感分析词典资源  26-28
    1.4.4 情感分析评价标准  28-29
  1.5 本文的主要研究内容  29-31
第2章 基于半指导方法的通用情感词典资源构建  31-48
  2.1 引言  31
  2.2 总体流程  31-32
  2.3 基于半指导方法的通用情感词典构建  32-39
    2.3.1 情感词种子抽取  32-34
    2.3.2 构建语义图  34-36
    2.3.3 计算情感分值  36-39
  2.4 实验结果与分析  39-47
    2.4.1 实验数据  39-41
    2.4.2 评价标准  41
    2.4.3 结果与分析  41-47
  2.5 本章小结  47-48
第3章 基于随机最小割算法的情感词语极性识别  48-56
  3.1 引言  48
  3.2 总体流程  48-49
  3.3 基于随机最小割的情感词典构建  49-54
    3.3.1 有指导的学习方法  50
    3.3.2 随机最小割学习算法  50-54
  3.4 实验结果与分析  54-55
    3.4.1 实验数据  54
    3.4.2 基于有指导方法的实验结果  54-55
    3.4.3 基于随机最小割算法的实验结果  55
  3.5 本章小结  55-56
第4章 基于统计分析的领域情感词典构建  56-63
  4.1 引言  56
  4.2 总体流程  56-57
  4.3 基于统计分析的领域情感词典构建  57-60
    4.3.1 领域评价对象抽取  57-58
    4.3.2 领域情感词语抽取和极性识别  58-60
  4.4 实验结果与分析  60-62
    4.4.1 实验数据  60
    4.4.2 评价标准  60
    4.4.3 结果与分析  60-62
  4.5 本章小结  62-63
第5章 领域自适应的情感词语挖掘平台设计  63-67
  5.1 引言  63
  5.2 情感词典抽取平台 SWMine  63-66
  5.3 本章小结  66-67
结论  67-69
参考文献  69-76
攻读学位期间发表的学术论文  76-78
致谢  78-79

相似论文

  1. 评价对象抽取研究,TP391.1
  2. 基于主题分类特征的物业评论情感分析,TP391.1
  3. 基于博客搜索的博文情感倾向性分析技术的研究,TP391.1
  4. 互联网评论中伪信息与有价值信息的自动识别,TP393.09
  5. 短文本情感分析技术研究,TP391.1
  6. 数据挖掘技术在世博客流与社交媒体预测中的研究与应用,TP311.13
  7. 基于关联规则和图排序的句子情感倾向性研究,TP391.1
  8. 基于英文博客空间文本的情感分析研究,TP391.1
  9. 领域自适应的网格服务组合算法研究,TP393.01
  10. 基于HowNet的中文语义倾向性分析技术研究,TP391.1
  11. 主观性文本的情感极性分析研究,TP391.1
  12. 互联网公关传播效果评估研究,G206
  13. 面向中文Web评论的情感分析技术研究,TP391.1
  14. 领域自适应的中文实体关系抽取研究,TP391.1
  15. 基于情感分析的新闻浏览平台关键技术研究,TP391.1
  16. 面向产品领域的细粒度情感分析技术,TP391.1
  17. 基于本体的话题情感分析研究,TP391.1
  18. 基于意见挖掘的产品排名技术研究,TP391.1
  19. 面向情感分析的特征抽取技术研究,TP391.1
  20. Web用户评价的自动情感分析,TP391.1
  21. 面向Web文本的产品意见挖掘算法研究,TP391.1

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com