学位论文 > 优秀研究生学位论文题录展示

统计与规则相结合的汉语意见抽取方法研究

作 者: 石玲玲
导 师: 付国宏
学 校: 黑龙江大学
专 业: 计算机应用技术
关键词: 意见挖掘 意见抽取 条件随机场 t检验
分类号: TP391.1
类 型: 硕士论文
年 份: 2012年
下 载: 69次
引 用: 0次
阅 读: 论文下载
 

内容摘要


随着互联网技术的迅猛发展和普及,特别是Web2.0的兴起,网上购物、微博、博客及BBS论坛等各种新兴的互联网应用正成为人们感兴趣的热点,而网上购物后的评论、博客、微博以及BBS上的意见信息也在与日剧增。这些评论和意见信息通常具有比较重要的价值,一般政府部门可以通过互联网上的评论来了解人们对某个政策法规或事件的看法并进行及时的科学决策。商业机构可以通过调查互联网上的产品评论来监测顾客意见和预测市场趋势,进而改进他们的服务和产品或采取更为有效的有针对性的营销策略。消费者也可通过浏览其他消费者对某个产品的网络评论并作出判断他们是否购买该产品。因此,怎样有效处理和分析这些具有情感的意见信息是文本情感分析领域亟待解决的问题之一。意见挖掘(opinion mining)研究正是为了满足这些应用而发展起来的,而且已经成为当前自然语言处理(NLP)相关领域的研究热点之一。意见挖掘一般包括三个方面的内容,即有主观性识别、意见极性分类和意见抽取。而本文研究的是意见抽取相关方面的问题。本文利用统计和规则相结合的方法研究汉语中评价对象即主题特征和评价对象、情感词关系对抽取的问题。具体地,本文从将以下几个方面展开论文的研究。首先,本文首先介绍了意见挖掘方面的基本概念,意见挖掘包括的子任务,意见挖掘研究的层次和研究重点,然后介绍汉语意见挖掘研究现状,以及意见挖掘研究的在国内外研究现状。其次,意见句中的评价对象的抽取是细粒度词语级意见挖掘要研究的关键问题之一。为了提高评价对象的抽取性能,本文在条件随机场模型,最大熵模型,支持向量机三种系统模型下综合名词性信息,频率信息,依存关系等各种信息,重点探索在不同特征和不同模型框架下对评价对象抽取的影响。实验结果表明,本文在引入各方面的特征信息后经过三种模型的对比发现条件随机场模型更适合对评价对象进行抽取。最后,本文主要基于统计和规则相结合的方法研究评价对象、情感词关系对抽取问题。首先应用t检验和规则方法对评价对象,情感词关系对进行抽取然后利用查字典的方式进行再抽取,最后采用互信息的方法对评价对象、情感词关系对进行扩展。并将第三章中最好评价对象识别结果采用就近匹配方法与标准的评价对象数据采用同样的方法进行比较。实验结果表明:本文提出的两种对评价对象、情感词关系对抽取方法是有意义的。

全文目录


中文摘要  3-5
Abstract  5-10
第1章 绪论  10-14
  1.1 本文研究的目的和意义  10-11
  1.2 本文研究内容  11-12
  1.3 论文的组织结构  12-14
第2章 基础概述和相关研究  14-26
  2.1 意见挖掘的概念和主要任务  14-17
    2.1.1 意见挖掘的定义  14
    2.1.2 意见挖掘的主要任务  14-17
  2.2 意见挖掘的层次  17-18
    2.2.1 粗粒度的意见挖掘  17-18
    2.2.2 细粒度的意见挖掘  18
  2.3 意见挖掘的研究重点  18-21
    2.3.1 意见抽取  19-20
    2.3.2 意见分类  20
    2.3.3 意见的检索和归纳  20-21
  2.4 汉语意见挖掘研究现状  21-22
  2.5 意见挖掘研究的国内外研究现状  22-25
    2.5.1 评价对象抽取的相关研究  23-24
    2.5.2 评价对象意见词对抽取的相关研究  24
    2.5.3 目前存在的主要问题与挑战  24-25
  2.6 本章小结  25-26
第3章 产品评价对象抽取研究  26-47
  3.1 概述  26-27
  3.2 汉语评价对象抽取描述  27
  3.3 基于机器学习的评价对象抽取  27-39
    3.3.1 条件随机域模型(CRFs)  27-29
    3.3.2 最大熵模型(ME)  29
    3.3.3 支持向量机(SVM)  29-30
    3.3.4 评价对象抽取过程  30-32
    3.3.5 特征选择  32-34
    3.3.6 依存关系特征规则选择  34-35
    3.3.7 特征模板  35-39
  3.4 实验结果与分析  39-46
    3.4.1 实验数据  40-41
    3.4.2 评测方法  41
    3.4.3 实验结果  41-46
  3.5 本章小结  46-47
第4章 评价对象情感词关系对抽取研究  47-61
  4.1 概述  47-49
  4.2 汉语评价对象情感词关系对抽取问题描述  49
  4.3 评价对象情感词关系对识别方法  49-57
    4.3.1 评价对象情感词对的抽取过程  49-50
    4.3.2 t检验理论介绍  50-52
    4.3.3 搭配抽取方法  52-56
    4.3.4 评价对象情感词关系对规则筛选  56
    4.3.5 评价对象情感词关系对再抽取和扩展  56-57
  4.4 实验结果和分析  57-60
    4.4.1 实验数据  57-58
    4.4.2 实验结果  58-60
  4.5 本章小结  60-61
结论  61-63
参考文献  63-71
致谢  71

相似论文

  1. 无线传感器网络中定位攻击检测技术研究,TP212.9
  2. H化工企业冷却循环质量控制,F426.7
  3. S-O-R模型的批判和预期效应的研究,B841
  4. 针对零膨胀超散度计数数据的统计推断,C81
  5. 基于ZigBee的奶牛个体识别与定位系统设计,TN929.5
  6. 企业安全投入灰色神经网络模型的研究,X913.4
  7. 独山子石化公司乙烯厂化验室质量工作管理研究,F426.72
  8. 太行山猕猴掌面花纹的形态学,Q954
  9. 城市化对就业的影响及政策研究,F299.2;F224
  10. 中医院检验信息系统(LIS)的分析与开发,TP311.52
  11. 长吉图先导区现代服务业的发展探析,F719
  12. 出入境检验检疫自动审单系统,F752.5
  13. 基于cRIO的生丝品质实时电子检测软件系统的开发,TS147
  14. 房价与教育资源关系的实证研究,F293.3
  15. 研究生教育规模与经济增长关系之研究,G643
  16. 江西省商业银行、证券市场对产业结构转型的影响研究,F121.3
  17. 沪深股市相关性的实证研究,F224
  18. 小型反射/折反射式望远镜的研究,O439
  19. 风险评价和风险降低在电梯检验中的应用研究,TU857
  20. 多粒度融合的汉语句子主观性和情感分类方法研究,TP391.1
  21. 二十世纪二三十年代挽救华茶的制度变迁,K258

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com