学位论文 > 优秀研究生学位论文题录展示

基于语义分析的产品评论挖掘技术研究

作 者: 郝阳
导 师: 杨兆选
学 校: 天津大学
专 业: 信号与信息处理
关键词: 产品评论挖掘 主题聚类 感情色彩提取 特征观点对 概率潜在语义分析(PLSA)
分类号: TP391.1
类 型: 硕士论文
年 份: 2010年
下 载: 159次
引 用: 0次
阅 读: 论文下载
 

内容摘要


近几年来,随着Web2.0技术的迅猛发展,人们已经逐渐习惯了写博客、泡论坛以及留言评论等生活方式。在产品的评论方面,研究数据表明,大部分的网络购物用户倾向于在购物前参阅其他用户的评论,从而为自己的决策提供依据。在当今这个信息爆炸的社会中,如何从海量数据中提取有用的信息变得至关重要。产品评论挖掘属于自然语言处理范畴,其主要目的是从海量数据提取出用户感兴趣的主题,将数据分门别类、统一管理,并且从评论中获取其中蕴含的感情色彩。本文基于餐饮业的大量评论,研究了产品评论挖掘系统中的关键技术,主要在以下几个方面做了创新性工作:1)提出了一种从海量评论数据中进行主题提取和数据分类的方法。首先利用概率潜在语义分析算法(PLSA),找出词语与潜在语义之间的联系,并计算出词语之间的相似度。然后在半监督的基础上归纳主题,再通过聚类算法,将主题相关的词语聚集起来,从而实现数据的分类。2)提出了一种评论数据中感情色彩的自动提取算法。主观评价语句可以由多个特征观点对表示,该算法假设用户评分与其评论内容基本一致,利用评分和主题聚类结果,让计算机自动学习特征观点对的感情色彩倾向度,并通过对大量评论数据的统计处理建立倾向度数据库。该算法不需要利用任何先验信息,因此相对于其它算法而言,具有简单、准确、高效的优点。综上所述,论文提出了基于PLSA的主题提取和数据分类的方法,并研究了依据用户评分从评论中提取感情色彩的算法。论文以餐饮业的评论为应用背景,进行了详细地实验分析。实验结果表明,论文提出的算法正确、合理,而且具有较好的工程应用价值。

全文目录


摘要  3-4
ABSTRACT  4-9
第一章 绪论  9-15
  1.1 产品评论挖掘技术研究的背景和意义  9-10
  1.2 亟待解决的两大问题  10-12
    1.2.1 非结构化评论数据的自动提取与分类  10-11
    1.2.2 评论中感情色彩的自动判断  11-12
  1.3 国内外的研究现状  12-14
  1.4 论文的内容和结构  14-15
第二章 评论挖掘系统中的关键技术及框架  15-22
  2.1 问题重述  15-19
  2.2 关键技术及框架介绍  19-21
    2.2.1 评论数据采集和预处理  19-20
    2.2.2 数据的训练和分类  20
    2.2.3 特征观点对的提取  20-21
    2.2.4 感情色彩判断  21
  2.3 本章小结  21-22
第三章 评论数据收集和特征提取  22-43
  3.1 引言  22
  3.2 相关方法  22-26
    3.2.1 聚焦爬虫  22-24
    3.2.2 中文分词  24-25
    3.2.3 停用词处理  25-26
  3.3 数据收集和预处理  26-28
    3.3.1 网页提取和编码转换  26-27
    3.3.2 分词和停用词处理  27-28
  3.4 评论数据的特征提取  28-36
    3.4.1 特征观点对  28-30
    3.4.2 特征提取算法的框架  30-31
    3.4.3 特征词、观点词和程度词的判定  31-32
    3.4.4 特征词匹配方向的判定  32-34
    3.4.5 特征词的匹配原则  34-36
  3.5 实验及结果  36-42
    3.5.1 评论数据采集的演示实验  36-38
    3.5.2 分词和停用词处理的演示实验  38-39
    3.5.3 特征观点对的提取实验  39-42
  3.6 本章小结  42-43
第四章 评论数据的训练和分类  43-66
  4.1 引言  43
  4.2 相关方法  43-50
    4.2.1 文本的表示方法  43-45
    4.2.2 LSA 算法  45-46
    4.2.3 PLSA 算法  46-48
    4.2.4 概率模型下相似性度量方法  48-49
    4.2.5 聚类效果的评价方法  49-50
  4.3 语料库数据的训练  50-52
  4.4 训练数据分类  52-58
    4.4.1 主题种子词的提取  52-53
    4.4.2 词语间相似度的计算  53-57
    4.4.3 主题聚类  57-58
  4.5 实验及结果  58-65
    4.5.1 语料库数据的训练实验  58-63
    4.5.2 训练数据分类实验  63-65
  4.6 本章小结  65-66
第五章 感情色彩的自动提取  66-78
  5.1 引言  66
  5.2 感情色彩提取  66-71
    5.2.1 感情色彩倾向度  66-67
    5.2.2 倾向度的计算  67-69
    5.2.3 感情色彩提取流程  69-71
  5.3 感情色彩的提取实验及结果  71-77
    5.3.1 语料库中部分数据演示实验  71-75
    5.3.2 全体数据的实验结果  75-77
  5.4 本章小结  77-78
第六章 总结与展望  78-80
  6.1 总结  78-79
  6.2 展望  79-80
附录 词性标注符号集  80-83
参考文献  83-88
致谢  88

相似论文

  1. 基于贝叶斯理论的社会化标注主题聚类模型研究,C93
  2. 英汉跨语言问答系统中的文档语义检索,TP391.1
  3. 局部描述特征结合概率潜在语义模型的场景分类技术研究,TP391.41
  4. 基于依存关系的旅游景点评论文本倾向分析,TP391.1
  5. 博客热点实时发现与跟踪,TP393.092
  6. 基于特征强化的中文产品评价挖掘研究,TP391.1
  7. 基于时态语义的Web信息检索关键技术研究,TP391.3
  8. 基于PLSA模型非法图片过滤技术的研究,TP391.41
  9. 基于HMM模型的农作物信息抽取方法研究,TP391.1
  10. 用于群体研讨支持系统的主持人支持系统研究,TP319
  11. 图像场景分类的关键技术研究,TP391.41
  12. 基于子主题的多文档摘要关键技术研究,TP391.1
  13. 基于FPGA的数字图像处理基本算法研究与实现,TP391.41
  14. 用于检索的人脸特征提取与匹配算法研究,TP391.41
  15. 基于FPGA的高速图像预处理技术的研究,TP391.41
  16. 2D人脸模板保护算法研究,TP391.41
  17. 导弹虚拟试验可视化技术研究,TP391.9
  18. 基于用户兴趣特征的图像检索研究与实现,TP391.41
  19. 图像拼接技术研究,TP391.41
  20. 高效精确字符串匹配算法的研究与实现,TP391.41
  21. 基于词义及语义分析的问答技术研究,TP391.1

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com