学位论文 > 优秀研究生学位论文题录展示
基于语义分析的产品评论挖掘技术研究
作 者: 郝阳
导 师: 杨兆选
学 校: 天津大学
专 业: 信号与信息处理
关键词: 产品评论挖掘 主题聚类 感情色彩提取 特征观点对 概率潜在语义分析(PLSA)
分类号: TP391.1
类 型: 硕士论文
年 份: 2010年
下 载: 159次
引 用: 0次
阅 读: 论文下载
内容摘要
近几年来,随着Web2.0技术的迅猛发展,人们已经逐渐习惯了写博客、泡论坛以及留言评论等生活方式。在产品的评论方面,研究数据表明,大部分的网络购物用户倾向于在购物前参阅其他用户的评论,从而为自己的决策提供依据。在当今这个信息爆炸的社会中,如何从海量数据中提取有用的信息变得至关重要。产品评论挖掘属于自然语言处理范畴,其主要目的是从海量数据提取出用户感兴趣的主题,将数据分门别类、统一管理,并且从评论中获取其中蕴含的感情色彩。本文基于餐饮业的大量评论,研究了产品评论挖掘系统中的关键技术,主要在以下几个方面做了创新性工作:1)提出了一种从海量评论数据中进行主题提取和数据分类的方法。首先利用概率潜在语义分析算法(PLSA),找出词语与潜在语义之间的联系,并计算出词语之间的相似度。然后在半监督的基础上归纳主题,再通过聚类算法,将主题相关的词语聚集起来,从而实现数据的分类。2)提出了一种评论数据中感情色彩的自动提取算法。主观评价语句可以由多个特征观点对表示,该算法假设用户评分与其评论内容基本一致,利用评分和主题聚类结果,让计算机自动学习特征观点对的感情色彩倾向度,并通过对大量评论数据的统计处理建立倾向度数据库。该算法不需要利用任何先验信息,因此相对于其它算法而言,具有简单、准确、高效的优点。综上所述,论文提出了基于PLSA的主题提取和数据分类的方法,并研究了依据用户评分从评论中提取感情色彩的算法。论文以餐饮业的评论为应用背景,进行了详细地实验分析。实验结果表明,论文提出的算法正确、合理,而且具有较好的工程应用价值。
|
全文目录
摘要 3-4 ABSTRACT 4-9 第一章 绪论 9-15 1.1 产品评论挖掘技术研究的背景和意义 9-10 1.2 亟待解决的两大问题 10-12 1.2.1 非结构化评论数据的自动提取与分类 10-11 1.2.2 评论中感情色彩的自动判断 11-12 1.3 国内外的研究现状 12-14 1.4 论文的内容和结构 14-15 第二章 评论挖掘系统中的关键技术及框架 15-22 2.1 问题重述 15-19 2.2 关键技术及框架介绍 19-21 2.2.1 评论数据采集和预处理 19-20 2.2.2 数据的训练和分类 20 2.2.3 特征观点对的提取 20-21 2.2.4 感情色彩判断 21 2.3 本章小结 21-22 第三章 评论数据收集和特征提取 22-43 3.1 引言 22 3.2 相关方法 22-26 3.2.1 聚焦爬虫 22-24 3.2.2 中文分词 24-25 3.2.3 停用词处理 25-26 3.3 数据收集和预处理 26-28 3.3.1 网页提取和编码转换 26-27 3.3.2 分词和停用词处理 27-28 3.4 评论数据的特征提取 28-36 3.4.1 特征观点对 28-30 3.4.2 特征提取算法的框架 30-31 3.4.3 特征词、观点词和程度词的判定 31-32 3.4.4 特征词匹配方向的判定 32-34 3.4.5 特征词的匹配原则 34-36 3.5 实验及结果 36-42 3.5.1 评论数据采集的演示实验 36-38 3.5.2 分词和停用词处理的演示实验 38-39 3.5.3 特征观点对的提取实验 39-42 3.6 本章小结 42-43 第四章 评论数据的训练和分类 43-66 4.1 引言 43 4.2 相关方法 43-50 4.2.1 文本的表示方法 43-45 4.2.2 LSA 算法 45-46 4.2.3 PLSA 算法 46-48 4.2.4 概率模型下相似性度量方法 48-49 4.2.5 聚类效果的评价方法 49-50 4.3 语料库数据的训练 50-52 4.4 训练数据分类 52-58 4.4.1 主题种子词的提取 52-53 4.4.2 词语间相似度的计算 53-57 4.4.3 主题聚类 57-58 4.5 实验及结果 58-65 4.5.1 语料库数据的训练实验 58-63 4.5.2 训练数据分类实验 63-65 4.6 本章小结 65-66 第五章 感情色彩的自动提取 66-78 5.1 引言 66 5.2 感情色彩提取 66-71 5.2.1 感情色彩倾向度 66-67 5.2.2 倾向度的计算 67-69 5.2.3 感情色彩提取流程 69-71 5.3 感情色彩的提取实验及结果 71-77 5.3.1 语料库中部分数据演示实验 71-75 5.3.2 全体数据的实验结果 75-77 5.4 本章小结 77-78 第六章 总结与展望 78-80 6.1 总结 78-79 6.2 展望 79-80 附录 词性标注符号集 80-83 参考文献 83-88 致谢 88
|
相似论文
- 基于贝叶斯理论的社会化标注主题聚类模型研究,C93
- 英汉跨语言问答系统中的文档语义检索,TP391.1
- 局部描述特征结合概率潜在语义模型的场景分类技术研究,TP391.41
- 基于依存关系的旅游景点评论文本倾向分析,TP391.1
- 博客热点实时发现与跟踪,TP393.092
- 基于特征强化的中文产品评价挖掘研究,TP391.1
- 基于时态语义的Web信息检索关键技术研究,TP391.3
- 基于PLSA模型非法图片过滤技术的研究,TP391.41
- 基于HMM模型的农作物信息抽取方法研究,TP391.1
- 用于群体研讨支持系统的主持人支持系统研究,TP319
- 图像场景分类的关键技术研究,TP391.41
- 基于子主题的多文档摘要关键技术研究,TP391.1
- 基于FPGA的数字图像处理基本算法研究与实现,TP391.41
- 用于检索的人脸特征提取与匹配算法研究,TP391.41
- 基于FPGA的高速图像预处理技术的研究,TP391.41
- 2D人脸模板保护算法研究,TP391.41
- 导弹虚拟试验可视化技术研究,TP391.9
- 基于用户兴趣特征的图像检索研究与实现,TP391.41
- 图像拼接技术研究,TP391.41
- 高效精确字符串匹配算法的研究与实现,TP391.41
- 基于词义及语义分析的问答技术研究,TP391.1
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com
|