学位论文 > 优秀研究生学位论文题录展示
互联网产品评论量化关键技术研究
作 者: 宋明凯
导 师: 刘远超
学 校: 哈尔滨工业大学
专 业: 计算机科学与技术
关键词: 情感量化 口碑挖掘 在线排名 领域本体 机器学习
分类号: TP391.1
类 型: 硕士论文
年 份: 2011年
下 载: 42次
引 用: 0次
阅 读: 论文下载
内容摘要
近年来,在互联网上出现了很多的电子商务网站,随之相关的在线用户评论也与日俱增。虽然这些大量的用户评论有助于潜在消费者做出正确的购买决策,但是如何对不同的厂家做全面和直观的比较仍然是一项具有挑战性的工作。为了实现这一目标,本文对互联网产品评论的量化关键技术进行了研究,具体的研究内容包括以下几个方面:首先,本文介绍了基于细颗粒度产品评论语料的标注工具的实现,以及目前进行的语料标注工作。本文中的标注虽然以手机产品为例,但语料标注系统具有良好的可移植性,可以扩展应用到其他的领域。其次,介绍了面向产品评论量化的特征词-情感块的抽取模块。为了提高情感挖掘的性能,本文设计了一些新的机制和方法来提高特征词-情感块的抽取精度,包括基于词性规则的算法、基于统计的算法和二者相结合的算法。实验证明,这些算法在大规模的语料库中能很好地提高抽取的结果。最后,介绍了融合本体知识的产品口碑量化及排序模块。领域本体的引入有效地解决了产品评论语句的稀缺、同一特征词的多重表达形式和不同层的特征词的量化比较问题。在该模块中,可以得到二维结构的口碑值信息,这不仅方便了消费者、供应商和生产商的查询,同时产品的趋向信息可以被挖掘和可视化。实验结果表明,该方法是有效可行的。
|
全文目录
摘要 4-5 Abstract 5-8 第1章 绪论 8-14 1.1 课题背景及研究的目的和意义 8-9 1.2 国内外研究现状 9-11 1.3 相关术语定义 11-12 1.4 本文的主要研究内容及结构安排 12-14 1.4.1 主要研究内容 12 1.4.2 本文结构安排 12-14 第2章 基于细颗粒度的产品评论语料标注工具的实现 14-21 2.1 引言 14 2.2 语料标注方法 14-20 2.2.1 预处理 15 2.2.2 语料标注流程 15-16 2.2.3 语料标注具体操作 16-20 2.3 语料标注数据分析 20 2.4 本章小结 20-21 第3章 特征-观点对(F-O Pair)的抽取与评价 21-40 3.1 引言 21 3.2 F-O Pair 抽取基本思想 21-24 3.3 F-O Pair 抽取算法介绍 24-30 3.3.1 基于词性规则的算法 24-26 3.3.2 基于统计的算法 26-27 3.3.3 基于词性规则和依存句法结合的算法 27-30 3.4 实验结果与分析 30-39 3.4.1 数据集 30-31 3.4.2 实验方案及分析 31-39 3.5 本章小结 39-40 第4章 融合本体知识的产品口碑量化及排序 40-53 4.1 引言 40 4.2 产品领域本体的构建 40-41 4.3 初步的产品口碑值量化计算 41-43 4.3.1 F-O Pair的抽取 41-42 4.3.2 在不同产品特征维度上的用户评论量化 42-43 4.4 结合本体树的产品口碑值的量化计算 43 4.5 实验结果与分析 43-48 4.5.1 实验设置和评价方法 43-45 4.5.2 用户评论的稀疏性分析 45-46 4.5.3 特征的不同表达方式对排名结果的影响 46-47 4.5.4 本体树对排名结果的影响 47-48 4.6 结果展示 48-52 4.6.1 Open Flash Chart工具介绍 48 4.6.2 初步的产品口碑量化值展示 48-50 4.6.3 结合本体树的产品口碑量化值展示 50-52 4.7 本章小结 52-53 结论 53-54 参考文献 54-59 攻读硕士学位期间发表的学术论文 59-61 致谢 61
|
相似论文
- 一种基于领域本体的语义Web服务匹配和组合方法,TP393.09
- 基于数据分布特征的文本分类研究,TP391.1
- 基于领域本体的海洋环境数据仓库设计,TP311.13
- 数据空间中数据资源之间关联关系发现模型研究,TP311.13
- 基于条件随机场的中文分词技术的研究与实现,TP391.1
- 领域知识指导的半监督学习和主动学习倾向性分类研究,TP181
- Android恶意软件静态检测方案的研究,TP309
- 监督主题模型的研究与应用,TP391.1
- 基于失真效应的图像质量评价与分类,TP391.41
- 基于学习的逆向运动学人体运动合成,TP391.41
- 基于内容的网页恶意代码检测的研究与实现,TP393.092
- 学术主页信息抽取系统的研究,TP393.092
- 社会化网络中的推荐算法及其应用,TP391.3
- 数据挖掘在邮件反垃圾系统中的应用,TP393.098
- 基于自学习的社会关系抽取的研究,TP391.1
- 基于统计与图模型的若干机器学习算法及其应用,TP181
- P2P流量识别方法研究,TP393.06
- 基于粗糙集和SVM的国防生综合素质测评方法研究,E075
- 基于SIFT特征和SVM的场景分类,TP391.41
- 基于稀疏编码与机器学习的图像内容识别算法研究,TP391.41
- 随机森林特征选择,TP311.13
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com
|