学位论文 > 优秀研究生学位论文题录展示
基于Hownet的汽车领域产品评论挖掘方法研究
作 者: 姜亚华
导 师: 芦鹏宇
学 校: 哈尔滨工业大学
专 业: 管理科学与工程
关键词: 《知网》 复合短语分词 产品特征提取 产品评论提取
分类号: TP391.1
类 型: 硕士论文
年 份: 2011年
下 载: 77次
引 用: 0次
阅 读: 论文下载
内容摘要
产品特征与产品评论对该产品的用户与商家都有着重要的参考价值,所以自动地准确地提取文本中的这类词汇变得十分有意义。本文在基于《知网》(Hownet)提取复合短语的基础上,结合汽车领域的文本特征完成了挖掘工作。复合短语作为语言中一种普遍的语法现象,以其结构稳定性强,表意完整单一,含有歧义较少的特点,近年来正逐渐为自然语言处理领域的研究者所关注。目前,对复合短语的研究范围主要集中在名词性复合短语识别和复合短语关键词的识别和处理上。本文主要研究如何利用Hownet来衡量词语的语义相关度,在此基础上完成了复合短语的挖掘与标注,最终基于词频、词性等因素完成了产品特征与产品评论的提取工作。在第一部分中,首先根据汉语词汇的特点对匹配词库做了切分。在基于词库切分之后,对切分结果做了除噪处理,去除了停用词,标点以及不能构成复合短语的单字词。第二部分中,首先对Hownet衡量语义相关度的算法进行了优化,建立了所需的复合短语备选集。然后在此基础上利用HMM算法完成了复合短语的标注工作。第三部分中,结合汽车领域内文本特征与已建立的领域知识库,采用基于词频、词性等因素的算法完成了产品特征与产品评论的挖掘。在完成理论研究的基础上,本文根据此理论进行了系统实施,并在本文最后对算法结果的准确率、召回率及F值进行了测试。
|
全文目录
摘要 4-5 Abstract 5-10 第1章 绪论 10-24 1.1 课题背景与意义 10-12 1.2 国内外研究现状与分析 12-22 1.2.1 研究现状概述 12-20 1.2.2 研究现状分析 20-22 1.3 主要研究内容 22-24 第2章 汽车领域产品词汇的知识库建立 24-36 2.1 汽车领域特殊词汇 24-26 2.1.1 汽车领域介绍文本的分类 25-26 2.1.2 汽车领域文本中的词汇 26 2.2 汽车领域独特的文本结构 26-28 2.2.1 汽车领域文本结构的特点 26-27 2.2.2 针对不同文本结构的研究策略 27-28 2.3 汽车领域知识库建立的算法描述 28-35 2.3.1 数据的获取 28-29 2.3.2 数据预处理 29-30 2.3.3 领域特殊词汇的提取 30-35 2.4 本章小结 35-36 第3章 汽车领域产品词汇的扩展与提取 36-45 3.1 基于Hownet 的复合短语提取 36-41 3.1.1 语义相关度的计算 36-39 3.1.2 汽车领域复合短语的初步提取 39-41 3.2 汽车领域复合短语的标注 41-42 3.2.1 分词结果初步处理 41-42 3.2.2 基于BMEI 模板的复合短语标注 42 3.3 汽车领域知识库的扩展 42-44 3.4 本章小结 44-45 第4章 汽车产品特征与评论的提取与结果分析 45-58 4.1 汽车产品特征的提取 45-47 4.1.1 基于词频的特征提取方法 45-46 4.1.2 基于复合短语的特征提取 46-47 4.2 汽车产品评论的提取 47-49 4.2.1 几种特殊的句式 47-48 4.2.2 特殊词语的处理 48-49 4.3 特征提取与评论提取的算法描述 49-51 4.4 汽车产品特征与评论提取系统的设计 51-55 4.4.1 文本预处理 53 4.4.2 特征词汇的扩展 53-54 4.4.3 产品特征与产品评论的提取 54-55 4.5 结果分析 55-57 4.5.1 复合短语提取结果分析 55-56 4.5.2 产品特征与评论提取结果分析 56-57 4.6 本章小结 57-58 结论 58-60 参考文献 60-65 附录1 系统部分核心源代码 65-85 致谢 85
|
相似论文
- WordNet和《中国分类主题词表》的映射研究,G254
- 基于概念集合的网页内容过滤方法的研究,TP393.092
- 基于语义的单文档自动摘要研究,TP391.1
- 基于知网和贝叶斯模型的词义消岐技术的研究,TP391.1
- 汉语语义依存分析研究,TP391.1
- 交互式问答系统中的省略恢复研究,TP391.1
- 基于HowNet的中文语义倾向性分析技术研究,TP391.1
- 基于语义理解的论文相似度研究,TP391.1
- CNKI文献关联推荐用户选择行为的实验研究,G354
- 大规模汉语语义词典构建,TP391.1
- 中文文本分类研究,TP391.1
- 基于语义网的个人数字化站点实现,TP391.1
- 基于语义相似度的本体映射方法研究,TP391.1
- 基于实体—属性框架的标题分析及应用,TP391.1
- 基于边界距离的文本聚类方法研究,TP391.1
- 基于知网的汉语词义消歧方法的研究,TP391.1
- 基于本体的语义检索模型的研究,TP391.3
- 图像视觉特征及其描述词汇的对齐研究,TP391.41
- 中文问答系统中问句理解和相似度计算的研究与实现,TP391.1
- 基于开放域问答系统的问题分类技术研究与实现,TP391.1
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com
|