学位论文 > 优秀研究生学位论文题录展示
短文本指纹的研究
作 者: 赵小谦
导 师: 郑彦
学 校: 南京邮电大学
专 业: 计算机软件与理论
关键词: 短文本指纹 领域词典 ICTCLAS分词技术 特征提取 相似度计算
分类号: TP391.1
类 型: 硕士论文
年 份: 2012年
下 载: 96次
引 用: 0次
阅 读: 论文下载
内容摘要
21世纪信息技术的飞速发展,带动了全球信息网络化革命的迅猛发展。全球信息网络的普及与共享给人们的日常生活带来了不小的便捷。除此以外,以因特网为主体的信息高速公路已经渗透到社会生活的各个领域,为人类提供了信息共享和交流的现代化通道。移动通信网络发出的手机短消息、即时通信软件发出的即时消息、在线聊天室的聊天记录、博客评论、新闻评论、BBS标题等都产生了数以万计的文本,这些文本长度较短,具有广泛的外延,我们称其为短文本。短文本指纹作为验证短文本的唯一标识,在短文本研究领域中起到举足轻重的作用。只有内容相同的短文本才具有完全相同的指纹值,同理,具有相同指纹值的短文本,我们可以认为这两个短文本的内容是相同的。一旦建立起指纹值和短文本之间的一一对应关系以后,我们就可以利用短文本指纹进行一系列的数据挖掘工作,例如聚类,去重,去冗余等。本课题首先受到Hownet和Wordnet的启发,着重分析概念之间联系关系。通过比较JSON格式和XML格式的优劣,提出用JSON格式构建概念词典的可行性,并给出了构建概念词典的算法。为使该词典具有高效的检索效率,我们设计了概念编码和索引结构达到一致对应的索引表,使概念得到高效的归结。其次,采用了ICTCLAS分词技术,使短文本逐步化简为一个个有效的分词。其中比较重要的一点是,我们对一些特殊的情况做了一定的处理,例如对数字、时间、日期、叠词进行拆分和合并,使调整优化后的分词结果具有比较高的准确率。再次,众所周知,特征值是指定领域中最为核心和本质的概念。受此启发,我们给出了特征值的定义和具体的抽取特征值的办法。在特征值提取的基础上,我们提出了短文本指纹的概念和具体的短文本指纹编码过程,即STF(Short Text Fingerprint)方法。最后,通过介绍实验环境以及主要功能模块之间的关系来分析STF方法对研究短文本相似度的可行性,并且和现有的4种短文本相似度计算方法进行比较,验证了STF能够有效的分析出短文本的唯一性,提高后期短文本挖掘工作的准确性和有效性。
|
全文目录
摘要 4-5 Abstract 5-9 第一章 绪论 9-14 1.1 课题研究背景和意义 9-10 1.2 相关工作 10-12 1.3 问题的提出和本文的主要工作 12-13 1.3.1 问题的提出 12 1.3.2 本文的主要工作 12-13 1.4 本文的组织结构 13-14 第二章 基于WordNet 的领域词典的构建 14-29 2.1 WordNet 中的关系 14-17 2.1.1 同义关系 14-15 2.1.2 上下位关系 15 2.1.3 部分整体关系 15-16 2.1.4 反义关系和近似关系 16-17 2.1.5 宿主属性关系 17 2.1.6 蕴涵关系 17 2.2 概念词性与分类 17-20 2.2.1 名词的分类 18 2.2.2 动词的分类 18-19 2.2.3 修饰语的分类 19-20 2.3 领域词典构建方法 20-28 2.3.1 概念树的表示形式 21-22 2.3.2 概念树的结构 22-24 2.3.3 概念树的构建 24-28 2.4 本章小结 28-29 第三章 基于ICTCLAS 的分词技术 29-37 3.1 ICTCLAS 简介 29-30 3.2 分词系统之原子切分 30-31 3.3 分词系统之初次切分 31-33 3.4 分词系统之N-最短路径 33-34 3.5 分词系统之最终结果 34-36 3.6 本章小结 36-37 第四章 特征提取与短文本指纹编码 37-46 4.1 词汇倾向性 37-38 4.2 文本倾向性识别 38-39 4.2.1 否定句的处理 38 4.2.2 程度副词的处理 38-39 4.3 同义词 39-40 4.3.1 同义词词林 39 4.3.2 同义词数据库 39-40 4.4 特征值 40-41 4.4.1 特征值的表示 40 4.4.2 特征值的提取 40-41 4.5 短文本指纹 41-45 4.5.1 短文本指纹的定义 41 4.5.2 短文本指纹编码过程—STF 方法 41-45 4.6 本章小结 45-46 第五章 短文本相似度研究 46-53 5.1 实验运行环境和模块 46-47 5.2 构建领域词典模块 47-48 5.3 ICTCLAS 分词模块 48-50 5.4 相似度比较模块 50-53 5.4.1 相似度比较 50-51 5.4.2 算法的合理性检验 51-53 第六章 总结与展望 53-54 6.1 本文工作总结 53 6.2 未来工作 53-54 致谢 54-55 参考文献 55-58 作者在硕士研究生期间发表的论文 58
|
相似论文
- 基于SVM的高速公路路面浅层病害的自动检测算法研究,U418.6
- 空间目标ISAR成像仿真及基于ISAR像的目标识别,TN957.52
- 胆囊炎和肾病综合症脉象信号的特征提取与分类研究,TP391.41
- Q学习在基于内容图像检索技术中的应用,TP391.41
- 直推式支持向量机研究及其在图像检索中的应用,TP391.41
- 中医舌诊中舌形与齿痕的特征提取及分类研究,TP391.41
- 空间交会接近视觉测量方法研究,TP391.41
- 图像实时采集、存储与处理方法研究,TP391.41
- 唇读中的特征提取、选择与融合,TP391.41
- 多币种纸币处理技术的研究与实现,TP391.41
- 基于类Harr特征和最小包含球的纸币识别方法的研究,TP391.41
- 基于图像的路面破损识别,TP391.41
- 移动机器人视觉检测和跟踪研究,TP242.62
- 高光谱与高空间分辨率遥感图像融合算法研究,TP751
- 基于随机森林的植物抗性基因识别方法研究,Q943
- 基于图像处理技术的烟叶病害自动识别研究,S435.72
- 基于视觉的番木瓜外观品质检测技术研究,S667.9
- 羊绒与羊毛纤维鉴别系统的研究,TS101.921
- 红外图像目标识别及跟踪技术研究,TP391.41
- 水下目标特征的压缩与融合技术研究,TN911.7
- 高光谱图像技术诊断黄瓜病害方法的研究,S436.421
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com
|