学位论文 > 优秀研究生学位论文题录展示

短文本指纹的研究

作 者: 赵小谦
导 师: 郑彦
学 校: 南京邮电大学
专 业: 计算机软件与理论
关键词: 短文本指纹 领域词典 ICTCLAS分词技术 特征提取 相似度计算
分类号: TP391.1
类 型: 硕士论文
年 份: 2012年
下 载: 96次
引 用: 0次
阅 读: 论文下载
 

内容摘要


21世纪信息技术的飞速发展,带动了全球信息网络化革命的迅猛发展。全球信息网络的普及与共享给人们的日常生活带来了不小的便捷。除此以外,以因特网为主体的信息高速公路已经渗透到社会生活的各个领域,为人类提供了信息共享和交流的现代化通道。移动通信网络发出的手机短消息、即时通信软件发出的即时消息、在线聊天室的聊天记录、博客评论、新闻评论、BBS标题等都产生了数以万计的文本,这些文本长度较短,具有广泛的外延,我们称其为短文本。短文本指纹作为验证短文本的唯一标识,在短文本研究领域中起到举足轻重的作用。只有内容相同的短文本才具有完全相同的指纹值,同理,具有相同指纹值的短文本,我们可以认为这两个短文本的内容是相同的。一旦建立起指纹值和短文本之间的一一对应关系以后,我们就可以利用短文本指纹进行一系列的数据挖掘工作,例如聚类,去重,去冗余等。本课题首先受到Hownet和Wordnet的启发,着重分析概念之间联系关系。通过比较JSON格式和XML格式的优劣,提出用JSON格式构建概念词典的可行性,并给出了构建概念词典的算法。为使该词典具有高效的检索效率,我们设计了概念编码和索引结构达到一致对应的索引表,使概念得到高效的归结。其次,采用了ICTCLAS分词技术,使短文本逐步化简为一个个有效的分词。其中比较重要的一点是,我们对一些特殊的情况做了一定的处理,例如对数字、时间、日期、叠词进行拆分和合并,使调整优化后的分词结果具有比较高的准确率。再次,众所周知,特征值是指定领域中最为核心和本质的概念。受此启发,我们给出了特征值的定义和具体的抽取特征值的办法。在特征值提取的基础上,我们提出了短文本指纹的概念和具体的短文本指纹编码过程,即STF(Short Text Fingerprint)方法。最后,通过介绍实验环境以及主要功能模块之间的关系来分析STF方法对研究短文本相似度的可行性,并且和现有的4种短文本相似度计算方法进行比较,验证了STF能够有效的分析出短文本的唯一性,提高后期短文本挖掘工作的准确性和有效性。

全文目录


摘要  4-5
Abstract  5-9
第一章 绪论  9-14
  1.1 课题研究背景和意义  9-10
  1.2 相关工作  10-12
  1.3 问题的提出和本文的主要工作  12-13
    1.3.1 问题的提出  12
    1.3.2 本文的主要工作  12-13
  1.4 本文的组织结构  13-14
第二章 基于WordNet 的领域词典的构建  14-29
  2.1 WordNet 中的关系  14-17
    2.1.1 同义关系  14-15
    2.1.2 上下位关系  15
    2.1.3 部分整体关系  15-16
    2.1.4 反义关系和近似关系  16-17
    2.1.5 宿主属性关系  17
    2.1.6 蕴涵关系  17
  2.2 概念词性与分类  17-20
    2.2.1 名词的分类  18
    2.2.2 动词的分类  18-19
    2.2.3 修饰语的分类  19-20
  2.3 领域词典构建方法  20-28
    2.3.1 概念树的表示形式  21-22
    2.3.2 概念树的结构  22-24
    2.3.3 概念树的构建  24-28
  2.4 本章小结  28-29
第三章 基于ICTCLAS 的分词技术  29-37
  3.1 ICTCLAS 简介  29-30
  3.2 分词系统之原子切分  30-31
  3.3 分词系统之初次切分  31-33
  3.4 分词系统之N-最短路径  33-34
  3.5 分词系统之最终结果  34-36
  3.6 本章小结  36-37
第四章 特征提取与短文本指纹编码  37-46
  4.1 词汇倾向性  37-38
  4.2 文本倾向性识别  38-39
    4.2.1 否定句的处理  38
    4.2.2 程度副词的处理  38-39
  4.3 同义词  39-40
    4.3.1 同义词词林  39
    4.3.2 同义词数据库  39-40
  4.4 特征值  40-41
    4.4.1 特征值的表示  40
    4.4.2 特征值的提取  40-41
  4.5 短文本指纹  41-45
    4.5.1 短文本指纹的定义  41
    4.5.2 短文本指纹编码过程—STF 方法  41-45
  4.6 本章小结  45-46
第五章 短文本相似度研究  46-53
  5.1 实验运行环境和模块  46-47
  5.2 构建领域词典模块  47-48
  5.3 ICTCLAS 分词模块  48-50
  5.4 相似度比较模块  50-53
    5.4.1 相似度比较  50-51
    5.4.2 算法的合理性检验  51-53
第六章 总结与展望  53-54
  6.1 本文工作总结  53
  6.2 未来工作  53-54
致谢  54-55
参考文献  55-58
作者在硕士研究生期间发表的论文  58

相似论文

  1. 基于SVM的高速公路路面浅层病害的自动检测算法研究,U418.6
  2. 空间目标ISAR成像仿真及基于ISAR像的目标识别,TN957.52
  3. 胆囊炎和肾病综合症脉象信号的特征提取与分类研究,TP391.41
  4. Q学习在基于内容图像检索技术中的应用,TP391.41
  5. 直推式支持向量机研究及其在图像检索中的应用,TP391.41
  6. 中医舌诊中舌形与齿痕的特征提取及分类研究,TP391.41
  7. 空间交会接近视觉测量方法研究,TP391.41
  8. 图像实时采集、存储与处理方法研究,TP391.41
  9. 唇读中的特征提取、选择与融合,TP391.41
  10. 多币种纸币处理技术的研究与实现,TP391.41
  11. 基于类Harr特征和最小包含球的纸币识别方法的研究,TP391.41
  12. 基于图像的路面破损识别,TP391.41
  13. 移动机器人视觉检测和跟踪研究,TP242.62
  14. 高光谱与高空间分辨率遥感图像融合算法研究,TP751
  15. 基于随机森林的植物抗性基因识别方法研究,Q943
  16. 基于图像处理技术的烟叶病害自动识别研究,S435.72
  17. 基于视觉的番木瓜外观品质检测技术研究,S667.9
  18. 羊绒与羊毛纤维鉴别系统的研究,TS101.921
  19. 红外图像目标识别及跟踪技术研究,TP391.41
  20. 水下目标特征的压缩与融合技术研究,TN911.7
  21. 高光谱图像技术诊断黄瓜病害方法的研究,S436.421

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com