学位论文 > 优秀研究生学位论文题录展示

基于《知网》的文本相似度研究

作 者: 李培
导 师: 柴欣
学 校: 河北工业大学
专 业: 计算机应用技术
关键词: 《知网》 义原 树状结构 相似度 文本
分类号: TP391.1
类 型: 硕士论文
年 份: 2012年
下 载: 32次
引 用: 0次
阅 读: 论文下载
 

内容摘要


本文对基于《知网》文本相似度进行了论述,针对本文的研究对象《知网》,对其概念、特殊文档以及结构进行了重点的分析和研究。首先,介绍了《知网》的概念,指出了其中的特有的重要文档whole和glossary,并且分析了《知网》的特有概念——“义原”,这也是本文进行深入研究的重点以及基础;其次,分析了进行文本相似度计算的过程,本文计算相似度的基本思想是从小范围内的具体的相似度逐步扩展到大的范围的相似度的计算;再次,针对各个级别已经存在的进行相似度计算的方法分析了其不足,并且在前人的基础上进行了改进;最后,根据各个层次的有针对性的实验结果,对基于《知网》的相似度计算方法的性能进行了分析,证明了本文方法的有效性。具体来说,本文在文本相似度研究的过程中,所做出的主要工作以及取得的成果如下所示:(一)深入研究了本文的研究对象《知网》的结构,指出其重要概念“义原”是以森林的结构形式存在的,尤其对“义原”的作用进行了重点分析,为下一步的词语相似度计算打下基础。(二)在义原相似度计算层面本文考虑进了义原树的深度的因素,同时在词语相似度计算层面在前人的基础上加入了主要义原对次要义原的抑制作用的因素,并且在此基础上进行了句子相似度的计算的研究,并且分析了其相对于以往的相似度计算的方法的合理性。这部分的实现主要是依靠《知网》的词语库进行分词,然后依照词性进行分类,按照句子与句子之间相同词性进行相似度计算,最后进行整合。此部分的实验相对于前人的使用较为广泛的的方法在召回率和准确率都有了大幅度的提高,借此证明了本文方法其有效性。(三)在段落或者是文本方面,是根据标点符号进行分句,在本文小范围的相似度计算的基础上进行大范围的句子相似度整体的计算,再次体现了本文的基本思想。最后部分是以本文的方法同已有的方法进行实验方面的对比,对于经典的算法和今年来的具有代表性的算法在召回率和准确率都有了1%-20%的提高。

全文目录


摘要  4-5
ABSTRACT  5-8
第一章 绪论  8-13
  §1-1 选题背景及意义  8-9
  §1-2 研究现状  9-11
    1-2-1 文本相似度的常用算法  10-11
    1-2-2 词语相似度的计算方法  11
    1-2-3 句子相似度的计算方法  11
  §1-3 研究意义  11-12
  §1-4 论文的研究内容  12
  §1-5 论文组织结构  12-13
第二章 相似度计算  13-17
  §2-1 相似度的概念  13
  §2-2 相似度的计算  13-15
    2-2-1 有关相似度的划分方法  13-14
    2-2-2 各层次相似度概念  14-15
  §2-3 文本相似度计算方法  15
  §2-4 常见的语义词典  15-16
    2-4-1 WordNet  15-16
    2-4-2 FrameNet  16
    2-4-3 《中文概念词典》  16
  §2-5 本章小结  16-17
第三章 基于《知网》义原相似度计算  17-26
  §3-1 《知网》概述  17-18
  §3-2 《知网》的结构  18-21
    3-2-1 《知网》的主要概念  18
    3-2-2 《知网》的重要文档以及重要结构  18-20
    3-2-3 《知网》中的符号表示含义  20-21
  §3-3 《知网》的描述  21-22
  §3-4 基于《知网》的相似度计算  22-23
  §3-5 基于《知网》的义原相似度计算方法改进的分析  23-25
  §3-6 本章小结  25-26
第四章 基于《知网》的文本相似度计算  26-40
  §4-1 基于《知网》的词语相似度计算  26-31
  §4-2 句子相似度的计算  31-35
  §4-3 文本相似度计算  35-39
    4-3-1 向量空间模型的方法  36
    4-3-2 一种新的文本相似度计算方法  36-37
    4-3-3 本文的基于《知网》文本相似度算法  37-39
  §4-4 本章小结  39-40
第五章 总结与展望  40-42
  §5-1 本文工作总结  40
  §5-2 未来工作的展望  40-42
参考文献  42-45
致谢  45

相似论文

  1. 说话人识别中不同语音编码影响的补偿方法,TN912.34
  2. 基于句法特征的代词消解方法研究,TP391.1
  3. 基于逻辑表示与推理的阅读理解答案抽取,TP391.1
  4. 隐式用户兴趣挖掘的研究与实现,TP311.13
  5. 基于仿生模式识别的文本分类技术研究,TP391.1
  6. 互联网上旅游评论的情感分析及其有用性研究,TP391.1
  7. WordNet和《中国分类主题词表》的映射研究,G254
  8. 中学语文阅读教学中文学文本细读策略研究,G633.3
  9. 基于文本相似度计算的主观题自动阅卷技术研究,TP391.1
  10. 基于模糊区分矩阵的区间信息系统属性约简,O159
  11. 生活化理论指导下的阅读教学实践,G633.3
  12. 论阅读教学中的整体感知和文本细读,G633.3
  13. 初中语文现代文课内外阅读试卷得分率对比调查及指导策略,G633.3
  14. 基于IMS的组列表管理服务器的设计与实现,TP393.05
  15. 新闻网页抽取技术的研究与实现,TP393.092
  16. 汉语词义标注一致性检验方法的研究与实现,TP391.1
  17. 基于本体的智能电网知识检索系统,TM76
  18. 基于可拓分类知识挖掘的复杂产品性能配置设计,TB472
  19. 基于MapReduce的分布式文本数据过滤技术研究与系统实现,TP391.1
  20. 光纤传感技术结合紫外光谱相似度在药物快检中的应用研究,R927.2
  21. 基于决策树分类算法的Web文本分类研究,TP391.1

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com