学位论文 > 优秀研究生学位论文题录展示

基于HowNet多特征结合的句子相似度计算

作　者: 朱红权
导　师: 赵欢
学　校: 湖南大学
专　业: 计算机科学与技术
关键词: 自然语言处理问答系统知网分词语义相似度
分类号: TP391.1
类　型: 硕士论文
年　份: 2009年
下　载: 276次
引　用: 9次
阅　读: 论文下载

内容摘要

随着互联网的快速发展,网上信息越来越多,如何在这些海量信息中快速准确地找到所需要的信息也越来越困难。虽然传统的搜索引擎(如Google等)已经取得了很大的成功,但这类搜索引擎只能获取与用户查询请求相关的文档,用户必须自己从这些文档中查找相关信息;其查询是一系列关键词而非自然语言问句,事实上,用户可能更习惯于用自然语言来描述一个问题;多数情况下,用户所需要的只是问题的确切答案,而不是与该问题相关的一系列网页。自动问答技术是自然语言处理领域中一个非常热门的研究方向,它综合运用了各种自然语言处理技术。而在信息检索领域中,语义相似度起着重要的作用,提高语义相似度的精度有重要的理论和实际意义。计算机对于中文的处理相对于西文的处理存在更大的难度,集中体现在对文本分词的处理上。分词是中文句子相似度计算的基础和前提,采用高效的分词算法能够极大地提高句子相似度计算结果的准确性。本文在对常用的中文分词算法分析比较的基础上,提出了一种基于双数组Trie树中文分词算法及歧义消除策略,对分词词典的建立方式、分词步骤及歧义字段的处理提出了新的改进方法,提高了分词的完整性和准确性。在中文信息处理中,句子相似度的计算广泛应用于信息检索、机器翻译、自动问答系统、自动文摘等领域,是一个非常基础而关键的问题,长期以来一直是人们研究的热点和难点。本文分析比较了现有的句子相似度计算方法,然后提出了一种新方法,结合基于《知网》语义相似度计算和基于向量空间的TF*IDF方法,随后利用此方法结合前面提出的分词方法,给出了中文句子相似度的实现算法,并以问答式信息检索系统为例进行了测试,对所用方法进行了验证。实验证明使用本文的分词方法后,不仅时间效率和空间利用率得到很大提高,而且提出的句子相似度方法效果也不错。

全文目录

摘要  5-6
Abstract  6-8
目录  8-10
插图索引  10-11
附表索引  11-12
第1章绪论  12-16
  1.1 课题研究背景与意义  12-14
  1.2 本文研究内容  14
  1.3 论文结构  14-16
第2章中文分词研究及句子相似度研究综述  16-25
  2.1 中文分词的意义  16
  2.2 主要的分词技术概述  16-18
    2.2.1 机械分词法  16-17
    2.2.2 基于理解的分词方法  17
    2.2.3 基于统计模型的分词方法  17-18
  2.3 分词算法比较  18
  2.4 句子相似度的研究现状  18-19
  2.5 句子相似度的概念及计算方法  19-24
    2.5.1 句子相似度的概念  19-20
    2.5.2 基于向量空间模型的TF-IDF方法  20-21
    2.5.3 基于语义依存的句子相似度计算  21-22
    2.5.4 基于语义距离的语句相似度计算  22-23
    2.5.5 编辑距离计算方法  23-24
  2.6 存在的主要问题  24-25
第3章基于双数组Trie树分词算法的研究  25-37
  3.1 分词  25-34
    3.1.1 中文分词技术  25
    3.1.2 分词中的难题  25-26
    3.1.3 本文的方法  26-34
  3.2 词性标注  34
  3.3 分词、词性标注应用  34-35
  3.4 过滤虚词、停用词和专用名称  35
  3.5 实验及分析  35-36
  3.6 本章小结  36-37
第4章基于《知网》汉语词相似度计算  37-49
  4.1 《知网(HowNet)》基本概念  37-41
    4.1.1 《知网(HowNet)》简介  37
    4.1.2 《知网(HowNet)》的结构  37-39
    4.1.3 《知网(HowNet)》的知识描述语言  39-41
  4.2 义原相似度的计算  41-44
    4.2.1 义原的深度  41-42
    4.2.2 义原的距离  42-43
    4.2.3 义原的相似度实现  43-44
  4.3 概念的相似度计算  44-46
  4.4 词语相似度计算  46
  4.5 实验及分析  46-48
  4.6 本章小结  48-49
第5章句子相似度计算在FAQ中的应用  49-57
  5.1 相似句子查找算法  49-52
    5.1.1 倒排索引表的建立  50
    5.1.2 基于倒排索引的相似句子查找  50-52
  5.2 句子相似度计算  52-54
    5.2.1 基于TFIDF的方法  53
    5.2.2 基于语义的方法  53-54
    5.2.3 词语权重的修正  54
  5.3 实验及分析  54-57
结论  57-59
参考文献  59-63
致谢  63-64
附录A (攻读学位期间所发表的学术论文目录)  64-65
附录B (部分Java源代码)  65-71

基于HowNet多特征结合的句子相似度计算

内容摘要

全文目录

相似论文