学位论文 > 优秀研究生学位论文题录展示

基于HowNet多特征结合的句子相似度计算

作 者: 朱红权
导 师: 赵欢
学 校: 湖南大学
专 业: 计算机科学与技术
关键词: 自然语言处理 问答系统 知网 分词 语义相似度
分类号: TP391.1
类 型: 硕士论文
年 份: 2009年
下 载: 276次
引 用: 9次
阅 读: 论文下载
 

内容摘要


随着互联网的快速发展,网上信息越来越多,如何在这些海量信息中快速准确地找到所需要的信息也越来越困难。虽然传统的搜索引擎(如Google等)已经取得了很大的成功,但这类搜索引擎只能获取与用户查询请求相关的文档,用户必须自己从这些文档中查找相关信息;其查询是一系列关键词而非自然语言问句,事实上,用户可能更习惯于用自然语言来描述一个问题;多数情况下,用户所需要的只是问题的确切答案,而不是与该问题相关的一系列网页。自动问答技术是自然语言处理领域中一个非常热门的研究方向,它综合运用了各种自然语言处理技术。而在信息检索领域中,语义相似度起着重要的作用,提高语义相似度的精度有重要的理论和实际意义。计算机对于中文的处理相对于西文的处理存在更大的难度,集中体现在对文本分词的处理上。分词是中文句子相似度计算的基础和前提,采用高效的分词算法能够极大地提高句子相似度计算结果的准确性。本文在对常用的中文分词算法分析比较的基础上,提出了一种基于双数组Trie树中文分词算法及歧义消除策略,对分词词典的建立方式、分词步骤及歧义字段的处理提出了新的改进方法,提高了分词的完整性和准确性。在中文信息处理中,句子相似度的计算广泛应用于信息检索、机器翻译、自动问答系统、自动文摘等领域,是一个非常基础而关键的问题,长期以来一直是人们研究的热点和难点。本文分析比较了现有的句子相似度计算方法,然后提出了一种新方法,结合基于《知网》语义相似度计算和基于向量空间的TF*IDF方法,随后利用此方法结合前面提出的分词方法,给出了中文句子相似度的实现算法,并以问答式信息检索系统为例进行了测试,对所用方法进行了验证。实验证明使用本文的分词方法后,不仅时间效率和空间利用率得到很大提高,而且提出的句子相似度方法效果也不错。

全文目录


摘要  5-6
Abstract  6-8
目录  8-10
插图索引  10-11
附表索引  11-12
第1章 绪论  12-16
  1.1 课题研究背景与意义  12-14
  1.2 本文研究内容  14
  1.3 论文结构  14-16
第2章 中文分词研究及句子相似度研究综述  16-25
  2.1 中文分词的意义  16
  2.2 主要的分词技术概述  16-18
    2.2.1 机械分词法  16-17
    2.2.2 基于理解的分词方法  17
    2.2.3 基于统计模型的分词方法  17-18
  2.3 分词算法比较  18
  2.4 句子相似度的研究现状  18-19
  2.5 句子相似度的概念及计算方法  19-24
    2.5.1 句子相似度的概念  19-20
    2.5.2 基于向量空间模型的TF-IDF方法  20-21
    2.5.3 基于语义依存的句子相似度计算  21-22
    2.5.4 基于语义距离的语句相似度计算  22-23
    2.5.5 编辑距离计算方法  23-24
  2.6 存在的主要问题  24-25
第3章 基于双数组Trie树分词算法的研究  25-37
  3.1 分词  25-34
    3.1.1 中文分词技术  25
    3.1.2 分词中的难题  25-26
    3.1.3 本文的方法  26-34
  3.2 词性标注  34
  3.3 分词、词性标注应用  34-35
  3.4 过滤虚词、停用词和专用名称  35
  3.5 实验及分析  35-36
  3.6 本章小结  36-37
第4章 基于《知网》汉语词相似度计算  37-49
  4.1 《知网(HowNet)》基本概念  37-41
    4.1.1 《知网(HowNet)》简介  37
    4.1.2 《知网(HowNet)》的结构  37-39
    4.1.3 《知网(HowNet)》的知识描述语言  39-41
  4.2 义原相似度的计算  41-44
    4.2.1 义原的深度  41-42
    4.2.2 义原的距离  42-43
    4.2.3 义原的相似度实现  43-44
  4.3 概念的相似度计算  44-46
  4.4 词语相似度计算  46
  4.5 实验及分析  46-48
  4.6 本章小结  48-49
第5章 句子相似度计算在FAQ中的应用  49-57
  5.1 相似句子查找算法  49-52
    5.1.1 倒排索引表的建立  50
    5.1.2 基于倒排索引的相似句子查找  50-52
  5.2 句子相似度计算  52-54
    5.2.1 基于TFIDF的方法  53
    5.2.2 基于语义的方法  53-54
    5.2.3 词语权重的修正  54
  5.3 实验及分析  54-57
结论  57-59
参考文献  59-63
致谢  63-64
附录A (攻读学位期间所发表的学术论文目录)  64-65
附录B (部分Java源代码)  65-71

相似论文

  1. 词义消歧语料库自动获取方法研究,TP391.1
  2. 一种基于领域本体的语义Web服务匹配和组合方法,TP393.09
  3. WordNet和《中国分类主题词表》的映射研究,G254
  4. Web环境下基于语义模式匹配的实体关系提取方法的研究,TP391.1
  5. 基于条件随机场的中文分词技术的研究与实现,TP391.1
  6. 针对教育视频的虚拟学习社区设计与实现,G434
  7. 主观题自动评分技术研究,TP391.1
  8. 情景应对模式下数字化应急预案的语义模型研究,TP391.1
  9. 学术主页信息抽取系统的研究,TP393.092
  10. 基于链接重要性的动态链接预测算法研究,TP393.03
  11. 基于本体的智能电网知识检索系统,TM76
  12. 基于自然语言打印机人机交互方法研究与实现,TP11
  13. 基于字词联合解码的中文分词研究,TP391.1
  14. 企业邮件监管系统的设计与实现,TP393.098
  15. 基于中文维基百科的语义相关度计算的研究与实现,TP391.1
  16. 蛋白质关系网络复合物发现与可视化研究,TP391.41
  17. 基于话题的多文档文摘技术研究,TP391.1
  18. 基于丰富特征和多核学习的蛋白质关系抽取,Q51
  19. 英汉跨语言问答系统中的文档语义检索,TP391.1
  20. 《元朝秘史》词频研究,H134
  21. 基于WEB的社区智能医疗服务系统的研究,TP311.52

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com