学位论文 > 优秀研究生学位论文题录展示
基于HowNet多特征结合的句子相似度计算
作 者: 朱红权
导 师: 赵欢
学 校: 湖南大学
专 业: 计算机科学与技术
关键词: 自然语言处理 问答系统 知网 分词 语义相似度
分类号: TP391.1
类 型: 硕士论文
年 份: 2009年
下 载: 276次
引 用: 9次
阅 读: 论文下载
内容摘要
随着互联网的快速发展,网上信息越来越多,如何在这些海量信息中快速准确地找到所需要的信息也越来越困难。虽然传统的搜索引擎(如Google等)已经取得了很大的成功,但这类搜索引擎只能获取与用户查询请求相关的文档,用户必须自己从这些文档中查找相关信息;其查询是一系列关键词而非自然语言问句,事实上,用户可能更习惯于用自然语言来描述一个问题;多数情况下,用户所需要的只是问题的确切答案,而不是与该问题相关的一系列网页。自动问答技术是自然语言处理领域中一个非常热门的研究方向,它综合运用了各种自然语言处理技术。而在信息检索领域中,语义相似度起着重要的作用,提高语义相似度的精度有重要的理论和实际意义。计算机对于中文的处理相对于西文的处理存在更大的难度,集中体现在对文本分词的处理上。分词是中文句子相似度计算的基础和前提,采用高效的分词算法能够极大地提高句子相似度计算结果的准确性。本文在对常用的中文分词算法分析比较的基础上,提出了一种基于双数组Trie树中文分词算法及歧义消除策略,对分词词典的建立方式、分词步骤及歧义字段的处理提出了新的改进方法,提高了分词的完整性和准确性。在中文信息处理中,句子相似度的计算广泛应用于信息检索、机器翻译、自动问答系统、自动文摘等领域,是一个非常基础而关键的问题,长期以来一直是人们研究的热点和难点。本文分析比较了现有的句子相似度计算方法,然后提出了一种新方法,结合基于《知网》语义相似度计算和基于向量空间的TF*IDF方法,随后利用此方法结合前面提出的分词方法,给出了中文句子相似度的实现算法,并以问答式信息检索系统为例进行了测试,对所用方法进行了验证。实验证明使用本文的分词方法后,不仅时间效率和空间利用率得到很大提高,而且提出的句子相似度方法效果也不错。
|
全文目录
摘要 5-6 Abstract 6-8 目录 8-10 插图索引 10-11 附表索引 11-12 第1章 绪论 12-16 1.1 课题研究背景与意义 12-14 1.2 本文研究内容 14 1.3 论文结构 14-16 第2章 中文分词研究及句子相似度研究综述 16-25 2.1 中文分词的意义 16 2.2 主要的分词技术概述 16-18 2.2.1 机械分词法 16-17 2.2.2 基于理解的分词方法 17 2.2.3 基于统计模型的分词方法 17-18 2.3 分词算法比较 18 2.4 句子相似度的研究现状 18-19 2.5 句子相似度的概念及计算方法 19-24 2.5.1 句子相似度的概念 19-20 2.5.2 基于向量空间模型的TF-IDF方法 20-21 2.5.3 基于语义依存的句子相似度计算 21-22 2.5.4 基于语义距离的语句相似度计算 22-23 2.5.5 编辑距离计算方法 23-24 2.6 存在的主要问题 24-25 第3章 基于双数组Trie树分词算法的研究 25-37 3.1 分词 25-34 3.1.1 中文分词技术 25 3.1.2 分词中的难题 25-26 3.1.3 本文的方法 26-34 3.2 词性标注 34 3.3 分词、词性标注应用 34-35 3.4 过滤虚词、停用词和专用名称 35 3.5 实验及分析 35-36 3.6 本章小结 36-37 第4章 基于《知网》汉语词相似度计算 37-49 4.1 《知网(HowNet)》基本概念 37-41 4.1.1 《知网(HowNet)》简介 37 4.1.2 《知网(HowNet)》的结构 37-39 4.1.3 《知网(HowNet)》的知识描述语言 39-41 4.2 义原相似度的计算 41-44 4.2.1 义原的深度 41-42 4.2.2 义原的距离 42-43 4.2.3 义原的相似度实现 43-44 4.3 概念的相似度计算 44-46 4.4 词语相似度计算 46 4.5 实验及分析 46-48 4.6 本章小结 48-49 第5章 句子相似度计算在FAQ中的应用 49-57 5.1 相似句子查找算法 49-52 5.1.1 倒排索引表的建立 50 5.1.2 基于倒排索引的相似句子查找 50-52 5.2 句子相似度计算 52-54 5.2.1 基于TFIDF的方法 53 5.2.2 基于语义的方法 53-54 5.2.3 词语权重的修正 54 5.3 实验及分析 54-57 结论 57-59 参考文献 59-63 致谢 63-64 附录A (攻读学位期间所发表的学术论文目录) 64-65 附录B (部分Java源代码) 65-71
|
相似论文
- 词义消歧语料库自动获取方法研究,TP391.1
- 一种基于领域本体的语义Web服务匹配和组合方法,TP393.09
- WordNet和《中国分类主题词表》的映射研究,G254
- Web环境下基于语义模式匹配的实体关系提取方法的研究,TP391.1
- 基于条件随机场的中文分词技术的研究与实现,TP391.1
- 针对教育视频的虚拟学习社区设计与实现,G434
- 主观题自动评分技术研究,TP391.1
- 情景应对模式下数字化应急预案的语义模型研究,TP391.1
- 学术主页信息抽取系统的研究,TP393.092
- 基于链接重要性的动态链接预测算法研究,TP393.03
- 基于本体的智能电网知识检索系统,TM76
- 基于自然语言打印机人机交互方法研究与实现,TP11
- 基于字词联合解码的中文分词研究,TP391.1
- 企业邮件监管系统的设计与实现,TP393.098
- 基于中文维基百科的语义相关度计算的研究与实现,TP391.1
- 蛋白质关系网络复合物发现与可视化研究,TP391.41
- 基于话题的多文档文摘技术研究,TP391.1
- 基于丰富特征和多核学习的蛋白质关系抽取,Q51
- 英汉跨语言问答系统中的文档语义检索,TP391.1
- 《元朝秘史》词频研究,H134
- 基于WEB的社区智能医疗服务系统的研究,TP311.52
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com
|