学位论文 > 优秀研究生学位论文题录展示
问答对自动获取的研究
作 者: 孟祥燕
导 师: 余正涛
学 校: 昆明理工大学
专 业: 计算机软件与理论
关键词: 问答系统 受限域 问答对获取 领域问答对过滤 相关问答对过滤
分类号: TP391.1
类 型: 硕士论文
年 份: 2008年
下 载: 42次
引 用: 0次
阅 读: 论文下载
内容摘要
问答对的规模和质量是影响基于常问问题集问答系统性能的重要因素,目前所使用的问答对库一般是人工构建的,往往需要耗费大量的时间和人力物力。本文围绕问答对库构建过程中的网页问答对自动获取,领域问答对过滤及相关问答对过滤等技术进行了一系列的研究和探讨,主要取得了以下几个方面的成果:(1)提出了一种基于DOM的网页问答对自动获取方法。该方法将HTML页面解析成DOM树形式,抽取树的文本节点作为问答对的候选,根据DOM树的节点和结构信息提取分类特征,采用改进贝叶斯分类算法,构造分类模型,实现了从网页中自动获取问答对的方法。问答对自动获取实验结果表明,该方法具有较好的效果。(2)提出了一种结合句法结构关系和领域特征的领域问答对过滤方法。研究领域知识库构建方法,结合云南旅游领域特点,构建了云南旅游领域知识库。在句法结构分析的基础上,选取句子主干与领域词汇作为分类特征,采用改进贝叶斯分类器进行领域问答对过滤。实验结果表明,结合句法结构关系和领域特征进行领域问答对过滤具有很好的效果。(3)针对问答对特点,提出了一种面向词组合与句子的相关问答对过滤方法。该方法通过计算词组合或句子和问答对的相似度来判断两者是否相关。以“知网”为基础,计算词语语义相似度。在句法结构分析的基础上,提取问答对中的有效搭配对,并计算有效搭配对之间的相似度,从而实现了融合词法、句法和语义的问答对相似度计算。而向词组合与句子的相关问答对过滤实验结果表明,该方法具有较好的效果。(4)利用上述研究成果,搭建了网页问答对自动获取原型系统,云南旅游领域问答对过滤原型系统,面向词组合与句子的相关问答对过滤原型系统。
|
全文目录
摘要 3-4 Abstract 4-6 目录 6-8 第一章 绪论 8-12 1.1 研究背景及意义 8-9 1.2 国内外研究现状 9-10 1.3 论文的研究内容和组织结构 10-12 1.3.1 研究内容 10-11 1.3.2 论文组织 11-12 第二章 基于DOM树的网页问答对自动获取 12-20 2.1 引言 12 2.2 相关研究 12-13 2.3 基于DOM树的网页信息抽取 13-15 2.3.1 DOM(文档对象模型)介绍 13 2.3.2 HTML页面解析 13-15 2.4 网页问答对获取 15-19 2.4.1 分类特征的提取 16 2.4.2 朴素贝叶斯分类算法 16-17 2.4.3 改进贝叶斯分类算法 17 2.4.4 问答对的取舍 17-18 2.4.5 实验结果及分析 18-19 2.5 本章小结 19-20 第三章 结合句法结构关系和领域特征的领域问答对过滤 20-29 3.1 引言 20 3.2 相关研究 20-21 3.3 领域知识库构建 21-22 3.4 领域问答对过滤模型建立 22-28 3.4.1 停用词表构建 23-24 3.4.2 结合句法结构关系和领域特征的问答对分类 24-26 3.4.3 领域问答对过滤 26-27 3.4.4 实验结果及分析 27-28 3.5 本章小结 28-29 第四章 面向词组合与句子的问答对相关性及过滤方法 29-41 4.1 引言 29 4.2 相关研究 29-30 4.3 面向词组合的问答对相关性和过滤方法 30-35 4.3.1 词语相似度计算 30-34 4.3.2 面向词组合的相关问答对过滤 34-35 4.4 面向句子的问答对相关性和过滤方法 35-38 4.4.1 句子相似度计算 35-37 4.4.2 面向句子的相关问答对过滤 37-38 4.5 实验结果及分析 38-40 4.6 本章小节 40-41 第五章 原型系统的实现与评价 41-53 5.1 引言 41 5.2 网页问答对自动获取原型系统的设计和实现 41-46 5.2.1 系统整体框架 41-42 5.2.2 HTML页面解析 42-43 5.2.3 DOM节点句子的分类 43 5.2.4 问答对的取舍 43 5.2.5 系统评价 43-46 5.3 云南旅游领域问答对过滤原型系统的设计和实现 46-49 5.3.1 系统整体框架 46 5.3.2 云南旅游领域知识库构建 46-47 5.3.3 分类特征提取 47 5.3.4 云南旅游领域问答对过滤 47 5.3.5 系统评价 47-49 5.4 面向词组合与句子的相关问答对过滤原型系统的设计和实现 49-52 5.4.1 系统整体框架 49 5.4.2 有效搭配对的提取 49 5.4.3 相似度计算 49-50 5.4.4 面向词组合与句子的相关问答对过滤 50 5.4.5 系统评价 50-52 5.5 本章小结 52-53 第六章 结论及下一步的工作 53-55 6.1 结论 53-54 6.2 下一步的工作 54-55 致谢 55-56 参考文献 56-61 附录A 攻读硕士学位期间发表的论文 61-62 附录B 攻读硕士学位期间参与的项目 62-63 附录C 攻读硕士学位期间申请的专利及软件著作权 63
|
相似论文
- 针对教育视频的虚拟学习社区设计与实现,G434
- 英汉跨语言问答系统中的文档语义检索,TP391.1
- 基于知网的受限域问答系统原型的设计与实现,TP391.1
- 领域知识对领域问答系统答案抽取影响研究,TP391.3
- 基于增量改进贝叶斯领域问句分类研究,TP391.3
- 基于多Agent及元搜索技术的中文问答系统的研究和应用,TP391.1
- E-Learning系统中基于课程本体的用户兴趣模型挖掘,TP311.13
- 改进的语句相似度算法在问答系统中的应用研究,TP391.1
- 基于贝叶斯分类方法的中文问句分类研究,TP391.1
- 基于意义理解的问答系统设计与实现,TP311.52
- 中文问答系统中问题分析关键技术的研究,TP391.1
- 事实型中文问答系统中片段检索方法的研究,TP391.1
- 受限域问答系统文本检索研究,TP391.1
- 限定领域内问答系统的设计与实现,TP391.3
- 中文问答系统中多策略答案抽取技术的研究,TP391.3
- 中—英文跨语言问答式信息检索技术研究,TP391.3
- 基于概念扩展的中文问答系统模型研究,TP391.1
- 基于汉语框架网的中文问句分类研究,TP391.1
- 领域本体在自动问答系统中的应用研究,TP391.3
- 基于本体的受限领域问答系统研究,TP391.1
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com
|