学位论文 > 优秀研究生学位论文题录展示

受限域中文问答系统中答案抽取的研究

作 者: 邓锦辉
导 师: 余正涛
学 校: 昆明理工大学
专 业: 模式识别与智能系统
关键词: 受限域中文问答系统 领域知识库 知网(HowNet) 文本检索 段落检索 答案抽取 云南旅游
分类号: TP391.1
类 型: 硕士论文
年 份: 2008年
下 载: 207次
引 用: 4次
阅 读: 论文下载
 

内容摘要


问答系统为人们提供了自然语言的人机交互方式,相对于传统的关键词方式搜索引擎来说,其具有更准确,快捷和高效的特点,有着非常广泛的应用前景,是当前研究的热点和难点问题。由于自然语言处理的复杂性,人们把它限定在一定领域来研究,这使得受限域中文问答系统成为国内研究的热点。在受限域中文问答系统中,答案的实时性和准确性决定整个系统的性能,因此答案抽取成为一个重要研究话题。本文针对受限领域中答案抽取中的关键技术做了一定的探讨,即如何从的现有网络资源中获取海量领域实时信息?如何从海量领域信息中获取最相关信息?如何准确地定位答案?主要取得了以下几个方面的成果:(1)提出了在受限域中构建领域知识库的方法。该方法借助本体(Ontology)思想,采用基于大量语料统计的动态获取方法在领域语料中提取领域概念和领域本体,再利用知网(HowNet)概念描述方法对其描述,构建领域知识库,为领域问题的研究提供了更有效的资源。(2)提出了领域文本检索方法。该方法结合领域特性,利用现代搜索引擎技术,构建领域搜索引擎系统,并通过它获取了大量的领域文本,为解决领域问题提供了大量的领域文本资源。(3)提出了领域段落检索方法。该方法将段落检索思想应用到受限域问答系统中,并结合领域特性改进了基于密度的段落检索算法使其更适应受限领域,为最后的答案抽取提供了准确的领域段落资源。(4)提出了领域答案抽取方法。该方法针对领域问题,形成了一整套解决领域中一般性问题的答案抽取策略,抽取结果表明该策略在解决领域问题中起到了一定的效果。(5)以云南旅游作为受限领域,构建了云南旅游知识库,进行了云南旅游的文本检索、段落检索及答案抽取,设计并实现了问答原型系统。

全文目录


摘要  3-4
Abstract  4-8
第一章 绪论  8-14
  1.1 研究背景及意义  8-10
  1.2 研究现状  10-11
    1.2.1 国外研究现状  10
    1.2.2 国内研究现状  10-11
  1.3 问题的提出  11-12
  1.4 本文研究内容  12
  1.5 论文的组织  12-14
第二章 领域知识库构建  14-19
  2.1 引言  14
  2.2 本体与知网  14-15
  2.3 领域本体与概念的提取  15-17
    2.3.1 概念的提取  15-16
    2.3.2 本体提取规则  16-17
    2.3.3 本体的提取  17
  2.4 领域知识库的形成  17-18
  2.5 本章小结  18-19
第三章 领域文本获取  19-30
  3.1 引言  19
  3.2 领域文本分类器研究  19-22
    3.2.1 领域文本分类模型构建与实现  19-21
    3.2.2 领域文本分类实验与结果分析  21-22
  3.3 NUTCH系统的改进  22-28
    3.3.1 NUTCH的介绍  22-23
    3.3.2 改进分词系统  23-27
    3.3.3 嵌入分类器  27-28
  3.4 文本检索  28-29
    3.4.1 关键词的提取与扩展  28-29
    3.4.2 文本的获取  29
  3.5 本章小结  29-30
第四章 领域段落检索  30-36
  4.1 引言  30
  4.2 问题分析  30-32
  4.3 段落提取与权重计算方法  32-34
    4.3.1 段落检索的一般方法  32-33
    4.3.2 领域段落检索方法  33-34
    4.3.3 段落权重计算方法  34
  4.4 段落的提取与排序  34
  4.5 段落检索的测试实例与分析  34-35
  4.6 本章小结  35-36
第五章 答案抽取  36-42
  5.1 引言  36
  5.2 一般答案抽取策略  36-39
    5.2.1 简单事实型的答案抽取  36-37
    5.2.2 列举型问题的答案抽取  37-38
    5.2.3 定义性问题的答案抽取  38
    5.2.4 一般答案抽取存在的问题  38-39
  5.3 基于领域特性的答案抽取策略  39-40
  5.4 答案抽取的实现及测试实例分析  40-41
  5.5 本章小结  41-42
第六章 云南旅游中文问答原型系统的实现及其评价  42-47
  6.1 引言  42
  6.2 系统的整体框架  42-43
  6.3 构建云南旅游知识库  43-44
  6.4 处理用户问题  44
  6.5 获取云南旅游文本  44
  6.6 获取最相关段落  44
  6.7 抽取答案  44-45
  6.8 系统评价  45-46
  6.9 本章小结  46-47
第七章 结论与下一步工作  47-49
  7.1 结论  47
  7.2 下一步工作  47-49
致谢  49-50
参考文献  50-56
附录A 攻读学位期间发表论文及参与项目  56-57

相似论文

  1. 基于词义及语义分析的问答技术研究,TP391.1
  2. 生物医学领域检索系统查询扩展技术研究,TP391.3
  3. 从目的论角度看云南旅游宣传资料的翻译,H315.9
  4. 基于概念集合的网页内容过滤方法的研究,TP393.092
  5. 领域知识对领域问答系统答案抽取影响研究,TP391.3
  6. 旅游本体知识库的构建及推理应用研究,TP391.1
  7. 段落检索系统及其应用的研究,TP391.3
  8. 主谓关系识别与主题相关性计算技术研究,TP391.1
  9. 基于本体的教学领域知识库研究,TP391.1
  10. 受限域问答系统文本检索研究,TP391.1
  11. 限定领域内问答系统的设计与实现,TP391.3
  12. 基于语义Web的金融信息服务模式探讨,H313
  13. 基于本体的ERP实施知识库构建与管理研究,TP182
  14. 云南旅游地域系统空间结构优化调整研究,F592.7
  15. 中文问答系统中多策略答案抽取技术的研究,TP391.3
  16. 中—英文跨语言问答式信息检索技术研究,TP391.3
  17. 基于开放域问答系统的问题分类技术研究与实现,TP391.1
  18. 商标检索方法研究与系统实现,TP391.3
  19. 基于小世界理论的P2P文本检索研究,TP391.1
  20. 基于课程知识的教学测验辅导系统研究与应用,TP391.6
  21. 基于语音界面的中文问答系统设计与实现,TP391.1

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com