学位论文 > 优秀研究生学位论文题录展示

面向问答系统的段落检索技术研究

作 者: 黎新
导 师: 陈恩红
学 校: 中国科学技术大学
专 业: 计算机应用技术
关键词: 互联网 问答系统 段落检索 词汇相似度 主题语言模型 结构相似度 相关性 问题相似度 图模型
分类号: TP391.3
类 型: 博士论文
年 份: 2010年
下 载: 280次
引 用: 0次
阅 读: 论文下载
 

内容摘要


互联网的迅猛发展和广泛普及使得互联网成为人们获取信息和交流信息的重要平台。一方面,互联网的规模呈爆炸式的增长,网络用户借助于搜索引擎等工具,可以方便快捷地从互联网获取信息:另一方面,海量的信息也给用户准确识别和选择有价值的信息带来了困难。因此,如何准确地从Web海量信息中检索或抽取出符合用户需求的信息成为互联网信息处理的重要课题。问答式检索和问答系统(Question Answering System)就是其中一个重要的研究课题,也是研究下一代语义搜索引擎的重要研究方向。问答系统的特点在于,一方面允许用户用自然语言提问而不是关键字的组合;另一方面系统给用户返回的是精确的答案而不是一系列的文档。用户可以精确的表达自己的信息需求,系统则在理解用户需求的基础上做出准确的信息反馈,从而实现用户与系统在语义级别上的信息交互。文档检索模块是自动问答系统的重要组成部分。在通常情况下,系统需要利用一些比较耗时的技术例如自然语言处理、信息抽取和模板匹配等来分析文档,以查找问题的答案。用这些技术去分析文档,系统会付出巨大的时间和空间开销。因此,需要减小处理对象的大小。基于上述原因,段落检索(Passage Retrieval)模块被作为文档检索模块和答案抽取模块的中间模块,加入到自动问答系统中。段落检索是信息检索领域的一个重要的研究问题,现在已经成为自动问答系统的一个关键性模块。论文的主要工作与创新如下:1)分析了文档相关性的评估方法。文档的相关性主要是指字词层面上较为浅层的相关性,因此,经典的文档检索公式不适合直接应用于段落检索。为此,本文分析了问答系统环境下段落检索的相关性,从文档和段落的区别出发,分析了两者在主题、长度和关键字数目等方面的差异,并基于这些差异,提出了适于段落检索公式的基本准则。2)提出一种基于Web的问答式段落检索方法,以适应问答系统的动态性和时效性需求。传统的方法一般是基于问题和段落之间的字词密度特征,这类方法的缺陷在于,由于问题中所包含的关键词数量过少,常常因为匹配失败而使得召回率较低。此外,基于词频和语言模型的检索算法,经常会返回一些不相关的段落。因此本文提出一种启发式查询重写方法来解决这个问题,不再是单独考虑每个关键字,而是以具有搭配关系和约束关系的词汇单元为基础,结合词汇之间的关系,综合计算段落与给定问题的相关度。3)提出一种新的基于多种特征的混合型相关性检索模型。本文研究了词汇相似度、主题相似度和结构相似度在评估问题和段落之间的语义相关性的有效性。首先设计一种基于Web的字词语义相似度的计算方法,并利用该方法对问句和段落之间的词汇相似度进行统计计算;然后采用基于概率语言模型的主题模型对段落和问题之间的相似度进行计算;对于结构相似度,主要考虑两种常见的结构:“Wh-”转移和谓词声明结构,从约束满足的角度来判断问题和段落是否包含了相同的结构约束关系。在上述工作基础上,提出了这三种相似度的有权线性组合的混合型段落检索模型。4)研究了基于段落-段落图模型的答案段落排序方法。该方法不仅考虑了答案段落与问题之间的独立相关性,而且利用段落之间的关系信息建立图模型,从全局上计算段落与问题的语义相关性。由于段落之问存在着关系,段落之间会通过关系相互影响各自与问题之间的相关性,因此,可以利用这种关系修正段落的相关性。考虑到问题类型的多样性特点,本文提出了基于KNN的问题扩展方法。该方法基于多种特征计算问题相似度,在问题空间获取最相似的问题,然后利用相似问题对原问题进行扩展,并基于扩展的问题模型获取候选的答案段落,根据段落的内容特征计算段落-段落相似度,再建立图模型。基于候选段落的图模型结构,利用基于图的排序模型对候选段落的相关性进行重新计算,并用基于学习的方法训练最优的排序参数。

全文目录


摘要  5-7
ABSTRACT  7-13
第1章 绪论  13-37
  1.1 论文研究背景和意义  13-18
    1.1.1 搜索引擎技术  13-15
    1.1.2 问答系统和问答式信息检索  15-18
      1.1.2.1 START  16
      1.1.2.2 Lexxe Search Engine  16-17
      1.1.2.3 ASK.com  17-18
    1.1.3 问答技术的应用  18
  1.2 问答系统综述  18-27
    1.2.1 自动问答系统  18-25
    1.2.2 交互式问答系统  25-27
  1.3 问答系统的评测  27-29
  1.4 国内外研究现状  29-32
  1.5 本文研究内容及创新  32-34
  1.6 本文组织结构  34-37
第2章 文档和段落的相关性及检索模型  37-47
  2.1 相关性的定义  37-38
  2.2 文档相关性的评估方法  38-41
  2.3 段落或句子相关性的评估方法  41-44
  2.4 问答系统段落或句子检索的相关工作  44-46
  2.5 本章小结  46-47
第3章 基于Web的问答式段落检索  47-65
  3.1 引言  47-50
  3.2 相关工作  50-52
  3.3 系统流程  52-53
  3.4 问题分析和文档检索  53-56
    3.4.1 问题分析  53-55
    3.4.2 文档检索模块  55-56
  3.5 段落检索  56-59
    3.5.1 生成段落检索的查询  56-58
    3.5.2 段落相关度评估公式  58-59
  3.6 实验和结果  59-62
    3.6.1 实验设计  59-61
    3.6.2 实验结果及讨论  61-62
  3.7 本章小结  62-65
第4章 基于多种特征的混合型相关性检索模型  65-81
  4.1 相关工作  66-67
  4.2 词汇相似度  67-71
    4.2.1 字词或短语之间的语义相似度  67-70
    4.2.2 问题和段落之间的词汇相似度计算  70-71
  4.3 主题相似度  71-73
  4.4 结构相似度  73-74
  4.5 混合型相关性检索模型  74
  4.6 实验和结果  74-79
    4.6.1 实验设计  74-75
    4.6.2 实验数据和评价标准  75-76
    4.6.3 实验结果和分析  76-79
  4.7 小结  79-81
第5章 基于图模型的答案段落排序方法  81-95
  5.1 相关工作  81-83
  5.2 问题描述  83-84
  5.3 候选答案段落获取  84-87
    5.3.1 基于KNN的问题扩展  84-87
      5.3.1.1 特征选择和相似度计算  84-86
      5.3.1.2 KNN问题扩展  86-87
    5.3.2 获取top-N候选段落  87
  5.4 基于图模型的排序方法  87-91
    5.4.1 边权重计算  88-89
    5.4.2 KNN-GRank算法  89
    5.4.3 风险最小化(Risk Minimization)分析  89-90
    5.4.4 基于排序的损失函数  90-91
  5.5 实验  91-94
    5.5.1 数据和评价标准  92
    5.5.2 实验和结果分析  92-94
  5.6 本章总结  94-95
第6章 总结  95-99
  6.1 本文工作总结  95-96
  6.2 下一步的研究工作  96-99
参考文献  99-109
致谢  109-111
在读期间发表的学术论文与取得的研究成果  111-112
  己发表论文  111-112
攻读学位期间参与的科研项目情况  112-113

相似论文

  1. 光纤陀螺温度漂移建模与补偿,V241.5
  2. 极化SAR图像超分辨算法的研究,TN957.52
  3. 支持XML数据查询的F&B索引结构的研究,TP311.13
  4. 个性化检索中相似用户群的获取与更新,TP391.3
  5. 大豆品种对腐竹品质的影响及其品质评价体系的初步构建,TS214.2
  6. 紫花苜蓿根系生长与地上部生长的相关性分析,S541.9
  7. 肉牛养殖过程中重金属类危害性因素分析,S823
  8. 国内植物园网站分析与上海植物园网站开发,TP393.092
  9. 桃杂交后代(F1)幼苗光合效能评价,S662.1
  10. 网络舆情的政府治理研究,G206
  11. 教育等级性与收入差距相关性研究,G520
  12. 互联网组织的公民行动与积极行动者,G206
  13. 大豆品种对北豆腐品质的影响及其品质评价方法的研究,TS214.2
  14. 亲子关系对青少年网瘾的影响剖析与游戏治疗策略设计,D669.5
  15. 建立虚拟班级对我国大学生思想政治教育的影响及对策研究,G641
  16. CUBS男子运动员特质自信心与投篮命中率相关研究,G841
  17. 走出数字时代的版权困境,G230.7
  18. 基于同化能力杂种优势早期评价的桃光合特性研究,S662.1
  19. 非小细胞肺癌组织中金属硫蛋白及基质金属蛋白酶-2的表达及相关性研究,R734.2
  20. 互联网时代下的中国网络政治发展研究,D621.5
  21. 不结球白菜抽薹性状生化特性和分子标记及遗传模型分析,S634.3

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com