学位论文 > 优秀研究生学位论文题录展示

中—英文跨语言问答式信息检索技术研究

作 者: 赵利国
导 师: 李生
学 校: 哈尔滨工业大学
专 业: 计算机科学技术
关键词: 问答系统 跨语言信息检索 问题分析 答案抽取
分类号: TP391.3
类 型: 硕士论文
年 份: 2008年
下 载: 36次
引 用: 1次
阅 读: 论文下载
 

内容摘要


随着计算机网络技术的发展,全球互联网用户快速增长,网络信息资源语种也日益多样,跨语言信息检索已成为越来越重要的研究课题,同时自动问答技术是自然语言处理领域中一个非常热门的研究方向,它综合运用了各种自然语言处理技术。跨语言问答式信息检索兼有跨语言信息检索及问答式信息检索两个方面的内容,对用户跨越语言壁垒,实现无障碍式交流具有一定的现实意义和实用价值。跨语言问答式信息检索系统是集自然语言处理技术和信息检索技术于一身的新一代搜索引擎。它的出现旨在提供更有力的信息获取工具,以应对信息爆炸带来的严重挑战。问答式信息检索一般包括三个主要组成部分:问题分析、信息检索和答案抽取,本文针对中-英文跨语言问答式信息检索,主要研究了以下三个方面的问题:1.中文问题分析。中文问题的分析是问答系统首先进行的重要工作,这个过程分析的效果对后面的处理过程有着重要的影响。问题分析部分包含下几部分工作:首先要对问题进行分词,名实体识别以及词性标注,然后确定问题的类型、提取出问题的关键词、依据问题的类型等因素对关键词进行适当的扩展。2.中-英跨语言检索模式。跨语言模式是连接双语信息的桥梁,跨语言模式研究的目的就是能够通过使用提问语种的提问式在信息系统中检索出符合要求的多种信息语种的相关信息。跨语言模式部分包含基于双语词典统计的跨语言模式,以及基于机器翻译工具的跨语言模式。3.英文答案抽取。英文答案的抽取是跨语言问答系统中最为重要的核心技术,也是决定系统效用以及精确度最关键的步骤。本文给出的英文答案抽取研究包含两方面内容:一个是返回包含问句答案的全部可能文档,即问句答案初选研究;另一个是在返回的可能包含问句答案的文档中,根据问句类型的不同情况,最后抽取出正确的答案,即问句答案抽取研究。

全文目录


摘要  4-5
Abstract  5-9
第1章 绪论  9-23
  1.1 本文研究的目的与意义  9-10
  1.2 跨语言问答式信息检索相关研究综述  10-22
    1.2.1 跨语言问答式信息检索的研究现状  11-16
    1.2.2 跨语言问答式信息检索的评测机制  16-18
    1.2.3 跨语言问答式信息检索主要方法  18-20
    1.2.4 跨语言问答式信息检索所涉及的NLP技术  20-22
  1.3 本文的研究内容及组织  22-23
第2章 中文问题分析的研究  23-34
  2.1 引言  23
  2.2 CLQA系统的总体框架  23-24
  2.3 中文问题的名实体识别  24-30
    2.3.1 隐马尔科夫模型描述  25-26
    2.3.2 Viterbi算法  26-28
    2.3.3 中文问句的名实体分类识别  28-30
  2.4 中文问题的分类  30-32
  2.5 中文问题的关键词选取  32-33
  2.6 本章小结  33-34
第3章 中-英文跨语言模式的研究  34-44
  3.1 引言  34
  3.2 基于双语词典统计的跨语言模式  34-39
    3.2.1 构建中英文对照词典  35-36
    3.2.2 训练中英文对照词典权值  36-37
    3.2.3 构造中英文人名翻译词典  37-39
  3.3 基于机器翻译工具的跨语言模式  39-42
  3.4 本章小结  42-44
第4章 英文答案抽取的研究  44-50
  4.1 引言  44
  4.2 问句答案初选  44-45
  4.3 问句答案抽取  45-47
  4.4 实验结果及分析  47-49
  4.5 本章小结  49-50
结论  50-51
参考文献  51-55
附录  55-58
致谢  58

相似论文

  1. 基于词义及语义分析的问答技术研究,TP391.1
  2. 国有大型企业所属职业学校办学问题研究,G719.2
  3. 太原市电视台法制栏目发展策略研究,G222
  4. 中学生自我意识问题分析,G632.4
  5. 中学语文教师课堂教学语言探微,G633.3
  6. 基于跨语言信息检索的企业竞争情报收集系统模型研究,TP391.3
  7. 针对教育视频的虚拟学习社区设计与实现,G434
  8. 英汉跨语言问答系统中的文档语义检索,TP391.1
  9. 基于知网的受限域问答系统原型的设计与实现,TP391.1
  10. 领域知识对领域问答系统答案抽取影响研究,TP391.3
  11. 基于增量改进贝叶斯领域问句分类研究,TP391.3
  12. 问答对自动获取的研究,TP391.1
  13. 基于多Agent及元搜索技术的中文问答系统的研究和应用,TP391.1
  14. E-Learning系统中基于课程本体的用户兴趣模型挖掘,TP311.13
  15. 城市污水处理厂曝气系统节能降耗影响因素及控制模式研究,X703.1
  16. 社会转型期公民政治参与问题分析与模式选择,D621.5
  17. 改进的语句相似度算法在问答系统中的应用研究,TP391.1
  18. 基于贝叶斯分类方法的中文问句分类研究,TP391.1
  19. 基于意义理解的问答系统设计与实现,TP311.52
  20. 中文问答系统中问题分析关键技术的研究,TP391.1
  21. 事实型中文问答系统中片段检索方法的研究,TP391.1

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com