学位论文 > 优秀研究生学位论文题录展示

英汉跨语言问答系统中的文档语义检索

作 者: 杨田
导 师: 黄德根
学 校: 大连理工大学
专 业: 计算机应用技术
关键词: 跨语言问答系统 跨语言信息检索 查询扩展 语义主题聚类
分类号: TP391.1
类 型: 硕士论文
年 份: 2011年
下 载: 21次
引 用: 0次
阅 读: 论文下载
 

内容摘要


随着现代互联网技术的发展,互联网中的信息资源越来越多,互联网的用户也在逐年的增加,描述信息资源的语种数量也逐渐的增多。在这样大规模的复杂的信息环境中查找用户需要的信息已成为非常重要的研究题目。其中跨语言信息检索已逐渐成为研究者关注的热点。同时跨语言信息检索系统中的一种高级形式,跨语言问答系统也已成为自然语言处理领域里一个热门的研究方向。与传统的信息检索系统相比,跨语言问答系统的查询方式为完整而口语化的问题,返回的结果则是精准度高的网页或者明确的答案。从系统内部看,跨语言问答系统使用了大量的自然语言处理技术,如自然语言句法分析、问题分析、命名实体识别以及机器翻译等等。跨语言问答系统可以分为跨语言文档检索和答案抽取两部分。跨语言文档检索主要实现的功能是,通过对源语言查询的分析,在目标语言中检索到可能包含答案的文档。本文主要针对这一部分进行研究。通过分析现有跨语言问答中跨语言文档检索方法的不足,本文提出了基于语义查询扩展和语义主题聚类的信息检索方法,旨在目标语言文档中获取更多、更相关的文档。首先,分析源语言(英文)查询问题的类型并提取关键词,把关键词翻译成目标语言(中文)查询词,并根据一定的标准组合成查询语句;其次,利用局部语义分析对原查询进行扩展,并利用信息检索系统检索与查询语句相关的目标语言文档;最后,通过基于语义主题聚类的方法对已生成的文档对进行重新排序,得到包含查询问题答案的相关文档。本文的主要贡献包含以下方面:(1)在查询扩展过程中,有效地利用了原查询的关键词与扩展词之间的语义信息。采用网络资源搜索出的切片(snippets)作为扩展的基础文档集合。同时,通过使用基于局部语义分析的方法扩展出关键词,解决了原查询信息不足的问题。(2)设计了基于语义主题聚类的结果排序方法,对初始检索结果进行重排序。解决了相关文档排序靠后的问题。(3)避免了结果文档的主题偏移。

全文目录


摘要  4-5
Abstract  5-9
1 绪论  9-15
  1.1 研究背景  9-10
    1.1.1 研究来源  9
    1.1.2 跨语言问答系统  9-10
    1.1.3 问答系统中的文档检索  10
  1.2 研究意义  10-11
  1.3 问答系统中信息检索的研究现状  11-12
  1.4 本文的主要工作  12-13
  1.5 本文的组织结构  13-15
2 语义信息检索系统的基本原理  15-27
  2.1 检索机制  15-17
  2.2 基于语义的信息检索  17-21
    2.2.1 基本框架  17-18
    2.2.2 查询词抽取  18
    2.2.3 扩展查询  18-20
    2.2.4 结果重构  20-21
  2.3 统计模型  21-26
    2.3.1 检索模型  21-23
    2.3.2 主题模型  23-26
  2.4 本章小结  26-27
3 查询问题的语义解析  27-43
  3.1 问题分析  27-32
    3.1.1 查询问题类型  28-29
    3.1.2 模板学习和匹配  29-32
    3.1.3 关键词提取  32
  3.2 关键查询词翻译  32-34
    3.2.1 翻译资源  32-34
  3.3 查询词扩展  34-38
    3.3.1 上下文局部语义分析  34-35
    3.3.2 基于网络的查询扩展  35-37
    3.3.3 不同类型问题的扩展  37-38
  3.4 文档检索  38-42
    3.4.1 检索系统简介  38-39
    3.4.2 Indri检索工具  39-41
    3.4.3 查询语句构造及检索  41-42
  3.5 本章小结  42-43
4 结果重构  43-49
  4.1 LDA主题模型  43-44
  4.2 文档重排  44-48
    4.2.1 EM抽取算法  45
    4.2.2 Gibbs抽取算法  45-46
    4.2.3 语义结果重构  46-48
  4.3 本章小结  48-49
5 实验与评估  49-56
  5.1 测试数据集  49
  5.2 评测度量方法  49-50
  5.3 实验结果  50-55
  5.4 本章小结  55-56
结论  56-57
参考文献  57-62
攻读硕士学位期间发表学术论文情况  62-63
致谢  63-64

相似论文

  1. 生物医学领域检索系统查询扩展技术研究,TP391.3
  2. 网络搜索引擎的相关技术研究,G354
  3. 基于跨语言信息检索的企业竞争情报收集系统模型研究,TP391.3
  4. 汉英跨语言网址搜索引擎的设计与实现,TP391.3
  5. 基于改进向量空间模型的网络信息检索研究,TP391.3
  6. 基于不完全约束的XML查询处理关键技术研究,TP311.10
  7. 基于本体的语义查询扩展研究,TP391.3
  8. 基于本体的个性化信息系统的应用研究,F49
  9. 基于查询扩展的垂直搜索研究,TP391.3
  10. 面向查询的XML文本摘要技术,TP391.1
  11. 个性化搜索中用户语义意图自动识别技术研究,TP391.1
  12. 日语词法分析及在跨语言信息检索中的应用研究,TP391.1
  13. 基于PLSI的信息检索中查询扩展相关技术研究,TP391.3
  14. 基于本体的语义检索原型系统的设计与实现,TP391.3
  15. 中—英文跨语言问答式信息检索技术研究,TP391.3
  16. 汉语词语语义相似度度量及其在跨语言信息检索中的应用研究,TP391.1
  17. 大规模中英可比较语料库构建,TP391.1
  18. 跨语言信息检索查询翻译技术研究,TP391.3
  19. 面向跨语言信息检索的蒙汉语义词典构建,TP391.1
  20. 基于本体的Web跨语言信息检索研究,TP391.3

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com