学位论文 > 优秀研究生学位论文题录展示

中文信息检索系统与文档重排技术研究

作 者: 方芳
导 师: 陈建勋;刘茂福
学 校: 武汉科技大学
专 业: 计算机应用技术
关键词: 信息检索 倒排索引 向量空间模型 查询扩展 文档重排
分类号: TP391.3
类 型: 硕士论文
年 份: 2010年
下 载: 102次
引 用: 1次
阅 读: 论文下载
 

内容摘要


随着计算机系统性能的提高,互联网信息的飞速发展,以及企业信息化程度的迅速提高,中文信息资源以极快的速度递增。信息的增加在满足人们对信息需求的同时也给人们快速、准确的查找所需要的信息带来了一定的难度。在这种情况下,信息检索技术成为研究的热点。信息检索(Information Retrieval,IR),通常指文本信息检索,包括信息的存储、组织、表现、查询、存取等各个方面,其核心为文本信息的索引和检索。信息检索的主要技术包括索引处理、查询扩展、检索模型、重排处理等,中文信息检索还涉及到分词处理。针对中文信息检索相关技术的研究,本文的研究内容可以分为两个部分。首先,以NTCIR7的中文IR4QA子任务为实验背景,设计并实现了一个中文信息检索系统。系统在索引时对原始文本进行分词处理后以词为单元生成倒排索引,检索部分则采用了经典的向量空间模型。为了解决词不匹配的问题,检索得到初始结果后,利用一种基于局部共现的查询扩展方法进行查询扩展处理。实验结果表明,经过查询扩展处理后,系统性能得到明显提升。对于系统所得结果,经过NTCIR7官方评价工具的评估,可以看到我们的检索系统有较好的检索性能。另外,对特定类型问题进行了文档重排技术的研究。针对检索系统将检索结果反馈给用户时,用户往往只浏览前N个检索结果的情况,本文结合开放性资源维基百科和定义以及人物传记这两种类型问题的特点,将与特定问题相关的维基百科页面引入,以对初检结果进行文档重排处理。实验表明,这种方法能有效提高排在前面的文档的精度。

全文目录


相似论文

  1. 生物医学领域检索系统查询扩展技术研究,TP391.3
  2. 基于停用词处理的汉语语音检索方法,TP391.1
  3. 面向海量邮件的检索系统研究与实现,TP393.098
  4. 基于SVM分类算法的主题爬虫研究,TP391.3
  5. 网络搜索引擎的相关技术研究,G354
  6. 基于Web的未登录词翻译技术研究,TP391.2
  7. 基于社会网络分析的藏文web链接结构研究,TP393.09
  8. 基于跨语言信息检索的企业竞争情报收集系统模型研究,TP391.3
  9. 基于查询扩展的信息抽取技术研究及应用,TP391.1
  10. 英汉可比较语料库的构建与应用研究,TP391.1
  11. 外文数据库无障碍信息检索的策略研究,G354
  12. 基于因特网的动态规范词表的系统构建研究,G354
  13. 基于Struts2框架的安全教育管理信息系统研究,TP311.52
  14. 面向军事知识的自动问答系统的设计与实现,TP311.52
  15. 全文检索及相关技术研究,TP391.3
  16. 应用于搜索引擎的人物分类系统设计与实现,TP391.3
  17. 面向汽车行业的主题爬虫研究与实现,TP391.3
  18. 面向短消息文本的聚类技术研究与应用,TP391.1
  19. 数据库中基于多索引段的全文索引研究,TP311.13
  20. 基于分布式的垂直搜索引擎的研究与实现,TP391.3
  21. 基于局部特征的图像拷贝检测研究,TP391.41

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com