学位论文 > 优秀研究生学位论文题录展示

基于查询词聚类的信息检索系统排序模型

作　者: 万涛
导　师: 侯越先
学　校: 天津大学
专　业: 模式识别与智能系统
关键词: 信息检索伪相关反馈查询词聚类排序模型排序学习理论分而治之
分类号: TP391.3
类　型: 硕士论文
年　份: 2009年
下　载: 58次
引　用: 0次
阅　读: 论文下载

内容摘要

随着万维网信息的急速膨胀,人们需要在以几何速度增长的冗繁信息中寻找自己所需要的信息。搜索引擎逐渐成为人们日常生活中网络搜索的必备工具,而且用户越来越关注网络搜索引擎的搜索性能和反馈结果。为了提高信息检索系统的整体性能,研究者需要完善和研究信息检索系统的评价方法和排序模型,使得信息检索系统反馈给用户文档更为相关。排序学习理论(Learning to Rank,LETOR)是结合信息检索技术和机器学习理论的一种新领域。LETOR理论目的是利用机器学习理论通过对训练集的自我学习,建立一个文档集相关度的排序模型。目前存在的几种信息检索系统排序方法都采用单一训练模型,其排序结果在几种传统的评估准则下表现出的性能还有待提高。针对这个问题,本文提出一种基于伪相关反馈扩展的查询词聚类算法,和基于查询词关键字的聚类算法相比,能够更好地解决查询词的简短性和模糊性影响聚类效果的问题。该算法可以获得更加可靠的查询词之间的潜在联系,基于这种潜在联系,本文进而提出一种新颖的基于查询词聚类的信息检索系统排序模型,并对查询词采用分而治之的训练方法,其要点是将查询词分为多个训练模型分别进行排序学习。使用该排序模型在OHSUMED公开数据集上做了四种模型的实验,结果表明,这种分而治之的信息检索排序模型显著地提高了信息检索系统的反馈性能,较基本的排序算法在Precision@K和nDCG@K的评价指标上有了近5%-10%的提高。

全文目录

摘要  3-4
ABSTRACT  4-7
第一章绪论  7-11
  1.1 研究背景与目的  7
  1.2 研究现状  7-10
    1.2.1 信息检索  7-8
    1.2.2 数据挖掘  8-10
  1.3 本文结构  10-11
第二章信息检索技术理论基础  11-20
  2.1 信息检索系统的评价方法概述  11-13
  2.2 聚类算法  13-14
    2.2.1 聚类算法简介  13
    2.2.2 K-means 聚类算法  13-14
  2.3 支持向量机  14-20
    2.3.1 支持向量机简介  14
    2.3.2 分类基本原理分析  14-17
    2.3.3 核方法  17-19
    2.3.4 支持向量机小结  19-20
第三章算法模型设计  20-34
  3.1 基于伪相关反馈的查询词聚类算法设计  21-25
    3.1.1 伪相关反馈  21-22
    3.1.2 查询词聚类算法设计  22-25
  3.2 信息检索系统排序模型设计  25-30
    3.2.1 结构化支持向量机模型  25-27
    3.2.2 排序模型设计  27-29
    3.2.3 排序模型小结  29-30
  3.3 分而治之的信息检索系统排序模型框架设计  30-34
    3.3.1 分治策略  30-31
    3.3.2 分而治之的排序模型框架设计  31-34
第四章实验设计与结果分析  34-49
  4.1 实验数据  34-41
    4.1.1 显相关反馈数据  34-37
    4.1.2 隐相关反馈数据  37-38
    4.1.3 OHSUMED 数据集描述  38
    4.1.4 实验数据预处理  38-39
    4.1.5 特征抽取  39-41
  4.2 实验设计  41-44
    4.2.1 单一模型实验  41
    4.2.2 随机模型实验  41-42
    4.2.3 长度划分模型实验  42
    4.2.4 预聚类模型实验  42-44
  4.3 实验结果与分析  44-49
    4.3.1 评价标准  44-45
    4.3.2 实验结果  45-47
    4.3.3 结果分析  47-49
第五章总结与展望  49-50
参考文献  50-53
发表论文和参加科研情况说明  53-54
致谢  54

相似论文

生物医学领域检索系统查询扩展技术研究,TP391.3
面向海量邮件的检索系统研究与实现,TP393.098
基于跨语言信息检索的企业竞争情报收集系统模型研究,TP391.3
基于策略Agent的个性化信息检索系统的研究与实现,TP391.3
基于稀疏非负矩阵分解的图像检索,TP391.41
跨语言文本分类的研究,TP391.1
基于分类模型监测电子商务违禁信息的研究与实现,TP393.09
排序学习损失函数的研究,TP181
基于点击的用户聚类的研究,TP311.13
云计算环境下的调度策略研究,TP3
英汉跨语言问答系统中的文档语义检索,TP391.1
基于概率的潜在语义分析模型在搜索引擎商业文本分类系统中的应用研究,TP391.1
基于Web的医学文献数据库的设计与实现,TP311.13
基于语义Web的信息检索技术研究,TP391.3
基于OWL的地名本体构建与检索机制研究,P208
面向地名本体服务的空间信息检索研究,P208
基于内容与链接的页面价值算法研究,TP393.092
基于对等网络的搜索引擎关键技术研究,TP391.3
J2EE集成开发框架及其应用,TP311.52
基于迁移学习理论的Markov检索模型,TP391.3
基于聚类分析的搜索引擎自动性能评价研究,TP391.3