学位论文 > 优秀研究生学位论文题录展示
相关性排序技术的几点研究
作 者: 周卉
导 师: 郭军
学 校: 北京邮电大学
专 业: 模式识别与智能系统
关键词: 相关性排序 PageRank 段落检索 Rocchio
分类号: TP391.3
类 型: 硕士论文
年 份: 2009年
下 载: 146次
引 用: 3次
阅 读: 论文下载
内容摘要
本文针对搜索引擎相关性排序中的三方面技术进行了系统的研究:链接分析,段落检索和相关反馈,它们分别从不同的角度来改进相关性排序结果。主要创新工作和成果如下:第一,提出PageRank链接分析算法的存储优化方法。基于链接分析的PageRank算法需要计算网络所有结点的网页重要性分数,即PageRank值,因而网页结点的合理存储是该算法顺利运行的关键,本文通过数学推导以及利用稀疏矩阵的特点将算法空间复杂度由O(n^2)降至O(n),同时大大提高了算法迭代效率。第二,提出段落检索与全文检索相结合的排序方法。以段落为粒度索引的排序方法能够有效的提高检索的准确率,但会使得召回率有所下降,为了减轻召回率的损失,提出将段落权重和全文权重相结合的排序方法,结果使得准确率得以提高,同时确保了召回率。第三,实验分析Rocchio相关反馈算法在应用中的优劣势。Rocchio是经典的基于向量空间模型的相关反馈算法,本文通过实验分析了其在改进排序结果上的有效性以及算法的优劣势。
|
全文目录
摘要 4-5 ABSTRACT 5-8 第一章 绪论 8-9 1.1 相关性排序技术的研究背景及现状 8 1.2 本文的工作及内容安排 8-9 第二章 相关度排序评估的主要标准 9-12 2.1 Interpolated Precision (以内插值替换的准确率) 9-10 2.2 MAP (Mean Average Precision,平均准确率) 10 2.3 Precision at K,P@K 10-11 2.4 R-Precision 11 2.5 NDCG (Normalized Discounted Cumulative Gain) 11-12 第三章 基于链接分析的排序算法 12-29 3.1 基于链接分析排序算法的研究背景 12-13 3.2 基于链接分析的主要排序算法 13-14 3.3 PageRank算法的基本概念和原理 14-21 3.3.1 概念 14 3.3.2 随机冲浪 14-15 3.3.3 随机跳转 15 3.3.4 马尔可夫链理论 15-17 3.3.5 幕迭代 17-18 3.3.6 存储问题 18-21 3.4 HITS算法的基本概念和原理 21-24 3.4.1 基本概念和原理 21-23 3.4.2 网络子集的选择 23-24 3.5 PageRank算法实验 24-27 3.5.1 实验背景及算法选择 24-25 3.5.2 实验内容及流程 25-27 3.5.3 实验结果及总结展望 27 3.6 参考文献 27-29 第四章 基于全文与段落检索相结合的相关性排序算法 29-41 4.1 段落检索的研究背景 29-30 4.2 段落的切分方法 30-33 4.2.1 段落划分的基本类别 30-31 4.2.2 段落划分的具体方法 31-33 4.3 段落检索算法 33-37 4.3.1 基于词频统计的算法 34 4.3.2 基于检索词密度的算法 34-37 4.4 段落检索方法 37-38 4.5 段落检索的应用与发展 38 4.6 实验 38-39 4.6.1 实验内容及数据 38 4.6.2 实验方法及结果 38-39 4.7 参考文献 39-41 第五章 基于用户相关反馈的相关性排序算法 41-56 5.1 相关反馈技术的研究背景 41-42 5.2 基于向量空间模型的Rocchio相关反馈算法 42-46 5.2.1 向量空间模型VSM 42-44 5.2.2 Rocchio算法的基本原理 44-46 5.3 概率模型的基本原理 46-48 5.4 相关反馈的应用 48-51 5.4.1 网络上的相关反馈 49-50 5.4.2 相关反馈的评估策略 50 5.4.3 伪相关反馈和间接相关反馈 50-51 5.4.4 总结 51 5.5 实验 51-54 5.5.1 实验背景及数据 51-52 5.5.2 实验方法及流程 52-53 5.5.3 实验结果及总结展望 53-54 5.6 参考文献 54-56 第六章 总结与展望 56-58 6.1 工作总结 56-57 6.2 需要进一步研究的工作 57-58 致谢 58-59 攻读学位期间发表的学术论文 59
|
相似论文
- 主题搜索引擎关键技术研究,TP391.3
- 基于搜索引擎网页排序算法研究,TP391.3
- 基于链接结构分析的Web页面排序算法,TP393.092
- 搜索引擎主题相关性研究,TP391.3
- 段落检索系统及其应用的研究,TP391.3
- 基于点击数据分析的个性化搜索引擎研究,TP391.3
- 基于数据挖掘技术的网络社区发现方法的研究与实现,TP393.094
- 基于查询扩展的垂直搜索研究,TP391.3
- 一种新的Web结构挖掘算法的研究,TP311.13
- 基于链接分析的PageRank排序算法的改进研究,TP391.3
- 基于云计算的Web结构挖掘算法研究,TP311.13
- 面向主题的博客资源挖掘关键技术研究,TP393.09
- 基于搜索算法的Web安全,TP393.08
- 一种基于DB&IR的融合查询机制的研究与实现,TP311.13
- DistanceRank与HITS混合的网页排序算法研究,TP393.092
- 基于手机图片搜索引擎的设计与实现,TP391.3
- 基于谷歌矩阵第二特征值重数的两类外推加速算法,O151.21
- 基于Web信息挖掘的企业竞争情报系统的研究,F272
- 搜索引擎中的Pagerank排序算法研究分析,O223
- PageRank算法在非网页检索问题中的应用,TP391.3
- 恶意URL检测项目中基于PageRank算法的网络爬虫的设计和实现,TP391.3
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com
|