学位论文 > 优秀研究生学位论文题录展示
基于Sogou日志的个性化信息检索分析与建模
作 者: 宋超
导 师: 李生;杨沐昀
学 校: 哈尔滨工业大学
专 业: 计算机科学与技术
关键词: 个性化检索 在线学习 逻辑回归 SVM Co-training
分类号: TP391.3
类 型: 硕士论文
年 份: 2010年
下 载: 54次
引 用: 0次
阅 读: 论文下载
内容摘要
随着网络的发展,网络资源呈现突飞猛进的增长,这给WEB用户带来了诸多不便,搜索引擎应运而生。然而不同背景、不同目的、不同时期的用户的信息需求往往是不同的,搜索引擎面对不同的用户都会给出相同的检索结果,这显然不能很好的满足用户的信息需求。个性化的信息检索技术被认为是解决该问题的重要技术。个性化信息检索技术将根据用户的兴趣给出相应的检索结果,可以最大限度的满足用户的信息需求。本文围绕个性化信息检索进行了以下三个方面的研究:本文的主要研究内容:1.个性化潜力分析。对于同一个查询词,不同的用户对信息的需求往往是不同的,我们将用户的需求差异称为查询词的个性化潜力。本文采用Kappa一致性检验衡量查询词的个性化潜力,并且对查询词的个性化潜力分布进行了分析。查询词的个性化潜力分布表明绝大多数查询词的个性化潜力较大,这也告诉人们从事个性化信息检索研究的必要性。2.实验数据加工算法。个性化信息检索研究面临的一个较大的障碍是缺乏真实有效的实验数据,针对该现象,本文提出了依据Sogou日志从网络上获取真实的WEB数据。网络资源虽然丰富但却充斥着很多垃圾信息,必须将这些垃圾信息过滤掉。为此,本文对数据加工算法进行了相应的研究,提出了主动学习算法和基于Co-training的主动学习算法用于数据加工。实验表明基于规则和逻辑回归的Co-training算法不仅性能最优,而且可以在很大程度上节省数据加工过程中需要的人工工作量。本文将该方法应用于WEB数据加工,并且得到了一个可以支持个性化信息检索的数据集。3.基于在线学习的个性化信息检索建模。用户的兴趣会随着时间发生变化,为此,本文提出在线学习的算法,实时的跟踪用户的兴趣,一旦用户的兴趣发生了变化,在线的学习算法就可以根据用户的点击对用户的兴趣模型进行学习,从而保证了用户兴趣始终是最新的,始终代表着用户当前的信息需求。本文提出了基于在线逻辑回归算法和SVM算法的个性化信息检索模型。实验结果表明这几个模型对检索性能均有一定程度的提高。
|
全文目录
摘要 4-5 Abstract 5-9 第1章 绪论 9-20 1.1 课题来源和研究意义 9-10 1.1.1 课题来源 9 1.1.2 本研究的意义 9-10 1.2 本文的研究内容和国内外研究现状 10-18 1.2.1 个性化潜力的相关研究 10-12 1.2.2 数据加工算法的相关研究 12-15 1.2.3 个性化信息检索模型的相关研究 15-18 1.3 本文的主要组织结构 18-20 第2章 个性化信息检索潜力分析 20-34 2.1 引言 20 2.2 个性化潜力计算方法 20-26 2.2.1 Dice 系数 21-22 2.2.2 Kappa 系数 22-26 2.3 实验和评价 26-30 2.3.1 数据 26-27 2.3.2 评价 27-30 2.4 实验结果 30-32 2.4.1 Dice 系数分布 30 2.4.2 Kappa 系数分布 30-32 2.5 本章小结 32-34 第3章 基于Co-training 的数据加工算法 34-49 3.1 引言 34 3.2 系统组成 34-35 3.3 数据准备 35-36 3.4 数据加工算法研究 36-44 3.4.1 基于规则的方法 37-38 3.4.2 基于主动学习的LR 算法 38-40 3.4.3 基于主动学习的SVM 算法 40-42 3.4.4 基于Co-training 的主动学习算法 42-44 3.5 网页特征提取 44 3.6 实验结果 44-48 3.7 本章小结 48-49 第4章 基于在线LR 和SVM 的个性化检索模型 49-62 4.1 引言 49 4.2 语言模型 49-50 4.3 用户兴趣表示 50-51 4.4 在线LR 模型 51-54 4.4.1 用户兴趣学习算法 54 4.5 在线SVM 模型 54-56 4.5.1 基于在线SVM 的个性化检索模型 54-55 4.5.2 用户兴趣学习算法 55-56 4.6 实验数据和评价方法 56-57 4.6.1 实验数据 56 4.6.2 评价方法 56-57 4.7 实验和评价 57-61 4.7.1 在线LR 模型实验 57-60 4.7.2 在线SVM 模型实验 60-61 4.8 本章小结 61-62 结论 62-63 参考文献 63-68 攻读学位期间发表的学术论文 68-70 致谢 70
|
相似论文
- 个性化检索中相似用户群的获取与更新,TP391.3
- 基于类Harr特征和最小包含球的纸币识别方法的研究,TP391.41
- 基于SVM分类算法的主题爬虫研究,TP391.3
- CMC环境下大学生在线学习评价研究,G434
- 基于计算机视觉的柑橘品质分级技术研究,TP391.41
- 海南雾的天气气候特征分析及预报方法研究,P457
- 基于粗糙集和模糊SVM的车牌识别技术研究,TP391.41
- 基于支持向量机的视频目标检测方法研究,TP391.41
- 基于SVM和形状特征的电极三维模型分类检索的研究,TP391.41
- 心电特征提取及分类方法研究,TN911.7
- 多特征融合的视觉跟踪算法研究,TP391.41
- 基于多普勒气象雷达的风切变预测研究,P415.2
- 基于本体的医学命名实体识别技术研究,TP391.1
- 河北省乳产品消费需求及其对策的数学模型研究,F426.82
- 基于与或图的车牌检测与识别,TP391.41
- 基于脑波的情感图像检索的研究,TP391.41
- 电动汽车驱动控制系统的研究,U469.72
- 基于环境参数的过渡环境下人体热感觉预测,TU831
- 音乐风格分析研究,J605
- 基于SIFT特征和SVM的场景分类,TP391.41
- 基于稀疏表达的人脸识别算法研究,TP391.41
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com
|