学位论文 > 优秀研究生学位论文题录展示
基于用户兴趣模型的校园网搜索引擎设计与应用
作 者: 陈艳斐
导 师: 柳青
学 校: 云南大学
专 业: 软件工程
关键词: 搜索引擎 PageRank 用户兴趣模型 Nutch 校园网
分类号: TP391.3
类 型: 硕士论文
年 份: 2010年
下 载: 98次
引 用: 2次
阅 读: 论文下载
内容摘要
随着校园网建设的不断发展,校园网上的信息正以惊人的速度增长。如何迅速、准确地从大量的校园网信息中提取有用信息已经成为师生们关注的内容。目前,虽然已经有Google和百度等优秀的通用搜索引擎,但由于校园网的信息存在着保密性、局限性等特殊因素,通用搜索引擎并不能适应校园网内信息检索需要。由于通用搜索引擎没有考虑用户的兴趣,搜索结果无法满足不同用户的特定需求。结合校园网用户在信息内容查询的相似性和规律性,本文提出了基于用户兴趣模型的校园网搜索引擎,通过对Web日志和用户浏览行为进行分析挖掘,获取用户兴趣信息,建立用户兴趣模型,并不断对该模型进行更新和维护,使其能够更加准确地反映用户的兴趣需求。在用户兴趣模型的基础上通过修改网页权重值及添加用户修正参数的方法实现个性化索引结果排序。本文通过研究Web数据挖掘技术,对如何运用该技术进行用户兴趣挖掘做了深入的探讨,并分析了如何将用户兴趣挖掘的结果运用于校园网搜索引擎,以实现搜索服务的个性化。在对通用搜索引擎体系结构和构建搜索引擎关键技术研究的基础上,结合优秀开源框架Nutch和Lucene设计一个运用在云南大学校园网的搜索引擎框架,并且已经实现大部分功能。最后本文对系统进行了功能和性能方面的测试,实验结果证明该系统的性能良好,已能够基本满足云南大学校园网信息检索的需要。
|
全文目录
摘要 3-4 Abstract 4-7 第一章 引言 7-12 1.1 搜索引擎发展史及分类 7-9 1.2 搜索引擎国内外发展现状 9 1.3 校园网搜索引擎的实用价值及研究意义 9-10 1.4 本文研究内容及创新点 10-11 1.5 本文组织结构 11-12 第二章 搜索引擎相关技术 12-20 2.1 搜索引擎体系结构 12-13 2.2 搜索引擎关键技术浅析 13-15 2.2.1 搜索技术 13-14 2.2.2 索引技术 14 2.2.3 检索技术 14-15 2.2.4 查询技术 15 2.3 Web 数据挖掘 15-16 2.4 Lucene 和Nutch 开源搜索引擎介绍 16-20 2.4.1 Lucene 介绍 16-18 2.4.2 Nutch 介绍 18-20 第三章 UIMSEC 系统详细设计 20-30 3.1 需求分析 20-21 3.1.1 功能需求 20 3.1.2 非功能需求 20 3.1.3 设计约束 20-21 3.2 UIMSEC 系统框架设计 21-23 3.3 UIMSEC 系统关键模块设计 23-30 3.3.1 爬虫模块 23-24 3.3.2 索引模块 24-26 3.3.3 检索模块 26-28 3.3.4 搜索模块 28-30 第四章 用户兴趣模型设计 30-44 4.1 用户兴趣模型分析 30-38 4.1.1 用户兴趣信息的获取 30-32 4.1.2 用户识别 32-33 4.1.3 数据预处理 33-35 4.1.4 特征化用户兴趣 35-37 4.1.5 建立用户兴趣模型 37-38 4.2 个性化搜索结果排序 38-44 4.2.1 PageRank 算法 39-40 4.2.2 基于修改网页权重值的个性化PageRank 算法 40-41 4.2.3 基于添加修正参数的个性化排序算法 41-44 第五章 UIMSEC 系统实现 44-56 5.1 UIMSEC 系统的开发方式 44-45 5.2 爬虫模块实现 45-46 5.3 索引模块实现 46-48 5.4 检索模块实现 48-50 5.5 搜索模块实现 50-51 5.6 UIMSEC 系统运行结果及分析 51-56 5.6.1 用户查询界面 51-54 5.6.2 用户兴趣分析 54-56 第六章 总结 56-58 6.1 全文工作总结 56 6.2 今后的工作 56-58 参考文献 58-61 致谢 61
|
相似论文
- 隐式用户兴趣挖掘的研究与实现,TP311.13
- 网络搜索引擎的相关技术研究,G354
- 基于语义网络的智能搜索引擎研究,TP391.3
- 搜索引擎服务提供商版权侵权责任认定标准探讨,D923.41
- 校园网络管理流量分析技术研究与实现,TP393.06
- 基于Web搜索和网页结构分析的IT相关主题新闻抓取研究,TP393.092
- 基于流媒体技术的校园视频点播系统开发,TN948.64
- 基于策略Agent的个性化信息检索系统的研究与实现,TP391.3
- 分布式搜索引擎索引安全及缓存策略研究,TP333
- 基于WebHarvest的中文财经新闻搜索引擎的设计与实现,TP311.52
- 基于Nutch的企业搜索引擎的研究与实现,TP391.3
- 主题搜索引擎关键技术研究,TP391.3
- 个性化医疗信息推荐系统的研究与实现,R319
- 教育培训行业互联网营销问题的研究,F49
- 搜索引擎侵权行为研究,D923
- 基于Web数据挖掘的个性化搜索引擎研究,TP391.3
- 基于Agent元搜索引擎的个性化研究,TP391.3
- 嘉兴学院无线校园网的构建与设计,TN925.93
- 面向海量数据的云存储系统实现与应用研究,TP333
- 论搜索引擎竞价排名的法律规制,D923.43
- 搜索引擎悖论解读,G254
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com
|