学位论文 > 优秀研究生学位论文题录展示
基于Lucene的主题搜索引擎研究
作 者: 赵善明
导 师: 权义宁
学 校: 西安电子科技大学
专 业: 计算机应用技术
关键词: 搜索引擎 检索器 网络蜘蛛 Lucene
分类号: TP391.3
类 型: 硕士论文
年 份: 2008年
下 载: 75次
引 用: 1次
阅 读: 论文下载
内容摘要
搜索引擎(Search Engine)以一定的搜索策略在互联网中搜集信息,对信息进行理解、提取、组织和处理,并为用户提供检索服务,从而起到信息导航的目的。而主题搜索引擎只覆盖与特定主题相关的Web区域,这样它搜索的可以更深,搜索的周期可以更短,因此能满足用户对获取信息资源快速、准确的性能要求。目前,对主题搜索引擎的研究正处于十分活跃的阶段。许多机器学习领域里的知识被应用到主题搜索引擎的设计和实现中。本文提出了一种基于综合价值的网络蜘蛛搜索策略,将基于立即价值和基于未来价值的两种价值评价方法结合起来,共同对链接的重要性进行预测,使得网络蜘蛛能够根据搜索的实际情况动态地调整搜索策略,从而提高了主题搜索引擎搜索的效率。本文还提出了检索器的一种总体架构设计,并完成了检索器、摘要生成器和摘要内容着色器模块的详细设计。最后对Lucene原有页面排序算法根据具体需求做了改进。
|
全文目录
摘要 3-4 Abstract 4-7 第一章 绪论 7-15 1.1 课题背景 7-12 1.1.1 搜索引擎简介 7-9 1.1.2 主题搜索引擎产生的背景 9-10 1.1.3 主题搜索引擎与通用搜索引擎的不同 10-11 1.1.4 主题搜索引擎的发展现状 11 1.1.5 主题搜索引擎的优势 11-12 1.1.6 主题搜索引擎的实现 12 1.2 本课题的主要研究内容和意义 12-14 1.2.1 问题的提出 12 1.2.2 主要研究内容 12-13 1.2.3 主要意义 13-14 1.3 论文的基本结构介绍 14-15 第二章 搜索引擎技术 15-27 2.1 搜索引擎的基本组成及原理 15-16 2.1.1 搜索引擎的基本组成 15 2.1.2 搜索引擎的基本原理 15-16 2.1.3 搜索引擎的详细工作流程 16 2.2 搜索引擎的体系结构 16-20 2.2.1 网络蜘蛛 17-19 2.2.2 索引器 19-20 2.2.3 检索器 20 2.3 相关技术 20-22 2.3.1 分布式技术 21 2.3.2 中文分词 21 2.3.3 网页排序 21 2.3.4 压缩技术 21-22 2.4 Lucene理论知识 22-27 2.4.1 Lucene工具包 22-24 2.4.2 Ajax技术 24-27 第三章 网络蜘蛛的搜索策略研究 27-35 3.1 引言 27-30 3.2 链接的立即价值和综合价值 30-32 3.3 基于综合价值的网络蜘蛛搜索策略 32-35 3.3.1 Web资源分布与链接价值关系的分析 32-33 3.3.2 基于综合价值的网络蜘蛛搜索策略 33-35 第四章 检索器的设计与实现 35-53 4.1 检索器的设计与实现 35-37 4.1.1 简介 35 4.1.2 检索器的构建 35-36 4.1.3 程序逻辑 36-37 4.2 摘要生成器(SummaryGenerator) 37-41 4.2.1 简介 37-38 4.2.2 摘要生成器的功能 38 4.2.3 算法描述 38-41 4.3 着色器(Render) 41-44 4.3.1 着色器的功能 41-42 4.3.2 算法描述 42-44 4.4 对Lucene页面排序算法的改进 44-53 4.4.1 原有基础排序算法 44-45 4.4.2 改进后的页面优先算法 45-46 4.4.3 改进页面优先算法的实现 46-51 4.4.4 权重系数平衡 51-53 第五章 结束语 53-55 5.1 已完成工作总结 53 5.2 当前搜索引擎研发的主要动向 53-55 致谢 55-57 参考文献 57-61 攻读硕士期间发表的论文或研究成果 61
|
相似论文
- 网络搜索引擎的相关技术研究,G354
- 基于语义网络的智能搜索引擎研究,TP391.3
- 搜索引擎服务提供商版权侵权责任认定标准探讨,D923.41
- 基于Web搜索和网页结构分析的IT相关主题新闻抓取研究,TP393.092
- 基于MVC设计模式的网络服务平台的研究与实现,TP311.52
- 教育培训行业互联网营销问题的研究,F49
- 搜索引擎侵权行为研究,D923
- 基于Web数据挖掘的个性化搜索引擎研究,TP391.3
- 基于Agent元搜索引擎的个性化研究,TP391.3
- 论搜索引擎竞价排名的法律规制,D923.43
- 搜索引擎悖论解读,G254
- 基于搜索引擎网页排序算法研究,TP391.3
- 基于语义Web的信息检索技术研究,TP391.3
- 网络下载侵权分析,D923.41
- 基于Ajax/Lucene的站内搜索技术研究与实现,TP393.092
- 垂直门户网站产品搜索系统的设计与实现,TP393.092
- 基于领域知识的Deep Web接口发现研究,TP393.09
- 基于对等网络的搜索引擎关键技术研究,TP391.3
- 垂直搜索引擎技术在网络舆情巡控中的研究与应用,TP391.3
- 基于本体的智能答疑系统研究与实现,TP311.52
- 基于聚类分析的搜索引擎自动性能评价研究,TP391.3
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com
|