学位论文 > 优秀研究生学位论文题录展示

基于Lucene的主题搜索引擎研究

作 者: 赵善明
导 师: 权义宁
学 校: 西安电子科技大学
专 业: 计算机应用技术
关键词: 搜索引擎 检索器 网络蜘蛛 Lucene
分类号: TP391.3
类 型: 硕士论文
年 份: 2008年
下 载: 75次
引 用: 1次
阅 读: 论文下载
 

内容摘要


搜索引擎(Search Engine)以一定的搜索策略在互联网中搜集信息,对信息进行理解、提取、组织和处理,并为用户提供检索服务,从而起到信息导航的目的。而主题搜索引擎只覆盖与特定主题相关的Web区域,这样它搜索的可以更深,搜索的周期可以更短,因此能满足用户对获取信息资源快速、准确的性能要求。目前,对主题搜索引擎的研究正处于十分活跃的阶段。许多机器学习领域里的知识被应用到主题搜索引擎的设计和实现中。本文提出了一种基于综合价值的网络蜘蛛搜索策略,将基于立即价值和基于未来价值的两种价值评价方法结合起来,共同对链接的重要性进行预测,使得网络蜘蛛能够根据搜索的实际情况动态地调整搜索策略,从而提高了主题搜索引擎搜索的效率。本文还提出了检索器的一种总体架构设计,并完成了检索器、摘要生成器和摘要内容着色器模块的详细设计。最后对Lucene原有页面排序算法根据具体需求做了改进。

全文目录


摘要  3-4
Abstract  4-7
第一章 绪论  7-15
  1.1 课题背景  7-12
    1.1.1 搜索引擎简介  7-9
    1.1.2 主题搜索引擎产生的背景  9-10
    1.1.3 主题搜索引擎与通用搜索引擎的不同  10-11
    1.1.4 主题搜索引擎的发展现状  11
    1.1.5 主题搜索引擎的优势  11-12
    1.1.6 主题搜索引擎的实现  12
  1.2 本课题的主要研究内容和意义  12-14
    1.2.1 问题的提出  12
    1.2.2 主要研究内容  12-13
    1.2.3 主要意义  13-14
  1.3 论文的基本结构介绍  14-15
第二章 搜索引擎技术  15-27
  2.1 搜索引擎的基本组成及原理  15-16
    2.1.1 搜索引擎的基本组成  15
    2.1.2 搜索引擎的基本原理  15-16
    2.1.3 搜索引擎的详细工作流程  16
  2.2 搜索引擎的体系结构  16-20
    2.2.1 网络蜘蛛  17-19
    2.2.2 索引器  19-20
    2.2.3 检索器  20
  2.3 相关技术  20-22
    2.3.1 分布式技术  21
    2.3.2 中文分词  21
    2.3.3 网页排序  21
    2.3.4 压缩技术  21-22
  2.4 Lucene理论知识  22-27
    2.4.1 Lucene工具包  22-24
    2.4.2 Ajax技术  24-27
第三章 网络蜘蛛的搜索策略研究  27-35
  3.1 引言  27-30
  3.2 链接的立即价值和综合价值  30-32
  3.3 基于综合价值的网络蜘蛛搜索策略  32-35
    3.3.1 Web资源分布与链接价值关系的分析  32-33
    3.3.2 基于综合价值的网络蜘蛛搜索策略  33-35
第四章 检索器的设计与实现  35-53
  4.1 检索器的设计与实现  35-37
    4.1.1 简介  35
    4.1.2 检索器的构建  35-36
    4.1.3 程序逻辑  36-37
  4.2 摘要生成器(SummaryGenerator)  37-41
    4.2.1 简介  37-38
    4.2.2 摘要生成器的功能  38
    4.2.3 算法描述  38-41
  4.3 着色器(Render)  41-44
    4.3.1 着色器的功能  41-42
    4.3.2 算法描述  42-44
  4.4 对Lucene页面排序算法的改进  44-53
    4.4.1 原有基础排序算法  44-45
    4.4.2 改进后的页面优先算法  45-46
    4.4.3 改进页面优先算法的实现  46-51
    4.4.4 权重系数平衡  51-53
第五章 结束语  53-55
  5.1 已完成工作总结  53
  5.2 当前搜索引擎研发的主要动向  53-55
致谢  55-57
参考文献  57-61
攻读硕士期间发表的论文或研究成果  61

相似论文

  1. 网络搜索引擎的相关技术研究,G354
  2. 基于语义网络的智能搜索引擎研究,TP391.3
  3. 搜索引擎服务提供商版权侵权责任认定标准探讨,D923.41
  4. 基于Web搜索和网页结构分析的IT相关主题新闻抓取研究,TP393.092
  5. 基于MVC设计模式的网络服务平台的研究与实现,TP311.52
  6. 教育培训行业互联网营销问题的研究,F49
  7. 搜索引擎侵权行为研究,D923
  8. 基于Web数据挖掘的个性化搜索引擎研究,TP391.3
  9. 基于Agent元搜索引擎的个性化研究,TP391.3
  10. 论搜索引擎竞价排名的法律规制,D923.43
  11. 搜索引擎悖论解读,G254
  12. 基于搜索引擎网页排序算法研究,TP391.3
  13. 基于语义Web的信息检索技术研究,TP391.3
  14. 网络下载侵权分析,D923.41
  15. 基于Ajax/Lucene的站内搜索技术研究与实现,TP393.092
  16. 垂直门户网站产品搜索系统的设计与实现,TP393.092
  17. 基于领域知识的Deep Web接口发现研究,TP393.09
  18. 基于对等网络的搜索引擎关键技术研究,TP391.3
  19. 垂直搜索引擎技术在网络舆情巡控中的研究与应用,TP391.3
  20. 基于本体的智能答疑系统研究与实现,TP311.52
  21. 基于聚类分析的搜索引擎自动性能评价研究,TP391.3

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com