学位论文 > 优秀研究生学位论文题录展示

可定制的垂直搜索引擎研究与实现

作 者: 李旭
导 师: 黄厚宽
学 校: 北京交通大学
专 业: 计算机应用技术
关键词: 垂直搜索 网络蜘蛛 BFU排序 可定制
分类号: TP391.3
类 型: 硕士论文
年 份: 2009年
下 载: 44次
引 用: 0次
阅 读: 论文下载
 

内容摘要


由于Web海量信息处于不断的变化中,通用搜索引擎已经很难再为用户提供一个高质量的、全面并且更新及时的信息搜索服务。通用搜索引擎试图索引全部Web信息并服务于所有领域的查询请求。相比之下,垂直搜索引擎只覆盖与特定领域主题关键词相关的Web区域,这样搜索的内容可以更深,搜索的周期可以更短。由于Web分类众多,领域又广,用户希望能对所提供的服务定制。可定制的垂直搜索引擎应该从人的角度去设计,让用户选择自己感兴趣的领域服务,这样会吸引更多的用户。因此,能满足用户对快速、准确、方便的获取信息资源的要求。目前,垂直搜索引擎正成为计算机科学界和信息产业界争相研究、开发的对象,可定制的垂直搜索引擎更具挑战性和吸引力。本文首先简要介绍了搜索引擎的发展现状,分析了存在的优缺点,然后通过对当前通用搜索引擎技术的学习和研究,结合可定制的垂直搜索引擎的特点,设计出了可定制的垂直搜索引擎的总体架构及核心模块:网页抓取模块、分词储存索引模块、网页检索模块和可定制模块。然后本文分章节详细分析、设计和实现了这四个模块。它们构成了本文的核心部分。通过对垂直搜索引擎的Web信息抓取模块的设计和实现,完成了基本的网页抓取工作;本文采用了海量智能分词研究版(免费)来分词,结合Lucene实现了文档的存储与索引;在网页检索模块中,本文采用BFU排序算法来对网页进行排序,最后本文给出了函数的具体形式及收敛性证明;通过对各大垂直搜索引擎的亲身体验和仔细研究,分析出存在的不足及改善方法,于是本文设计了可定制的实现流程图及功能定制。本文最后的总结讨论了这些技术及其将来还需进一步研究的内容。

全文目录


致谢  5-6
摘要  6-7
ABSTRACT  7-8
序  8-12
1 引言  12-16
  1.1 搜索引擎及其发展现状及未来方向  12-14
  1.2 可定制垂直搜索引擎简介  14-15
  1.3 本论文的主要工作  15
  1.4 本论文的内容组织结构  15-16
2 可定制的垂直搜索引擎相关工作综述  16-25
  2.1 通用搜索引擎架构介绍  16-17
  2.2 通用搜索引擎架构局限性  17-19
  2.3 可定制的垂直搜索引擎架构设计  19-20
  2.4 核心模块介绍  20-24
    2.4.1 网页抓取模块  20-22
    2.4.2 分词储存索引模块  22-23
    2.4.3 网页检索模块  23
    2.4.4 可定制模块  23-24
  2.5 本章小结  24-25
3 网页抓取模块的实现  25-47
  3.1 传统的网页抓取策略  26-28
  3.2 垂直搜索引擎网页抓取技术的研究意义  28-29
  3.3 垂直搜索的领域主题的描述  29-30
  3.4 网页抓取的设计与实现  30-33
  3.5 网页内容转换的设计与实现  33-35
  3.6 数据库的设计  35-41
    3.6.1 Link表结构设计  35-36
    3.6.2 主题关键词表结构设计  36-37
    3.6.3 任务信息表结构设计  37-39
    3.6.4 进程列表结构设计  39
    3.6.5 网络蜘蛛配置表结构设计  39
    3.6.6 黑名单表结构设计  39-40
    3.6.7 关于字符集  40-41
  3.7 实验与分析  41-45
  3.8 本章小结  45-47
4 分词储存索引模块的实现  47-61
  4.1 分词的实现  47-51
    4.1.1 中文分词技术  47-48
    4.1.2 海量智能分词技术应用  48-49
    4.1.3 海量智能分词表结构  49-50
    4.1.4 海量智能分词接口  50-51
  4.2 存储索引的实现  51-60
    4.2.1 基于B+树的文档索引结构图设计  52-53
    4.2.2 B+树中文档的加入与查询过程  53-55
    4.2.3 倒排索引  55-56
    4.2.4 与Lucene结合实现存储与索引  56-60
  4.3 本章小结  60-61
5 网页检索模块的实现  61-71
  5.1 对检索内容处理  61
  5.2 BFU排序算法对网页排序  61-70
    5.2.1 BFU排序中相关概念定义  61-62
    5.2.2 BFU排序研究背景  62-63
    5.2.3 领域排序的问题定义及函数形式  63-65
    5.2.4 领域排序收敛性证明  65-66
    5.2.5 领域内排序的问题定义及函数形式  66-68
    5.2.6 领域内排序收敛性证明  68
    5.2.7 BFU排序算法  68-69
    5.2.8 实验与分析  69-70
  5.3 本章小结  70-71
6 可定制模块的实现  71-75
  6.1 可定制功能研究进展  71
  6.2 可定制功能基本流程图  71-73
  6.3 实验与分析  73-74
  6.4 本章小结  74-75
7 总结和展望  75-77
  7.1 工作总结  75-76
  7.2 未来工作展望  76-77
参考文献  77-79
作者简历  79-81
学位论文数据集  81

相似论文

  1. 基于网络的服装款式设计系统的研究与实现,TS941.2
  2. 基于SOA的Portal定制系统的优化与实现,TP311.5
  3. 基于先进制造技术的大规模定制家具开发和生产解决方案的研究,TS664
  4. 中国传统旗袍创新设计的应用与研究,TS941.2
  5. 基于大规模定制视角的关系营销策略研究,F274
  6. H银行为客户ERP财务模块实施定制开发的风险管理,F232
  7. 模块化设计方法在A公司切割分排机产品开发中的应用,TB472
  8. 构件垂直搜索引擎的关键技术研究,TP391.3
  9. 肇庆移动定制终端营销策略研究,F626
  10. 汽车定制决策中选项框架效应研究,F426.471
  11. 个性化婚纱定制研究,F719
  12. 面向大规模定制的电机柔性生产计划研究,TH165
  13. 面向大规模定制MC的产品族研发平台研究与实现,F426.4
  14. SaaS技术在人力资源服务平台中的应用研究,TP311.52
  15. 基于规则与实例的配置方法改进及在装载机中的应用,TH243
  16. 关节式物体检测识别及应用,TP391.41
  17. 健康体检信息系统的设计与实现,TP311.52
  18. 吉通公司定制手机窜货控制研究,F626
  19. 客户需求驱动下机电产品维护方法及知识表达研究,F426.4
  20. 锅具生产中延迟策略的应用研究,F426.4
  21. 面向企业的WEB-GIS信息服务平台关键技术研发,P208

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com