学位论文 > 优秀研究生学位论文题录展示
可定制的垂直搜索引擎研究与实现
作 者: 李旭
导 师: 黄厚宽
学 校: 北京交通大学
专 业: 计算机应用技术
关键词: 垂直搜索 网络蜘蛛 BFU排序 可定制
分类号: TP391.3
类 型: 硕士论文
年 份: 2009年
下 载: 44次
引 用: 0次
阅 读: 论文下载
内容摘要
由于Web海量信息处于不断的变化中,通用搜索引擎已经很难再为用户提供一个高质量的、全面并且更新及时的信息搜索服务。通用搜索引擎试图索引全部Web信息并服务于所有领域的查询请求。相比之下,垂直搜索引擎只覆盖与特定领域主题关键词相关的Web区域,这样搜索的内容可以更深,搜索的周期可以更短。由于Web分类众多,领域又广,用户希望能对所提供的服务定制。可定制的垂直搜索引擎应该从人的角度去设计,让用户选择自己感兴趣的领域服务,这样会吸引更多的用户。因此,能满足用户对快速、准确、方便的获取信息资源的要求。目前,垂直搜索引擎正成为计算机科学界和信息产业界争相研究、开发的对象,可定制的垂直搜索引擎更具挑战性和吸引力。本文首先简要介绍了搜索引擎的发展现状,分析了存在的优缺点,然后通过对当前通用搜索引擎技术的学习和研究,结合可定制的垂直搜索引擎的特点,设计出了可定制的垂直搜索引擎的总体架构及核心模块:网页抓取模块、分词储存索引模块、网页检索模块和可定制模块。然后本文分章节详细分析、设计和实现了这四个模块。它们构成了本文的核心部分。通过对垂直搜索引擎的Web信息抓取模块的设计和实现,完成了基本的网页抓取工作;本文采用了海量智能分词研究版(免费)来分词,结合Lucene实现了文档的存储与索引;在网页检索模块中,本文采用BFU排序算法来对网页进行排序,最后本文给出了函数的具体形式及收敛性证明;通过对各大垂直搜索引擎的亲身体验和仔细研究,分析出存在的不足及改善方法,于是本文设计了可定制的实现流程图及功能定制。本文最后的总结讨论了这些技术及其将来还需进一步研究的内容。
|
全文目录
致谢 5-6 摘要 6-7 ABSTRACT 7-8 序 8-12 1 引言 12-16 1.1 搜索引擎及其发展现状及未来方向 12-14 1.2 可定制的垂直搜索引擎简介 14-15 1.3 本论文的主要工作 15 1.4 本论文的内容组织结构 15-16 2 可定制的垂直搜索引擎相关工作综述 16-25 2.1 通用搜索引擎架构介绍 16-17 2.2 通用搜索引擎架构局限性 17-19 2.3 可定制的垂直搜索引擎架构设计 19-20 2.4 核心模块介绍 20-24 2.4.1 网页抓取模块 20-22 2.4.2 分词储存索引模块 22-23 2.4.3 网页检索模块 23 2.4.4 可定制模块 23-24 2.5 本章小结 24-25 3 网页抓取模块的实现 25-47 3.1 传统的网页抓取策略 26-28 3.2 垂直搜索引擎网页抓取技术的研究意义 28-29 3.3 垂直搜索的领域主题的描述 29-30 3.4 网页抓取的设计与实现 30-33 3.5 网页内容转换的设计与实现 33-35 3.6 数据库的设计 35-41 3.6.1 Link表结构设计 35-36 3.6.2 主题关键词表结构设计 36-37 3.6.3 任务信息表结构设计 37-39 3.6.4 进程列表结构设计 39 3.6.5 网络蜘蛛配置表结构设计 39 3.6.6 黑名单表结构设计 39-40 3.6.7 关于字符集 40-41 3.7 实验与分析 41-45 3.8 本章小结 45-47 4 分词储存索引模块的实现 47-61 4.1 分词的实现 47-51 4.1.1 中文分词技术 47-48 4.1.2 海量智能分词技术应用 48-49 4.1.3 海量智能分词表结构 49-50 4.1.4 海量智能分词接口 50-51 4.2 存储索引的实现 51-60 4.2.1 基于B+树的文档索引结构图设计 52-53 4.2.2 B+树中文档的加入与查询过程 53-55 4.2.3 倒排索引 55-56 4.2.4 与Lucene结合实现存储与索引 56-60 4.3 本章小结 60-61 5 网页检索模块的实现 61-71 5.1 对检索内容处理 61 5.2 BFU排序算法对网页排序 61-70 5.2.1 BFU排序中相关概念定义 61-62 5.2.2 BFU排序研究背景 62-63 5.2.3 领域排序的问题定义及函数形式 63-65 5.2.4 领域排序收敛性证明 65-66 5.2.5 领域内排序的问题定义及函数形式 66-68 5.2.6 领域内排序收敛性证明 68 5.2.7 BFU排序算法 68-69 5.2.8 实验与分析 69-70 5.3 本章小结 70-71 6 可定制模块的实现 71-75 6.1 可定制功能研究进展 71 6.2 可定制功能基本流程图 71-73 6.3 实验与分析 73-74 6.4 本章小结 74-75 7 总结和展望 75-77 7.1 工作总结 75-76 7.2 未来工作展望 76-77 参考文献 77-79 作者简历 79-81 学位论文数据集 81
|
相似论文
- 基于网络的服装款式设计系统的研究与实现,TS941.2
- 基于SOA的Portal定制系统的优化与实现,TP311.5
- 基于先进制造技术的大规模定制家具开发和生产解决方案的研究,TS664
- 中国传统旗袍创新设计的应用与研究,TS941.2
- 基于大规模定制视角的关系营销策略研究,F274
- H银行为客户ERP财务模块实施定制开发的风险管理,F232
- 模块化设计方法在A公司切割分排机产品开发中的应用,TB472
- 构件垂直搜索引擎的关键技术研究,TP391.3
- 肇庆移动定制终端营销策略研究,F626
- 汽车定制决策中选项框架效应研究,F426.471
- 个性化婚纱定制研究,F719
- 面向大规模定制的电机柔性生产计划研究,TH165
- 面向大规模定制MC的产品族研发平台研究与实现,F426.4
- SaaS技术在人力资源服务平台中的应用研究,TP311.52
- 基于规则与实例的配置方法改进及在装载机中的应用,TH243
- 关节式物体检测识别及应用,TP391.41
- 健康体检信息系统的设计与实现,TP311.52
- 吉通公司定制手机窜货控制研究,F626
- 客户需求驱动下机电产品维护方法及知识表达研究,F426.4
- 锅具生产中延迟策略的应用研究,F426.4
- 面向企业的WEB-GIS信息服务平台关键技术研发,P208
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com
|