学位论文 > 优秀研究生学位论文题录展示
基于Lucene的汽车信息垂直搜索引擎的设计与实现
作 者: 吴佩韦
导 师: 李昌华
学 校: 西安建筑科技大学
专 业: 计算机应用
关键词: 垂直搜索 Lucene 网络爬虫 索引 信息抽取 概念集
分类号: TP391.3
类 型: 硕士论文
年 份: 2009年
下 载: 101次
引 用: 0次
阅 读: 论文下载
内容摘要
随着互联网上Web信息爆炸性的增长,如何获取更加准确、更加详细、更加深层的专业信息,成为对搜索引擎提出的新要求。因此,面向主题的垂直搜索引擎系统应运而生。本文以用户对汽车信息的搜索需求为研究背景;采用垂直搜索技术,将通过元搜索获取的汽车信息作为采集对象;在开源的全文检索软件包Lucene的基础上,修改Nutch系统框架,设计和实现了对汽车信息具有专业化搜索功能的垂直搜索引擎。主要工作如下:1.回顾了搜索引擎的发展历史及分类;通过对通用搜索引擎面临问题的分析,体现出垂直搜索引擎在专业搜索方面的优势;给出垂直搜索引擎的研究现状及介绍了本系统使用的Lucene搜索引擎工具包。2.分析专业网络爬虫和Web信息抽取等垂直搜索引擎的关键技术。重点研究了主题相关度判定算法、网页搜索策略和HTMLParser信息抽取方法。3.研究了Lucene工具包:重点分析其索引和查询模块;介绍其结果排序计算体系;介绍了Lucene与Nutch的关系。4.基于以上关键技术,通过需求分析,提出了汽车信息垂直搜索引擎设计方案:包括系统设计思想,技术策略,系统结构框架,开发环境等;给出了系统用例和动态模型。5.对分析和设计获得的三大模块:主题信息抓取部分、信息分析与索引部分、主题信息检索部分进行具体实现,并对系统运行过程和结果进行了展示。6.在系统实现的基础上,给出一种基于连续型Hopfield神经网络的相关检索词智能推荐算法。实践表明,本文设计和实现的汽车信息垂直搜索引擎的方案是切实可行的,系统基本达到了预期的设计目标。
|
全文目录
摘要 3-4 Abstract 4-9 1 绪论 9-17 1.1 研究背景 9-10 1.2 通用搜索引擎 10-13 1.2.1 搜索引擎的发展历史及分类 10-11 1.2.2 通用搜索引擎面临的问题 11-12 1.2.3 搜索引擎未来的发展趋势 12-13 1.3 垂直搜索引擎 13-14 1.3.1 垂直搜索引擎的优势 13 1.3.2 垂直搜索引擎研究现状 13-14 1.4 LUCENE搜索引擎工具包 14-15 1.5 本文组织结构 15-17 2 垂直搜索引擎关键技术 17-25 2.1 专业网络爬虫技术 17-19 2.1.1 专业爬虫工作原理及关键技术 17-18 2.1.2 主题相关度判定 18-19 2.1.3 网页搜索策略 19 2.2 WEB信息抽取技术 19-25 2.2.1 Web信息抽取技术概述 19-20 2.2.2 Web信息抽取方法 20-21 2.2.3 基于HTMLParser的Web信息抽取 21 2.2.4 HTMLParser对Web信息处理算法 21-25 3 基于LUCENE的索引与查询 25-35 3.1 LUCENE全文检索的实现机制 25-26 3.2 LUCENE信息索引 26-29 3.2.1 索引分类 26 3.2.2 Lucene索引结构 26-29 3.3 LUCENE查询处理 29-32 3.4 LUCENE结果排序 32-33 3.4.1 Lucene排序相关性因素 32 3.4.2 Lucene排序计算体系 32-33 3.4.3 Lucene排序公式 33 3.5 LUCENE与NUTCH 33-35 3.5.1 Nutch概述 33-34 3.5.2 Nutch系统结构 34-35 4 汽车信息垂直搜索系统分析与设计 35-43 4.1 汽车信息垂直搜索系统需求分析 35-36 4.1.1 业务分析 35 4.1.2 基本功能需求分析 35-36 4.2 汽车信息垂直搜索系统结构 36-39 4.2.1 信息抓取模块 36-37 4.2.2 信息预处理模块 37-38 4.2.3 检索服务模块 38-39 4.3 汽车信息垂直搜索系统用例模型 39-40 4.3.1 角色的确定 39 4.3.2 创建用例 39-40 4.4 汽车信息垂直搜索系统动态模型 40-43 5 汽车信息垂直搜索系统实现 43-63 5.1 系统开发环境 43 5.2 汽车主题信息抓取 43-53 5.2.1 主题关键词管理 44-45 5.2.2 主题URL管理 45-50 5.2.3 主题信息下载 50-53 5.3 汽车主题信息分析与索引 53-57 5.3.1 网页信息分析 54 5.3.2 创建索引 54-57 5.4 汽车主题信息检索 57-60 5.4.1 检索实现 57-58 5.4.2 检索结果排序 58-59 5.4.3 检索结果返回 59-60 5.5 相关检索词的智能推荐算法 60-63 5.5.1 建立概念词集合 60 5.5.2 概念词同现率计算 60-61 5.5.3 概念相关词的生成 61-62 5.5.4 概念集的建立 62 5.5.5 概念集的维护 62 5.5.6 检索相关词的生成 62-63 6 总结与展望 63-64 6.1 系统总结 63 6.2 系统不足与展望 63-64 致谢 64-65 参考文献 65-67 硕士研究生学习阶段发表论文 67
|
相似论文
- 支持XML数据查询的F&B索引结构的研究,TP311.13
- 大规模稀疏关系数据索引技术研究,TP311.132.3
- 面向动态文档集的大规模文本索引构建技术的研究,TP391.3
- 领域实体属性及事件抽取技术研究,TP391.1
- 时间表达式识别与归一化研究,TP391.1
- 面向海量邮件的检索系统研究与实现,TP393.098
- 基于比对技术的非法网站探测系统的实现与研究,TP393.08
- Bicluster数据分析软件设计与实现,TP311.52
- 网络搜索引擎的相关技术研究,G354
- 网页属性抽取的方法研究,TP391.1
- 虹膜识别算法的研究与实现,TP391.41
- 基于SMP的内存数据库查询处理优化研究,TP311.13
- 基于MVC设计模式的网络服务平台的研究与实现,TP311.52
- 数据空间下的索引策略研究,TP311.13
- 低成本RFID系统安全协议研究,TP391.44
- 存储系统中多维元数据索引的高效更新方法研究,TP333
- 英文文本中命名实体识别及关系抽取技术研究,TP391.1
- 基于P2P的空间矢量数据快速索引机制的研究,TP391.3
- 大规模图像检索中局部特征聚合与索引方法研究,TP391.3
- 基于熵的音乐声纹检索算法的研究与实现,TP391.3
- 在线备份系统中存储服务器的研究与实现,TP333
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com
|