学位论文 > 优秀研究生学位论文题录展示

基于Lucene的汽车信息垂直搜索引擎的设计与实现

作 者: 吴佩韦
导 师: 李昌华
学 校: 西安建筑科技大学
专 业: 计算机应用
关键词: 垂直搜索 Lucene 网络爬虫 索引 信息抽取 概念集
分类号: TP391.3
类 型: 硕士论文
年 份: 2009年
下 载: 101次
引 用: 0次
阅 读: 论文下载
 

内容摘要


随着互联网上Web信息爆炸性的增长,如何获取更加准确、更加详细、更加深层的专业信息,成为对搜索引擎提出的新要求。因此,面向主题的垂直搜索引擎系统应运而生。本文以用户对汽车信息的搜索需求为研究背景;采用垂直搜索技术,将通过元搜索获取的汽车信息作为采集对象;在开源的全文检索软件包Lucene的基础上,修改Nutch系统框架,设计和实现了对汽车信息具有专业化搜索功能的垂直搜索引擎。主要工作如下:1.回顾了搜索引擎的发展历史及分类;通过对通用搜索引擎面临问题的分析,体现出垂直搜索引擎在专业搜索方面的优势;给出垂直搜索引擎的研究现状及介绍了本系统使用的Lucene搜索引擎工具包。2.分析专业网络爬虫和Web信息抽取等垂直搜索引擎的关键技术。重点研究了主题相关度判定算法、网页搜索策略和HTMLParser信息抽取方法。3.研究了Lucene工具包:重点分析其索引和查询模块;介绍其结果排序计算体系;介绍了Lucene与Nutch的关系。4.基于以上关键技术,通过需求分析,提出了汽车信息垂直搜索引擎设计方案:包括系统设计思想,技术策略,系统结构框架,开发环境等;给出了系统用例和动态模型。5.对分析和设计获得的三大模块:主题信息抓取部分、信息分析与索引部分、主题信息检索部分进行具体实现,并对系统运行过程和结果进行了展示。6.在系统实现的基础上,给出一种基于连续型Hopfield神经网络的相关检索词智能推荐算法。实践表明,本文设计和实现的汽车信息垂直搜索引擎的方案是切实可行的,系统基本达到了预期的设计目标。

全文目录


摘要  3-4
Abstract  4-9
1 绪论  9-17
  1.1 研究背景  9-10
  1.2 通用搜索引擎  10-13
    1.2.1 搜索引擎的发展历史及分类  10-11
    1.2.2 通用搜索引擎面临的问题  11-12
    1.2.3 搜索引擎未来的发展趋势  12-13
  1.3 垂直搜索引擎  13-14
    1.3.1 垂直搜索引擎的优势  13
    1.3.2 垂直搜索引擎研究现状  13-14
  1.4 LUCENE搜索引擎工具包  14-15
  1.5 本文组织结构  15-17
2 垂直搜索引擎关键技术  17-25
  2.1 专业网络爬虫技术  17-19
    2.1.1 专业爬虫工作原理及关键技术  17-18
    2.1.2 主题相关度判定  18-19
    2.1.3 网页搜索策略  19
  2.2 WEB信息抽取技术  19-25
    2.2.1 Web信息抽取技术概述  19-20
    2.2.2 Web信息抽取方法  20-21
    2.2.3 基于HTMLParser的Web信息抽取  21
    2.2.4 HTMLParser对Web信息处理算法  21-25
3 基于LUCENE的索引与查询  25-35
  3.1 LUCENE全文检索的实现机制  25-26
  3.2 LUCENE信息索引  26-29
    3.2.1 索引分类  26
    3.2.2 Lucene索引结构  26-29
  3.3 LUCENE查询处理  29-32
  3.4 LUCENE结果排序  32-33
    3.4.1 Lucene排序相关性因素  32
    3.4.2 Lucene排序计算体系  32-33
    3.4.3 Lucene排序公式  33
  3.5 LUCENE与NUTCH  33-35
    3.5.1 Nutch概述  33-34
    3.5.2 Nutch系统结构  34-35
4 汽车信息垂直搜索系统分析与设计  35-43
  4.1 汽车信息垂直搜索系统需求分析  35-36
    4.1.1 业务分析  35
    4.1.2 基本功能需求分析  35-36
  4.2 汽车信息垂直搜索系统结构  36-39
    4.2.1 信息抓取模块  36-37
    4.2.2 信息预处理模块  37-38
    4.2.3 检索服务模块  38-39
  4.3 汽车信息垂直搜索系统用例模型  39-40
    4.3.1 角色的确定  39
    4.3.2 创建用例  39-40
  4.4 汽车信息垂直搜索系统动态模型  40-43
5 汽车信息垂直搜索系统实现  43-63
  5.1 系统开发环境  43
  5.2 汽车主题信息抓取  43-53
    5.2.1 主题关键词管理  44-45
    5.2.2 主题URL管理  45-50
    5.2.3 主题信息下载  50-53
  5.3 汽车主题信息分析与索引  53-57
    5.3.1 网页信息分析  54
    5.3.2 创建索引  54-57
  5.4 汽车主题信息检索  57-60
    5.4.1 检索实现  57-58
    5.4.2 检索结果排序  58-59
    5.4.3 检索结果返回  59-60
  5.5 相关检索词的智能推荐算法  60-63
    5.5.1 建立概念词集合  60
    5.5.2 概念词同现率计算  60-61
    5.5.3 概念相关词的生成  61-62
    5.5.4 概念集的建立  62
    5.5.5 概念集的维护  62
    5.5.6 检索相关词的生成  62-63
6 总结与展望  63-64
  6.1 系统总结  63
  6.2 系统不足与展望  63-64
致谢  64-65
参考文献  65-67
硕士研究生学习阶段发表论文  67

相似论文

  1. 支持XML数据查询的F&B索引结构的研究,TP311.13
  2. 大规模稀疏关系数据索引技术研究,TP311.132.3
  3. 面向动态文档集的大规模文本索引构建技术的研究,TP391.3
  4. 领域实体属性及事件抽取技术研究,TP391.1
  5. 时间表达式识别与归一化研究,TP391.1
  6. 面向海量邮件的检索系统研究与实现,TP393.098
  7. 基于比对技术的非法网站探测系统的实现与研究,TP393.08
  8. Bicluster数据分析软件设计与实现,TP311.52
  9. 网络搜索引擎的相关技术研究,G354
  10. 网页属性抽取的方法研究,TP391.1
  11. 虹膜识别算法的研究与实现,TP391.41
  12. 基于SMP的内存数据库查询处理优化研究,TP311.13
  13. 基于MVC设计模式的网络服务平台的研究与实现,TP311.52
  14. 数据空间下的索引策略研究,TP311.13
  15. 低成本RFID系统安全协议研究,TP391.44
  16. 存储系统中多维元数据索引的高效更新方法研究,TP333
  17. 英文文本中命名实体识别及关系抽取技术研究,TP391.1
  18. 基于P2P的空间矢量数据快速索引机制的研究,TP391.3
  19. 大规模图像检索中局部特征聚合与索引方法研究,TP391.3
  20. 基于熵的音乐声纹检索算法的研究与实现,TP391.3
  21. 在线备份系统中存储服务器的研究与实现,TP333

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com