学位论文 > 优秀研究生学位论文题录展示
基于云平台的分布式索引与检索系统的设计与实现
作 者: 杨建丹
导 师: 鲍玉斌
学 校: 东北大学
专 业: 计算机软件与理论
关键词: 云计算 分布式检索 并行索引 Hadoop Lucene 倒排索引
分类号: TP391.3
类 型: 硕士论文
年 份: 2011年
下 载: 3次
引 用: 0次
阅 读: 论文下载
内容摘要
随着计算机技术的发展和互联网时代的到来,互联网上的信息呈爆炸式增长。面对这些海量数据,随着数据文件的增多,索引时间呈线性增长;当承载高访问量或者索引数据规模很大时,检索服务器无法在有限的时间内处理请求。如何快速的建立索引以及如何高效的检索成为极其关键的问题。另一方面,现在的搜索引擎(如Google和百度),检索结果只包含网页数据,而没有结构化数据,用户必须选择某个网页寻找所需要的结构化信息,检索结果不能直观的展现事物的详细信息,用户体验效果不理想。解决这两方面的问题对从互联网上获取信息具有极其重要的意义。为了解决上述问题,本文设计并实现了一种分层的基于云计算平台的分布式索引与检索系统。首先,针对数据量大和单机索引慢的问题,提出了一种使用Lucene并行建立倒排索引的方法,该方法运行在Hadoop集群的多个节点上,使多台机器同时建立索引,大大加快了索引建立的速度。其次,提出了一种基于Katta的分布式检索方法,成功解决了高访问量和索引数据规模大导致的检索慢问题。检索时一方面分级缓存检索结果,如果缓存命中则直接返回缓存结果,未命中时才检索索引;另一方面将索引分布到Katta集群的多个节点上并备份索引文件,检索时多个节点同时搜索,提高了检索速度以及系统的可靠性可扩展性。再次,提出了一种以树形结构展示结构化数据,以类百度和谷歌的形式展示网页数据的数据展示方法,改善了用户查询体验。最后通过对网页数据进行分析,选择包含手机和公司信息的网页数据对系统进行了全面的测试。通过实验及实际应用证明,本文所设计的系统可以很快地对海量数据建立索引,并能够快速地响应查询,查询结果中直观的展示结构化数据,同时具有良好的可扩展性及容错性。
|
全文目录
摘要 5-6 Abstract 6-8 目录 8-11 第1章 绪论 11-15 1.1 研究背景及问题提出 11-12 1.2 国内外研究现状 12-13 1.3 本文主要工作 13-14 1.4 本文组织结构 14-15 第2章 相关技术概述 15-31 2.1 全文检索技术 15-20 2.1.1 全文检索的核心技术 15-16 2.1.2 全文检索系统 16-17 2.1.3 Lucene介绍 17-20 2.2 MapReduce编程模型 20-23 2.2.1 MapReduce的编程模型 21 2.2.2 MapReduce的典型应用 21-22 2.2.3 MapReduce模型的实现方法 22-23 2.3 Hadoop平台架构 23-26 2.3.1 Hadoop平台简介 24 2.3.2 Hadoop分布式文件系统HDFS 24-25 2.3.3 Hadoop分布式计算模型MapReduce 25-26 2.4 分布式检索技术 26-29 2.4.1 分布式计算 26 2.4.2 分布式检索 26-27 2.4.3 Katta原理分析 27-29 2.5 本章小结 29-31 第3章 分布式索引与检索系统的设计 31-43 3.1 系统功能说明 31-33 3.1.1 系统功能 31-32 3.1.2 与其他系统的关系 32-33 3.2 分布式索引与检索系统的体系结构 33-34 3.3 并行索引模块设计 34-37 3.3.1 并行索引模块的输入和输出 34-36 3.3.2 并行索引模块的流程 36-37 3.4 分布式检索模块设计 37-40 3.4.1 结构化数据检索 37-38 3.4.2 非结构化数据检索 38-40 3.5 前台展示模块设计 40-42 3.5.1 界面设计 40-41 3.5.2 结构化数据展示设计 41-42 3.5.3 非结构化数据展示设计 42 3.6 本章小结 42-43 第4章 分布式索引与检索系统的实现 43-61 4.1 索引的并行创建及发布 43-49 4.1.1 使用Lucene建立索引的一般步骤 43-44 4.1.2 MapReduce建立索引 44-49 4.1.3 索引更新 49 4.2 分布式检索模块实现 49-58 4.2.1 结构化数据检索模块实现 50-53 4.2.2 网页数据检索模块的实现 53-58 4.3 前台展示实现 58-59 4.3.1 结构化数据展示 58 4.3.2 网页数据展示 58-59 4.4 本章小结 59-61 第5章 分布式索引与检索系统的部署与测试 61-71 5.1 系统部署 61-62 5.1.1 软硬件环境 61-62 5.1.2 系统部署方案 62 5.2 系统测试 62-69 5.2.1 并行索引模块测试 63-64 5.2.2 分布式检索模块测试及对比 64-69 5.2.3 测试总结 69 5.3 本章小结 69-71 第6章 结束语 71-73 6.1 工作总结 71-72 6.2 展望 72-73 参考文献 73-77 致谢 77-79 攻硕期间发表的论文及参加的项目 79
|
相似论文
- 云计算平台下的动态信任模型的研究,TP309
- 基于Lucene的网络文学垂直搜索引擎的研究与实现,TP391.3
- 基于Map/Reduce框架的分布式日志分析系统的研究及应用,TP311.52
- 基于OAI-PMH协议及全文检索技术的图书馆联合目录系统,TP391.3
- 面向云计算的动态模糊测度方法研究,TP274
- 基于云计算的Web教育爬虫,TP391.3
- 基于Hadoop的在线购物原型系统的设计与实现,TP311.52
- 基于Hadoop的移动学习系统设计与实现,G434
- 云计算在权限管理中的应用研究,TP309
- 基于HADOOP架构的社保项目网络日志分析系统的研究,TP311.52
- 基于WebGIS和MMS的移动搜索服务系统开发,TP311.52
- 消防领域搜索引擎系统的设计与实现,TP391.3
- LUCENE中文分词在科研文档全文检索系统的应用研究,TP311.52
- 基于MapReduce模型的eMTM三维人体模型生成引擎,TP391.41
- 基于MVC设计模式的网络服务平台的研究与实现,TP311.52
- 基于云计算的软件资源服务平台研究,TP311.52
- 基于Lucene的知识库设计与实现,TP311.52
- 海量数据的快速查询算法研究,TP311.13
- 面向电信的云计算平台安全关键技术研究,TP393.08
- 云计算数据隐私保护方法的研究,TP393.08
- 高速网络环境下的入侵检测系统的研究,TP393.08
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com
|