学位论文 > 优秀研究生学位论文题录展示

非结构化数据统一访问平台及索引技术研究

作 者: 杨岳
导 师: 郭绍忠
学 校: 解放军信息工程大学
专 业: 计算机软件与理论
关键词: 非结构化数据 Hadoop 数据集成 统一访问 分类索引
分类号: TP311.52
类 型: 硕士论文
年 份: 2010年
下 载: 96次
引 用: 0次
阅 读: 论文下载
 

内容摘要


目前企业中存在大量的非结构化数据,这些数据在各部门的处理、存储和表现形式各不相同,具有着分散、异构的特征。企业需要综合分析这些数据以获得有价值的信息。为了以较高的效率实现该目标,需要在各部门共享的基础上,为这些异构的非结构化数据提供统一的访问方式,以进行对比分析。如何集成非结构化数据并实现统一访问成为企业信息处理中亟待解决的关键问题。本文基于Hadoop分布式计算平台,利用索引技术为非结构化数据构建统一格式的视图,有针对性地解决了企业非结构化数据的统一访问问题。完成的主要工作有:分析了Hadoop调度算法在异构环境下的不足,并进行改进,提高了其在异构环境下的运行效率。在非结构化数据的集成过程中,分析了数据的信息量和时效性问题,改进了文档权值计算方法,提出了基于余弦相似度概念的无训练集分类算法,构建了基于分类索引机制的分类索引文件。根据企业数据处理过程中信息内容横向分析的需求,提出了辅助查询方案。实现了原型系统,并进行测试分析,结果表明系统能够较好的集成非结构化数据,实现统一访问及辅助查询。

全文目录


表目录  7-8
图目录  8-10
摘要  10-11
ABSTRACT  11-12
第一章 绪论  12-20
  1.1 研究背景与意义  12-13
  1.2 国内外研究现状  13-17
    1.2.1 数据集成的发展  13-14
    1.2.2 非结构化数据统一访问研究现状  14-16
    1.2.3 索引技术现状  16-17
  1.3 研究内容  17-18
  1.4 论文组织结构  18-20
第二章 相关技术研究及总体设计  20-31
  2.1 数据统一访问技术  20-24
    2.1.1 传统的数据统一访问技术  20-22
    2.1.2 非结构化数据统一访问技术  22-24
  2.2 Hadoop 分布式计算框架  24-27
    2.2.1 Hadoop 分布式文件系统  25-26
    2.2.2 MapReduce 并行计算模型  26-27
  2.3 Lucene 全文检索工具  27-29
  2.4 原型系统总体设计  29-30
  2.5 小结  30-31
第三章 异构环境下的Hadoop 调度算法改进  31-44
  3.1 异构环境分析  31
    3.1.1 异构环境概述  31
    3.1.2 企业异构环境分析  31
  3.2 改进的调度算法  31-41
    3.2.1 推测执行算法  32-34
    3.2.2 Hadoop 调度模式分析  34-35
    3.2.3 改进的调度算法  35-39
    3.2.4 改进算法优缺点  39-41
  3.3 调度算法测试  41-42
    3.3.1 测试环境  41-42
    3.3.2 测试结果  42
  3.4 小结  42-44
第四章 无训练集的分类索引算法  44-54
  4.1 改进的关键词权值公式  44-48
    4.1.1 TF-IDF 算法  45-46
    4.1.2 信息熵  46
    4.1.3 改进的权值算法  46-48
  4.2 分类索引的构建  48-53
    4.2.1 无训练集分类算法  48-51
    4.2.2 分类索引库的建立过程  51-53
  4.3 小结  53-54
第五章 原型系统的设计与实现  54-69
  5.1 原型系统总体设计  54-57
  5.2 统一访问方案设计  57-59
  5.3 文档解析模块  59-62
    5.3.1 功能描述  59
    5.3.2 实现  59-62
  5.4 分类索引构建模块  62-65
    5.4.1 功能描述  62
    5.4.2 实现  62-65
  5.5 辅助查询模块  65-68
    5.5.1 功能描述  66
    5.5.2 实现  66-68
  5.6 小结  68-69
第六章 测试与分析  69-79
  6.1 测试环境  69-72
    6.1.1 环境组成  69-70
    6.1.2 环境配置  70-72
    6.1.3 测试用例  72
  6.2 测试过程及结论  72-78
    6.2.1 功能测试  72-74
    6.2.2 分类过程实验  74-76
    6.2.3 对比测试  76-78
  6.3 小结  78-79
结束语  79-81
参考文献  81-85
作者简历 攻读硕士学位期间完成的主要工作  85-86
致谢  86

相似论文

  1. SOA高校迎新系统中的SDO模型的研究与实现,G647
  2. 一种可视化的分布式数据集成模型的研究与实现,TP311.52
  3. 基于Map/Reduce框架的分布式日志分析系统的研究及应用,TP311.52
  4. 面向服务的数据集成模型的研究与实现,TP311.52
  5. 基于Hadoop的在线购物原型系统的设计与实现,TP311.52
  6. 基于云计算的软件资源服务平台研究,TP311.52
  7. 公安信息系统中数据集成的,TP311.52
  8. 高速网络环境下的入侵检测系统的研究,TP393.08
  9. 云计算平台上的增量学习研究,TP311.13
  10. 云环境下MapReduce容错技术的研究,TP302.8
  11. 基于云存储的手机数据备份系统,TP309.3
  12. 武警黄金部队多源空间数据集成管理技术研究,P208
  13. 面向海量数据的云存储系统实现与应用研究,TP333
  14. 基于云计算的海量视频转换平台的设计与实现,TP311.52
  15. 基于IaaS云计算的Web应用技术研究,TP393.09
  16. 基于SOA的离散数据集成技术研究,TP311.52
  17. 基于数据集成的人事系统设计与实现,TP311.52
  18. 基于Hadoop的倒排索引技术的研究,TP391.3
  19. 基于XML模式的异构数据集成中间件研究,TP311.52
  20. 基于云计算的海量数据存储技术的研究及应用,TP333
  21. 多源空间数据集成方法研究,P208

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 软件工程 > 软件开发
© 2012 www.xueweilunwen.com