学位论文 > 优秀研究生学位论文题录展示
面向大数据的ETL设计与实现
作 者: 王晓伟
导 师: 周英飚
学 校: 华中科技大学
专 业: 计算机软件与理论
关键词: 数据处理 抽取转换装载 大数据 工作流
分类号: TP274
类 型: 硕士论文
年 份: 2013年
下 载: 94次
引 用: 0次
阅 读: 论文下载
内容摘要
随着信息技术的发展,越来越多的数据被产生。这些数据中,既包含大量的结构化数据,也包含大量的非结构化数据和半结构化数据。数据的容量变的更大,数据增长速度变得更快,数据的格式变得更复杂,数据处理的需求变得更迫切,这些都给ETL带来了新的挑战。设计一个能够对大数据进行有效处理的ETL具有重要的实际意义。首先针对大数据的特点,在需求分析的基础上,提出了系统的功能目标和性能目标。根据大数据处理的要求,设计了一个能够有效支持大数据处理的ETL体系结构,并设计了ETL中的工作流。为了优化ETL的工作流,提高数据处理效率,对ETL中的数据处理规则通过分类、合并进行了重新设计,使其适合大数据环境。同时,针对MapReduce的特点,设计了MapReduce的工作流,使得ETL的工作流可以转换为MapReduce的工作流,并确定了两种工作流之间的映射规则。再次,详细介绍了系统的实现。通用数据访问模块实现了数据抽取和装载,特别是针对非结构化数据的抽取。工作流模块用来解析元数据,生成相应的本地工作流和MapReduce工作流模型。执行模块用来完成从数据抽取到数据装载的所有过程。元数据管理模块实现对元数据的存储。最后通过实验表明,系统实现了大数据处理的功能,满足了设计目标。通过使用MapReduce能够在一定程度上提高ETL数据处理效率。
|
全文目录
摘要 4-5 Abstract 5-8 1 绪论 8-17 1.1 课题背景 8-9 1.2 国内外研究概况 9-16 1.3 课题的主要研究内容 16-17 2 面向大数据的 ETL 的分析与设计 17-35 2.1 系统需求分析 17-18 2.2 系统设计目标 18-20 2.3 面向大数据的 ETL 体系结构设计 20-24 2.4 面向大数据的 ETL 工作流设计 24-33 2.5 小结 33-35 3 面向大数据的 ETL 的实现 35-55 3.1 通用数据访问模块的实现 35-43 3.2 工作流模块的实现 43-47 3.3 执行模块的实现 47-51 3.4 元数据管理模块的实现 51-54 3.5 小结 54-55 4 实验测试与分析 55-60 4.1 实验环境及准备 55-56 4.2 实验测试 56-58 4.3 小结 58-60 5 总结与展望 60-62 5.1 全文总结 60-61 5.2 展望 61-62 致谢 62-63 参考文献 63-66
|
相似论文
- 复杂仿真系统VV&A工作流技术研究,TP391.9
- 多线阵CCD视觉测量系统的数据采集与处理,TP274.2
- 农业供应链系统网络平台的构建,S126
- 基于工作流的高校学生信息管理系统的设计与实现,TP311.52
- 破前漏(LBB)方法在压水堆管道分析中应用,TL353.11
- 基于节点智能交互的物联网数据处理研究,TP391.44
- 现代测量数据处理技术在能源需求预测中的应用,P25
- 基于工作流的医院办公系统的设计与研究,TP311.52
- 内蒙古东乌珠穆沁旗霍布仁布敦地区土壤地球化学异常信息评价,S153
- 基于FPGA高清视频车辆检测系统的设计与实现,TP391.41
- 基于软构件的党校工作流管理系统研究与实现,TP311.52
- 分布式审计系统中消息广播和超大数据传输方法的研究,TP338.8
- 建筑工程设计流程管理系统的设计与实现,TP311.52
- 基于工作流的业务系统与地理信息系统集成研究与实践,P208
- 小型国际结算系统的设计和实现,TP311.52
- 基于网络的教务办公管理系统设计与实现,TP311.52
- 基于移动Agent的动态工作流技术的研究,TP311.52
- 基于工作流的科研单位网络办公系统的设计与实现,TP311.52
- 基于工作流的企业协同管理信息系统研究,TP315
- 宝钢人才开发院教育培训管理信息系统的设计与实现,TP311.52
- 工作流业务规则与安全约束的设计与实现,TP311.52
中图分类: > 工业技术 > 自动化技术、计算机技术 > 自动化技术及设备 > 自动化系统 > 数据处理、数据处理系统
© 2012 www.xueweilunwen.com
|