学位论文 > 优秀研究生学位论文题录展示
ETL的优化设计
作 者: 孟帅朋
导 师: 唐雪飞
学 校: 电子科技大学
专 业: 计算机应用技术
关键词: ETL 数据集成 共享数据库
分类号: TP311.13
类 型: 硕士论文
年 份: 2011年
下 载: 38次
引 用: 0次
阅 读: 论文下载
内容摘要
数字化网络系统作为一种信息共享平台被应用到信息化建设中,数据信息的日益复杂和管理对象的繁多也越来越成为信息管理所面临的一个问题,ETL(Extraction-Transformation-Loading)的引入为共享平台提供了一个统一的接口,方便了对数据的操作和管理。一个良好的ETL处理过程可以很好的为数字化网络系统服务,目前的大部分ETL技术工具在处理少量数据时效率比较好,但是在处理海量数据的时候,经常会花费大量时间,在整个数据处理过程中还时常发生假死现象,因此在效率和可靠性方面还有待提高。本文主要针对ETL的设计进行了分析和对该处理过程的优化进行了研究。通过对ETL操作的各个过程进行了分析,并做出了效率提高,尤其是在数据转换这个关键阶段加入了临时数据库作为缓冲池,并且对数据进行批量提取,减少了外存向内存写入数据的时间开销,在多花费少量空间的情况下提高了效率,节约了大量的时间。经过大量数据的测试比较,优化的ETL流程方案在时间花费比传统的ETL操作过程减少了50%以上,效率得到了很好的提高。
|
全文目录
摘要 4-5 ABSTRACT 5-8 第一章 绪论 8-13 1.1 ETL 在国内外的发展情况 8-10 1.2 当今ETL 面临的挑战 10-11 1.3 论文讨论的主要问题 11-12 1.4 论文的内容安排 12-13 第二章 ETL 相关知识背景 13-24 2.1 数据仓库 13-15 2.1.1 数据仓库的特点构成 13-14 2.1.2 数据仓库的架构 14-15 2.2 商业智能(BI) 15-17 2.2.1 商务智能方案的技术结构 16-17 2.2.2 商务智能的功能 17 2.3 ETL 知识介绍 17-21 2.3.1 数据抽取 19 2.3.2 数据转换 19 2.3.3 数据加载 19-20 2.3.4 ETL 过程的关键环节 20-21 2.4 ETL 在商务智能(BI)和数据仓库中的重要地位 21-23 2.5 小结 23-24 第三章 ETL 工作流方案设计 24-28 3.1 ETL 工作流的优点 24 3.2 传统的ETL 工作流程 24-25 3.3 ETL 工作流程优化方案 25-27 3.4 小结 27-28 第四章 ETL 工作流程细节设计优化和实现 28-52 4.1 数据抽取时的SQL 优化 28-30 4.2 数据一致性处理 30-32 4.3 增量抽取 32-36 4.4 内存数据库 36-39 4.4.1 内存数据库的概念 36-37 4.4.2 内存数据库的应用场合 37 4.4.3 常用的内存数据库 37-38 4.4.4 数据转换中引入内存数据库 38-39 4.5 数据清洗 39-42 4.6 数据同步 42-45 4.7 ETL 元数据管理 45-47 4.8 ETL 多线程执行模式的设计 47-50 4.9 小结 50-52 第五章 ETL 数据仓库设计和实现 52-60 5.1 ETL 数据仓库设计原则 52 5.2 ETL 数据仓库实现步骤 52-59 5.2.1 数据仓库自身设计 53-55 5.2.2 ETL 过程设计与实现 55-59 5.3 小结 59-60 第六章 ETL 效率性能分析 60-72 6.1 测试目的 60 6.2 测试环境 60 6.3 测试方法 60-63 6.3.1 测试数据 61 6.3.2 测试方案 61-63 6.4 测试过程及数据结果 63-69 6.5 整体性能分析 69-71 6.6 小结 71-72 第七章 总结 72-73 致谢 73-74 参考文献 74-76
|
相似论文
- SOA高校迎新系统中的SDO模型的研究与实现,G647
- 一种可视化的分布式数据集成模型的研究与实现,TP311.52
- 家校互动教育平台中数据仓库的研究与应用,TP311.13
- 面向服务的数据集成模型的研究与实现,TP311.52
- 基于数据仓库的药品监管辅助决策支持系统的设计与实现,TP311.13
- PG炼钢厂MES系统数据挖掘的设计与开发,TP311.13
- 湖南省公共气象服务产品共享数据库的设计与开发,TP311.52
- 公安信息系统中数据集成的,TP311.52
- 武警黄金部队多源空间数据集成管理技术研究,P208
- 银行操作风险计量系统设计与实现,TP311.52
- 基于SOA的离散数据集成技术研究,TP311.52
- 基于数据集成的人事系统设计与实现,TP311.52
- 基于XML模式的异构数据集成中间件研究,TP311.52
- 多源空间数据集成方法研究,P208
- 商务智能ETL过程优化及质量控制在航空预警中的应用研究,F562
- 钢铁服务企业生产管理方法研究与信息系统设计,F426.31
- Deep Web数据清洗方法研究及应用,TP393.09
- 数据资源汇聚的可视化建模技术研究与应用,TP311.52
- 一种企业数据空间可视化汇聚流程建模方法与查询优化策略,TP311.13
- 支持跨域数据汇聚的关系数据访问服务研究,TP311.13
- 基于分布式数据集成技术的校园综合管理系统设计,TP311.52
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 程序设计 > 数据库理论与系统
© 2012 www.xueweilunwen.com
|