学位论文 > 优秀研究生学位论文题录展示

达梦数据交换平台(DMETL)执行过程改进

作 者: 王海婴
导 师: 冯玉才
学 校: 华中科技大学
专 业: 计算机技术
关键词: 数据仓库 数据抽取转换加载 流水线 增量数据抽取 日志分析
分类号: TP311.13
类 型: 硕士论文
年 份: 2011年
下 载: 22次
引 用: 1次
阅 读: 论文下载
 

内容摘要


数据抽取转换装载(ETL)是数据仓库的核心组成部分,负责从异构的数据源中抽取数据,对这些数据进行清洗、转化,并最终加载到数据仓库当中去。ETL平台开发和设计的好坏直接影响了数据仓库的构建乃至整个商业智能系统的应用。因此,对达梦数据交换平台(DMETL)进行改进以提高产品的指标具有重要意义。在深入研究和分析了达梦数据交换平台的工作原理和机制以及该平台在设计和实现中所涉及的关键技术的基础上,找出了现有达梦数据交换平台存在的不足和缺陷,提出了两种改进方法。其一:考虑到原有DMETL的串行工作方式不利于发挥系统的功效,将流水线技术引入到达梦数据交换平台之中。流水线的工作方式实质上是利用多线程和缓存技术,使得ETL数据的抽取,转换和加载三个环节的执行可以抽象成流水线一样运行在不同的线程实例中,从而减少了中间环节的等待时间。通过流水线工作方式充分的利用了计算机资源,提高了系统的吞吐率,提升了ETL的工作效率。第二,针对原有DMETL增量抽取方式对客户系统进行未授权操作所带来的弊端,同时考虑到实际项目中ORACLE作为数据源的应用较多,设计和实现了针对ORACLE数据源的基于日志分析增量数据抽取方式。利用ORACLE数据库自身的日志分析工具LOG MINER,对数据库日志文件进行解析,获取用户对数据库的变更操作。通过分析数据库的变更操作来对数据库中的增量数据进行捕获。该方法可以有效降低DMETL对客户系统的影响。通过实验表明,流水线技术的引入是可以在一定程度上提高达梦数据交换平台的工作效率的,并且基于日志分析的增量捕获方式也是可以避免对客户业务系统的侵入。此外,这项工作对达梦数据库开发并提供其数据库日志分析工具也有参考价值。

全文目录


摘要  4-5
Abstract  5-9
1 绪论  9-15
  1.1 课题背景  9-10
  1.2 国内外概况  10-14
  1.3 课题主要研究工作  14-15
2 达梦数据交换平台关键技术及改进方案  15-33
  2.1 达梦数据交换平台介绍  15-30
  2.2 达梦数据交换平台存在的不足  30
  2.3 达梦数据交换平台改进方案  30-31
  2.4 小结  31-33
3 达梦数据交换平台过程改进  33-48
  3.1 流水线过程  33-40
  3.2 日志分析实现增量捕获  40-47
  3.3 小结  47-48
4 实验与结果分析  48-55
  4.1 实验方案的设计思路  48
  4.2 实验数据介绍  48-49
  4.3 实验环境和测试用例  49-51
  4.4 实验结果分析  51-54
  4.5 小结  54-55
5 总结与展望  55-57
  5.1 全文总结  55-56
  5.2 展望  56-57
致谢  57-58
参考文献  58-60

相似论文

  1. 基于用户兴趣特征的图像检索研究与实现,TP391.41
  2. 处理器TI DSP VC33虚拟核的设计与实现,TP332
  3. 数据仓库技术在银行客户管理系统中的研究和实现,TP315
  4. 关联规则算法在高职院校贫困生认定工作中的应用,G717
  5. 家校互动教育平台中数据仓库的研究与应用,TP311.13
  6. 高校毕业生就业状况监测系统研究,G647.38
  7. 面向烟草制造行业的商务智能系统设计,TP311.13
  8. 政府产业经济决策支持系统研究,TP311.13
  9. 基于数据仓库的网络教研OLAP分析系统的设计与实现,TP311.13
  10. 基于数据仓库的药品监管辅助决策支持系统的设计与实现,TP311.13
  11. 社会保障体系中医疗保险的数据挖掘与联机分析研究,TP311.13
  12. 政府采购资金使用数据挖掘研究,TP311.13
  13. 单元制造在A公司扫描仪生产中的应用研究,F273
  14. 基于数据仓库的器材保障综合管理系统的研究与设计,TP311.13
  15. NBZC公司生产计划系统优化设计,F426.4
  16. 基于社团结构发现的数据仓库主题抽取的研究,TP311.13
  17. 数据集成技术在银行综合账单系统中的应用研究,TP311.13
  18. 渤海海洋防灾减灾数据仓库的构建与快速访问技术研究,TP311.13
  19. 基于数据挖掘技术的电信客户维系挽留系统分析及应用,TP311.13
  20. 煤矿综合管理系统的设计与实现,TP311.52
  21. 基于数据挖掘的融资信息管理及辅助决策平台的设计,TP311.52

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 程序设计 > 数据库理论与系统
© 2012 www.xueweilunwen.com