学位论文 > 优秀研究生学位论文题录展示
构件化数据清洗框架的研究与实现
作 者: 李智
导 师: 王大玲
学 校: 东北大学
专 业: 计算机软件与理论
关键词: 数据清洗 构件化 数据仓库 过程模型 可复用性
分类号: TP311.13
类 型: 硕士论文
年 份: 2008年
下 载: 37次
引 用: 0次
阅 读: 论文下载
内容摘要
大规模、跨领域数据仓库的出现,使数据仓库中的数据量日益增多,数据模式日趋复杂,清洗过程设计更加繁琐。这些变化使数据清洗软件的开发出现了很多新的需求,如动态构建、频繁的修改以及更多的用户交互等。因此,如何设计能够可重用的数据清洗过程以满足数据清洗软件新的需求,成为数据清洗软件设计和开发人员的新挑战。为解决上述问题,本文深入地研究了数据清洗的逻辑模型以及构件化物理实现,完成了如下两部分工作:一是提出数据清洗过流程模型DCPM (Data Cleansing Process Model),并证明基于该模型使用工作流网建模技术对数据清洗过程进行建模的可行性。这使得设计数据清洗过程可以遵照统一的模型,并使用成熟的建模技术进行建模。该模型描述了数据清洗流程中内部各个元素,元素之间的关系和元素的属性。通过使用统一的模型对数据清洗流程进行建模,显著地提高了清洗流程的可复用性。二是分析了目前开发数据清洗软件所出现的新需求和已有的开发手段的不足,提出并实现了基于构件的数据清洗框架C+ADC (Component-extended Agile Data Cleaning),包括运行时平台和框架服务构件集。基于该框架,能够轻松、灵活地构建基于扩展构件的数据清洗应用,显著地降低开发成本和周期。定义了集成与该框架的构件模型和数据清洗流程业务空间向构件空间映射策略,以更好地实现数据清洗应用。实际的开发案例证明:使用DCPM模型建模数据清洗流程并基于C+ADC框架进行数据清洗应用开发,能够快速地构建基于构件的灵活的、可扩展的数据清洗应用软件。
|
全文目录
摘要 6-7 ABSTRACT 7-12 第1章 绪论 12-16 1.1 课题背景 12-13 1.2 本文的目标和意义 13 1.3 本文研究工作 13-14 1.4 本文组织结构 14-16 第2章 相关技术概述 16-28 2.1 数据清洗技术 16-19 2.1.1 数据清洗的概念 16-17 2.1.2 数据清洗的基本方法 17-18 2.1.3 数据清洗的基本过程 18-19 2.2 软件复用技术 19-24 2.2.1 软件构件技术 20-22 2.2.2 软件框架技术 22-24 2.3 工作流技术 24-27 2.3.1 Petri网概述 24-26 2.3.2 工作流网 26-27 2.4 本章小结 27-28 第3章 数据清洗过程模型及建模方式 28-38 3.1 数据清洗过程模型 28-30 3.1.1 数据清洗过程定义 28-30 3.1.2 数据清洗过程模型DCPM 30 3.2 基于DCPM的数据清洗过程建模 30-34 3.2.1 数据清洗过程建模方法 31-33 3.2.2 基于DCPM建模的改进策略 33-34 3.3 基于DCPM建立数据清洗过程示例 34-36 3.4 本章小结 36-38 第4章 数据清洗框架C~+ADC的设计 38-54 4.1 新的需求和以往技术的不足 38-39 4.2 面向过程的构件模型 39-41 4.3 数据清洗过程空间向构件空间的映射 41-43 4.3.1 构件粒度 41-42 4.3.2 数据清洗过程空间向构件空间的映射算法 42-43 4.4 框架的体系结构 43-52 4.4.1 框架的体系结构概述 44-45 4.4.2 框架核心包的设计 45-48 4.4.3 运行时平台 48-49 4.4.4 框架的基础服务 49-52 4.5 本章小结 52-54 第5章 数据清洗框架C~+ADC的实现与测试 54-62 5.1 实现C~+ACD框架的具体技术 54-55 5.1.1 Microsoft .Net 2.0 54 5.1.2 C#语言 54-55 5.2 C~+ADC框架的实现 55-61 5.2.1 核心层的实现 55-56 5.2.2 运行时平台 56-57 5.2.3 框架基础服务构件的实现 57-60 5.2.4 系统的测试与结论 60-61 5.3 本章小结 61-62 第6章 清洗框架C~+ADC的应用案例分析 62-68 6.1 海洋数据体系和海洋数据仓库 62-63 6.2 基于C~+ADC框架的数据清洗应用 63-65 6.3 框架的复用性能分析 65-67 6.4 本章小结 67-68 第7章 结束语 68-70 7.1 工作总结 68 7.2 下一步计划 68-70 参考文献 70-74 致谢 74-75 攻硕期间参加项目及发表论文情况 75
|
相似论文
- 魔力平台业务过程建模冲突消解的研究与实现,TP311.5
- 数据仓库技术在银行客户管理系统中的研究和实现,TP315
- 关联规则算法在高职院校贫困生认定工作中的应用,G717
- 家校互动教育平台中数据仓库的研究与应用,TP311.13
- 高校毕业生就业状况监测系统研究,G647.38
- 基于数据仓库的药品监管辅助决策支持系统的设计与实现,TP311.13
- 基于数据挖掘技术的电信客户维系挽留系统分析及应用,TP311.13
- PG炼钢厂MES系统数据挖掘的设计与开发,TP311.13
- 六盘水市烟草公司人力资源管理系统信息集成设计实现,TP311.52
- 基于领域本体的海洋环境数据仓库设计,TP311.13
- DWMS中元数据以及缓冲区的设计和实现,TP311.13
- DWMS列存储中执行引擎的优化与实现,TP311.13
- 纺织品服装出口的TBT风险监测与预警机理研究,TP311.13
- 税务数据仓库系统的设计与应用,TP311.13
- 医疗资源管理决策支持系统的研究与实现,TP311.52
- RFID数据清洗处理策略与算法,TP391.44
- 基于数据仓库的电信针对性营销支撑研究,F626;F274
- 基于数据挖掘技术的客户消费行为分析系统的开发与应用,TP311.13
- 基于数据仓库的学生管理决策支持系统设计与实现,TP311.52
- 基于POS数据的多维空间的营销分析,TP311.13
- 连续竞争反应装置的效益优化方法与应用研究,TQ015
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 程序设计 > 数据库理论与系统
© 2012 www.xueweilunwen.com
|