学位论文 > 优秀研究生学位论文题录展示
基于预处理技术的数据清理系统研究与实现
作 者: 李俊娴
导 师: 郑洪源
学 校: 南京航空航天大学
专 业: 计算机应用技术
关键词: 数据清理 数据预处理 孤立点检测 缩写发现 相似重复记录清理
分类号: TP311.52
类 型: 硕士论文
年 份: 2007年
下 载: 372次
引 用: 5次
阅 读: 论文下载
内容摘要
随着信息化工程的不断深入,许多企业在长期的运营过程中积累大量数据,这些数据能够反映企业生产经营过程中的规律。建立决策支持系统是利用已有数据的应用服务之一,但是基于劣质数据的决策是不可信的。纠正数据错误是避免错误决策、降低决策风险的重要一环,数据清理应运而生。本文深入研究数据预处理技术和数据清理技术。数据预处理技术分别针对数值型字段和字符型字段研究了孤立点的检测和缩写的发现;数据清理技术研究相似重复记录的清理。孤立点的检测使用一种基于邻域局部修剪的算法,利用垂直的数据结构—P-树实现算法,保证算法的有效性和高效率,并对算法做出改进,提高算法的适用性。在缩写发现技术中,重点研究基于动态规划的缩写发现算法,该算法不仅能处理西文字符而且能有效地发现中文缩写形式,改进后的算法具有较高的效率和较好的健壮性。数据清理部分对于相似重复记录的清理,分别研究英文、中文记录排序算法,不同类型字段的相似度计算方法,记录相似度计算方法以及相似重复记录的合并规则,并对以上相似重复记录清理的每个步骤都做出改进,提高了数据清理过程的正确率和执行效率。最后,本文给出了基于预处理技术的数据清理系统的初步实现,并将其应用到某项目中,验证结果表明:基于预处理技术的数据清理系统具有良好的运行效率和运行效果。
|
全文目录
摘要 4-5 ABSTRACT 5-11 第一章 绪论 11-24 1.1 研究背景 11-12 1.2 研究目的 12 1.3 数据质量和数据清理相关概念 12-22 1.3.1 数据质量 12-19 1.3.1.1 数据质量定义与评价指标 12-14 1.3.1.2 数据质量问题的分类 14-19 1.3.2 数据清理 19-22 1.3.2.1 数据清理内涵 19-20 1.3.2.2 数据清理技术研究现状 20-22 1.4 论文的内容和组织结构 22-24 第二章 基于预处理技术的数据清理系统设计 24-32 2.1 系统需求分析 24-25 2.2 系统体系结构 25-27 2.3 系统功能模块 27-31 2.3.1 数据预处理 27-30 2.3.2 数据清理 30-31 2.4 本章小结 31-32 第三章 数据预处理算法的研究与改进 32-52 3.1 孤立点检测 32-41 3.1.1 孤立点的定义和性质 32-34 3.1.2 基于邻域局部修剪的孤立点检测算法 34 3.1.3 P-树(P-tree)的简单介绍 34-38 3.1.3.1 构造 P-树 35 3.1.3.2 P-树的运算 35-38 3.1.4 利用 P-树实现孤立点检测算法 38-39 3.1.5 算法改进 39-41 3.2 缩写发现 41-51 3.2.1 编辑距离定义 43-44 3.2.2 动态规划算法 44-45 3.2.3 基于动态规划的缩写发现算法 45-50 3.2.4 算法改进 50-51 3.3 本章小结 51-52 第四章 相似重复记录清理算法的研究与改进 52-66 4.1 数据清理要解决的关键问题 52 4.2 相似重复记录清理简介 52-53 4.3 相似重复记录清理方法 53-63 4.3.1 相似重复记录清理的原理 53-55 4.3.2 记录排序算法 55-58 4.3.3 相似重复记录识别算法 58-62 4.3.4 相似重复记录合并方法 62-63 4.4 算法改进 63-65 4.5 本章小结 65-66 第五章 基于预处理技术的数据清理系统实现 66-79 5.1 项目背景 66 5.2 数据预处理模块实现 66-71 5.2.1 孤立点检测模块 66-70 5.2.2 缩写发现模块 70-71 5.3 相似重复记录清理模块实现 71-75 5.4 数据清理系统效果评价 75-78 5.5 本章小结 78-79 第六章 总结与展望 79-81 6.1 总结 79-80 6.2 展望 80-81 参考文献 81-86 致 谢 86-87 攻读硕士学位期间发表论文 87
|
相似论文
- 基于粗糙集的城市区域交通绿时控制系统研究,TP18
- 惯性运动捕捉系统中传感数据的传输与处理,TP212
- “嫦娥一号”微波探测仪数据预处理与分析,V446.9
- 基于粗糙集理论的决策树分类算法与应用研究,TP18
- 医疗临床路径挖掘方法研究与应用,TP311.13
- 基于Web使用挖掘的网站优化研究,TP393.092
- 基于孤立系数的孤立点检测研究,TP311.13
- 若干求解大规模问题的支持向量机算法,O212
- 电力营销系统中需电量预测的设计与实现,TM769
- 基于XML的数据预处理关键技术研究及应用,TP311.13
- 一种基于相似预测的粗糙集预处理研究,TP18
- 基于多传感器信息融合的关键技术的研究,TP202
- 中国西门塔尔牛遗传评估技术体系的建立,S823
- 教务管理信息系统伪缺失值检测研究,TP399-C1
- Hadoop的重复数据清理模型研究与实现,TP338.8
- 目标辐射光谱数据预处理方法研究,TH744.1
- Oracle环境下数据迁移技术研究与实现,TP311.138
- 基于Web日志挖掘的原型系统研究与实现,TP311.13
- 一种基于PageRank算法的孤立点检测方法及应用,TP311.13
- 基于Web Services的西安杨森渠道管理系统开发,TP311.52
- 基于数据预处理的入侵检测系统研究,TP393.08
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 软件工程 > 软件开发
© 2012 www.xueweilunwen.com
|