学位论文 > 优秀研究生学位论文题录展示

数据清洗算法的研究与应用

作　者: 周奕辛
导　师: 于忠清
学　校: 青岛大学
专　业: 计算机软件与理论
关键词: 数据清洗属性清洗重复记录清洗字段匹配编辑距离缩写发现
分类号: TP311.11
类　型: 硕士论文
年　份: 2005年
下　载: 630次
引　用: 28次
阅　读: 论文下载

内容摘要

随着信息技术的飞速发展,组织的管理人员进行决策分析时对数据的依赖性越来越强。于是在数据库的基础上产生了能够满足决策分析所需要的数据环境—数据仓库。但是在构建数据仓库的过程中,从异构的数据源中导入的数据中存在各种质量问题,使得应用于数据仓库前端的决策支持系统产生错误的分析结果,影响信息服务的质量。所以必须对其进行数据清洗来提高其质量。数据清洗正在成为数据仓库和数据挖掘领域,乃至网络数据处理的一个重要课题。本文首先对数据清洗的知识进行了全面和详细的描述,介绍了数据清洗的概念、意义和国内外研究与应用的现状。对数据清洗技术的原理、方法、评价标准以及基本流程进行了分析和总结。其中重点对属性清洗及重复记录清洗所用到的技术和各种算法进行了深入的研究,并提出了相应的改进算法。在属性清洗中,简单介绍了属性清洗的基本知识和方法,重点研究了如何应用统计分析和人工智能的技术自动检测数据集中属性值的错误,并给出了在数据集上的实验结果及结论。在重复记录清洗中,首先介绍了重复记录清洗的相关知识和基本流程,然后分别就流程中各个步骤所涉及的关键算法进行了深入的研究,并针对各步中算法的缺陷进行了改进。主要包括:① 预处理步骤中,改进的排序关键字对数据集排序的方法;② 重复记录检测步骤中,针对中文字段值的特点提出的基于编辑距离的字段匹配算法和缩写发现算法;提出了利用有效权值和长度过滤的优化算法进行记录匹配,减少重复记录的检测时间,提高算法的效率;③ 在数据库级上对重复记录进行聚类的步骤中,针对传统的SNM方法的两个缺陷提出了改进的SNM算法,实验结果表明,改进的SNM算法要优于传统的算法。最后,为解决构建青岛市港务局数据仓库的过程中遇到的数据质量和数据清洗问题,结合前面进行的研究工作设计了一个实验性的数据清洗工具。设计该工具的目的是对这些数据进行数据清洗,同时对本文中提出的改进的算法的有效性进行检验和验证。结果表明改进的算法有较好的效果,基本上能达到实际应用的要求。在本文的结尾,对所做的工作进行了总结,并对未来数据清洗技术的研究方向进行了展望。

全文目录

第一章概述  7-14
  1.1 问题的提出  7-8
  1.2 数据质量  8-9
    1.2.1 数据质量的描述  8
    1.2.2 数据质量问题的分类  8-9
  1.3 数据清洗定义与简介  9-10
    1.3.1 数据仓库应用中的数据清洗定义  9
    1.3.2 KDD应用中的数据清洗定义  9
    1.3.3 数据／信息质量管理应用中的数据清洗定义  9-10
  1.4 数据清洗技术研究现状  10-12
    1.4.1 国外研究现状  10-12
    1.4.2 国内研究现状  12
  1.5 本文的研究内容与章节安排  12-14
第二章数据清洗知识  14-20
  2.1 数据清洗的原理和方法  14-16
    2.1.1 数据清洗的原理  14
    2.1.2 数据清洗的方法  14-16
  2.2 数据清洗的基本流程  16-18
  2.3 数据清洗的评价标准  18-20
    2.3.1 成本效益  18-19
    2.3.2 数据质量  19
    2.3.3 数据集成  19-20
第三章属性清洗  20-26
  3.1 属性清洗的对象  20
  3.2 属性清洗的基本方法  20-21
    3.2.1 缺失值的清洗方法  20-21
    3.2.2 错误值的检测及清洗方法  21
    3.2.3 不一致数据的清洗方法  21
  3.3 自动检测属性错误的方法  21-24
    3.3.1 统计分析的方法  22
    3.3.2 聚类的方法  22-23
    3.3.3 基于模式的方法  23
    3.3.4 关联规则的方法  23-24
  3.4 实验结果  24-26
    3.4.1 实验数据集介绍  24-25
    3.4.2 实验结果分析  25-26
第四章重复记录清洗  26-49
  4.1 重复记录清洗简介  26-28
    4.1.1 重复记录的定义  26
    4.1.2 重复记录清洗的意义  26-27
    4.1.3 重复记录清洗的基本流程  27-28
  4.2 预处理  28-30
    4.2.1 属性选择  28
    4.2.2 初步聚类  28-30
    4.2.3 分配属性的权重  30
  4.3 重复记录检测  30-42
    4.3.1 字段匹配问题  30-38
      4.3.1.1 基本的字段匹配算法  31
      4.3.1.2 递归的字段匹配算法  31-32
      4.3.1.3 Smith-Waterman算法  32-33
      4.3.1.4 改进的Smith-Waterman算法(R-S-W算法)  33
      4.3.1.5 基于编辑距离的字段匹配算法及缩写发现算法  33-38
    4.3.2 记录匹配问题  38-42
      4.3.2.1 记录相似度和有效权值  38-39
      4.3.2.2 长度过滤优化算法  39-42
  4.4 数据库级重复记录聚类  42-47
    4.4.1 基本近邻排序算法SNM  42-43
    4.4.2 多趟近邻排序算法MPN  43-44
    4.4.3 优先权队列算法  44-45
    4.4.4 改进的SNM算法  45-46
    4.4.5 衡量重复记录清洗算法效率的度量标准  46-47
    4.4.6 实验结果  47
  4.5 冲突处理  47-49
第五章应用工具的设计  49-52
  5.1 应用背景  49
  5.2 源数据中存在的问题  49-50
  5.3 工具的框架结构和操作流程  50-51
    5.3.1 工具的框架结构  50-51
    5.3.2 工具的操作流程  51
  5.4 工具的优缺点  51-52
第六章总结与展望  52-54
  6.1 本文所做工作的总结  52
  6.2 未来研究方向的展望  52-54
参考文献  54-57
攻读硕士学位期间发表的论文  57-58
致谢  58-59
学位论文独创性声明  59
学位论文知识产权权属声明  59-60

数据清洗算法的研究与应用

内容摘要

全文目录

相似论文