学位论文 > 优秀研究生学位论文题录展示

基于聚类模式的数据清洗技术

作 者: 唐懿芳
导 师: 张师超;严小卫
学 校: 广西师范大学
专 业: 计算机软件与理论
关键词: 数据清洗 数据转换 Canopy聚类技术 合并/清洗问题 复制记录
分类号: TP311.13
类 型: 硕士论文
年 份: 2003年
下 载: 309次
引 用: 2次
阅 读: 论文下载
 

内容摘要


为了高额利润,许多公司正在大量地使用网上的廉价信息。这导致公司的数据量日趋增大。因此,从巨量的数据集中快速地找出感兴趣的模式已成为一个紧迫的任务。数据挖掘为解决这一问题提供了许多有效的算法和技术。然而,这些技术是建立在正确的、相关的和无冲突的数据这个假设之上。因为现实生活中的数据通常是肮脏的,这些技术离实际应用还有一段很长的距离。所以,数据清洗是数据挖掘中的不可少的关键步骤。它直接关系到获取的知识的质量和数据挖掘算法的效率。数据清洗的研究一般可粗略地分为两个部分:⑴纠正数据的错误。⑵把多个数据源整合以获得实时对象更为完整的信息。其中数据源整合在很多相关领域都是一个重要的处理步骤。任何大型实时数据集在整合过程中,数据的质量、正确度、一致性、完备性和可信度都是数据整合好坏的关键。遗憾的是,数据的输入和获取经常倾向于含有或多或少的错误。总结起来,整合过程中出现的数据异常主要是由以下几个方面引起:⑴数据库之间缺乏统一的标志。即表示同一对象的数据库记录的id不唯一,这就是所谓的对象识别问题。⑵不同组织采用不同的格式表示数据,这对数据的整合也造成一定的困难。⑶输入大量的数据时,总会或多或少出现一些错误。⑷存在不一致的数据。合并多个数据源后,由于各种数据源表示模式,表示惯例并不相同,再加上一些输入错误、不一致的缩写等其他因素,使得合并后的数据存在不同描述但却表示同一实体的情况,称为复制记录。基于数据的一致性原则,所有数据源都不允许出现复制记录,我们必须检测出复制记录,并删除它。本文首先阐述了数据清洗在多个领域的重要作用,介绍了目前国内外数据清洗领域的研究状况,并指出现有技术存在的不足,针对这些不足之处,提出了自<WP=6>己的解决办法,并通过实验结果验证了所提出算法的有效性和准确性。本文的主要工作可以概括为以下几个方面:⑴ 分析了当前数据清洗的研究现状,指出了当前数据清洗系统存在的不足。当前的数据清洗系统都缺少预处理的操作,这增加了后面数据清洗的负担。论文提出了一种利用外部源文件擦除脏数据的方法,它能对一些简单的数据错误和不一致现象进行处理,并设法避免了名称缩写不一致的情况,使得数据清洗的处理达到更好的效果,同时还提出了一个按照特定要求转化成多个不同结构数据库方法的新思路。⑵ 采用针对大型数据的Canopy聚类技术对数据记录进行匹配,并提出一种下调距离阈值方法,减少了需要精确计算的记录对之间的计算量。公司在做数据分析和做出商业决策时都需要对多个信息源进行整合。在整合的过程中,我们必须识别出表示同一实体的不同描述形式,以得到对象更为完整的信息。论文对此做了一些研究。⑶ 针对现有检测复制记录技术存在的不足,我们提出了利用Canopy聚类技术聚类复制记录的方法。由于大型数据不可避免的会产生一些错误的、不一致的、遗漏属性的数据,整合过程不能完全识别相同的实体,这就导致了复制记录的产生。而为了数据的一致性,我们必须检测出这些复制记录并删除掉。我们提出的方法分为两个阶段进行,首先用倒排检索方法得到一些大致的聚类,此阶段避免了用键值表示记录时,由于数据本身错误导致抽取的键值发生错误,最终得到错误的结果这种情况,同时选择键值是一个领域相关的问题,论文提出的方法不需要选择键值,是一种与应用领域无关的算法。第二阶段只针对Canopy内的数据记录进行精确聚类,使得算法在保证准确性的前提下,提高了效率。⑷ 现在的信息都是动态变化的,本文对这个问题提出了一些探讨,提出了一个有效的可扩展性算法,既可避免了重复的数据操作,又能自动地处理变化的情况。

全文目录


中文摘要  5-7
英文摘要  7-10
第一章 绪论  10-18
  1.1 引言  10-11
  1.2 数据清洗研究的主要领域  11-13
    1.2.1 数据仓库中的数据清洗  11-13
    1.2.2 知识发现过程中的数据清洗  13
    1.2.3 数据质量管理系统中的数据清洗  13
  1.3 数据清洗研究的现状  13-15
    1.3.1 当前纠正数据错误的研究状况  13-15
    1.3.2 数据清洗中数据源整合的相关工作  15
  1.4 当前数据清洗方法存在的问题  15-16
  1.5 本文的研究内容及组织结构  16-18
    1.5.1 研究内容  16-17
    1.5.2 论文内容安排  17-18
第二章 数据清洗前的预处理  18-24
  2.1 引言  18
  2.2 清除脏数据和标准化简写  18-22
    2.2.1 清除脏数据  19-21
    2.2.2 缩写标准化的处理  21-22
  2.3 数据的转换  22-23
  2.4 小结  23-24
第三章 基于聚类的多数据表记录匹配算法  24-44
  3.1 引言  24-25
  3.2 键值的选取  25-26
  3.3 记录的匹配算法  26-31
    3.3.1 记录匹配的相关工作  27-28
    3.3.2 所用的聚类技术  28-29
    3.3.3 创建Canopy的步骤  29-31
  3.4 多表记录匹配的算法  31-40
    3.4.1 一对一的多表匹配算法  33-37
    3.4.2 一对多与多对多匹配的算法  37-40
  3.5 算法的复杂度分析  40-41
  3.6 实验结果与分析  41-43
  3.7 小结  43-44
第四章 基于聚类的复制记录删除算法  44-56
  4.1 引言  44-45
  4.2 检测复制记录的算法  45-50
  4.3 删除复制记录  50
  4.4 算法的优化和可扩展性  50-51
  4.5 算法的复杂度分析  51-52
  4.6 实验结果及分析  52-55
    4.6.1 准确性的量度与阈值选择的相互验证  52-53
    4.6.2 实验结果  53-55
  4.7 小结  55-56
第五章 总结及进一步工作  56-58
  5.1 全文总结  56-57
  5.2 进一步工作  57-58
致谢  58-59
参考文献  59-63
附录A:作者简历  63

相似论文

  1. 汉文古籍标准化元数据转换研究与应用,TP391.1
  2. RFID数据清洗处理策略与算法,TP391.44
  3. 基于CAN的汽车制动测试系统的研究与实现,U467.5
  4. 三维二阶校正算法及其应用研究,O652
  5. 电力行业办公自动化的研究与实现,TM76
  6. Deep Web数据清洗方法研究及应用,TP393.09
  7. 数据资源汇聚的可视化建模技术研究与应用,TP311.52
  8. 基于XML技术异构数据转换模型的研究与实现,TP311.52
  9. 基于XQuery的联系人管理系统开发,TP311.52
  10. 多源数据清洗策略研究及在财政部门预算中的应用,TP311.13
  11. 基于SSIS的数据起源追踪系统研究与实现,TP311.52
  12. 基于XML的异构数据库相互转换的研究与实现,TP311.13
  13. 电信计费系统的分析和实现,TP311.52
  14. 基于XML的数据预处理关键技术研究及应用,TP311.13
  15. Deep Web数据源下重复记录识别模型的研究,TP311.13
  16. 基于统一映射规则的数据转换方法的研究与应用,TP399-C2
  17. 构件化数据清洗框架的研究与实现,TP311.13
  18. 基于多Agent的数据清洗系统的研究与实现,TP311.52
  19. 面向SMT的电子电路变批量柔性制造应用平台研究,TN710
  20. GARMIN G1000系统总线分析与数据转换平台研究,V247.5
  21. 序列模式挖掘在医疗保险上的应用,TP311.13

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 程序设计 > 数据库理论与系统
© 2012 www.xueweilunwen.com