学位论文 > 优秀研究生学位论文题录展示

基于语义关联的重复数据清理技术研究

作 者: 黄莉
导 师: 金海
学 校: 华中科技大学
专 业: 计算机系统结构
关键词: 语义关联 重复数据清理 名字歧义消除 实体识别 语义上下文 关联图数据清理 K-半径子图比较
分类号: TP311.13
类 型: 博士论文
年 份: 2011年
下 载: 128次
引 用: 0次
阅 读: 论文下载
 

内容摘要


重复数据的出现会给数据质量带来极大的困扰,严重影响着数据处理和分析的效率,如何对重复数据进行清理是数据处理研究的重要问题。然而,随着数据的急剧增长,数据源的多样性,同名、多词一义等歧义实体的出现,关联数据的大量涌现给现有的重复数据清理方法带来了挑战。现有的重复数据清理方法存在着检测结果不全面,对歧义实体的检测精确度不高,检测时间花费长,计算复杂性高等问题。因此,重复数据的清理研究需从重复数据检测结果的全面、准确、高效等方面展开。这三个方面在一定程度上相互制约,一味追求高的查全率会影响查准率,一味追求高效也会对查全查准产生影响。如何使这三个方面达到一个平衡点,是重复数据检测研究的重点。基于语义关联的重复数据清理,是通过数据之间的语义关系来检测数据之间的重复性、区分模糊信息、过滤掉不相干的数据,解决去重问题中大规模数据比较带来检测效率问题。针对数据源的多样性、数据记录之间的差异对重复数据检测的查全的影响,提出一种基于长度过滤动态权值的数据比较方法。该方法首先针对重复数据检测的两两数据对的比较的计算量大的问题,在数据对比较前,根据数据对的长度差,过滤掉不可能是重复数据的数据对。减少参加数据比对的数据对的个数,以提高检测的效率。然后针对不同数据源之间数据记录的差异影响检测的查全问题,动态的为记录各属性赋权值,减少记录之间因属性缺省对相似度计算的影响,提高重复检测查全率。最后对现有的检测方法对查全的问题进行了改进,提出一种基于动态滑动窗口的数据比较策略。该策略以动态的滑动窗口来控制数据与其它数据比较,进一步提高重复数据的查全率。该方法平均查全率,查全率和查准率调合平均值,均高于现有的检测方法,在提高查全率的同时,没有降低检测的查准率。针对重名、多词一义等歧义实体给重复数据检测带来的影响,提高重复数据清理的准确性的问题,提出一种基于语义关联的实体识别方法。该方法跳出实体数据本身的比较,通过分析实体之间不同类别的语义关联与其作用,并利用实体之间的两种类别的语义关联—相似语义关联和关联语义关联,将歧义实体进行聚类和合并处理,以达到消除实体歧义模糊问题的目的。针对数据量的急剧增加影响重复数据检测效率的问题,为了更进一步的提高在大规模异构数据整合中而产生的重复数据的检测的效率,提出一种“最可能重复”的数据集划分思想,该思想将最可能是重复的数据划分在一个部分里,以减小重复数据检测的范围。基于此思想结合数据的语义链网络提出一种基于语义关联的数据清理策略。该策略利用数据之间的语义链关系的分析和推理,将最可能是重复数据的数据聚类在同一部分中,以达到减小数据比较次数和提高检测精度,提高检测效率的目的。该方法在提高检测效率的同时,查全查准率的调合平均值高于现有的重复数据检测方法。提高效率的同时,没有对检测的查全查准率带来影响。随着语义网技术的发展,关联图数据的大量出现也带来了新的挑战。针对关联数据中存在的重复数据清理的问题,提出一种K-半径子图比较方法。该方法针对关联数据间的错综复杂的关系,提出一种关联层次图模型。该模型可以将关联数据之间复杂的关系在简单图中进行清楚的表达,并可以在关联数据中进行无缝转换。并在此模型上,通过对相似节点的“语义上下文”信息的比较,来对数据是否为重复进行判定。从而避免关联图数据中的数据的歧义模糊问题,以提高关联图数据中数据检测的效率。

全文目录


摘要  4-6
Abstract  6-10
1 绪论  10-24
  1.1 研究背景  10-12
  1.2 国内外研究现状  12-20
  1.3 研究的目的和意义  20-21
  1.4 论文的组织结构  21-24
2 基于数据过滤和动态权值的数据比较方法  24-40
  2.1 概述  24-26
  2.2 相关定义  26-28
  2.3 基于长度过滤动态权值策略  28-34
  2.4 基于动态滑动窗口数据比较策略  34-35
  2.5 性能评价  35-39
  2.6 本章小结  39-40
3 基于语义关联实体识别技术  40-54
  3.1 概述  40-42
  3.2 实体间的语义关联  42-43
  3.3 基于语义关联的实体识别方法  43-47
  3.4 性能评价  47-53
  3.5 本章小结  53-54
4 基于语义关联的数据划分  54-75
  4.1 概述  54-56
  4.2 相关概念及定义  56-61
  4.3 "最可能重复"的划分策略  61-67
  4.4 基于语义关联划分的重复数据清理过程  67-68
  4.5 性能评价  68-73
  4.6 本章小结  73-75
5 基于K-半径子图的语义关联图数据比较方法  75-94
  5.1 概述  75-76
  5.2 RDF数据的层次图模型  76-79
  5.3 基于K-半径子图比较数的据清理方法  79-84
  5.4 性能评价  84-92
  5.5 本章小结  92-94
6 总结与展望  94-96
致谢  96-98
参考文献  98-108
附录1 攻读博士学位期间发表的论文目录  108-109
附录2 攻读博士学位期间申请发明专利与软件著作版权  109-110
附录3 攻读博士学位期间参与的科研项目  110-111
附录4 个人简历  111

相似论文

  1. 乔治·米勒的认知意义论,B842.1
  2. 英文文本中命名实体识别及关系抽取技术研究,TP391.1
  3. 情景应对模式下数字化应急预案的语义模型研究,TP391.1
  4. 基于本体的医学命名实体识别技术研究,TP391.1
  5. 基于CRF的命名实体和关系的联合抽取,TP391.4
  6. 基于点击数据和搜索结果片断的命名实体挖掘,TP391.3
  7. 中文命名实体识别与歧义消解研究,TP391.1
  8. 基于内容的Web新闻文本自动分类问题研究,TP391.1
  9. 中文命名实体识别及若干相关问题的研究,TP391.41
  10. 基于结果模式的Deep Web数据抽取机制的研究,TP393.09
  11. 基于条件随机场的中文命名实体识别研究,TP391.4
  12. 基于条件随机场的中文命名实体识别,TP391.43
  13. 本地搜索领域POI缩略词词典的研究,TP391.3
  14. 基于原型范畴理论的英语词汇识记研究,H319
  15. 基于分类器融合的生物医学命名实体与关系识别研究,TP391.4
  16. “S+V_j+什么+O”构式研究,H146
  17. 刑事案件文本信息抽取研究,G353.1
  18. XML数据实体识别关键技术的研究,TP311.13
  19. 汉英双向时间数字和数量词的识别与翻译技术,TP391.2
  20. 基于短信的旅游领域实体问答系统研究,TP311.13
  21. 基于CRF的中文命名实体识别研究,TP391.43

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 程序设计 > 数据库理论与系统
© 2012 www.xueweilunwen.com