学位论文 > 优秀研究生学位论文题录展示

XML数据实体识别关键技术的研究

作 者: 韩哲
导 师: 高宏
学 校: 哈尔滨工业大学
专 业: 计算机科学与技术
关键词: XML 实体识别 语义 优化算法 聚簇
分类号: TP311.13
类 型: 硕士论文
年 份: 2011年
下 载: 50次
引 用: 0次
阅 读: 论文下载
 

内容摘要


随着网络技术的飞速发展,用XML表示与存储的数据量与日俱增,尤其在网络数据的发布,各组织间的数据交换以及电子商务等应用领域中。XML已经成为数据表示,存储与交换的标准,在XML信息的识别与整合应用中,XML数据的实体识别技术有着大量的需求。目前,在XML数据实体识别的研究中,主要的方法是基于距离度量和相似性函数,而且研究人员忽略了XML数据实体识别的优化问题。但在现实世界中,一方面,不同源数据集的表现形式往往不同,而且数据经常是非清洁的,相似的XML数据不一定表示同一实体,指代同一实体的XML数据并不一定具有相似性。另一方面,源数据集通常包含多个可区分的实体信息,在进行实体识别时,存在着很多无用的代价消耗,具有较大的优化空间。本文提出了基于语义规则的XML数据实体识别方法和基于双聚簇优化算法。首先提出了“类树结构”,类树结构利用了描述实体的结点和XPath路径的语义,它是由比较符连接的,带有XPath限制的可比较结点对。其次,根据类树结构和一组语义规则集推导出若干用于实体匹配的“识别类树体”,“识别类树体”能够保证在源数据集非清洁时,得到较好的实体识别效果。然后,在XML源数据集的规模上,进行了优化。在两个XML数据集上进行实体识别时,首先为各XML树建立索引,并将索引相似的XML数据聚为一簇,而不在任何聚簇中的数据,无需进行进一步的实体识别操作。最后,实验验证了本文提出的算法在保证了准确率的前提下,具有较高的效率,并且优化算法取得了较好的优化效果。

全文目录


摘要  4-5
ABSTRACT  5-8
第1章 绪论  8-17
  1.1 课题背景及研究的目的和意义  8-9
  1.2 XML 数据实体识别的研究现状  9-14
  1.3 本文研究的主要内容  14-16
  1.4 本文的结构安排  16-17
第2章 预备知识  17-21
  2.1 XML  17-18
  2.2 XML 数据模型  18-19
  2.3 XML 模式  19-20
  2.4 XPath  20
  2.5 XML 数据的解析  20
  2.6 本章小结  20-21
第3章 基于语义的XML 数据实体识别方法  21-44
  3.1 XML 数据实体识别问题的定义  21-24
  3.2 类树体与类树结构推导  24-33
    3.2.1 类树结构  26-29
    3.2.2 识别类树体与类树结构推导  29-33
  3.3 类树体群算法  33-35
  3.4 推理最优识别类树体  35-37
  3.5 实验分析  37-42
    3.5.1 实验环境  37
    3.5.2 实验数据集  37-39
    3.5.3 本文方法的准确度  39-40
    3.5.4 本文方法的效率分析  40-41
    3.5.5 参数的影响  41-42
  3.6 本章小结  42-44
第4章 基于双聚簇的XML 数据匹配优化方法  44-55
  4.1 索引结点的选择方法  45-46
  4.2 XML 数据集双聚簇算法  46-49
  4.3 XML 数据双聚簇算法的理论分析  49-52
  4.4 实验分析  52-54
    4.4.1 实验环境及数据集  52
    4.4.2 优化方法的效率分析  52-53
    4.4.3 参数的影响  53-54
  4.5 本章小结  54-55
结论  55-57
参考文献  57-60
攻读硕士学位期间发表的学术论文  60-62
致谢  62

相似论文

  1. 基因调控网络模型描述语言研究,Q78
  2. 《左传》名词陈述化研究,H146
  3. 支持XML数据查询的F&B索引结构的研究,TP311.13
  4. 基于多示例学习的用户关注概念区域发现,TP391.41
  5. LXI自动测试系统集成技术研究,TP274
  6. 基于粒子群算法求曲线/曲面间最小距离方法,O182
  7. 基于网络的服装款式设计系统的研究与实现,TS941.2
  8. 基于MDA的界面自动生成方法的研究,TP311.5
  9. 药品扩散中的优化控制及其数值方法,R91
  10. 融合粒子群和蛙跳算法的模糊C-均值聚类算法研究,TP18
  11. 面向业务过程的服务动态组合方法研究,TP393.09
  12. 基于本体的语义检索研究,TP391.3
  13. 乔治·米勒的认知意义论,B842.1
  14. C++代码缺陷检测系统的研究与设计,TP311.53
  15. 基于Web的科学计算遗留应用共享技术研究,TP393.09
  16. 一种基于领域本体的语义Web服务匹配和组合方法,TP393.09
  17. 心智游移频率特征研究:问卷开发,B841
  18. 基于XML的异构数据交换系统的设计与实现,TP311.52
  19. 基于语义网络的智能搜索引擎研究,TP391.3
  20. 汉语框架自动识别中的歧义消解,TP391.1
  21. 《摩诃僧祗律》范围副词研究,H141

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 程序设计 > 数据库理论与系统
© 2012 www.xueweilunwen.com