学位论文 > 优秀研究生学位论文题录展示

相似XML文档合并方法的研究

作 者: 何峰
导 师: 姜守旭
学 校: 哈尔滨工业大学
专 业: 计算机科学与技术
关键词: 子树匹配 XML连接 相似度量 聚类分析
分类号: TP311.13
类 型: 硕士论文
年 份: 2012年
下 载: 19次
引 用: 0次
阅 读: 论文下载
 

内容摘要


随着网络的发展,Internet上出现了越来越多的信息,XML(eXtensibleMarkup Language)是当前网络上最流行的交换和存储数据的工具。不同信息源的XML文档可能表示相同或相似的信息,但是这些信息可能存在大量的冗余。集成这样相似或者相同的信息是有意义的,因为用户能够从集成的数据中去除XML文档中冗余的信息并获得更为完整和有用的信息。本文介绍了几种XML相似性的度量方法,并提出了一种基于子树匹配的XML相似性度量方法。在XML子树相似性计算的过程中,本文不仅考虑子树叶子节点的PCDATA的值,还考虑了匹配的叶子节点所在路径的相似性。结合文本与路径相似性的计算,本文给出了子树相似性的定义。基于子树的相似性,本文提出了XML的相似性度量算法和XML的相似连接算法。实验结果证明了子树的相似性的计算有利于XML文档的连接。XML的聚类算法大多数都是基于树编辑距离的方法,这些聚类算法将XML文档两两比对,随着XML文档数目的增加,聚类时间会急剧增加。基于XML的层次结构,本文做了一些语义上的改进,并根据XML的层次结构定义了XML文档的相似性。在事物数据和CLOPE等增量式聚类算法的启发下,基于这种层次结构相似性进行了不需要两两比对的聚类。实验结果表明增量式XML聚类方法避免了XML文档两两相似度的计算,大大加快了XML的聚类速度。

全文目录


摘要  4-5
Abstract  5-8
第1章 绪论  8-14
  1.1 课题背景及研究的目的和意义  8-9
  1.2 国内外研究现状  9-11
  1.3 本文的主要研究工作  11-12
  1.4 本文的结构  12-14
第2章 XML 相似度量方法综述  14-20
  2.1 相关 XML 知识  14-16
  2.2 XML 相似度量方法  16-19
  2.3 XML 聚类方法  19
  2.4 本章小结  19-20
第3章 基于子树匹配的 XML 相似度量方法  20-40
  3.1 引言  20-23
  3.2 基于子树匹配的 XML 相关定义  23-30
    3.2.1 子树的划分  23-26
    3.2.2 子树的相似性  26-30
  3.3 基于子树相似性的 XML 相似度计算方法  30-33
    3.3.1 算法的基本思想  30-31
    3.3.2 算法描述  31-32
    3.3.3 算法分析  32-33
  3.4 基于子树相似性的 XML 连接算法  33-35
    3.4.1 算法的基本思想  33-34
    3.4.2 算法描述  34-35
    3.4.3 算法分析  35
  3.5 实验结果与分析  35-39
  3.6 本章小结  39-40
第4章 基于层次结构的 XML 聚类  40-52
  4.1 引言  40
  4.2 XML 层次结构及 XML 相似性  40-45
    4.2.1 基于层次结构的 XML 文档相似性  40-43
    4.2.2 加入标签的语义信息  43-44
    4.2.3 XML 相似性计算  44-45
  4.3 XML 聚类  45-46
  4.4 实验设计与分析  46-51
    4.4.1 实验环境与实验数据  46-47
    4.4.2 实验评价标准  47-48
    4.4.3 实验结果及分析  48-51
  4.5 本章小结  51-52
结论  52-53
参考文献  53-57
攻读硕士学位期间发表的论文及其它成果  57-59
致谢  59-60
个人简历  60

相似论文

  1. 大学生综合素质测评研究,G645.5
  2. 大豆品种对腐竹品质的影响及其品质评价体系的初步构建,TS214.2
  3. 21个荷花品种遗传多样性的ISSR分析,S682.32
  4. 桃杂交后代(F1)幼苗光合效能评价,S662.1
  5. 土壤环境功能区划研究,X321
  6. 大豆杂种优势及其遗传基础研究,S565.1
  7. 象草自交后代无性系的饲用价值及生物质能特性初步评价,S543.9
  8. 融合粒子群和蛙跳算法的模糊C-均值聚类算法研究,TP18
  9. 基于同化能力杂种优势早期评价的桃光合特性研究,S662.1
  10. 基于分治法的聚类方法研究,TP311.13
  11. 肺炎克雷伯菌耐药机制及分子流行病学研究,R446.5
  12. 重庆文化产业竞争力研究,F224
  13. 基于信息熵的聚类个数确定方法研究,TP311.13
  14. 河南周边省份马铁菊头蝠的种下分类研究,Q959
  15. 基于主成分分析法的我国沿海港口竞争力评价研究,F552
  16. 基于联合分析方法的中国快捷酒店行业消费偏好研究,F719
  17. 改进K-MEANS聚类算法在银行CRM中的应用与研究,TP311.13
  18. 数字学习中试题概念权重自动产生及其最佳化试题组合之研究,TP391.6
  19. 江苏省高新技术产业竞争力评价研究,F224
  20. 草原公路光环境对驾驶员生理指标的影响研究,U491.254
  21. 空间信息处理中基于模糊技术的数学模型的改进,O159

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 程序设计 > 数据库理论与系统
© 2012 www.xueweilunwen.com