学位论文 > 优秀研究生学位论文题录展示
相似XML文档合并方法的研究
作 者: 何峰
导 师: 姜守旭
学 校: 哈尔滨工业大学
专 业: 计算机科学与技术
关键词: 子树匹配 XML连接 相似度量 聚类分析
分类号: TP311.13
类 型: 硕士论文
年 份: 2012年
下 载: 19次
引 用: 0次
阅 读: 论文下载
内容摘要
随着网络的发展,Internet上出现了越来越多的信息,XML(eXtensibleMarkup Language)是当前网络上最流行的交换和存储数据的工具。不同信息源的XML文档可能表示相同或相似的信息,但是这些信息可能存在大量的冗余。集成这样相似或者相同的信息是有意义的,因为用户能够从集成的数据中去除XML文档中冗余的信息并获得更为完整和有用的信息。本文介绍了几种XML相似性的度量方法,并提出了一种基于子树匹配的XML相似性度量方法。在XML子树相似性计算的过程中,本文不仅考虑子树叶子节点的PCDATA的值,还考虑了匹配的叶子节点所在路径的相似性。结合文本与路径相似性的计算,本文给出了子树相似性的定义。基于子树的相似性,本文提出了XML的相似性度量算法和XML的相似连接算法。实验结果证明了子树的相似性的计算有利于XML文档的连接。XML的聚类算法大多数都是基于树编辑距离的方法,这些聚类算法将XML文档两两比对,随着XML文档数目的增加,聚类时间会急剧增加。基于XML的层次结构,本文做了一些语义上的改进,并根据XML的层次结构定义了XML文档的相似性。在事物数据和CLOPE等增量式聚类算法的启发下,基于这种层次结构相似性进行了不需要两两比对的聚类。实验结果表明增量式XML聚类方法避免了XML文档两两相似度的计算,大大加快了XML的聚类速度。
|
全文目录
摘要 4-5 Abstract 5-8 第1章 绪论 8-14 1.1 课题背景及研究的目的和意义 8-9 1.2 国内外研究现状 9-11 1.3 本文的主要研究工作 11-12 1.4 本文的结构 12-14 第2章 XML 相似度量方法综述 14-20 2.1 相关 XML 知识 14-16 2.2 XML 相似度量方法 16-19 2.3 XML 聚类方法 19 2.4 本章小结 19-20 第3章 基于子树匹配的 XML 相似度量方法 20-40 3.1 引言 20-23 3.2 基于子树匹配的 XML 相关定义 23-30 3.2.1 子树的划分 23-26 3.2.2 子树的相似性 26-30 3.3 基于子树相似性的 XML 相似度计算方法 30-33 3.3.1 算法的基本思想 30-31 3.3.2 算法描述 31-32 3.3.3 算法分析 32-33 3.4 基于子树相似性的 XML 连接算法 33-35 3.4.1 算法的基本思想 33-34 3.4.2 算法描述 34-35 3.4.3 算法分析 35 3.5 实验结果与分析 35-39 3.6 本章小结 39-40 第4章 基于层次结构的 XML 聚类 40-52 4.1 引言 40 4.2 XML 层次结构及 XML 相似性 40-45 4.2.1 基于层次结构的 XML 文档相似性 40-43 4.2.2 加入标签的语义信息 43-44 4.2.3 XML 相似性计算 44-45 4.3 XML 聚类 45-46 4.4 实验设计与分析 46-51 4.4.1 实验环境与实验数据 46-47 4.4.2 实验评价标准 47-48 4.4.3 实验结果及分析 48-51 4.5 本章小结 51-52 结论 52-53 参考文献 53-57 攻读硕士学位期间发表的论文及其它成果 57-59 致谢 59-60 个人简历 60
|
相似论文
- 大学生综合素质测评研究,G645.5
- 大豆品种对腐竹品质的影响及其品质评价体系的初步构建,TS214.2
- 21个荷花品种遗传多样性的ISSR分析,S682.32
- 桃杂交后代(F1)幼苗光合效能评价,S662.1
- 土壤环境功能区划研究,X321
- 大豆杂种优势及其遗传基础研究,S565.1
- 象草自交后代无性系的饲用价值及生物质能特性初步评价,S543.9
- 融合粒子群和蛙跳算法的模糊C-均值聚类算法研究,TP18
- 基于同化能力杂种优势早期评价的桃光合特性研究,S662.1
- 基于分治法的聚类方法研究,TP311.13
- 肺炎克雷伯菌耐药机制及分子流行病学研究,R446.5
- 重庆文化产业竞争力研究,F224
- 基于信息熵的聚类个数确定方法研究,TP311.13
- 河南周边省份马铁菊头蝠的种下分类研究,Q959
- 基于主成分分析法的我国沿海港口竞争力评价研究,F552
- 基于联合分析方法的中国快捷酒店行业消费偏好研究,F719
- 改进K-MEANS聚类算法在银行CRM中的应用与研究,TP311.13
- 数字学习中试题概念权重自动产生及其最佳化试题组合之研究,TP391.6
- 江苏省高新技术产业竞争力评价研究,F224
- 草原公路光环境对驾驶员生理指标的影响研究,U491.254
- 空间信息处理中基于模糊技术的数学模型的改进,O159
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 程序设计 > 数据库理论与系统
© 2012 www.xueweilunwen.com
|