学位论文 > 优秀研究生学位论文题录展示
概率XML数据上关键字检索算法的研究与实现
作 者: 赵越
导 师: 王国仁
学 校: 东北大学
专 业: 计算机应用技术
关键词: 概率XML数据 关键字 检索
分类号: TP391.3
类 型: 硕士论文
年 份: 2009年
下 载: 17次
引 用: 0次
阅 读: 论文下载
内容摘要
网络的发展日新月异,很多普通的用户都可以通过网络来查找所有它们感兴趣的信息。关键字检索这种方式正是普通用户用来查找它们感兴趣信息的主要方式,因为关键字检索并不需要用户学习任何复杂的查询语言,也不需要了解底层数据的结构。随着不确定数据的出现,如何管理这些不确定数据已经越来越多的得到研究者的重视。本文采用一种概率XML数据模型——p document,该模型是表示不确定数据的一种方式。研究者可以通过在该模型上进行数据查询的方式来实现对不确定数据的管理。现有的关键字检索方法都是针对普通XML数据来进性研究的,为了实现概率XML数据的关键字检索,本文将概率XML数据处理方法以及SLCA关键字检索算法相结合,提出了基于SLCA的概率XML数据关键字检索算法和改进的基于SLCA的关键字检索算法。基于SLCA的概率XML数据关键字检索算法通过遍历概率XML数据,根据概率XML数据中概率分布节点来生成普通XML数据。在普通XML数据上执行关键字检索算法。当XML数据集很大时,处理XML数据将变成一个十分繁琐的问题。因此本文在该算法的基础上提出了改进的基于SLCA的概率XML数据关键字检索算法。算法通过阈值的设定和概率值的计算,将会减少所生成的XML数据量。由于减少了大量的检索数据,在进行关键字检索时会缩短检索时间,实现算法的优化。
|
全文目录
摘要 5-6 Abstract 6-7 目录 7-10 第1章 绪论 10-18 1.1 研究背景 10-13 1.1.1 XML数据简介 10-11 1.1.2 概率XML数据的产生 11-12 1.1.3 一个概率XML数据实例 12-13 1.2 相关概念 13-16 1.2.1 XML文档模型 13-14 1.2.2 XML文档编码 14-16 1.3 本文的研究目的及意义 16 1.4 本文组织结构 16-18 第2章 相关工作 18-28 2.1 概率XML数据处理技术 18 2.2 XML数据查询语言 18-22 2.2.1 Xpath 19-20 2.2.2 XQuery 20-22 2.3 已有的关键字检索算法 22-25 2.3.1 SLCA 22 2.3.2 XLCA 22-24 2.3.3 Interconnection Relationship 24 2.3.4 MLCA 24-25 2.4 本章小结 25-28 第3章 基于SLCA的概率XML数据关键字检索算法 28-40 3.1 关键字检索算法SLCA 28-33 3.1.1 SLCA结果集定义 28-29 3.1.2 SLCA结果集算法描述 29-33 3.2 概率XML数据处理原则 33-38 3.2.1 概率XML数据模型 34-35 3.2.2 概率分布节点的处理方法 35-38 3.3 本章小结 38-40 第4章 改进的基于SLCA的概率XML数据关键字检索算法 40-52 4.1 阈值计算 40-42 4.1.1 阈值计算的重要性 40-41 4.1.2 阈值计算方法 41-42 4.2 概率XML数据处理方法 42-45 4.2.1 互斥节点 42-44 4.2.2 独立节点 44-45 4.3 概率值计算 45-50 4.4 本章小结 50-52 第5章 性能测试和分析 52-60 5.1 测试环境及测试数据集 52-53 5.1.1 测试环境 52 5.1.2 测试数据集 52-53 5.1.3 查询设置 53 5.2 算法性能测试 53-60 5.2.1 查全率测试 54-55 5.2.2 查准率测试 55-57 5.2.3 检索时间测试 57-60 第6章 总结 60-62 6.1 本文结论及贡献 60-61 6.2 未来的研究方向 61-62 参考文献 62-66 致谢 66-68 硕士期间发表的论文及参与的项目 68
|
相似论文
- 用于检索的人脸特征提取与匹配算法研究,TP391.41
- 基于用户兴趣特征的图像检索研究与实现,TP391.41
- 基于词义及语义分析的问答技术研究,TP391.1
- Q学习在基于内容图像检索技术中的应用,TP391.41
- 基于内容的服装图像检索技术研究及实现,TP391.41
- 基于多示例学习的用户关注概念区域发现,TP391.41
- 直推式支持向量机研究及其在图像检索中的应用,TP391.41
- 个性化检索中相似用户群的获取与更新,TP391.3
- 生物医学领域检索系统查询扩展技术研究,TP391.3
- 基于停用词处理的汉语语音检索方法,TP391.1
- 面向海量邮件的检索系统研究与实现,TP393.098
- 基于本体的语义检索研究,TP391.3
- 基于跨语言信息检索的企业竞争情报收集系统模型研究,TP391.3
- 新一代青岛市数字城建档案馆的设计与实现,G270.7
- 基于QTP的SAFFRON自动化测试框架的研究,TP311.52
- 基于社会标注的主题分类及排序优化方法研究,TP391.1
- 基于本体的智能电网知识检索系统,TM76
- 磁约束聚变实验海量数据检索分析研究,TP391.3
- 基于云技术的分布式实时数据库高性能数据存储检索机制的研究,TP311.13
- 基于数据挖掘的三维模型表征、索引与检索研究,TP391.3
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com
|