学位论文 > 优秀研究生学位论文题录展示

海量非结构化数据的组织研究与实现

作 者: 邹波
导 师: 谢长生
学 校: 华中科技大学
专 业: 计算机系统结构
关键词: 非结构化数据 海量数据组织 属性语义 语义提取
分类号: TP311.52
类 型: 硕士论文
年 份: 2008年
下 载: 262次
引 用: 1次
阅 读: 论文下载
 

内容摘要


计算机应用的不断发展导致了数据量的急剧增加,由于数据结构化过程受限于人工处理速度,导致非结构化数据的增长速度远远大于结构化数据。传统上使用文件目录树组织管理大规模非结构化数据的方案存在很大缺陷。文件目录树不能很好地表达非结构化数据自身以及数据之间语义关系的多样性,同时在大规模数据集下维护文件目录树的一致性会非常困难而且开销极大。因此,对海量非结构化数据的组织进行研究,成为如今迫在眉睫的问题。通过介绍分析文件目录树、索引及检索、数据库、语义文件系统等数据组织管理的方法,结合海量非结构化数据组织管理的需求(用户参与、自动化、模式提取等),设计并实现了海量非结构化数据组织管理系统MUDOMS(Massive Unstructured Data Organization and Management System)。MUDOMS通过对象模型来表示数据,使用属性值对来描述数据的特征,提供接口让用户根据理解来创建属性值对,为属性之间创建关系,记录了用户对数据的理解处理过程,系统还采用混合索引机制THLI(Tree Hash and Link-list Indexing)对属性和关系进行索引,MUDOMS还提供了热点导航,通过导航的方式来方便用户快速获取数据。根据用户习惯,系统还为用户创建了个性化的逻辑视图,不同的分类方式和显示次序的个性化逻辑视图方便用户的使用。在用户参与产生属性值对的基础上,还分析了属性、关系自动化生成和组织的策略机制。通过时间、空间和上下文等关系,可以实现属性关系的自动生成、传递,进而可以对系统已有的属性关系再进行组织。通过对比测试,MUDOMS在功能上实现了一种海量非结构化数据组织管理的方案,加入了人工智能提取语义属性。在与同类软件(百度硬盘搜索和Google desktop)对比测试中,MUDOMS对文件索引所占用的空间比同类软件降低了60%,用于索引的时间降低了70%,在内存容量允许的情况下,通过THLI索引机制对数据进行检索,性能提高了20倍。

全文目录


摘要  4-5
ABSTRACT  5-9
1 绪论  9-16
  1.1 课题来源  9
  1.2 课题的目的及意义  9-11
  1.3 国内外研究现状  11-14
  1.4 本文研究的目的和内容  14
  1.5 本文的组织  14-16
2 信息数据组织与管理  16-22
  2.1 结构化数据组织  16-17
  2.2 非结构化数据组织  17-20
  2.3 海量非结构化数据的组织需求  20-21
  2.4 本章小结  21-22
3 海量非结构化数据组织系统设计  22-35
  3.1 系统功能模块划分  22-23
  3.2 系统的数据模型  23-26
  3.3 属性的获取策略  26-29
  3.4 属性组织策略  29
  3.5 属性的索引机制  29-30
  3.6 属性的存储策略  30-33
  3.7 逻辑视图个性化  33-34
  3.8 本章小结  34-35
4 海量非结构化数据组织系统实现  35-49
  4.1 软件模块划分  35-38
  4.2 主要数据结构  38-41
  4.3 系统的主要流程及实现  41-48
  4.4 本章小结  48-49
5 海量非结构化数据组织系统测试  49-56
  5.1 系统测试环境  49-50
  5.2 系统功能测试  50-53
  5.3 导入文件性能测试  53-54
  5.4 检索文件性能测试  54-55
  5.5 本章小结  55-56
6 全文总结  56-58
致谢  58-59
参考文献  59-62

相似论文

  1. 面向非结构化数据查询优化的存储系统,TP333
  2. 非结构化数据统一访问平台及索引技术研究,TP311.52
  3. 基于XML的非结构化数据管理研究及应用,TP311.13
  4. 大型呼叫系统中数据管理分析平台的设计与实现,TP311.52
  5. 基于语义的图像检索技术研究,TP391.41
  6. 造船业数据管理系统的研究与实现,TP311.52
  7. 基于动词属性的模板化自动代码生成,TP311.52
  8. 电子档案归档系统的设计与实现,TP311.52
  9. 基于MapReduce的全文索引模块的设计与实现,TP391.3
  10. 数字油田中非结构化数据管理系统的设计与实现,TP311.52
  11. 基于UIMA的数据库监控文档解析,TP311.13
  12. 中国英语学习者词汇知识水平对心理词库语义提取的影响研究,H319
  13. MD儿童的数认知缺陷研究,B842.1
  14. 基于模糊图论的视频语义自动标注,TP391.41
  15. 基于语义的视频检索,TP391.41
  16. 海量数据组织中的索引机制研究与实现,TP391.3
  17. 基于相关反馈的图像语义检索技术,TP391.3
  18. 基于本体的关系模型数据语义提取方法研究,TP391.1
  19. E-learning非结构化数据管理系统的构建与实现,TP311.52
  20. 光掩膜生产中数据存储管理系统的设计与实现,TP311.52

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 软件工程 > 软件开发
© 2012 www.xueweilunwen.com