学位论文 > 优秀研究生学位论文题录展示

DWMS中元数据以及缓冲区的设计和实现

作 者: 唐俊杰
导 师: 乐嘉锦
学 校: 东华大学
专 业: 计算机应用技术
关键词: 列存储 数据仓库 元数据 缓冲区 Hash_B+
分类号: TP311.13
类 型: 硕士论文
年 份: 2012年
下 载: 11次
引 用: 0次
阅 读: 论文下载
 

内容摘要


近年来,随着ERP、电子商务的迅速发展,越来越多的企业开始重视数据仓库的建设,以从大量数据中获得有用的信息,为企业带来经济效益。相对于数据库管理系统,数据仓库系统具有面向主题、集成的、不可更新的特点,是一种支持对大量数据进行分析的决策性系统。在数据仓库上进行数据分析时,常常要求进行ad-hoc查询操作,这就会在短时间内读取大量新数据。因此,与数据库管理系统相比较,数据仓库系统更偏重于读操作的性能。列存储是一种保证高效读性能的新型存储技术。在列存储中,数据以列的形式存储在磁盘块中,在查询时,只需读取与查询相关的列数据,从而减少磁盘I/O,提高了读操作的效率,所以列存储已成为目前数据仓库的主流存储架构。元数据缓冲区是数据仓库的重要组成部分,元数据和缓冲区的设计和实现关系到数据仓库的运行效率和稳定性,元数据保存了数据字典中各项基本数据,是数据仓库数据的数据,而缓冲区是为了减少磁盘I/O而产生的内存管理结构,因此元数据和缓冲区的设计好坏直接关系到数据仓库的性能。对于数据仓库,其数据较少更新。但是对于元数据来说,系统需要频繁的对其进行更新、删除操作,由于列存储的局限性,无法很好的支持数据更新,这也给系统实现带来了很大的麻烦。本文作者的研究目标是如何设计出数据仓库中元数据的逻辑结构以及存储结构,并根据其存储结构设计出与其相对应的缓冲区。本文的研究内容主要包括:1.根据数据仓库的定义,分析了数据存储底层管理和实现机制,并对其实现机制,设计出了适合数据仓库底层存储的物理存储结构:2.由于元数据具有广泛性,因此本文只采用了一种元数据即——数据字典作为研究重点,并对数据字典进行了详细的设计,以符合数据仓库上层模块的需求;3.针对数据仓库列存储更新效率上的缺点以及数据仓库对数据字典的高效定值查找、更新的需求,本文设计出了适合数据仓库数据字典的存储结构——Hash B+树索引存储结构,该索引结构可很好地满足了数据仓库的定值查找和数据更新;4.对于数据字典的Hash_B+树底层存储结构,本文为适应此结构,设计出了此结构在共享池的管理方式;5.通过实验,验证了Hash_B+树索引的效率问题,很好地满足了列存储数据仓库元数据管理的实际需求。总之,本文对数据仓库元数据以及缓冲区进行研究和设计,并同时提出Hash_B+树索引结构。此外,通过实验验证,所提出的元数据与缓冲区设计满足了数据仓库的实际需求,提高了元数据中数据字典的定值查找效率。

全文目录


摘要  5-7
ABSTRACT  7-11
第一章 绪论  11-15
  1.1 研究背景与意义  11-12
  1.2 国内外研究现状  12-13
  1.3 本文的主要研究内容  13-14
  1.4 本文的组织结构  14-15
第二章 列存储数据仓库管理系统的底层存储  15-26
  2.1 数据仓库  15-16
  2.2 底层存储  16-25
  2.3 本章小结  25-26
第三章 数据字典、共享池的设计与实现  26-43
  3.1 数据字典逻辑设计  26-35
  3.2 数据字典安装  35-39
  3.3 缓冲区管理  39-41
  3.4 本章小结  41-43
第四章 Hash_B+树索引  43-51
  4.1 索引定义  43-45
  4.2 插入  45-46
  4.3 删除  46-47
  4.4 查找  47-49
  4.5 Hash_B+索引平均查找长度  49-50
  4.6 本章小结  50-51
第五章 Hash_B+树索引性能评测  51-54
  5.1 Hash_B+树索引的平均查找长度  51-52
  5.2 Hash_B+树索引的磁盘I/O  52
  5.3 Hash_B+树索引的更新时间  52-53
  5.4 本章小结  53-54
第六章 总结与展望  54-56
  6.1 总结  54
  6.2 展望  54-56
参考文献  56-58
攻读学位期间的研究成果目录  58-59
致谢  59

相似论文

  1. 海量数据压缩、操作和处理方法的研究,TP311.13
  2. 基于元数据的农田信息存储、管理和共享研究,S126
  3. 分面元数据在网站检索系统中的应用研究,G354.2
  4. 面向高校重点课程的教参资源库建设的应用研究,G642.3
  5. 数据仓库技术在银行客户管理系统中的研究和实现,TP315
  6. C/S模式MIS软件可复用构件的研究与开发,TP311.52
  7. 矿区多源遥感影像集成管理系统的设计与实现,P208
  8. 关联规则算法在高职院校贫困生认定工作中的应用,G717
  9. 家校互动教育平台中数据仓库的研究与应用,TP311.13
  10. 高校毕业生就业状况监测系统研究,G647.38
  11. 基于数据仓库的药品监管辅助决策支持系统的设计与实现,TP311.13
  12. 基于数据挖掘技术的电信客户维系挽留系统分析及应用,TP311.13
  13. PG炼钢厂MES系统数据挖掘的设计与开发,TP311.13
  14. 六盘水市烟草公司人力资源管理系统信息集成设计实现,TP311.52
  15. 基于领域本体的海洋环境数据仓库设计,TP311.13
  16. 基于分簇的移动sink传感网路由算法研究,TP212.9
  17. DWMS列存储中执行引擎的优化与实现,TP311.13
  18. 纺织品服装出口的TBT风险监测与预警机理研究,TP311.13
  19. 税务数据仓库系统的设计与应用,TP311.13
  20. 基于操作系统驱动的嵌入式TCP/IP协议栈的实现,TN915.04

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 程序设计 > 数据库理论与系统
© 2012 www.xueweilunwen.com