学位论文 > 优秀研究生学位论文题录展示

海量数据组织中的索引机制研究与实现

作 者: 程彬
导 师: 曹强
学 校: 华中科技大学
专 业: 计算机系统结构
关键词: 大规模数据处理 非结构化数据 海量数据组织 混合索引机制
分类号: TP391.3
类 型: 硕士论文
年 份: 2008年
下 载: 312次
引 用: 2次
阅 读: 论文下载
 

内容摘要


现有的数据组织系统中的索引机制大多是基于传统数据组织的通用索引,存在索引数据规模过大、索引时间过长、索引数据类别单一等诸多问题。这些问题导致海量数据检索在查全率、查准率和查询时间上无法满足用户需求。为了解决这些问题,提高信息利用率,针对海量非结构化数据设计一种能够提高性能和数据检索质量的新型索引机制成为重要的研究问题。首先构造了一种海量数据组织原型系统。该系统满足了海量数据组织管理的自动化、统一接口、模式提取、认知提取和语义集成等需求。该系统采用了信息预处理技术、信息可扩展存储技术、信息再组织技术和信息检索技术。在这个海量数据组织系统的平台下,可以进行相关大规模数据处理工作,如信息索引等。其次给出了混合索引机制及其相应的算法流程。混合索引机制采用信息矩阵模型作为索引信息的数据模型。该模型采取多个元数据来表征信息实体。这种信息数据模型在降低数据规模的同时,增强了信息内部特征的表示。这种混合索引机制的索引数据是信息的元数据。基于元数据的索引能提供比基于内容的索引更为精确和语义更强的索引。混合索引机制采取的索引存储模型主要有树、哈希和倒排文件三种方式。树索引存储模式主要是建立内存索引,作为检索的最主要的入口。哈希索引存储模式主要是判断索引数据是否存在,建立索引数据的位图索引。倒排文件存储模式主要是建立磁盘索引,同时提供基于内容的全文索引来提供扩展接口。各种存储模型在索引过程中共同作用。最后对于混合索引机制从功能和性能两个方面进行了测试和分析。实验结果表明,采用了该索引机制的海量数据组织系统的内存索引数据容量只有原始数据的4%,磁盘索引数据只有原始数据的1/3,索引时间比同种应用平均降低了10%。数据结果验证了该索引机制在海量数据组织中具备较强的实用性。

全文目录


摘要  4-5
ABSTRACT  5-8
1 绪论  8-17
  1.1 课题来源、目的与意义  8-10
  1.2 国内外概况  10-16
  1.3 本文主要研究内容  16-17
2 海量数据组织系统  17-27
  2.1 系统需求特征  17-18
  2.2 系统体系结构  18-19
  2.3 系统关键技术  19-26
  2.4 本章小结  26-27
3 索引机制分析  27-48
  3.1 索引的作用  27-28
  3.2 常见索引机制分析  28-37
  3.3 混合索引机制  37-47
  3.4 本章小结  47-48
4 混合索引机制实现与应用  48-65
  4.1 开发环境与工具  48-49
  4.2 整体架构和接口设计  49-55
  4.3 主要数据结构和程序流程  55-63
  4.4 混合索引机制的应用  63-64
  4.5 本章小结  64-65
5 测试与分析  65-71
  5.1 测试环境  65-66
  5.2 结果与分析  66-70
  5.3 本章小结  70-71
6 全文总结和研究展望  71-73
  6.1 全文总结  71-72
  6.2 研究展望  72-73
致谢  73-74
参考文献  74-76

相似论文

  1. 数据中心Hadoop部署与追踪系统研究,TP308
  2. 面向非结构化数据查询优化的存储系统,TP333
  3. 一个可扩展的MapReduce原型设计与实现,TP311.52
  4. 非结构化数据统一访问平台及索引技术研究,TP311.52
  5. 基于XML的非结构化数据管理研究及应用,TP311.13
  6. 大型呼叫系统中数据管理分析平台的设计与实现,TP311.52
  7. 造船业数据管理系统的研究与实现,TP311.52
  8. 电子档案归档系统的设计与实现,TP311.52
  9. 基于MapReduce的全文索引模块的设计与实现,TP391.3
  10. 数字油田中非结构化数据管理系统的设计与实现,TP311.52
  11. 基于UIMA的数据库监控文档解析,TP311.13
  12. 基于hive的性能优化方法的研究与实践,TP311.13
  13. 海量非结构化数据的组织研究与实现,TP311.52
  14. E-learning非结构化数据管理系统的构建与实现,TP311.52
  15. 光掩膜生产中数据存储管理系统的设计与实现,TP311.52
  16. 企业内容管理中非结构化数据的转换技术研究,TP311.52
  17. 基于元数据的教育资源非结构化数据组织管理,G40
  18. 视音频系统中非结构化数据迁移模块的设计与实现,TP391.4
  19. 申银万国证券研究所报告发布平台的设计与实现,TP311.52
  20. 多源异构数据的互操作方法和实现技术研究,TP311.52

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com