学位论文 > 优秀研究生学位论文题录展示

大规模稀疏关系数据索引技术研究

作 者: 李博多
导 师: 李建中
学 校: 哈尔滨工业大学
专 业: 计算机科学与技术
关键词: 索引 大规模稀疏数据表 结构化查询
分类号: TP311.132.3
类 型: 硕士论文
年 份: 2008年
下 载: 27次
引 用: 0次
阅 读: 论文下载
 

内容摘要


在许多网上社群管理系统中(CWMS),为了管理其中的稀疏数据,大规模稀疏数据表(LST)相关的存储结构正在被越来越多的采用。一个LST通常含有数千以上的属性,并且一条记录仅在少数属性上有定义。在LST中,定义在几个数字和文本混合属性上的低维结构化相似性查询是最常见的操作。但是许多和LST相关的Web 2.0服务的特性使得已有的大多数多维索引都不能适用。近期关于LST的研究多集中于如何存储数据表和建立一种简单的倒排索引来提高LST上的数据管理效率。到目前为止,还没有针对LST的其他新索引结构被提出。已有的倒排索引可以被很快的访问,但是它不包含任何与数据内容有关的信息,故而不能有效的减少查询过程中对数据表文件的随机访问次数。本文提出了基于过滤-检查策略,维护近似数据内容,且保证访问效率的iVA-file索引结构,设计了nG-Signature作为近似表示字符串数据的近似向量,并改进了已有的针对数字数据的近似向量编码方法。同时,本文还提出了新的基于扫描索引方式的查询执行方法。基于真实数据集的全面的测试证明了iVA-file在查询效率方面明显优于已有的技术,且保持了理想的更新速度。

全文目录


摘要  4-5
Abstract  5-8
第1章 绪论  8-15
  1.1 课题背景  8-10
  1.2 国内外研究现状  10-13
  1.3 本文主要研究内容及章节安排  13-15
第2章 预备知识和相关技术  15-27
  2.1 预备知识  15-18
    2.1.1 问题定义  15-17
    2.1.2 编辑距离  17-18
  2.2 相关技术  18-26
    2.2.1 Interpreted Schema 数据表文件结构  18-19
    2.2.2 VA-file  19-20
    2.2.3 属性上的倒排索引  20
    2.2.4 编辑距离的计算  20-21
    2.2.5 编辑距离的估计  21-22
    2.2.6 Singnature File  22-24
    2.2.7 n-gram 上的倒排索引  24-26
  2.3 本章小结  26-27
第3章 iVA-file 索引设计  27-43
  3.1 设计目标和基本思想  27-29
  3.2 iVA-file 结构  29-33
  3.3 文本属性编码  33-40
    3.3.1 nG-signature  34
    3.3.2 使用nG-signature 估计编辑距离  34-37
    3.3.3 nG-signature 的参数影响  37-40
  3.4 数字属性编码  40-41
  3.5 iVA-file 的建立与更新  41-42
  3.6 本章小结  42-43
第4章 利用iVA-file 进行查询处理的方法  43-48
  4.1 过滤-验证与同步扫描  43-44
  4.2 kNN 查询过程  44-46
  4.3 Select 查询过程  46-47
  4.4 本章小结  47-48
第5章 实验结果及分析  48-55
  5.1 实验设定  48-49
  5.2 查询效率测试  49-54
  5.3 更新效率测试  54
  5.4 本章小结  54-55
结论  55-56
参考文献  56-61
攻读学位期间发表的学术论文  61-63
致谢  63

相似论文

  1. 支持XML数据查询的F&B索引结构的研究,TP311.13
  2. 面向动态文档集的大规模文本索引构建技术的研究,TP391.3
  3. 面向海量邮件的检索系统研究与实现,TP393.098
  4. Bicluster数据分析软件设计与实现,TP311.52
  5. 网络搜索引擎的相关技术研究,G354
  6. 中山市巡逻民警治安防控质量评价系统的开发与实现,TP311.52
  7. 虹膜识别算法的研究与实现,TP391.41
  8. 基于SMP的内存数据库查询处理优化研究,TP311.13
  9. 数据空间下的索引策略研究,TP311.13
  10. 低成本RFID系统安全协议研究,TP391.44
  11. 存储系统中多维元数据索引的高效更新方法研究,TP333
  12. 四川职业技术学院固定资产管理信息系统设计与实现,TP311.52
  13. 基于P2P的空间矢量数据快速索引机制的研究,TP391.3
  14. 大规模图像检索中局部特征聚合与索引方法研究,TP391.3
  15. 基于熵的音乐声纹检索算法的研究与实现,TP391.3
  16. 在线备份系统中存储服务器的研究与实现,TP333
  17. 分布式搜索引擎索引安全及缓存策略研究,TP333
  18. 外包数据库模式下中文文档密文检索研究,TP391.3
  19. 构件垂直搜索引擎的关键技术研究,TP391.3
  20. 基于量化索引调制的抗共谋指纹技术研究,TP309

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 程序设计 > 数据库理论与系统 > 数据库系统:按类型分 > 关系数据库
© 2012 www.xueweilunwen.com