学位论文 > 优秀研究生学位论文题录展示
基于数据块采样的PostgreSQL统计信息估算方法的研究
作 者: 陈健
导 师: 谭骏珊
学 校: 中南林业科技大学
专 业: 计算机应用技术
关键词: 查询优化 统计信息 代价估算 直方图 交叉验证 Distinct值
分类号: TP311.13
类 型: 硕士论文
年 份: 2007年
下 载: 7次
引 用: 0次
阅 读: 论文下载
内容摘要
随着计算机硬件、软件技术的飞速发展和计算机系统在各行各业的广泛应用,数据已经成为各种机构的宝贵资源,数据库系统对于当今科研部门、政府机关、企事业单位等来说都是至关重要的。随着时间的推移,数据库中的数据量日益增长,而数据库管理系统的一个重要功能就是将建立于其上的信息系统的性能维持在一个可接受的水平上,查询优化器就是实现这一功能的重要的数据库系统组件。查询优化器分为基于代价和基于规则的优化器。当今通用的商业数据库的查询优化器多为基于代价的优化器。基于代价的优化器相对基于规则的优化器的优势就在于它能根据数据库对象各自特定的信息估算查询代价,以此来选择最优的查询执行路径,而这些数据库对象信息就是数据库管理系统收集的统计信息。因此,数据库统计信息估算的准确度对查询代价估算的结果有着显著的影响,也对优化器的质量有着实质性的影响。收集统计信息可以通过精确计算和采样估算两种方式,前者收集的统计信息准确度高,但计算代价大,特别是分析大对象时容易给系统造成负担;后者收集的统计信息准确度相对前者较低,但计算代价小,系统负担小,即使分析的是大对象。本文主要基于开源数据库管理系统PostgreSQL,分析其收集数据库统计信息与查询优化器相关源代码,重点讨论直方图与Distinct值这两种对估算查询代价极其重要的统计信息的收集,提出在PostgreSQL中使用计算与估算两种方法收集统计信息。在采样估算中使用基于数据块的采样,并且采用基于直方图的交叉验证算法将数据块采样样本的数据偏差缩小至预定阈值范围之内,然后在此样本上建立等高直方图或基于值的直方图,存储于系统表中,供查询优化器使用。在估算Distinct值时,由于数据分布偏差容易造成数据块样本的偏差,因此引入混合式估算法解决由于f1值(样本中只出现一次的值的个数)损失造成的估算误差。最后在Linux AS3和PostgreSQL8.1环境下通过实验证明,本文提出的方案适合于PostgreSQL数据库,并且在保证估算准确度的基础上提高了统计信息收集的效率。
|
全文目录
摘要 4-5 Abstract 5-9 1 引言 9-13 1.1 研究背景及现状 9-10 1.2 研究内容及意义 10-11 1.3 本文的组织 11-13 2 查询优化与统计信息技术综述 13-21 2.1 查询优化器 13-16 2.1.1 查询处理 13-14 2.1.2 基于规则的优化器 14-15 2.1.3 基于代价的优化器 15-16 2.2 代价估算与统计信息 16-18 2.3 均匀随机采样算法 18-21 3 POSTGRESQL统计信息估算分析 21-29 3.1 源代码组织结构 21-22 3.2 PostgreSQL统计信息估算 22-26 3.2.1 查询处理器结构 22 3.2.2 pg_statistics与pg_stats 22-23 3.2.3 重要的数据结构 23-25 3.2.4 统计信息估算 25-26 3.3 两阶段随机采样算法 26-29 4 基于数据块的采样算法 29-35 4.1 基于元组与基于数据块的采样比较 29 4.2 数据块采样算法的描述 29-31 4.3 实验结果 31-35 5 基于直方图的估算 35-45 5.1 直方图的分类及应用 35-37 5.2 基于直方图与交叉验证的样本调整 37-41 5.2.1 交叉验证调整算法 37-39 5.2.2 实验结果 39-41 5.3 基于直方图的查询结果集估算 41-45 5.3.1 PostgreSQL的直方图查询结果集估算 41-43 5.3.2 扩展PostgreSQL中的直方图 43-45 6 DISTINCT值的估算 45-55 6.1 Distinct值估算的误差 45-46 6.2 数据分布对估算结果的影响 46-49 6.3 基于数据块采样的Distinct值估算 49-52 6.3.1 块采样与元组采样对比分析 49-51 6.3.2 混合式Distinct值估算方法 51-52 6.4 实验结果 52-55 7 结论和展望 55-57 7.1 结论 55 7.2 下一步的工作 55-57 参考文献 57-63 攻读学位期间的主要学术成果 63-64 致谢 64
|
相似论文
- 海量多数据库集成系统的查询处理研究,TP311.13
- 基于FPGA的高速图像预处理技术的研究,TP391.41
- 基于内容的服装图像检索技术研究及实现,TP391.41
- 等效均匀剂量放射生物效应数学模型研究,R311
- 基于统计方法的核磁共振人脑图像的分割及三维数据的分析,R445.2
- 多核环境下内存数据库查询优化的研究,TP311.13
- 多视点视频中的颜色校正方法研究,TP391.41
- 达梦嵌入式数据库的执行计划缓存研究,TP311.13
- 面向非结构化数据查询优化的存储系统,TP333
- 达梦嵌入式数据库子查询的实现和扁平化,TP311.13
- RFID复杂事件实时查询处理及其优化策略,TP391.44
- 胶囊内镜便携式接收系统及内镜图像出血识别算法研究,TP391.41
- 基于内容的大规模数字图像检索技术研究,TP391.41
- 基于改进梯度空间直方图的对象检测方法研究,TP391.41
- 基于局部二元模式和韦伯局部描述符的人脸识别,TP391.41
- 全自动荧光磁粉探伤中目标识别图像处理技术研究,TP391.41
- 基于特征点空间信息分布直方图的匹配方法研究,TP391.41
- 考场作弊行为智能分析方法研究,TP391.41
- 基于直方图统计模型的自适应多阈值图像分割算法的研究,TP391.41
- 红外图像增强及基于查找表的彩色化技术研究,TP391.41
- 基于社交网络好友关系的图查询算法研究与应用,TP391.3
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 程序设计 > 数据库理论与系统
© 2012 www.xueweilunwen.com
|