学位论文 > 优秀研究生学位论文题录展示
支持压缩数据的近似子串查询处理技术的研究与系统实现
作 者: 侯闯
导 师: 杨晓春
学 校: 东北大学
专 业: 计算机系统结构
关键词: 压缩数据 近似子串查询 高效 过滤 系统
分类号: TP274
类 型: 硕士论文
年 份: 2010年
下 载: 5次
引 用: 0次
阅 读: 论文下载
内容摘要
随着社会的发展,各种信息数据的总量正在不断的扩大。数据量的激增给数据的保存和使用都带来了巨大的压力。为了解决数据规模的增加与存储空间的矛盾,高效的压缩算法被相继提出。数据查询技术在各个领域都是必不可少的,然而数据压缩技术却给数据查询带来了巨大的挑战。如何针对压缩数据进行数据查询成为本文的主要研究内容。本文首先对近似字符串查询处理技术进行了综述。基于最新的一种数据无损压缩技术,提出并设计实现支持压缩数据的近似子串查询技术。这种无损压缩技术利用字符串数据之间的高相似性,实现数据压缩。为了对数据进行高效的查询,对压缩数据采用了高效的B+-tree结构和先进的倒排表索引技术,根据倒排表索引提供的信息可以快速进行查询定位,B+-tree结构可以快速完成信息的获取,通过对这两种索引技术的改进使之可以应用于近似子串查询算法。提出了高效率的相关过滤方法,最后提出并设计了完善的近似子串查询算法。基于上述理论研究并实现了近似子串查询系统,对系统的可行性、功能需求以及性能需求都做了详细的分析,采用B/S架构设计该系统,使用户通过网络进行使用。运行测试和性能测试表明该系统基于压缩数据,节省了大量的空间代价,并可以保证查询时间的有效性。同时可以提供稳定的对外服务。
|
全文目录
摘要 5-6 Abstract 6-10 第1章 引言 10-14 1.1 研究背景 10-11 1.2 本文的研究内容及面临的挑战 11 1.3 研究的意义 11-12 1.4 本文的组织结构 12-14 第2章 相关工作 14-26 2.1 近似字符串匹配定义 14-15 2.2 编辑操作与距离函数 15-18 2.2.1 编辑距离 15-18 2.2.2 海明距离 18 2.3 倒排列表和Q-GRAM技术 18-22 2.4 区间树 22-24 2.5 本章小结 24-26 第3章 压缩数据表示及问题定义 26-30 3.1 压缩数据相关定义 26-28 3.2 压缩数据近似子串查询问题定义 28 3.3 本章小结 28-30 第4章 压缩数据上的近似子串查询技术 30-42 4.1 压缩数据索引技术 30-34 4.1.1 倒排索引构建 30-31 4.1.2 增量树△-Tree 31-34 4.1.3 获取子串算法 34 4.2 近似子串查询算法 34-41 4.2.1 基础算法 34-36 4.2.2 过滤原理 36-37 4.2.3 改进算法 37-41 4.3 本章小结 41-42 第5章 子串查询系统的设计与实现 42-56 5.1 系统分析 42-44 5.1.1 系统可行性分析 42-43 5.1.2 系统功能和性能需求 43-44 5.1.3 系统架构分析 44 5.2 系统设计与实现 44-54 5.2.1 运行环境设置 44-46 5.2.2 系统功能设计 46-52 5.2.3 数据库设计 52-54 5.3 本章小结 54-56 第6章 系统测试 56-64 6.1 黑盒测试 57-59 6.1.1 界面测试 57-58 6.1.2 功能测试 58-59 6.2 白盒测试 59-60 6.3 性能测试 60-61 6.4 本章小结 61-64 第7章 总结 64-66 7.1 本文总结 64-65 7.2 工作展望 65-66 参考文献 66-70 致谢 70-72 攻硕期间参与的项目 72
|
相似论文
- 分布式移动多载舰OTHR系统姿态测量方法的研究,P228.4
- 煤制油连续性模型系统的实现及其液化实验研究,TQ529.1
- 微细线切割往复走丝机构的设计及控制系统的研究,TG484
- 粉末活性炭—超滤工艺处理微污染地表水试验研究,X703
- 陀螺稳定跟踪平台研究,V241.5
- 卫星光通信粗瞄控制系统的设计及故障诊断,V443.1
- SINS/GPS组合导航系统算法研究,V249.328
- 金属蜂窝与再生冷却通道的传热特性研究,V215.4
- 机载导弹的传递对准研究,V249.322
- 基于LAH032.905标准的汽车点火线圈终检系统研究,U472.9
- 基于无线传感器网络的电动汽车电池组综合测试技术研究,U469.72
- 基于感性负载的车身网络控制系统,U463.6
- 汽车的电动助力转向系统,U463.4
- 船用舵机电液伺服单元单神经元PID控制,U666.152
- 大型公共建筑空调系统节能运行若干问题分析,TU831.6
- 哈尔滨城市空间环境视觉导识系统研究,TU998.9
- 复杂边界条件下多体结构的瞬态热分析,TK124
- 基于精细积分法的电力系统动态电压稳定仿真研究,TM712
- 基于MODBUS的发电厂数据采集系统的研究,TM621
- HID灯整流效应的研究,TM923.32
- 基于DSP的感应电机矢量控制系统研究,TM346
中图分类: > 工业技术 > 自动化技术、计算机技术 > 自动化技术及设备 > 自动化系统 > 数据处理、数据处理系统
© 2012 www.xueweilunwen.com
|