学位论文 > 优秀研究生学位论文题录展示

数据库全文检索方法研究及其应用

作 者: 曾欢
导 师: 王秀坤
学 校: 大连理工大学
专 业: 计算机应用技术
关键词: 数据库全文检索 索引与数据同步 增量记录监控 数据库爬虫
分类号: TP311.13
类 型: 硕士论文
年 份: 2011年
下 载: 73次
引 用: 1次
阅 读: 论文下载
 

内容摘要


数据库技术的应用已经有40多年的历史,新的数据库技术也层出不穷,也出现了像SQL SERVER, ORACLE, MySQL, DB2等许多比较优秀的数据库管理系统,并且随着版本的升级也能够提供比较好的全文检索的功能。但是这些数据库管理系统提供的全文检索功能对中文和数据库大字段域的全文检索支持并不是很好。例如,MySQL的全文检索功能只能支持英文的字段,而且不能支持对大字段域的全文检索。还有在SQLSERVER 7的版本中并不支持全文检索,就算是在新的版本中一个表也仅仅只能支持一个全文本检索。并且,这些数据库对全文检索的考虑和实施通常也是在数据库设计之初时考虑。现在的许多成型的数据库应用系统,建设的年代大部分都至少在5年以上,而且经过长时间的数据积累,每个数据库的数据一般都在千万行记录以上。对于这些成型的数据库应用系统的数据库,要为他们提供全文检索的功能存在着很多障碍。假若利用数据库的新版本提供的全文检索功能,那么就不得不升级数据库,并且有时候还不得不修改数据库设计。然而,对于像这种成型的数据库应用系统的数据库的升级一般都会带来很严重的灾难,甚至导致系统为了适应新的数据库版本而不得不修改应用程序。因此,需要寻求一种能在不影响现有数据库设计,并且能提供现有数据库进行全文检索的方法。由此,出现了像Sphinx这样的产品,但Sphinx只能支持MySQL数据库,我们需要的是一款能向更多数据库提供这种功能的软件。因此,本文通过对Sphinx的分析,并借鉴它的设计思想,结合使用Lucene这样一款开源软件努力建立一套更为通用的数据库全文检索系统,同时给出数据库数据源的一般定义模板,并基于此模板设计了一套与数据库类型无关的数据库爬虫,并设计了数据库记录本地存储模型和数据源管理的四级结构(目的在于尽最大可能的共享数据源,加快索引速度),之后又设计了一种通用的数据库增量记录监控方法,并将该方法运用与警务平台项目中。通过在警务平台项目中的实际应用,设计的这套全文检索方法的全文索引和增量索引效率均符合预期,并能支持对大字段域的全文检索,设计的数据库接口能正确处理来自MySQL和SQL SEVER数据源的全文索引,而且用户可以自由扩展能支持的数据库类别。并根据实际中遇到的性能问题提出基于多线程和分布式集群的数据库增量记录监控方法的优化方案。最后介绍如何使用Lucene的最新版本实现全文检索系统的优化。

全文目录


摘要  4-5
Abstract  5-8
1 绪论  8-11
  1.1 研究背景  8
  1.2 国内外研究现状  8-9
  1.3 本文的工作  9-10
  1.4 本文的组织  10-11
2 全文检索技术  11-19
  2.1 数据分类  11-12
  2.2 全文数据的两种扫描方法  12-13
    2.2.1 顺序扫描法  12-13
    2.2.2 索引扫描法  13
  2.3 全文检索的过程  13-19
    2.3.1 索引的组织结构  13-15
    2.3.2 索引的创建  15-17
    2.3.3 索引的搜索  17-19
3 数据库全文检索方法研究  19-29
  3.1 数据库全文检索介绍  19-21
    3.1.1 SQL SERVER的全文检索配置  19-21
    3.1.2 Oracle的全文检索配置  21
  3.2 数据库外部全文检索的建立过程  21-22
  3.3 增量记录监控和增量索引  22-24
    3.3.1 增量数据监控方法  23-24
    3.3.2 索引的增量更新方法  24
  3.4 系统的四级结构  24-26
  3.5 数据源和索引结构分析  26-28
  3.6 实例分析  28-29
4 外部索引方法在警务平台的应用  29-43
  4.1 查询系统详细设计  30-33
    4.1.1 查询系统概述  30
    4.1.2 大字段检索  30-31
    4.1.3 查询系统检索流程  31-33
  4.2 增量记录监控方法的优化概述  33-40
    4.2.1 基于多线程的优化概述  34-37
    4.2.2 基于分布式集群的优化概述  37-40
  4.3 基于多线程的优化方法  40-41
  4.4 基于分布式集群的优化方法  41-43
5 Lucene管理和性能调优  43-52
  5.1 性能调优  43-48
    5.1.1 简单的性能调优方法  43-44
    5.1.2 索引调优  44-47
    5.1.3 搜索调优  47-48
  5.2 热备份索引  48-52
    5.2.1 创建索引备份  48-50
    5.2.2 常见错误和修复索引  50-52
结论  52-53
参考文献  53-55
攻读硕士学位期间发表学术论文情况  55-56
致谢  56-57

相似论文

  1. 汉英跨语言网址搜索引擎的设计与实现,TP391.3
  2. 达梦数据库全文检索关键技术研究,TP311.13
  3. 一种新型的信息检索架构:DualEye,TP311.52
  4. 基于J2EE的文献资料全文检索系统的开发,TP311.52
  5. 军事医学信息服务系统的研建,TP311.13
  6. 基于全文数据库的全文检索模型研究,TP311.13
  7. 文档数据库若干关键技术研究,TP311.13
  8. 支持XML数据查询的F&B索引结构的研究,TP311.13
  9. 海量多数据库集成系统的查询处理研究,TP311.13
  10. 海量数据压缩、操作和处理方法的研究,TP311.13
  11. 频繁图结构并行挖掘算法的研究与实现,TP311.13
  12. 海量多数据库集成系统的Mediator和Wrapper机制的设计与实现,TP311.13
  13. 隐式用户兴趣挖掘的研究与实现,TP311.13
  14. 基于BAP的数据压缩、操作与查询处理系统的实现,TP311.13
  15. 医疗信息集成平台中DICOM中间件及访问控制模型的设计与实现,TP311.13
  16. K-均值聚类算法的研究与改进,TP311.13
  17. 基于流形学习的数据降维技术研究,TP311.13
  18. K-means聚类优化算法的研究,TP311.13
  19. 基于分治法的聚类方法研究,TP311.13
  20. 不完备信息系统的完备化及其上的知识获取,TP311.13
  21. 演化聚类算法及其应用研究,TP311.13

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 程序设计 > 数据库理论与系统
© 2012 www.xueweilunwen.com