学位论文 > 优秀研究生学位论文题录展示

基于UIMA的数据库监控文档解析

作　者: 柴智
导　师: 朱晓冬
学　校: 吉林大学
专　业: 软件工程
关键词: 数据挖掘非结构化数据数据库日志监控 UIMA
分类号: TP311.13
类　型: 硕士论文
年　份: 2011年
下　载: 27次
引　用: 0次
阅　读: 论文下载

内容摘要

本文通过对非结构化数据挖掘的发展现状的研究,分析了当今国内外对非结构化数据挖掘的进展情况。由于非结构化数据的形式多样很难用一种统一的工具去进行提取,必须借助于一定的辅助设备才可以了解其内容,通过对目前市场上各种非结构化数据挖掘工具的对比以及各种算法的分析,我们希望能够开发一种专门用于分析非结构化数据的工具,在这个工具的帮助下可以对非结构化的数据进行提取及分析。由于数据库应用的广泛性,因而本文选取特定领域的非结构数据信息作为输入文本,最后确定以DB2数据库的监控日志作为研究对象,目的是对数据库中的非结构化数据进行提取。方便数据库管理员对数据库进行监控以及管理,保证数据库的高效运转。本文的创新点在于提出了一种以数据库监控日志为研究对象,结合时下流行的非结构化文本分析框架的工作原理,通过自定义标签的方法结合XML技术来完整准确的表达出非结构化数据的隐含的内容,在Eclipse的框架下来实现一个基于特定领域的非结构化数据挖掘平台,该平台可以及时的从大量复杂的数据库监控日志中获取管理员所需要监控的信息,从而可以使管理员发现将要出现的问题及时做出恰当的处理,保证数据库可以高效稳定的运转。与传统的非结构化数据挖掘工具相比本平台针对数据库领域进行分析,实用性较强,对于文本数据的提取准确,且平台有很高的稳定性和安全性,这对于数据库的数据管理极为重要,平台的扩展性较好,只需要自定义独立标签进行添加即可,方便用户使用。为了达到平台的设计目的,本文的主要工作重点是以IBM开发的非结构化管理架构UIMA为基础,结合时下文本挖掘技术,通过自定义数据库监控日志中的标签,实现对非结构化数据的提取,结合XML的方法对数据库日志中的非结构化数据进行描述性的规则定义,目的是使计算机能够识别我们定义的文件,对于非结构化数据的特征定义,本文选取的是最简单直观的方法,即用正则表达式对数据进行表示,最后通过JAVA代码整合,实现整个平台的设计以及实现。通过最后对平台的测试结果的分析,可以看出,本文中所设计的平台基本可以满足非结构化数据提取的最初设计目的。其主要优势在于可以快速高效的提取出管理员所需要的数据信息,运行速度较快,稳定性好,且针对的数据具有专业性,使用方便,对系统运行的影响较小。当然平台还存在一定的不足,有很多的客观因素都会影响到分析结果的准确性,还需要进一步在细节方面的完善,但是从平台的总体运行工作来看对于以后的非结构的数据挖掘的研究有着一定参考价值。

全文目录

摘要  4-6
Abstract  6-10
第1章引言  10-16
  1.1 非结构化数据分析简介  10-11
  1.2 非结构化文本挖掘国内外研究现状  11-13
    1.2.1 国外非结构化文本挖掘研究现状  11-12
    1.2.2 国内非结构化文本挖掘研究现状  12-13
  1.3 选题依据及意义  13-15
    1.3.1 论文提出的依据  13-14
    1.3.2 论文提出的意义  14-15
  1.4 本文的组织结构  15-16
第2章 UIMA系统简介  16-23
  2.1 UIMA框架结构  16-19
    2.1.1 框架简介  16-17
    2.1.2 UIMA框架基本组件  17-19
  2.2 UIMA的工作原理  19-21
  2.3 UIMA中的涉及的XML技术  21
  2.4 UIMA框架下的文本处理过程介绍  21-22
  2.5 本章小结  22-23
第3章基于UIMA的数据库监控文档解析平台设计  23-32
  3.1 平台背景介绍  23-24
  3.2 平台背景知识简介  24-27
    3.2.1 数据库日志简介  24-25
    3.2.2 使用数据库原因  25-26
    3.2.3 DB2数据库事务日志的管理  26
    3.2.4 DB2数据库性能监控工具  26-27
  3.3 平台设计原则  27
  3.4 基于UIMA的数据库监控文档解析平台的总体设计  27-31
    3.4.1 总体架构设计  27-28
    3.4.2 平台组件接口设计  28-31
  3.5 本章小结  31-32
第四章基于UIMA的数据库监控文档解析平台的实现  32-46
  4.1 实现平台  32
  4.2 结构模块实现  32-40
    4.2.1 DB2志分类  33-35
    4.2.2 数据库监控日志标签工程创建  35
    4.2.3 分析引擎组件  35-36
    4.2.4 类型系统定义  36
    4.2.5 数据标签代码开发  36-40
  4.3 标签中的二义性  40-43
  4.4 平台测试  43-44
  4.5 结果分析  44-45
  4.6 本章小结  45-46
第5章结语  46-47
参考文献  47-49
致谢  49

基于UIMA的数据库监控文档解析

内容摘要

全文目录

相似论文