学位论文 > 优秀研究生学位论文题录展示
基于UIMA的数据库监控文档解析
作 者: 柴智
导 师: 朱晓冬
学 校: 吉林大学
专 业: 软件工程
关键词: 数据挖掘 非结构化数据 数据库日志监控 UIMA
分类号: TP311.13
类 型: 硕士论文
年 份: 2011年
下 载: 27次
引 用: 0次
阅 读: 论文下载
内容摘要
本文通过对非结构化数据挖掘的发展现状的研究,分析了当今国内外对非结构化数据挖掘的进展情况。由于非结构化数据的形式多样很难用一种统一的工具去进行提取,必须借助于一定的辅助设备才可以了解其内容,通过对目前市场上各种非结构化数据挖掘工具的对比以及各种算法的分析,我们希望能够开发一种专门用于分析非结构化数据的工具,在这个工具的帮助下可以对非结构化的数据进行提取及分析。由于数据库应用的广泛性,因而本文选取特定领域的非结构数据信息作为输入文本,最后确定以DB2数据库的监控日志作为研究对象,目的是对数据库中的非结构化数据进行提取。方便数据库管理员对数据库进行监控以及管理,保证数据库的高效运转。本文的创新点在于提出了一种以数据库监控日志为研究对象,结合时下流行的非结构化文本分析框架的工作原理,通过自定义标签的方法结合XML技术来完整准确的表达出非结构化数据的隐含的内容,在Eclipse的框架下来实现一个基于特定领域的非结构化数据挖掘平台,该平台可以及时的从大量复杂的数据库监控日志中获取管理员所需要监控的信息,从而可以使管理员发现将要出现的问题及时做出恰当的处理,保证数据库可以高效稳定的运转。与传统的非结构化数据挖掘工具相比本平台针对数据库领域进行分析,实用性较强,对于文本数据的提取准确,且平台有很高的稳定性和安全性,这对于数据库的数据管理极为重要,平台的扩展性较好,只需要自定义独立标签进行添加即可,方便用户使用。为了达到平台的设计目的,本文的主要工作重点是以IBM开发的非结构化管理架构UIMA为基础,结合时下文本挖掘技术,通过自定义数据库监控日志中的标签,实现对非结构化数据的提取,结合XML的方法对数据库日志中的非结构化数据进行描述性的规则定义,目的是使计算机能够识别我们定义的文件,对于非结构化数据的特征定义,本文选取的是最简单直观的方法,即用正则表达式对数据进行表示,最后通过JAVA代码整合,实现整个平台的设计以及实现。通过最后对平台的测试结果的分析,可以看出,本文中所设计的平台基本可以满足非结构化数据提取的最初设计目的。其主要优势在于可以快速高效的提取出管理员所需要的数据信息,运行速度较快,稳定性好,且针对的数据具有专业性,使用方便,对系统运行的影响较小。当然平台还存在一定的不足,有很多的客观因素都会影响到分析结果的准确性,还需要进一步在细节方面的完善,但是从平台的总体运行工作来看对于以后的非结构的数据挖掘的研究有着一定参考价值。
|
全文目录
摘要 4-6 Abstract 6-10 第1章 引言 10-16 1.1 非结构化数据分析简介 10-11 1.2 非结构化文本挖掘国内外研究现状 11-13 1.2.1 国外非结构化文本挖掘研究现状 11-12 1.2.2 国内非结构化文本挖掘研究现状 12-13 1.3 选题依据及意义 13-15 1.3.1 论文提出的依据 13-14 1.3.2 论文提出的意义 14-15 1.4 本文的组织结构 15-16 第2章 UIMA系统简介 16-23 2.1 UIMA框架结构 16-19 2.1.1 框架简介 16-17 2.1.2 UIMA框架基本组件 17-19 2.2 UIMA的工作原理 19-21 2.3 UIMA中的涉及的XML技术 21 2.4 UIMA框架下的文本处理过程介绍 21-22 2.5 本章小结 22-23 第3章 基于UIMA的数据库监控文档解析平台设计 23-32 3.1 平台背景介绍 23-24 3.2 平台背景知识简介 24-27 3.2.1 数据库日志简介 24-25 3.2.2 使用数据库原因 25-26 3.2.3 DB2数据库事务日志的管理 26 3.2.4 DB2数据库性能监控工具 26-27 3.3 平台设计原则 27 3.4 基于UIMA的数据库监控文档解析平台的总体设计 27-31 3.4.1 总体架构设计 27-28 3.4.2 平台组件接口设计 28-31 3.5 本章小结 31-32 第四章 基于UIMA的数据库监控文档解析平台的实现 32-46 4.1 实现平台 32 4.2 结构模块实现 32-40 4.2.1 DB2志分类 33-35 4.2.2 数据库监控日志标签工程创建 35 4.2.3 分析引擎组件 35-36 4.2.4 类型系统定义 36 4.2.5 数据标签代码开发 36-40 4.3 标签中的二义性 40-43 4.4 平台测试 43-44 4.5 结果分析 44-45 4.6 本章小结 45-46 第5章 结语 46-47 参考文献 47-49 致谢 49
|
相似论文
- 基于数据挖掘技术的保健品营销研究,F426.72
- 高忠英学术思想与经验总结及运用补肺汤加减治疗呼吸系统常见病用药规律研究,R249.2
- 张炳厚学术思想与临床经验总结及应用地龟汤类方治疗慢性肾脏病的经验研究,R249.2
- Bicluster数据分析软件设计与实现,TP311.52
- 基于变异粒子群的聚类算法研究,TP18
- 融合粒子群和蛙跳算法的模糊C-均值聚类算法研究,TP18
- 基于遗传算法和粗糙集的聚类算法研究,TP18
- 基于数据挖掘的税务稽查选案研究,F812.42
- 面向社区教育的个性化学习系统的研究与实现,TP391.6
- 基于关联规则挖掘的入侵检测系统的研究与实现,TP393.08
- 数据仓库技术在银行客户管理系统中的研究和实现,TP315
- 基于Moodle的高职网络教学系统设计与实现,TP311.52
- 教学质量评估数据挖掘系统设计与开发,TP311.13
- 关联规则算法在高职院校贫困生认定工作中的应用,G717
- 基于数据挖掘技术在城市供水的分析与决策,F299.24;F224
- 数据挖掘技术在电视用户满意度分析中的应用研究,TP311.13
- Web使用挖掘与网页个性化服务推荐研究,TP311.13
- 数据挖掘在学校管理和学生培养中的应用,TP311.13
- 高校毕业生就业状况监测系统研究,G647.38
- 基于数据仓库的药品监管辅助决策支持系统的设计与实现,TP311.13
- 基于数据挖掘的信用卡客户激活与响应度研究,F832.2
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 程序设计 > 数据库理论与系统
© 2012 www.xueweilunwen.com
|