学位论文 > 优秀研究生学位论文题录展示

独立于应用的数据库聚类技术研究

作　者: 程文琛
导　师: 胡学钢
学　校: 合肥工业大学
专　业: 计算机软件与理论
关键词: 多数据库挖掘最优分组模式合成分组规则
分类号: TP311.13
类　型: 硕士论文
年　份: 2013年
下　载: 8次
引　用: 0次
阅　读: 论文下载

内容摘要

大型公司拥有多个子公司，每个子公司一般分布在不同的地区，大型公司一般使用多数据库系统管理业务。多数据库系统的知识发现对于大型公司的管理者是一种迫切的需求。简单地将子公司数据发送到总公司，进行集中挖掘，弊端很多，因此开发一种多数据库挖掘系统是数据挖掘的一个新的挑战。面向应用的数据库选择合并挖掘方法效率低下且容易造成信息丢失；分布式挖掘方法不产生中间规则且平行挖掘算法部署困难。独立于应用的多数据库最优分组挖掘方法针对数据挖掘过程的三个阶段，重新设计了多数据库挖掘的过程：在数据准备阶段加入多数据库最优分组过程；然后单独挖掘每一个数据库，产生本地规则集；在知识表示评价阶段进行模式分析和模式合成工作：模式分析产生高票规则、例外规则和建议规则；模式合成不仅产生全局规则，还产生支持度置信度高于全局规则的分组规则。三个阶段的过程完整彻底地完成了多数据库挖掘任务。本文的研究工作主要包括以下三个方面：(1)总结了多数据库挖掘技术研究的基本情况。包括多数据库挖掘问题的重要性、基本结构和特点；现有的两种多数据库挖掘技术的基本内涵和弊端；数据库间相似度计算方法和多数据库的分组方法；多数据库挖掘中的数据库分类技术。(2)提出一种基于模糊聚类分析的多数据库最优分组技术。该技术较现有的两种多数据库挖掘技术有明显的优势，整体时间性能很高，能够获得更有效的全局决策支持信息。并且该技术在算法设计上有创新，能够对分类数据进行模糊分析。(3)提出分组规则概念，并利用规则合成技术证实了分组规则的优越性。分组规则是分组内的全局规则，它缩小了决策范围，使决策对象更集中，从而降低了成本、提高了效果。

全文目录

摘要  5-6
ABSTRACT  6-7
致谢  7-12
第一章绪论  12-18
  1.1 引言  12
  1.2 数据挖掘概述  12-13
    1.2.1 数据挖掘的定义与流程  12-13
    1.2.2 数据挖掘的特点  13
  1.3 多数据库挖掘概述  13-16
    1.3.1 多数据库中数据挖掘问题的提出及其重要性  13-14
    1.3.2 多数据库中数据挖掘的特点  14-16
  1.4 本文的工作与创新点  16-17
    1.4.1 本文的工作和内容组织  16
    1.4.2 本文的创新点  16-17
  1.5 本章小结  17-18
第二章多数据库挖掘技术及分组方法概述  18-33
  2.1 引言  18
  2.2 多数据库挖掘技术  18-21
    2.2.1 面向应用的数据库选择合并挖掘技术  18-19
    2.2.2 分布式（并行）挖掘技术  19-21
    2.2.3 独立于应用的多数据库分组挖掘技术  21
  2.3 多数据库分组方法  21-32
    2.3.1 聚类分析概述  21-22
    2.3.2 数据库间相似度和距离的测量  22-28
    2.3.3 多数据库分组及评价  28-32
  2.4 本章小结  32-33
第三章基于 AFCMC 算法的多数据库最优分组技术  33-56
  3.1 引言  33
  3.2 模糊聚类与自适应模糊 C-均值聚类算法  33-41
    3.2.1 模糊集与隶属函数  33-35
    3.2.2 模糊聚类分析  35-38
    3.2.3 自适应模糊 C-均值聚类算法  38-41
  3.3 独立于应用的多数据库最优分组技术  41-47
    3.3.1 多数据库最优分组方法概述  41
    3.3.2 多数据库的完全分组及算法分析  41-44
    3.3.3 多数据库的最优分组及算法分析  44-47
  3.4 实验系统设计  47-55
    3.4.1 实验系统框架及算法具体步骤  47
    3.4.2 系统主要模块及实现  47-49
    3.4.3 实验分析  49-55
  3.5 本章小结  55-56
第四章多数据库挖掘中的关联规则合成技术  56-62
  4.1 引言  56
  4.2 关联规则合成技术  56-59
    4.2.1 权值方法的提出  56
    4.2.2 规则选取方法  56-57
    4.2.3 规则合成方法  57
    4.2.4 规则选取算法  57-58
    4.2.5 规则合成算法  58-59
  4.3 实验与分析  59-61
  4.4 本章小结  61-62
第五章总结与展望  62-64
  5.1 全文总结  62
  5.2 下一步的研究工作  62-64
参考文献  64-67
附录一  67-69

相似论文

多数据库中负关联规则挖掘技术的研究,TP311.13
多数据源中的特异数据挖掘,TP311.13
数据库中Burst模式挖掘的研究与实现,TP311.13
SAR自聚焦，星载ScanSAR成象和有源相控阵天线研究,TN821.8
分组测试的最优化方法及其应用,O221
频繁图结构并行挖掘算法的研究与实现,TP311.13
海量多数据库集成系统的Mediator和Wrapper机制的设计与实现,TP311.13
隐式用户兴趣挖掘的研究与实现,TP311.13
基于BAP的数据压缩、操作与查询处理系统的实现,TP311.13
K-均值聚类算法的研究与改进,TP311.13
K-means聚类优化算法的研究,TP311.13
公安110指挥决策业务系统,TP311.13
不完备信息系统的完备化及其上的知识获取,TP311.13
演化聚类算法及其应用研究,TP311.13
基于元数据的数据逻辑独立性方法研究,TP311.13
基于查询接口的Deep Web模式匹配方法研究,TP311.13
数据集市在电信经营分析中的应用研究,TP311.13
数据挖掘在高职院校学生成绩分析中的应用,TP311.13
基因表达时序数据聚类和比对分析方法研究,TP311.13
对于系统发育谱法聚类算法的改进,TP311.13
特定领域的Deep Web数据抽取与语义标注研究,TP311.13