学位论文 > 优秀研究生学位论文题录展示

大型不确定数据库的有效聚类

作　者: 李云飞
导　师: 王丽珍
学　校: 云南大学
专　业: 计算机软件与理论
关键词: 聚类 k-d树 CF树 ck-means算法提高
分类号: TP311.13
类　型: 硕士论文
年　份: 2011年
下　载: 27次
引　用: 0次
阅　读: 论文下载

内容摘要

聚类分析作为数据挖掘的主要方法之一,越来越引起人们的重视。所谓聚类是将一组对象分成若干类,使得同一类内的对象尽量相似,不同类的对象尽量相异。由于聚类在现实生活中应用越来越广泛,因此研究如何提高聚类的效率具有实际的意义。如果聚类在分析数据时所需时间太长,或者需要的存储量太大,即使最好的聚类算法也没有太大的实用价值,而且不确定数据的引入更是大大增加了聚类的难度。对不确定数据集进行聚类分析是数据挖掘领域中的一个重要的研究热点,现实生活中对不确定数据的分析也有很重要的应用价值。由于数据存在不确定性,就需要计算每个对象和它的簇代表点之间的期望距离,计算期望距离是相当耗时的,因为每个对象的概率密度函数是不同和任意的,计算大量的期望距离是影响算法效率的主要原因。因此ck-means算法的提出有效的提高了不确定对象的聚类效率,但是当聚类的样本很大时,则聚类代价还是很高。本文通过分析现有的不确定聚类算法,利用k-d树及CF树结构进行改进,进一步提高不确定聚类算法的效率。论文的主要内容包括以下几点：(1)介绍了数据挖掘及聚类的基本概念与主要方法(2)介绍了不确定数据聚类的相关概念,不确定数据聚类的经典算法uk-menas算法及其剪枝算法,以及ck-means算法(3)提出了基于k-d树的改进的ck-means算法,详细地介绍了k-d树及改进算法的实现过程,有效的提高了聚类的效率(4)提出了基于CF树的改进的ck-means算法,详细地介绍了CF树的建树及重建规则及改进算法的实现过程,有效地提高了聚类的质量及效率(5)实验部分通过模拟数据验证了改进算法的效果及两个改进后的算法的效果比较,并讨论其现实意义(6)总结,在回顾本文研究内容的同时,也对将来的研究工作做出了展望

全文目录

摘要  3-4
Abstract  4-6
目录  6-8
第一章引言  8-11
  1.1 研究背景  8
  1.2 研究内容及意义  8-10
    1.2.1 研究现状  8-9
    1.2.2 研究的目的和意义  9-10
    1.2.3 本文研究的内容  10
  1.3 本文的组织结构  10-11
第二章数据挖掘及聚类  11-21
  2.1 引言  11
  2.2 数据挖掘概述  11-13
    2.2.1 数据挖掘的概念  11
    2.2.2 数据挖掘的起源  11-12
    2.2.3 数据挖掘面临的问题  12-13
  2.3 数据挖掘的方法  13-14
  2.4 聚类  14-20
    2.4.1 聚类的相关概念  14-16
    2.4.2 聚类的要求  16-17
    2.4.3 聚类的方法  17-18
    2.4.4 K均值算法  18-19
    2.4.5 聚类的应用  19-20
  2.5 本章小结  20-21
第三章不确定数据的聚类及其经典算法  21-34
  3.1 引言  21
  3.2 相关定义  21-22
  3.3 不确定数据的聚类的经典算法  22-34
    3.3.1 uk均值算法  23-24
    3.3.2 最小最大距离剪枝算法  24-31
    3.3.3 ck均值算法  31-33
    3.3.4 本章小结  33-34
第四章大型不确定数据集的有效聚类  34-46
  4.1 引言  34
  4.2 基于k-d树的优化算法  34-38
    4.2.1 k-d树  34-35
    4.2.2 优化算法  35-38
  4.3 基于CF树的优化算法  38-46
    4.3.1 CF树  38-39
    4.3.2 CF树的构造  39-41
    4.3.3 CF树的重建  41-42
    4.3.4 优化算法  42-45
    4.3.5 本章小结  45-46
第五章实验分析  46-50
  5.1 引言  46
  5.2 实验环境和数据  46
  5.3 实验结果  46-49
  5.4 本章小结  49-50
第六章总结与展望  50-51
  6.1 研究工作总结  50
  6.2 未来工作展望  50-51
参考文献  51-55
研究生期间发表的论文  55-56
致谢  56

相似论文

卫星光通信粗瞄控制系统的设计及故障诊断,V443.1
病险水库溃坝概率分析方法研究,TV697
支持XML数据查询的F&B索引结构的研究,TP311.13
多邮件自动文摘的关键技术研究,TP391.1
基于串核的蛋白质分类算法的研究与实现,TP301.6
隐式用户兴趣挖掘的研究与实现,TP311.13
图像分割中阴影去除算法的研究,TP391.41
基于图分割的文本提取方法研究,TP391.41
基于支持向量机的故障诊断方法研究,TP18
牡丹EST-SSR引物开发及其亲缘关系分析,S685.11
紫金山树木菌根多样性的调查分析,S718.81
高血压前期证候特征研究,R259
提高初中生学习化学兴趣的研究,G633.8
新疆油田地面工程造价指标和管理信息系统的研究与应用,F284
高忠英学术思想与经验总结及运用补肺汤加减治疗呼吸系统常见病用药规律研究,R249.2
K-均值聚类算法的研究与改进,TP311.13
大学生综合素质测评研究,G645.5
大豆品种对腐竹品质的影响及其品质评价体系的初步构建,TS214.2
21个荷花品种遗传多样性的ISSR分析,S682.32
基于聚类分析的P2P流量识别算法的研究,TP393.02
基于混合自适应遗传算法的动态网格调度问题研究,TP393.09