学位论文 > 优秀研究生学位论文题录展示
模糊c-均值算法的研究
作 者: 蔡静颖
导 师: 谢福鼎
学 校: 辽宁师范大学
专 业: 计算机软件与理论
关键词: 模糊理论 模糊c-均值 马氏距离 文化算法
分类号: TP311.13
类 型: 硕士论文
年 份: 2010年
下 载: 327次
引 用: 4次
阅 读: 论文下载
内容摘要
随着数据库技术的不断发展及数据库管理系统的广泛应用使得各组织机构积累了海量数据,为了从中提取有用信息,更好地利用这些数据资源,人们提出了数据挖掘技术。数据挖掘技术将传统的数据分析方法与处理大量数据的复杂算法相结合,是目前信息领域和数据库技术的前沿研究课题。聚类分析技术是数据挖掘的主要方法,它将数据划分成有意义或有用的组(簇),在众多的聚类分析算法中,模糊聚类算法是当前研究的热点。本文对其中最经典的模糊c-均值(FCM)算法进行了深入研究,并对它加以改进和优化,实验验证了方法的可行性和有效性。本文系统分析了FCM算法和马氏距离的基本原理,从而利用马氏距离的优点来弥补FCM算法中存在的缺陷,其次利用优化的KPCA进行特征提取,本文从三个方面对FCM算法进行了改进。首先,经典的模糊c-均值(FCM)算法是基于欧氏距离的,它只适用于球型结构的聚类,且在处理属性高相关的数据集时,分错率增加。针对这个问题,提出了一种新的聚类算法(FCM-M),它将马氏距离替代模糊c-均值中的欧氏距离,并在目标函数中引进一个协方差矩阵的调节因子,利用马氏距离的优点,有效地解决了FCM算法中的缺陷,并利用特征值,特征矢量及伪逆运算来解决马氏距离中遇到的奇异问题。其次,经典的模糊c-均值算法认为样本矢量各特征对聚类结果贡献均匀,没有考虑不同的属性特征对模式分类的不同影响,且在处理属性高相关的数据集时,该算法分错率增加。针对这些问题,提出了一种基于马氏距离特征加权的模糊聚类算法,利用自适应马氏距离的优点对特征加权处理,从而对高属性相关的数据集进行更有效的分类。最后,利用核函数主元分析(KPCA)方法对大样本,高维数据进行特征提取预处理,并结合文化算法(CA)选择最优或接近最优的核函数,将其用于模糊c-均值(FCM)聚类中,不但有效地提取了样本的非线性信息,而且使样本维数得到约简。利用MATLAB语言实现上述方法,并进行了UCI数据集聚类和图像分割两组实验,从实验结果看,均达到预期效果。
|
全文目录
相似论文
- 病险水库溃坝概率分析方法研究,TV697
- 细菌聚类算法及其在图像分割问题中的研究与应用,TP391.41
- 融合粒子群和蛙跳算法的模糊C-均值聚类算法研究,TP18
- 自然教室中基于视频流的人脸识别系统的研究与实现,TP391.41
- 基于马氏田口方法的产品关键质量特性识别研究,F426.4;F224
- 真核启动子识别算法研究,Q75
- 基于智能算法的正负关联规则挖掘研究,TP311.13
- 土壤有机碳含量空间分布预测研究,S153.62
- 近红外光谱分析技术在烟草化学中的应用研究,S572
- 蜂窝网络无线定位算法研究,TN929.5
- 基于模糊理论的Web用户聚类的研究,TP311.13
- 基于AABB包围盒的文化粒子群碰撞检测算法的研究与实现,TP301.6
- 基于Web的羊病诊断专家系统关键技术的研究,TP182
- 基于模糊聚类的金融时间序列对公共信息的反应强度研究,F224
- 模糊理论视阈下的古诗词教学,G633.3
- 脑核磁共振影像脑组织分割及多发性硬化损伤算法,TP391.41
- 模糊聚类分析中模糊c均值聚类计算方法研究,TP391.4
- 基于纹理特征的遥感影像土地利用分类,TP751
- 基于层次分析法与模糊综合评判法的集中运维点选择优化研究,TP273.5
- 广告语中的模糊修辞,H05
- 一种通过寡核苷酸多态性芯片识别基因型的方法,Q78
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 程序设计 > 数据库理论与系统
© 2012 www.xueweilunwen.com
|