学位论文 > 优秀研究生学位论文题录展示
模糊c均值聚类技术研究
作 者: 宋清栋
导 师: 严小卫; 张师超
学 校: 广西师范大学
专 业: 计算机软件与理论
关键词: 数据挖掘 模糊c均值 计算机取证犯罪
分类号: TP311.13
类 型: 硕士论文
年 份: 2012年
下 载: 445次
引 用: 1次
阅 读: 论文下载
内容摘要
聚类分析在传统意义上面就是准确的将数据集中的所有点放入到其中一个类中,这就是硬划分。但是模糊性却是存在很多事物的各种属性中的,也就是说事物之间没有明确的判断依据,无法准确的进行事物的划分判断,这个时候模糊聚类就发挥了自己的作用。现在,模糊C均值(fuzzy C-means, FCM)聚类算法是在日常生活中应用最广泛的一种模糊聚类算法。在近些年来数据挖掘方向出现了很多的算法,针对现在社会的数据的爆炸式的增长,这些算法参差不齐,而网络上的各种信息也是每一天都是在与日俱增。在这些算法中FCM也算是一个比较出色的算法,虽然很早就被人们给提出来,并且被人们演化出很多的相关优秀的算法。模糊c均值聚类算法是聚类分析和模糊理论共同发展所诞生的产物。模糊理论(Fuzzy Theory)在模糊集合之上,是进行描绘和分析人类特有的语言的模棱两可的信息。然后来介绍一下聚类分析,聚类就是对事物进行分类,但是根据一些具体的准则进行分类的。在这个分类的过程中是没有经验,没有老师指导,全部依靠事物之间的相似性来进行划分,所以这是一个无监督分类范畴下的。聚类分析就是将事物进行分类在这期间使用数学方法进行实现的。聚类分析主要含有四个方面,包括基于等价关系的聚类方法、图论聚类法和基于目标函数的聚类方法、谱系聚类法。除了基于目标函数的这种的聚类方法之外其他3种方法都不能很好的适应大量数据,所以这也就突出了基于目标函数的现实研究意义。众所周知,在FCM算法和一些FCM算法的改进算法中,是对这个聚类的过程的属性假设其对结果的影响是相同的,这个假设对算法是有比较好的意义。但是在现今的社会,数据量日益庞大,数据的复杂度也是成直线上升。原来对聚类过程的属性的影响假设已经不能适应现今的需求。在如今的高维数据面前,很多的属性其实是一种噪声数据,一种对结果会起到反作用的数据。这种属性也有可能是对结果毫无作用,这些属性我们不能简单的将其假设成为对结果影响相同的属性。因为在数据中不同的属性对聚类的结果有着不同的作用,每个属性有可能有着不同的用途。所以对数据中的属性分析和属性在聚类过程中的影响了解,在现在聚类分析中显得尤为重要。本文主要在模糊c均值聚类的基础上加入权值、半监督点密度和在计算机取证中的应用展开研究。(1)加入权值。在实际的应用中属性值得权值十分重要,本章提出了一种新的模糊c均值聚类算法(New Fuzzy c-means, NFCM)。本算法可以使每个属性的权值计算出来,并能将不是显性的类结构提取出来。(2)加入半监督点密度。每一个团状或者类数据数目相差的比较大的情况下,模糊c均值聚类算法在这个时候就不能很好的处理好,以至于现在出现的半监督学习的FCM算法也是不能很好的处理这个问题。他们不能对数据很好的划分,因为他们是对数据的等划分,这些是半监督学习的模糊c均值聚类算法在这个些方面的缺陷,这就促使FCM算法中加入半监督加权的产生。半监督点密度FCM算法的产生是在前面两种算法的基础上,半监督点密度FCM算法是以数据样本集的点密度加上权值进行计算的,这样就能将模糊FCM算法和半监督学习的FCM算法的弊端,对数据样本进行了等划分进行了改进,这样就能对数据有区别的进行划分。(3)在传统的取证分析中,是从已知的可见的数据中获取有效信息。而计算机取证分析是从海量的各种类型的电子数据中获取有用的信息。这个过程人工是无法很好的完成的,需要借助计算机系统,从中筛选出与计算机犯罪有关的证据数据。本文主要应用基于主成份分析的模糊聚类算法,对电子证据进行有效地聚类以便于更深入分析研究。计算机取证是在应用计算机技术来获取、调查和分析计算机犯罪的技术。
|
全文目录
摘要 3-5 Abstract 5-10 第1章 绪论 10-20 1.1 数据挖掘介绍 10 1.2 数据挖掘的可挖掘对象 10-12 1.2.1 关系数据库 11 1.2.2 数据仓库 11 1.2.3 事务数据库 11 1.2.4 高级数据和信息系统与高级应用 11-12 1.3 常用的数据挖掘技术 12-14 1.3.1 关联分析法 12 1.3.2 人工神经元网络 12 1.3.3 决策树 12-13 1.3.4 遗传算法 13 1.3.5 聚集发现 13 1.3.6 关联分析和序列模式分析 13 1.3.7 偏差分析 13-14 1.3.8 贝叶斯分类 14 1.4 模糊c均值聚类算法 14-16 1.4.1 模糊c均值聚类算法由来 14-16 1.5 模糊c均值聚类算法的研究现状 16-18 1.5.1 模糊聚类目标函数的进化 17 1.5.2 模糊c均值的应用 17-18 1.6 文章的研究内容和组织结构 18-20 第2章 模糊c均值聚类算法的研究 20-27 2.1 引言 20-21 2.2 问题描述 21 2.3 新算法的提出 21-23 2.4 实验结果 23-26 2.4.1 实验一 23-24 2.4.2 实验二 24-25 2.4.3 实验三 25-26 2.5 本章小结 26-27 第3章 模糊c均值聚类算法中加入半监督点密度加权的研究 27-34 3.1 概述 27 3.2 相关概念以及理论基础 27-30 3.2.1 模糊c均值聚类 27-28 3.2.2 半监督学习的模糊c均值聚类算法 28-29 3.2.3 半监督点密度加权模糊c均值聚类 29-30 3.3 实验数据及其分析 30-32 3.3.1 实验一 31 3.3.2 实验二 31-32 3.4 本章小结 32-34 第4章 模糊c均值聚类算法在计算机取证中的研究 34-42 4.1 引言 34-35 4.2 理论基础及算法实现 35-39 4.2.1 主成份分析(PCA) 35-37 4.2.2 模糊c均值聚类算法 37-39 4.3 实验结果及其分析 39-41 4.3.1 实验一 39-40 4.3.2 实验二 40 4.3.3 实验三 40-41 4.4 本章总结 41-42 第五章 总结与展望 42-44 5.1 全文总结 42 5.2 进一步的工作 42-44 参考文献 44-47 攻读硕士学位期间发表的学术论文 47-48 致谢 48-49
|
相似论文
- 基于数据挖掘技术的保健品营销研究,F426.72
- 高忠英学术思想与经验总结及运用补肺汤加减治疗呼吸系统常见病用药规律研究,R249.2
- 张炳厚学术思想与临床经验总结及应用地龟汤类方治疗慢性肾脏病的经验研究,R249.2
- 细菌聚类算法及其在图像分割问题中的研究与应用,TP391.41
- 融合粒子群和蛙跳算法的模糊C-均值聚类算法研究,TP18
- 基于遗传算法和粗糙集的聚类算法研究,TP18
- 演化聚类算法及其应用研究,TP311.13
- 基于数据挖掘的税务稽查选案研究,F812.42
- 基于行业参数优化模型的投资项目决策支持系统,F283
- 基于数据挖掘的课程考核与分析决策系统的设计和实现,TP311.13
- 基于模糊聚类的图像检索方法研究及其系统实现,TP391.41
- 基于数据挖掘技术在城市供水的分析与决策,F299.24;F224
- 一种面向海量数据综合评价的树状数据结构的设计与研究,TP311.12
- 基于智能计算的网络学习评价模型研究与系统设计,TP18
- 基于神经网络交叉覆盖算法的学生成绩预测,TP311.13
- 啤酒行业精准营销策略研究,F426.82
- 面向电子商务的Web数据挖掘应用研究,TP311.13
- 改进K-MEANS聚类算法在银行CRM中的应用与研究,TP311.13
- 基于改良蚁群算法的神经网络分类规则提取,TP183
- 改进的模糊C均值聚类算法及其应用,O159
- 数据挖掘技术在预防电信客户流失中的应用研究,TP311.13
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 程序设计 > 数据库理论与系统
© 2012 www.xueweilunwen.com
|