学位论文 > 优秀研究生学位论文题录展示
基于高维空间的聚类技术研究
作 者: 和亚丽
导 师: 陈立潮
学 校: 中北大学
专 业: 计算机应用
关键词: 数据挖掘 高维聚类 映射聚类 离群点检测 聚类结果表示 粗集理论
分类号: TP311.13
类 型: 硕士论文
年 份: 2005年
下 载: 399次
引 用: 7次
阅 读: 论文下载
内容摘要
随着计算机应用的普及,信息系统产生的数据量日益增大,迫切需要高效的数据挖掘工具,从大量原始数据中寻找有价值的知识模式。聚类分析是数据挖掘的重要工具之一。如何正确处理维度达到数百、数千的数据集合,如何从高维数据集中寻找潜在的、自然存在的聚类簇,这是当前聚类分析研究的热点。本文针对聚类分析的热点和难点问题----高维聚类展开研究,目的是寻求有效的高维聚类算法,以及有效的高维数据离群点发现和聚类结果表达等技术。本文研究了高维聚类分析的关键技术,主要工作有:1、针对高维数据空间下聚类簇的分布特点,改进了一种基于子空间的映射聚类算法。本文应用柏努利分布表示二元数据的分布特征,把基于有限混合柏努利分布模型与EM(Expectation-Maximization)算法相结合的高维二元数据映射聚类方法,一方面发现各种子空间下的聚类簇,一方面为每个簇指定相应的属性子集,实现了不同子空间下聚类簇的挖掘。2、从映射聚类算法出发,设计了一种高维空间离群点发现的算法。首先,运用一种映射聚类的算法寻找数据点相对密集的子空间。为了尽快找到这些数据簇及其相应的子空间,可以对数据进行二元处理,即把全部数据集转化为二元数据,然后运用二元数据映射聚类方法找到映射簇及相关联的属性集合;第二,根据属性熵的定义,对每个属性集合的每一属性判别其离散程度;第三,在离散程度较大的属性集合中确定离群点;第四,进行簇间属性集合的交叉分析,发现跨子空间的离群点。3、仔细研究基于粗集理论的高维聚类结果表达方法。认为聚类簇必须以有效的方式加以表达,相对完整地传达聚类运算的结果,以利于人工交互,完成知识发现的后续操作。因此,聚类结果的可表达性、可解释性是聚类算法必须考虑的关键技术。本文运用粗集(rough set)理论,引入属性空间上的粗糙集理论,考虑数据在对象空间和属性空间的不同特性,使聚类结果特征从对象空间和属性空间两个角度得到了综合反映,并以规则的形式表示聚类知识,既可全面表示数据聚类结构,也可实现聚类增量计算。
|
全文目录
1 、 高维聚类技术综述 9-22 1.1 数据库知识发现 9-13 1.1.1 数据库知识发现的产生与发展 9-10 1.1.2 KDD的一般机理和理论基础 10-11 1.1.3 KDD系统的基本框架 11-12 1.1.4 KDD的主要任务 12-13 1.2 聚类分析 13-22 1.2.1 聚类问题的描述及主要方法 14-16 1.2.2 高维聚类问题.. 16-20 1.2.3 高维聚类的关键技术 20-22 2 、 高维二元数据的映射聚类算法 22-38 2.1 引言 22 2.2 相关工作 22-23 2.3 二元数据 23-24 2.4 映射聚类的模型 24-34 2.4.1 柏努利分布(Bernoulli distribution) 24-25 2.4.2 有限混合柏努利分布 25 2.4.3 似然函数 25-26 2.4.4 EM算法 26-27 2.4.5 柏努利混合模型的EM算法 27-28 2.4.6 基于混合模型的映射聚类思想 28-34 2.5 映射聚类算法 34-35 2.6 试验结果 35-37 2.7 结论 37-38 3 、 高维数据空间的离群点检测方法研究 38-50 3.1 概述 38-40 3.2 高维空间中的离群点发现 40-41 3.3 子空间离群点发现算法综述 41-43 3.4 映射离群点发现的思考 43-44 3.5 映射离群点发现算法的设计 44-48 3.5.1 映射聚类算法 44 3.5.2 关于熵的属性选择 44-47 3.5.3 离散属性中离群点的确定 47-48 3.5.4 簇外属性检测 48 3.6 算法描述及分析 48 3.7 结论 48-50 4 、 高维数据聚类结果的表示 50-66 4.1 聚类结果表述方式概述 50-53 4.1.1 数据可视化 51-52 4.1.2 表达方式 52-53 4.2 基于粗集理论的知识表示 53-60 4.2.1 粗糙集基础理论 54-57 4.2.2 属性空间上的routh集理论 57-60 4.3 基于粗糙理论的聚类结果表达 60-65 4.3.1 一般聚类知识的表达 60-63 4.3.2 高维二元映射聚类结果的粗集表示 63-65 4.4 结论 65-66 5 、 总结与展望 66-68 5.1 本文完成的主要工作与贡献 66-67 5.2 对今后工作的展望 67-68 参考文献 68-76 攻读硕士期间发表的论文及所取得的研究成果 76-77 致谢 77
|
相似论文
- 基于数据挖掘技术的保健品营销研究,F426.72
- 高忠英学术思想与经验总结及运用补肺汤加减治疗呼吸系统常见病用药规律研究,R249.2
- 张炳厚学术思想与临床经验总结及应用地龟汤类方治疗慢性肾脏病的经验研究,R249.2
- Bicluster数据分析软件设计与实现,TP311.52
- 基于变异粒子群的聚类算法研究,TP18
- 融合粒子群和蛙跳算法的模糊C-均值聚类算法研究,TP18
- 基于遗传算法和粗糙集的聚类算法研究,TP18
- 基于数据挖掘的税务稽查选案研究,F812.42
- 面向社区教育的个性化学习系统的研究与实现,TP391.6
- 基于关联规则挖掘的入侵检测系统的研究与实现,TP393.08
- 数据仓库技术在银行客户管理系统中的研究和实现,TP315
- 基于Moodle的高职网络教学系统设计与实现,TP311.52
- 教学质量评估数据挖掘系统设计与开发,TP311.13
- 关联规则算法在高职院校贫困生认定工作中的应用,G717
- 基于数据挖掘技术在城市供水的分析与决策,F299.24;F224
- 数据挖掘技术在电视用户满意度分析中的应用研究,TP311.13
- Web使用挖掘与网页个性化服务推荐研究,TP311.13
- 数据挖掘在学校管理和学生培养中的应用,TP311.13
- 高校毕业生就业状况监测系统研究,G647.38
- 基于数据仓库的药品监管辅助决策支持系统的设计与实现,TP311.13
- 基于数据挖掘的信用卡客户激活与响应度研究,F832.2
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 程序设计 > 数据库理论与系统
© 2012 www.xueweilunwen.com
|