学位论文 > 优秀研究生学位论文题录展示

分类属性数据聚类算法研究

作 者: 王敏
导 师: 林庆
学 校: 江苏大学
专 业: 模式识别与智能系统
关键词: 聚类分析 分类属性数据  子空间
分类号: TP301.6
类 型: 硕士论文
年 份: 2008年
下 载: 224次
引 用: 4次
阅 读: 论文下载
 

内容摘要


现代数据库和网络技术的发展,使得人们面对的数据量以惊人的速度增长。为了获取有价值的信息,聚类分析已成为数据挖掘中一个十分活跃的研究领域。本文详细介绍了聚类分析的基本概念、数据类型和相异度测量方法,分类方法和特点,并对聚类结果的评价方法进行了讨论。随着数据类型的多样化,聚类分析也要求能够处理各种各样类型的数据。本文重点讨论的是对分类属性数据的聚类算法(Algorithms for Clustering Categorical Data,CCA)研究。围绕分类属性数据的聚类问题,研究较为深入的是划分法聚类。首先具体研究了典型的k-modes算法及其变形,并指出了它们的优缺点,对它的相异度作了一个小的改进,并应用在构建合作学习小组中;探讨了模糊k-modes算法和进化策略对属性进行加权的改进fuzzy k-modes算法,以及近似k-median分类属性数据聚类算法,用基于划分相似度的聚类精确度为聚类结果的评价准则,实验分析了它们的聚类效果。其次研究了引用的概念来对分类属性数据(categorical data)的聚类,简单地描述了熵的一些基本性质,介绍了三个基于熵的聚类算法,接着我们用增益熵作为引力模型的距离半径,构建的熵函数作为引力和加速度,聚类中的数目作为质量来形象地描述引力模型的分类属性数据的聚类算法的聚类过程。用分类的效率、期望熵值和纯度这三个聚类评价准则来衡量聚类的结果。为了有所比较,用UCI数据库中的两个分类属性数据集Mushroom dataset和Voting Record dataset,同时运行在k-modes算法和COOLCAT算法上,来比较这三者算法的聚类效果。最后是提出了一种在子空间里无重叠分类属性数据的聚类算法。新的无重叠聚类算法用紧凑函数和分散函数之和作为目标函数,最小化得到它的最终聚类结果。分别用在UCI数据库的3个分类属性数据集中,聚类的结果分别显示了它们的各个类别所在的子空间类集。随着数据库的发展,计算机的更广泛的应用,必然带动分类属性数据上更广泛的研究和应用,在基于熵的概念和高维子空间上的聚类研究也会得到更进一步的完善与发展。

全文目录


摘要  5-7
ABSTRACT  7-11
第1章 绪论  11-15
  1.1 研究背景及意义  11-13
    1.1.1 研究背景  11-12
    1.1.2 研究意义  12-13
  1.2 论文研究内容  13
  1.3 论文结构安排  13-15
第2章 聚类分析  15-29
  2.1 聚类分析的概念  15-16
  2.2 聚类分析中的数据结构及类型  16-23
    2.2.1 聚类分析中的数据结构  16-17
    2.2.2 聚类分析中的数据类型  17-23
  2.3 聚类分析方法的分类  23-26
    2.3.1 基于聚类标准的划分  23
    2.3.2 基于所处理的数据类型的划分  23-24
    2.3.3 基于聚类尺度的划分  24-25
    2.3.4 基于主要思路的划分  25-26
  2.4 聚类方法小结  26
  2.5 描述聚类的特征  26-28
    2.5.1 聚类的特征  27
    2.5.2 聚类准则的确定  27-28
  2.6 聚类的一般应用  28-29
第3章 基于划分的CCA算法  29-47
  3.1 K-modes算法  29-34
    3.1.1 K-modes算法  29-31
    3.1.2 对相异度的改进  31-33
    3.1.3 在合作学习分组中的应用  33-34
  3.2 K-prototypes算法  34-36
  3.3 Fuzzy k-modes算法  36-40
    3.3.1 Fuzzy k-modes算法  36-37
    3.3.2 对相异度改进的算法  37-39
    3.3.3 加权fuzzy k-modes算法  39-40
  3.4 近似k-median算法  40-42
    3.4.1 近似中值  40-41
    3.4.2 近似k-median算法  41-42
  3.5 试验分析  42-45
    3.5.1 聚类精确度  42-44
    3.5.2 结果分析比较  44-45
  3.6 小结  45-47
第4章 基于的CCA算法  47-59
  4.1 基于熵的算法  47-51
    4.1.1 熵的一些性质  47-48
    4.1.2 基于熵的模糊算法  48-49
    4.1.3 COOLCAT算法  49-50
    4.1.4 Best-K(ACE)算法  50-51
  4.2 引力模型的CCA算法  51-57
    4.2.1 ROCK算法和CACTUS算法  51-52
    4.2.2 相关定义  52
    4.2.3 引力模型及算法步骤  52-54
    4.2.4 合适的类数k  54-55
    4.2.5 实验  55-57
  4.3 小结  57-59
第5章 基于子空间的CCA算法  59-67
  5.1 子空间聚类算法的基本思想  59-60
    5.1.1 子空间聚类的划分  59-60
    5.1.2 ENCLUS算法  60
  5.2 无重叠子空间CCA算法  60-66
    5.2.1 相关定义  61-62
    5.2.2 算法步骤  62-64
    5.2.3 实验  64-66
  5.3 小结  66-67
第6章 结束语  67-68
致谢  68-69
参考文献  69-73
攻读硕士期间发表论文  73

相似论文

  1. 偏振条件下辐射能和熵传输的数值模拟,TK124
  2. 流动与混合过程中不可逆损失的研究,TK12
  3. 基于信息熵的课堂观察量化评价模型研究,G632.4
  4. 领域实体属性及事件抽取技术研究,TP391.1
  5. 人物言论抽取与跟踪技术研究,TP391.1
  6. 图像分割中阴影去除算法的研究,TP391.41
  7. 基于停用词处理的汉语语音检索方法,TP391.1
  8. 桡动脉超声多普勒血流信号的特征提取及分类研究,TP391.41
  9. 牡丹EST-SSR引物开发及其亲缘关系分析,S685.11
  10. 高血压前期证候特征研究,R259
  11. 高忠英学术思想与经验总结及运用补肺汤加减治疗呼吸系统常见病用药规律研究,R249.2
  12. 大学生综合素质测评研究,G645.5
  13. 大豆品种对腐竹品质的影响及其品质评价体系的初步构建,TS214.2
  14. 公路生态系统健康评价方法研究,X826
  15. 21个荷花品种遗传多样性的ISSR分析,S682.32
  16. 基于聚类分析的P2P流量识别算法的研究,TP393.02
  17. 桃杂交后代(F1)幼苗光合效能评价,S662.1
  18. 南通市农业面源污染负荷研究与综合评价,X592
  19. 土壤环境功能区划研究,X321
  20. 基因表达谱数据聚类分析方法比较与大豆疫霉基因的网络构建,S435.651
  21. 大豆杂种优势及其遗传基础研究,S565.1

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 一般性问题 > 理论、方法 > 算法理论
© 2012 www.xueweilunwen.com