学位论文 > 优秀研究生学位论文题录展示

基于模糊核聚类和模糊支持向量机的多标签分类方法研究

作 者: 郑文博
导 师: 杨燕
学 校: 西南交通大学
专 业: 信号与信息处理
关键词: 数据挖掘 模式识别 多标签分类 支持向量机 模糊核聚类
分类号: TP311.13
类 型: 硕士论文
年 份: 2011年
下 载: 88次
引 用: 1次
阅 读: 论文下载
 

内容摘要


自上世纪后期人们进入信息时代,各种数据就海量积累起来,远远超出了人力的处理范围,出现了“信息爆炸而知识匮乏”的现象。为此,数据挖掘技术应运而生,并显示出了强大的生命力。分类是数据挖掘中最常见的任务之一。它是通过已知的信息总结出规律,用来对新的数据进行判别,对其进行预测的过程。其中比较特殊的一种情况是一个样本具有多个标签的分类问题,称为单实例多标签分类问题。不同于常见的单标签分类情况,在这类问题中,数据具有多个标签使得样本的归属变得模糊不清,难以准确分类,具有相当的难度。然而在日常生活中其用途十分广泛,很多学者都致力于此,出现了很多优秀的算法及其改进。本文针对该问题设计了一种基于模糊支持向量机的多标签分类算法。支持向量机(Support Vector Machine, SVM)是一种新兴的分类机器,于上世纪九十年代末期由AT&T Bell实验室的Vapnik等人提出。该分类器基于统计学习理论和结构风险最小化原理,集成了最优分类超平面、核函数、凸二次规划等技术,能有效地解决“过学习”、“维数灾难”和局部极小点等问题,具有良好的推广性和准确率。但是支持向量机是针对两类单标签的数据集进行设计的,不能直接应用在多类别、多标签的问题中。为此本文设计了一种模糊支持向量机,能够对含有两类数据、样本可能具有两个标签的数据集进行分类。该分类器采用了模糊设计思想,通过对样本设置一个隶属度函数,充分利用了数据信息。该分类器不存在不可分区域,具有良好的分类精度。为了准确描述样本对类别的隶属关系,本文设计了一种基于距离和密度的隶属度函数。考虑到多标签分类的特殊性,本文采用了一对一分解策略,将原始数据分解为多个两类双标签子集分别训练,然后将其结果使用投票法进行组合,最终完成多标签分类。为了提高训练速度,降低训练集中噪音点对最优决策超平面的影响,本文引进了一种快速模糊核聚类技术,有效地提高了算法的性能。在实验部分,本文首先总结了一些被广泛采用的多标签分类算法的评价标准,然后在UCI提供的数据集上进行实验,最后将结果与现有的一些多标签分类算法进行了比较。

全文目录


摘要  6-7
Abstract  7-11
第1章 绪论  11-15
  1.1 本文的研究背景和研究意义  11-12
  1.2 多标签分类的国内外研究现状  12-14
  1.3 本文主要内容和结构安排  14-15
第2章 支持向量机基础  15-27
  2.1 统计学习理论概述  15-18
    2.1.1 分类问题的统计学提法  15
    2.1.2 经验风险最小化原则  15-16
    2.1.3 VC维理论  16
    2.1.4 推广性的界  16-17
    2.1.5 结构风险最小化原则  17-18
  2.2 支持向量机原理  18-22
    2.2.1 最优超平面  18-19
    2.2.2 线性支持向量分类机  19-21
    2.2.3 非线性情况及核函数  21-22
  2.3 基于支持向量机的多类分类方法  22-26
    2.3.1 多类目标分类的直接方法  23
    2.3.2 多类目标分类的间接方法  23-26
  2.4 本章小结  26-27
第3章 基于模糊支持向量机的多标签分类算法  27-41
  3.1 模糊数学基本概念  27
  3.2 常见的模糊隶属度函数  27-29
    3.2.1 基于线性距离的隶属度函数  28
    3.2.2 S型隶属度函数  28
    3.2.3 π型隶属度函数  28-29
  3.3 改进的两类三标签模糊支持向量机  29-39
    3.3.1 模糊支持向量机介绍  29-30
    3.3.2 快速模糊核聚类算法  30-33
    3.3.3 改进的两类三标签模糊支持向量机  33-36
    3.3.4 基于距离和样本密度的隶属度设计  36-39
  3.4 基于半模糊核聚类和模糊支持向量机的多标签分类设计  39-40
  3.5 本章小结  40-41
第4章 分类实验结果和分析  41-53
  4.1 实验数据概述  41-42
  4.2 实验算法和评价准则  42-44
    4.2.1 实验算法简介  42
    4.2.2 多标签算法的性能评价准则  42-44
  4.3 多标签分类性能实验  44-52
    4.3.1 阈值选取有效性实验  44
    4.3.2 多项式核上的实验  44-46
    4.3.3 RBF核上的实验  46-50
    4.3.4 聚类有效性实验  50-51
    4.3.5 单标签样本集上的实验  51-52
  4.4 本章小结  52-53
结论与展望  53-55
致谢  55-56
参考文献  56-60
攻读硕士学位期间发表的论文  60

相似论文

  1. 基于SVM的常压塔石脑油干点软测量建模研究,TE622.1
  2. 基于流形学习的高维流场数据分类研究,V231.3
  3. 基于SVM的高速公路路面浅层病害的自动检测算法研究,U418.6
  4. 基于PCA-SVM的液体火箭发动机试验台故障诊断算法研究,V433.9
  5. 空间目标ISAR成像仿真及基于ISAR像的目标识别,TN957.52
  6. 音乐结构自动分析研究,TN912.3
  7. 基于三维重建的焊点质量分类方法研究,TP391.41
  8. 胆囊炎和肾病综合症脉象信号的特征提取与分类研究,TP391.41
  9. 直推式支持向量机研究及其在图像检索中的应用,TP391.41
  10. 基于仿生模式识别的文本分类技术研究,TP391.1
  11. 基于SVM的中医舌色苔色分类方法研究,TP391.41
  12. 基于图像的路面破损识别,TP391.41
  13. 基于支持向量机的故障诊断方法研究,TP18
  14. 过程支持向量机及其在卫星热平衡温度预测中的应用研究,TP183
  15. 基于数据挖掘技术的保健品营销研究,F426.72
  16. 高忠英学术思想与经验总结及运用补肺汤加减治疗呼吸系统常见病用药规律研究,R249.2
  17. 张炳厚学术思想与临床经验总结及应用地龟汤类方治疗慢性肾脏病的经验研究,R249.2
  18. 基于监督流形学习算法的固有不规则蛋白质结构预测研究,Q51
  19. 羊绒与羊毛纤维鉴别系统的研究,TS101.921
  20. 基于回波包络的超声波入侵探测在军队警戒巡逻中的应用,E919
  21. Bicluster数据分析软件设计与实现,TP311.52

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 程序设计 > 数据库理论与系统
© 2012 www.xueweilunwen.com