学位论文 > 优秀研究生学位论文题录展示

基于数据转换与Co-training技术的多标记学习算法研究

作 者: 李雅林
导 师: 张化祥
学 校: 山东师范大学
专 业: 计算机软件与理论
关键词: 多标记学习 加权 K近邻 多示例学习 半监督学习
分类号: TP181
类 型: 硕士论文
年 份: 2014年
下 载: 1次
引 用: 0次
阅 读: 论文下载
 

内容摘要


多标记问题在现实世界的大量应用中普遍存在,现在已经成为机器学习和数据挖掘两个相关领域的研究热点。多标记学习的提出为多义性对象的复杂化问题提供了一种有效的解决方法,目前已存在大量的多标记学习算法,并在文本分类、生物信息学、自动视频注释、场景分类和许多其他领域广泛应用。然而,现在的解决多标记学习问题的方法侧重于利用传统的监督学习框架,其做法通常可以分为三种:第一种是把多标记学习问题转换为多个两类分类问题,其中每个标记对应一个二分类问题,这种方法适用于不是很明显的范畴,在样品丰富的情况下性能将是更好的,但更容易遇到标记样本稀疏的问题;第二种是多标记学习问题转化为标记顺序问题,这种方法重点在于对标记之间进行正确的排序,但它需要额外的学习阈值函数来获得相关标记的最终集合,但是通常比较难获得这个阈值函数;第三种是标记之间的结构信息和多标记问题研究相结合的方法,这种方法在合理使用结构信息时,可实现很好的性能,但缺乏领域知识指导时,几乎不知道如何使用结构信息较好。基于以上方法,本文以提高分类精度为切入点,通过对多标记示例集的定义和提取,基于近邻加权及多示例的多标记学习算法的提出,多标记与半监督学习算法的结合,进行了为提高多标记学习算法精度的深入研究。本文进行的主要研究工作和提出的创新点总结如下:1、多标记学习中问题转化的研究。现有的多标记算法中存在将多标记问题转化为多标记多示例问题的思想,这在一定程度上提高了多标记学习的分类性能,但在时间复杂度、分类精度等方面仍可以进一步提高。引进KNN(K-Nearest Neighbor)和加权方法,对每一个可能存在的类别标记,确定集合中属于这一类别标记的K个近邻样例,近邻给予加权再取平均后得到平均向量,样本就转化成数据包的形式,来保持数据整体分布的局部特性,提高分类的准确度。2、基于数据集中存在的大量未标记样例的多标记问题的研究。在现实世界的问题中,往往更容易获得大量未标记数据,每个对象都具有一个以上的标记,这大大增加了获得已标记数据的难度。因此,针对基于大量未标记数据的多标记学习研究,使用半监督学习将提高多标记分类的性能。将协同训练(Co-training)思想应用于多标记学习中,在数据集上选取局部和全局KNN进行训练得到两个不同分类器,分类器标记未标记样例并更新训练集,过程连续迭代,直到训练完成,从局部和全局的角度考虑训练集,以提高分类精度。

全文目录


目录  4-5
摘要  5-6
ABSTRACT  6-8
第一章 绪论  8-16
  1.1 研究背景及意义  8-10
  1.2 国内外研究现状  10-14
    1.2.1 多标记分类的研究现状  10-12
    1.2.2 多标记半监督的研究现状  12-14
  1.3 本文进行的研究工作及文章结构安排  14-16
    1.3.1 本文的主要研究工作  14
    1.3.2 本文的内容结构安排  14-16
第二章 多标记学习半监督学习内容简介  16-22
  2.1 多标记学习框架  16
  2.2 评价指标  16-18
  2.3 半监督学习  18-21
  2.4 本章小结  21-22
第三章 基于数据转换的多标记学习算法  22-29
  3.1 INSDIF 算法简介  22-23
  3.2 新算法:WK-INSDIF  23-24
  3.3 实验结果及分析  24-28
  3.4 本章小结  28-29
第四章 新的多标记半监督学习算法:ML-Co2KNN  29-34
  4.1 新算法:ML-Co2KNN  29-31
  4.2 实验结果及分析  31-32
  4.3 本章小结  32-34
第五章 总结与展望  34-36
  5.1 论文工作总结  34
  5.2 未来工作展望  34-36
参考文献  36-40
攻读硕士学位期间取得的科研成果  40-41
致谢  41-43

相似论文

  1. 空间目标ISAR成像仿真及基于ISAR像的目标识别,TN957.52
  2. 背景抑制磁共振全身弥散加权成像(DWIBS)与hPET/CT临床价值对比研究,R445.2
  3. MRS联合DWI对前列腺癌的诊断价值,R737.25
  4. 颅脑肿瘤血管异质性的磁敏感加权成像与动态磁敏感灌注成像的联合应用研究,R739.4
  5. 阻塞性睡眠呼吸暂停低通气综合征低氧血症评价指标研究,R766
  6. 离体状态下动脉血气水平及动脉血栓体积测量的SWI实验研究,R445.2
  7. 新生猪缺氧缺血性脑病的DWI影像研究,R722.1
  8. 磁共振扩散加权成像及动态增强扫描在宫颈癌分期及疗效监测的应用,R737.33
  9. 3.0T高场磁共振对中央型肺癌的初步研究,R734.2
  10. 3.0T磁共振功能成像在乳腺病变定性诊断中的临床研究,R445.2
  11. 乳腺癌DCE-MRI联合DWI与病理、分子生物学的相关性研究,R737.9
  12. 应用层协议识别和还原方法的研究与实现,TP393.08
  13. 控制权度量模型及计算,O211.3
  14. 音乐内容和歌词相结合的歌曲情感分类方法研究,TP391.3
  15. 基于视觉的运动人体行为分析,TP391.41
  16. 肺部病灶感兴趣区域分割算法研究,TP391.41
  17. 李群深层结构学习算法研究,TP181
  18. 指纹图像分割方法评价与半监督学习在指纹图像分割中的应用研究,TP391.41
  19. 基于最近邻相似度的孤立点检测及半监督聚类算法,TP311.13
  20. 浮动车数据在城市道路交通事件检测中的应用研究,U491.116
  21. 交通网络中路径及近邻选择问题的研究,U116.2

中图分类: > 工业技术 > 自动化技术、计算机技术 > 自动化基础理论 > 人工智能理论 > 自动推理、机器学习
© 2012 www.xueweilunwen.com