学位论文 > 优秀研究生学位论文题录展示

多视图的半监督学习研究

作　者: 王娇
导　师: 罗四维
学　校: 北京交通大学
专　业: 计算机应用技术
关键词: 人工智能机器学习半监督学习多视图学习正则化主动学习
分类号: TP181
类　型: 博士论文
年　份: 2010年
下　载: 507次
引　用: 1次
阅　读: 论文下载

内容摘要

学习是人类具有的一种重要智能行为,模仿人类的学习过程是机器学习的主要目标。机器学习根据生理学、认知科学等对人类学习机理的研究成果,建立人类学习过程的计算模型,研究通用的学习算法,是人工智能和神经计算的核心研究内容之一。基于数据的机器学习从观测数据中构建模型,以对无法观测的数据或未见数据进行预测。随着信息时代的到来,数据大量存在,但获取数据的标记需要耗费人力物力。这里的“标记”是指数据所对应的输出,如在分类问题中标记就是数据的类别。传统的监督学习方法从有标记的数据中构建模型,当有标记的数据较少时所训练出的学习系统很难具有好的性能。半监督学习研究当有标记的数据较少时如何利用大量的未标记数据来改善学习性能,具有广泛的应用领域,是当前机器学习研究的热点问题之一。在机器学习的许多实际问题中数据有多个视图,如何综合利用数据的多个视图进行学习是具有挑战性的研究内容。本文研究多视图的半监督学习,对多视图半监督学习中的学习理论、学习算法、以及多视图的构造等关键问题进行了深入的研究,取得了一定的研究成果,并经过充分的实验验证,为进一步的研究和应用奠定了基础。本文创造性的研究成果主要有：1.提出一种多视图半监督学习中的正则化方法。从有限样本中学习往往是病态逆问题,解决的办法是对学习过程加以限制,这个过程称为正则化。针对多视图的半监督学习,利用假设空间的度量结构,定义学习函数的光滑性和一致性。在每个视图内的学习过程中限制函数的光滑性,在多个视图的协同学习过程中限制函数的一致性。提出一种两个层次的正则化算法,同时使用函数的光滑性和一致性进行正则化,并对算法预测误差进行理论分析。实验表明,该算法较仅使用光滑性或仅使用一致性的正则化方法在预测性能上有显著提高。2.提出一种基于图的多视图半监督学习方法。分析图表示法的适用性,使用多个图结构表示多视图数据,将基于图的半监督学习扩展到数据有多个视图的情况。提出一种多个图的半监督学习算法,在每个图上进行半监督学习,并在多个图上协同学习,从而同时优化多个图上的学习器。从概率角度分析多个图上的学习过程。实验表明,该算法较单个图上的半监督学习算法有更高的分类精度。3.提出一种随机子空间中的多视图构造及学习方法。在数据的特征空间中取随机子空间,将数据映射到多个随机子空间中,以构造数据的多个视图。提出一种随机子空间中的多视图半监督学习算法,将每个视图上的学习器预测置信度最高的未标记数据用于训练其它视图上的学习器,从而使各个视图上的学习器协同训练。使用随机判别理论对算法进行分析。实验表明,该算法在数据特征较多时较同类算法有更好的预测性能。4.提出一种排除学习器不确定性的主动学习方法,并将其与多视图半监督学习结合。运用主动学习思想选取学习器最不置信的未标记数据作为需要查询的数据。在每个视图内的学习过程中,对于最置信的未标记数据,将其用于训练其它视图上的学习器；对于最不置信的未标记数据,向外界查询它的标记。实验表明,该算法能够显著提高学习性能。

全文目录

致谢  5-6
摘要  6-8
ABSTRACT  8-13
1 绪论  13-24
  1.1 引言  13
  1.2 半监督学习  13-16
    1.2.1 监督学习与无监督学习  14
    1.2.2 半监督学习  14-15
    1.2.3 半监督学习的一些例子  15-16
  1.3 多视图的半监督学习  16-19
    1.3.1 多视图数据  16-17
    1.3.2 多视图表示的适用性  17-18
    1.3.3 多视图的半监督学习  18-19
  1.4 本文的研究动机  19-21
  1.5 本文的研究内容  21-22
  1.6 本文的组织结构  22-24
2 半监督学习研究概述  24-50
  2.1 引言  24
  2.2 未标记数据的作用  24-27
    2.2.1 未标记数据蕴含分布信息  24-25
    2.2.2 未标记数据起作用的条件  25-27
  2.3 半监督学习的分类  27-44
    2.3.1 生成式模型  27-31
    2.3.2 自训练  31-32
    2.3.3 协同训练  32-35
    2.3.4 低密度区域分割  35-39
    2.3.5 基于图的半监督学习  39-42
    2.3.6 方法分析及选择  42-44
  2.4 半监督学习的应用  44-47
    2.4.1 文本分类中的半监督学习  44-45
    2.4.2 图像分割中的半监督学习  45
    2.4.3 自然语言处理中的半监督学习  45-47
  2.5 半监督学习与人类学习  47-48
  2.6 小结  48-50
3 多视图半监督学习的正则化算法  50-72
  3.1 引言  50
  3.2 学习中的正则化理论  50-55
    3.2.1 逆问题与正则化  50-52
    3.2.2 从有限样本中学习与正则化  52-55
  3.3 利用标记和未标记数据定义正则化函数  55-60
    3.3.1 假设空间的度量结构  55-57
    3.3.2 函数光滑性的度量  57-58
    3.3.3 函数一致性的度量  58-60
  3.4 一种多视图半监督学习的正则化算法  60-64
    3.4.1 两个层次的正则化  61-62
    3.4.2 算法分析  62-64
  3.5 相关工作  64-66
  3.6 实验结果与分析  66-70
  3.7 小结  70-72
4 基于图的多视图半监督学习算法  72-89
  4.1 引言  72
  4.2 数据的图表示  72-78
    4.2.1 图的构建  73-74
    4.2.2 复杂数据的图表示  74-78
  4.3 多视图特征映射  78-81
  4.4 一种基于图的多视图半监督学习算法  81-84
    4.4.1 单个图的半监督学习  81-82
    4.4.2 多个图的半监督学习  82-84
  4.5 相关工作  84-85
  4.6 实验结果与分析  85-87
  4.7 小结  87-89
5 多视图构造算法及其与主动学习的结合  89-112
  5.1 引言  89
  5.2 随机子空间中的多视图构造与学习  89-96
    5.2.1 算法描述  89-93
    5.2.2 一种随机子空间中的多视图半监督学习算法  93-94
    5.2.3 算法分析  94-96
  5.3 相关工作  96-97
  5.4 与主动学习的结合  97-102
    5.4.1 主动学习概述  97-98
    5.4.2 一种排除学习器不确定性的主动学习算法  98-100
    5.4.3 多视图半监督学习与主动学习的结合  100-102
  5.5 实验结果与分析  102-110
  5.6 小结  110-112
6 结束语  112-115
  6.1 本文的主要贡献  112-113
  6.2 未来的研究方向  113-115
参考文献  115-125
作者简历  125-127
学位论文数据集  127

多视图的半监督学习研究

内容摘要

全文目录

相似论文