学位论文 > 优秀研究生学位论文题录展示
多视图的半监督学习研究
作 者: 王娇
导 师: 罗四维
学 校: 北京交通大学
专 业: 计算机应用技术
关键词: 人工智能 机器学习 半监督学习 多视图学习 正则化 主动学习
分类号: TP181
类 型: 博士论文
年 份: 2010年
下 载: 507次
引 用: 1次
阅 读: 论文下载
内容摘要
学习是人类具有的一种重要智能行为,模仿人类的学习过程是机器学习的主要目标。机器学习根据生理学、认知科学等对人类学习机理的研究成果,建立人类学习过程的计算模型,研究通用的学习算法,是人工智能和神经计算的核心研究内容之一。基于数据的机器学习从观测数据中构建模型,以对无法观测的数据或未见数据进行预测。随着信息时代的到来,数据大量存在,但获取数据的标记需要耗费人力物力。这里的“标记”是指数据所对应的输出,如在分类问题中标记就是数据的类别。传统的监督学习方法从有标记的数据中构建模型,当有标记的数据较少时所训练出的学习系统很难具有好的性能。半监督学习研究当有标记的数据较少时如何利用大量的未标记数据来改善学习性能,具有广泛的应用领域,是当前机器学习研究的热点问题之一。在机器学习的许多实际问题中数据有多个视图,如何综合利用数据的多个视图进行学习是具有挑战性的研究内容。本文研究多视图的半监督学习,对多视图半监督学习中的学习理论、学习算法、以及多视图的构造等关键问题进行了深入的研究,取得了一定的研究成果,并经过充分的实验验证,为进一步的研究和应用奠定了基础。本文创造性的研究成果主要有:1.提出一种多视图半监督学习中的正则化方法。从有限样本中学习往往是病态逆问题,解决的办法是对学习过程加以限制,这个过程称为正则化。针对多视图的半监督学习,利用假设空间的度量结构,定义学习函数的光滑性和一致性。在每个视图内的学习过程中限制函数的光滑性,在多个视图的协同学习过程中限制函数的一致性。提出一种两个层次的正则化算法,同时使用函数的光滑性和一致性进行正则化,并对算法预测误差进行理论分析。实验表明,该算法较仅使用光滑性或仅使用一致性的正则化方法在预测性能上有显著提高。2.提出一种基于图的多视图半监督学习方法。分析图表示法的适用性,使用多个图结构表示多视图数据,将基于图的半监督学习扩展到数据有多个视图的情况。提出一种多个图的半监督学习算法,在每个图上进行半监督学习,并在多个图上协同学习,从而同时优化多个图上的学习器。从概率角度分析多个图上的学习过程。实验表明,该算法较单个图上的半监督学习算法有更高的分类精度。3.提出一种随机子空间中的多视图构造及学习方法。在数据的特征空间中取随机子空间,将数据映射到多个随机子空间中,以构造数据的多个视图。提出一种随机子空间中的多视图半监督学习算法,将每个视图上的学习器预测置信度最高的未标记数据用于训练其它视图上的学习器,从而使各个视图上的学习器协同训练。使用随机判别理论对算法进行分析。实验表明,该算法在数据特征较多时较同类算法有更好的预测性能。4.提出一种排除学习器不确定性的主动学习方法,并将其与多视图半监督学习结合。运用主动学习思想选取学习器最不置信的未标记数据作为需要查询的数据。在每个视图内的学习过程中,对于最置信的未标记数据,将其用于训练其它视图上的学习器;对于最不置信的未标记数据,向外界查询它的标记。实验表明,该算法能够显著提高学习性能。
|
全文目录
致谢 5-6 摘要 6-8 ABSTRACT 8-13 1 绪论 13-24 1.1 引言 13 1.2 半监督学习 13-16 1.2.1 监督学习与无监督学习 14 1.2.2 半监督学习 14-15 1.2.3 半监督学习的一些例子 15-16 1.3 多视图的半监督学习 16-19 1.3.1 多视图数据 16-17 1.3.2 多视图表示的适用性 17-18 1.3.3 多视图的半监督学习 18-19 1.4 本文的研究动机 19-21 1.5 本文的研究内容 21-22 1.6 本文的组织结构 22-24 2 半监督学习研究概述 24-50 2.1 引言 24 2.2 未标记数据的作用 24-27 2.2.1 未标记数据蕴含分布信息 24-25 2.2.2 未标记数据起作用的条件 25-27 2.3 半监督学习的分类 27-44 2.3.1 生成式模型 27-31 2.3.2 自训练 31-32 2.3.3 协同训练 32-35 2.3.4 低密度区域分割 35-39 2.3.5 基于图的半监督学习 39-42 2.3.6 方法分析及选择 42-44 2.4 半监督学习的应用 44-47 2.4.1 文本分类中的半监督学习 44-45 2.4.2 图像分割中的半监督学习 45 2.4.3 自然语言处理中的半监督学习 45-47 2.5 半监督学习与人类学习 47-48 2.6 小结 48-50 3 多视图半监督学习的正则化算法 50-72 3.1 引言 50 3.2 学习中的正则化理论 50-55 3.2.1 逆问题与正则化 50-52 3.2.2 从有限样本中学习与正则化 52-55 3.3 利用标记和未标记数据定义正则化函数 55-60 3.3.1 假设空间的度量结构 55-57 3.3.2 函数光滑性的度量 57-58 3.3.3 函数一致性的度量 58-60 3.4 一种多视图半监督学习的正则化算法 60-64 3.4.1 两个层次的正则化 61-62 3.4.2 算法分析 62-64 3.5 相关工作 64-66 3.6 实验结果与分析 66-70 3.7 小结 70-72 4 基于图的多视图半监督学习算法 72-89 4.1 引言 72 4.2 数据的图表示 72-78 4.2.1 图的构建 73-74 4.2.2 复杂数据的图表示 74-78 4.3 多视图特征映射 78-81 4.4 一种基于图的多视图半监督学习算法 81-84 4.4.1 单个图的半监督学习 81-82 4.4.2 多个图的半监督学习 82-84 4.5 相关工作 84-85 4.6 实验结果与分析 85-87 4.7 小结 87-89 5 多视图构造算法及其与主动学习的结合 89-112 5.1 引言 89 5.2 随机子空间中的多视图构造与学习 89-96 5.2.1 算法描述 89-93 5.2.2 一种随机子空间中的多视图半监督学习算法 93-94 5.2.3 算法分析 94-96 5.3 相关工作 96-97 5.4 与主动学习的结合 97-102 5.4.1 主动学习概述 97-98 5.4.2 一种排除学习器不确定性的主动学习算法 98-100 5.4.3 多视图半监督学习与主动学习的结合 100-102 5.5 实验结果与分析 102-110 5.6 小结 110-112 6 结束语 112-115 6.1 本文的主要贡献 112-113 6.2 未来的研究方向 113-115 参考文献 115-125 作者简历 125-127 学位论文数据集 127
|
相似论文
- 人工智能的哲学思考,TP18
- 基于数据分布特征的文本分类研究,TP391.1
- 基于证据理论和云模型的多属性决策算法研究,C934
- 基于条件随机场的中文分词技术的研究与实现,TP391.1
- 领域知识指导的半监督学习和主动学习倾向性分类研究,TP181
- 认知无线电中频谱感知方法的研究,TN925
- Android恶意软件静态检测方案的研究,TP309
- 基于失真效应的图像质量评价与分类,TP391.41
- 基于人工智能的本质安全参致评定设计与实现,X913.4
- 代数曲线实时光栅化,TP391.72
- 基于自学习的社会关系抽取的研究,TP391.1
- 跨语言文本分类的研究,TP391.1
- 基于统计与图模型的若干机器学习算法及其应用,TP181
- 流形学习的方差最小化准则,TP181
- 基于人工智能优化算法的聚丙烯熔融指数预报建模优化研究,TQ325.14
- Tetrolet稀疏正则化与样本学习的图像超分辨率算法研究,TP391.41
- 基于粗糙集和SVM的国防生综合素质测评方法研究,E075
- 基于SIFT特征和SVM的场景分类,TP391.41
- 基于半监督哈希算法的图像检索方法研究,TP391.41
- 特定领域中文术语抽取,TP391.1
- 基于稀疏编码与机器学习的图像内容识别算法研究,TP391.41
中图分类: > 工业技术 > 自动化技术、计算机技术 > 自动化基础理论 > 人工智能理论 > 自动推理、机器学习
© 2012 www.xueweilunwen.com
|