学位论文 > 优秀研究生学位论文题录展示
基于专家委员会的主动学习算法研究
作 者: 梁延峰
导 师: 丁香乾
学 校: 中国海洋大学
专 业: 计算机应用技术
关键词: 主动学习 选择性集成学习 粒子群算法 SMOTE Active一Decorate
分类号: TP181
类 型: 硕士论文
年 份: 2010年
下 载: 115次
引 用: 1次
阅 读: 论文下载
内容摘要
随着机器学习理论在指纹识别、图像检索、信用分析、网页推荐等数据分析和数据挖掘领域中的广泛应用,主动学习已经成为模式识别和机器学习中的重要研究领域,并且在理论和实际应用研究中都已获得了长足的发展。主动学习研究主要关注在标记样本较少时,如何利用大量未标记样本来改善学习器性能,它改变了传统的机器学习方式从已知样本集中进行被动学习的方法,而是根据学习进程,主动选择最佳的样本进行学习,解决了传统学习方法对少量标记样本进行学习泛化能力较差的问题。基于支持向量机的主动学习算法和基于专家委员会的主动学习算法是两种研究较多的主动学习算法,但目前仍然存在学习效率不是很高,训练样本标注代价过大,对不平衡数据学习能力较差等问题。本文首先介绍了主动学习模型及其研究的内容,总结了主动学习与其他机器学习方法的区别与联系,对主动学习领域的国内外研究现状进行回顾,介绍了目前主动学习方法研究的几个思路。接着,本文详细介绍了我们在主动学习方法研究领域开展的工作:1.讨论了基于不确定度缩减的主动学习方法,深入研究了该类方法中基于支持向量机的主动学习算法。针对SVM主动学习过程中,对不平衡数据集学习能力较差的问题,本文提出了一种基于SMOTE的支持向量机主动学习算法。该算法将处理小样本数据的SMOTE算法引入SVM主动学习过程中,解决了SVM主动学习在学习过程中,分类超平面偏向少数类的问题,提高了学习的速度和准确率。2.深入研究了基于版本空间缩减的主动学习方法中最具有代表性的主动学习算法——基于专家委员会的主动学习算法。总结了该算法中委员会成员分歧度的度量方式。深入研究了基于专家委员会的主动学习算法中的委员会成员的构建方法和样本选择策略,并提出了一种改进的基于选择的专家委员会主动学习算法,算法的改进主要体现在三个方面:(1)将选择集成的思想引入到委员会成员的构建过程中,将生成的专家委员会中分类性能高,相互之间差异较大的委员会成员挑选出来重新构造一个新的专家委员会,利用新组建的专家委员会对无标注样本进行选择提交标注。(2)在选择集成的过程中,本算法并没有采用基于遗传算法的选择性集成方法,而是改用了另一种智能优化算法--粒子群优化算法,在委员会成员的权重优化过程中,粒子群算法比遗传算法精度更高、收敛速度更快,且在算法实现及操作方面更加容易。(3)在委员会对样本分歧度计算方面,我们采用了投票熵和KL-d分歧度相结合的方式,使委员会选择的未标注样本更加丰富多样。3.深入研究了Decorate算法,对Active-Decorate主动学习算法中,人工虚拟样本的产生方法进行改进,改进后的算法,不仅仅使用带类别标注的训练样本数据计算均值和方差,而是使用带类别标注的和未带标注的样本集共同计算样本的均值和方差。这样产生的高斯分布函数才会更加接近真实的样本概率分布。并将改进后的Active-Decorate主动学习算法与选择集成学习方法相结合,组成基于选择性的Active-Decorate主动学习算法。
|
全文目录
摘要 5-7 Abstract 7-11 1 引言 11-16 1.1 主动学习研究背景和意义 11-12 1.2 主动学习研究现状 12-14 1.3 论文的章节安排 14-16 2 主动学习方法简介 16-21 2.1 主动学习研究的内容 16 2.2 主动学习与被动学习 16-17 2.3 主动学习模型 17-20 2.4 小结 20-21 3 基于SMOTE的SVM主动学习算法 21-36 3.1 引言 21 3.2 支持向量机算法 21-24 3.3 SVM主动学习算法 24-27 3.4 基于SMOTE的SVM主动学习算法 27-31 3.5 实验及结果分析 31-35 3.6 小结 35-36 4 基于专家委员会的主动学习 36-67 4.1 引言 36 4.2 基于专家委员会的主动学习 36-43 4.3 集成学习 43-50 4.4 选择集成学习 50-55 4.5 基于集成策略的QBC主动学习算法 55-58 4.6 基于选择集成策略的QBC主动学习算法 58-62 4.7 实验及结果分析 62-66 4.8 小结 66-67 5 总结与展望 67-69 参考文献 69-72 致谢 72-73 个人简历 73-74 发表的学术论文 74
|
相似论文
- 有源电力滤波器及其在配电网中的应用,TN713.8
- 基于粒子群的分子对接算法,R91
- 基于粒子群算法的露天矿道路路径优化研究,TP301.6
- 移动机器人路径规划研究及仿真实现,TP242
- 量子粒子群算法研究及其在图像矢量量化码书设计中的应用,TP301.6
- 变邻域搜索算法研究及在组合优化中的应用,TP301.6
- 电力系统无功优化的混合算法研究,TM714.3
- 基于QoS的无线传感器网络路由算法研究,TP212.9
- 参数协进化的改进和声搜索算法及其应用,TP391.3
- 领域知识指导的半监督学习和主动学习倾向性分类研究,TP181
- 非汛期水库群协同优化调度与应用研究,TV697.11
- 不确定环境下供应链多时段生产采购计划问题研究,F224
- 改进二进制粒子群算法在梯级水电站AGC中的应用研究,TV737
- 基于参数辨识的电力系统动态等值方法研究,TM712
- 粒子群算法在水库防洪优化调度中的应用研究,TP301.6
- 智能电网中蓄电池储能的价值评估研究,TM76
- 柔性路径下基于混合粒子群算法的跨单元调度方法,TH165
- 跨语言文本分类的研究,TP391.1
- 流形学习的方差最小化准则,TP181
- 多自主车传感网络信息传输的优化配置研究,TN929.5
- 特定领域中文术语抽取,TP391.1
中图分类: > 工业技术 > 自动化技术、计算机技术 > 自动化基础理论 > 人工智能理论 > 自动推理、机器学习
© 2012 www.xueweilunwen.com
|