学位论文 > 优秀研究生学位论文题录展示
随机森林的特征选择和模型优化算法研究
作 者: 雍凯
导 师: 叶允明
学 校: 哈尔滨工业大学
专 业: 计算机科学与技术
关键词: 集成学习 随机森林 特征选择 模型聚类
分类号: TP181
类 型: 硕士论文
年 份: 2008年
下 载: 251次
引 用: 1次
阅 读: 论文下载
内容摘要
集成学习的兴起,为分类方法的设计提供了一个新的研究方向。随机森林是在众多集成方法中逐渐发展起来的一种分类器集成学习的方法,在实际中得到广泛应用,成为数据挖掘、人工智能、机器学习、模式识别等领域的研究人员以及工程应用领域中的技术人员共同关心的一个研究热点。随机森林在降低分类系统泛化误差、简化分类器设计等方面表现优良,但是随机森林方法并不完美,从实际应用中看,还有着大量进一步提升精度,降低泛化误差的需求。本文在介绍集成学习和随机森林的研究现状、算法思想的基础上,重点分析了随机森林的优缺点,并提出了一些改进的方案,进行了大量的实验分析,完成了以下研究工作:(1)在分析了随机森林集成的强度和相关度之间的关系的基础上,提出了一种新的特征选择算法。为了降低随机森林的泛化误差上界,提高森林整体性能,在综合考虑强度和相关度之间相互影响的关系后,利用卡方检验进行特征的相关性评估,依据评估的结果在特征空间进行有区分的随机选择特征。经实验验证,这种方法在保留原始算法所有的优点的基础上,可以进一步的降低随机森林的误差上界,提高泛化精度;(2)在理解单个分类树与集成的整体效果之间的关系后,进一步对分类树之间关系进行了分析,设计了一种基于层次聚类的模型选择算法。通过将符合度量标准的分类树不断凝聚在一起,再从中寻求代表树进行参与森林的集成。提出了树与树之间的相似性度量,并在实验中使用多种度量比较分析,该模型选择算法可以提高树与树之间的差异度,利用较少的树就可以提高森林的分类精度;(3)在对随机森林的特征选择和模型选择进行一定的研究后,对进一步研究提出了一些需要进一步研究的方向,对今后随机森林的研究具有一定的指导意义。
|
全文目录
摘要 4-5 Abstract 5-9 第1章 绪论 9-15 1.1 研究背景和意义 9-10 1.2 国内外相关研究和综述 10-13 1.2.1 集成学习的研究现状 10-12 1.2.2 随机森林的研究现状 12-13 1.3 本文的主要工作与结构安排 13-15 1.3.1 本文的主要工作 13 1.3.2 本文的组织结构 13-15 第2章 随机森林基本理论 15-21 2.1 随机森林相关概念 15-16 2.1.1 随机森林的定义 15 2.1.2 随机森林重要概念 15-16 2.2 随机森林相关理论 16-19 2.2.1 随机森林的主要思想 16-17 2.2.2 随机森林的理论基础 17-19 2.3 随机森林的优缺点 19-20 2.4 本章小结 20-21 第3章 随机森林的特征分析 21-48 3.1 Chi-squre 理论 21-22 3.1.1 Chi-Squre 思想 21-22 3.1.2 Chi-Squre 特点 22 3.2 特征分析与改进算法 22-27 3.2.1 随机森林特征选择规则 22-23 3.2.2 改进的特征选择算法 23-27 3.3 实验与分析 27-47 3.3.1 特征选择实验数据分析 27-28 3.3.2 改进特征选择算法实验参数介绍 28-29 3.3.3 改进前后算法比较及结果分析 29-44 3.3.4 改进算法中参数分析 44-47 3.3.5 改进算法复杂度分析 47 3.4 本章小结 47-48 第4章 随机森林的模型优化 48-60 4.1 随机森林模型分析 48-50 4.1.1 模型构成影响 48-49 4.1.2 模型问题描述 49-50 4.2 模型优化算法 50-56 4.2.1 聚类度量 50-52 4.2.2 模型选择算法分析 52-53 4.2.3 模型聚类算法 53-56 4.3 实验与分析 56-59 4.3.1 算法结果比较 56-58 4.3.2 算法结果分析 58-59 4.4 本章小结 59-60 第5章 算法再优化与展望 60-65 5.1 随机森林的优化算法 60-62 5.2 本文主要贡献 62-63 5.3 进一步研究的问题 63-64 5.4 本章小结 64-65 结论 65-66 参考文献 66-71 致谢 71
|
相似论文
- 基于仿生模式识别的文本分类技术研究,TP391.1
- 唇读中的特征提取、选择与融合,TP391.41
- 基于随机森林的植物抗性基因识别方法研究,Q943
- 语音情感识别的特征选择与特征产生,TP18
- 基于数据分布特征的文本分类研究,TP391.1
- 车辆识别系统动态特征选择算法的研究与实现,TP391.41
- 基于AdaBoost算法的人脸识别研究,TP391.41
- 面向肺部CAD的特征提取、选择及分类方法研究,TP391.41
- 基于群体智能的医学图像特征优化算法研究,TP391.41
- 基于FSVM的数据挖掘方法及其在入侵检测中的应用研究,TP393.08
- 流形学习的方差最小化准则,TP181
- 掌纹主线特征选择方法及成像系统研究,TP391.41
- 中国民族音乐特征提取与分类技术的研究,J607
- 基于稀疏编码与机器学习的图像内容识别算法研究,TP391.41
- 随机森林特征选择,TP311.13
- 面向概念查询的生物医学多文档摘要技术研究,TP391.1
- 面向互联网中文舆情信息的情感倾向分析,TP391.1
- 基于粗糙集属性约简和加权SVM的入侵检测方法研究,TP393.08
- 基于决策树的网络流量分类研究,TP393.06
- 基于内容检索的垃圾邮件过滤器研究与实现,TP393.098
- 关节式物体检测识别及应用,TP391.41
中图分类: > 工业技术 > 自动化技术、计算机技术 > 自动化基础理论 > 人工智能理论 > 自动推理、机器学习
© 2012 www.xueweilunwen.com
|