学位论文 > 优秀研究生学位论文题录展示
分类模型的不匹配问题及其解决方法
作 者: 苏函晶
导 师: 徐晓飞;叶允明
学 校: 哈尔滨工业大学
专 业: 计算机科学与技术
关键词: 聚类 分类 模型不匹配 半监督分类
分类号: TP181
类 型: 硕士论文
年 份: 2010年
下 载: 39次
引 用: 0次
阅 读: 论文下载
内容摘要
随着计算机软硬件技术的不断发展,大量的数据得以收集。与此同时,原有的数据处理及分析技术面临着越来越多的挑战。分类是机器学习和数据挖掘的一项基本任务,如何构建泛化能力更强的分类器一直是计算机领域的热点问题。大多数分类技术都是基于一定的假设建立模型的。当数据匹配模型时,分类效果会很好;而当不匹配时,分类的效果往往会很差。如何解决分类模型的不匹配问题是本文的核心议题。概括来讲,本文的主要工作包括以下几个方面:1)介绍了一种新的解决复杂、高维数据的基于聚类的分类方法(Decision Cluster Classifier,DCC),通过分析指出其在特征异构时会导致模型不匹配的问题,并提出了一种新的基于路径的分类策略PDCC以解决DCC的模型不匹配问题。2)提出了一种新的决策树构建方法以用来集成随机森林。一般来讲,决策树容易产生过拟合现象,这也是一种比较特殊的模型不匹配问题。目前,用来解决这一问题的主要方法是通过集成多棵随机决策树的方式来构建集成分类器。但现有方法存在效率低下,差异性难以控制等问题。本文提出了一种新的基于专属随机决策树的随机森林算法,以有效解决多类数据中决策树的模型不匹配问题。3)提出了一种新的半监督分类算法以解决聚类标记(Cluster-and-Label)的模型不匹配问题。半监督分类一般基于一定的假设运行,其中聚类假设是一个最常用的假设。聚类标记法可以简单看作直接基于聚类假设运行的一类半监督学习技术,但它的性能受到聚类质量的严重制约。本文则提出一种层次聚类树的技术以解决这一问题。
|
全文目录
摘要 5-6 Abstract 6-9 第1章 绪论 9-14 1.1 课题背景及研究的目的和意义 9-10 1.2 自动分类技术的发展概况 10-11 1.2.1 有监督分类技术的研究现状 10-11 1.2.2 半监督分类技术的研究现状 11 1.3 研究问题的定义 11-12 1.4 本文的结构安排 12-14 第2章 自动分类的理论和技术 14-19 2.1 分类的定义 14 2.2 有监督分类的相关技术 14-16 2.3 半监督分类的相关技术 16-19 第3章 基于路径的决策簇分类器 19-29 3.1 决策簇分类器介绍 19-21 3.2 决策簇分类器的问题 21-23 3.3 基于路径的决策簇分类器 23-25 3.4 实验与分析 25-28 3.4.1 实验描述 25-26 3.4.2 实验结果 26-28 3.5 本章小结 28-29 第4章 解决决策树模型不匹配的随机森林 29-41 4.1 随机森林介绍 29-30 4.2 随机森林的相关概念 30-35 4.3 基于专属随机树的随机森林 35-36 4.4 实验与分析 36-39 4.4.1 实验描述 36-37 4.4.2 实验结果 37-39 4.5 本章小结 39-41 第5章 基于层次聚类树的聚类标记 41-55 5.1 半监督学习 41-43 5.2 聚类标记 43 5.3 基于层次聚类树的聚类标记法 43-49 5.3.1 基本定义 43-44 5.3.2 PRC-Tree 分类器 44-48 5.3.3 为什么我们的算法能解决不匹配问题 48-49 5.4 实验与分析 49-53 5.4.1 实验描述 49-51 5.4.2 实验结果 51-53 5.5 本章小结 53-55 结论 55-57 参考文献 57-61 攻读硕士学位期间发表的论文及其它成果 61-63 致谢 63
|
相似论文
- K公司计划及预测改进对于合理库存配置的研究,F224
- 基于巨磁阻抗效应磁测传感器及地磁匹配算法研究,P318
- 空间目标ISAR成像仿真及基于ISAR像的目标识别,TN957.52
- 基于词义及语义分析的问答技术研究,TP391.1
- 基于三维重建的焊点质量分类方法研究,TP391.41
- 基于串核的蛋白质分类算法的研究与实现,TP301.6
- 统计与语言学相结合的词对齐及相关融合策略研究,TP391.2
- 隐式用户兴趣挖掘的研究与实现,TP311.13
- 上下文相关的词汇复述研究,TP391.1
- 基于仿生模式识别的文本分类技术研究,TP391.1
- 互联网上旅游评论的情感分析及其有用性研究,TP391.1
- 图像分割中阴影去除算法的研究,TP391.41
- 基于图分割的文本提取方法研究,TP391.41
- 基于SVM的中医舌色苔色分类方法研究,TP391.41
- 基于图像的路面破损识别,TP391.41
- 多样性密度学习算法的研究与应用,TP181
- 运动特征及地形约束的感知网目标跟踪算法及系统研究,TP212.9
- 牡丹EST-SSR引物开发及其亲缘关系分析,S685.11
- 高血压前期证候特征研究,R259
- 高忠英学术思想与经验总结及运用补肺汤加减治疗呼吸系统常见病用药规律研究,R249.2
- K-均值聚类算法的研究与改进,TP311.13
中图分类: > 工业技术 > 自动化技术、计算机技术 > 自动化基础理论 > 人工智能理论 > 自动推理、机器学习
© 2012 www.xueweilunwen.com
|