学位论文 > 优秀研究生学位论文题录展示

基于粗糙集理论的决策树分类算法与应用研究

作 者: 周国军
导 师: 秦亮曦
学 校: 广西大学
专 业: 计算机技术
关键词: 粗糙集理论 数据挖掘 数据预处理 决策树 分类
分类号: TP18
类 型: 硕士论文
年 份: 2011年
下 载: 39次
引 用: 0次
阅 读: 论文下载
 

内容摘要


鉴于目前很多决策树分类算法不能有效地处理连续属性和缺失值,本文对基于粗糙集理论的决策树分类算法进行了研究,研究的目的是构造具有较高分类精度的决策树、使决策树分类算法能有效地处理连续属性和缺失值。为了达到研究的目的,对基于粗糙集理论的数据预处理算法和基于粗糙集理论的决策树构造算法进行了研究:针对目前不完备决策表的离散化算法较少,提出了一种基于属性重要性的离散化算法的改进算法;针对ROUSTIDA算法的一些缺陷,提出了一种ROUSTIDA算法的改进算法;提出了一种基于粗糙集理论的决策树构造算法,该算法以属性重要性和近似分类的精度作为构造决策树的属性选择度量。在本文采用的算法和提出的算法的基础上,设计了一种基于粗糙集理论的决策树分类算法,该分类算法包括三个主要步骤:读取样本集并对样本集进行预处理,采用基于粗糙集理论的决策树构造算法构造决策树,采用PEP方法对决策树剪枝。该分类算法能有效地处理连续属性和缺失值,能构造出分类精度较高的决策树,通过实验验证了该分类算法具有较好的性能。设计了一个电子学习用品销售分类系统,该系统的主要功能是对电子学习用品按照销售量进行分类。该系统应用了本文的决策树构造算法构造决策树,并采用PEP方法对决策树剪枝。采用SQL Server 2000+VC++6.0实现了该系统,对系统的测试结果表明,该系统能有效地对电子学习用品按照销售量进行分类,从而给电子学习用品的销售决策者提供了有一定价值的分析方法和决策支持。

全文目录


摘要  4-6
ABSTRACT  6-10
第一章 绪论  10-20
  1.1 论文的选题背景和意义  10-11
  1.2 国内外研究现状  11-13
  1.3 数据挖掘基本概述  13-15
    1.3.1 数据挖掘与KDD的处理过程  13-14
    1.3.2 数据挖掘的任务与工具  14-15
  1.4 粗糙集理论及其在本文中的应用  15-18
    1.4.1 粗糙集理论的基本概念  15-17
    1.4.2 粗糙集理论在本文中的应用  17-18
  1.5 论文的主要研究内容  18-19
  1.6 论文的组织结构  19-20
第二章 决策树分类方法  20-28
  2.1 决策树分类方法概述  20-22
  2.2 决策树分类算法的基本步骤  22-27
    2.2.1 决策树构造  23-24
    2.2.2 决策树剪枝  24-27
  2.3 本章小结  27-28
第三章 基于粗糙集理论的决策树分类算法研究  28-44
  3.1 读取样本集并对样本集进行预处理  28-35
    3.1.1 连续属性离散化  28-31
    3.1.2 缺失值填补  31-35
  3.2 运用粗糙集理论构造决策树  35-39
  3.3 应用PEP方法对决策树剪枝  39-40
  3.4 基于粗糙集理论的决策树分类算法的设计  40-41
  3.5 实验及结果分析  41-43
  3.6 本章小结  43-44
第四章 基于粗糙集理论的决策树分类算法的应用  44-55
  4.1 应用的背景和相关技术  44-45
  4.2 系统分析与设计  45-48
    4.2.1 系统的需求分析与框架设计  45-46
    4.2.2 数据库设计  46-48
  4.3 系统的功能模块设计  48-53
    4.3.1 数据库访问类设计  48-49
    4.3.2 销售数据统计模块设计  49
    4.3.3 样本集读取与预处理模块设计  49-51
    4.3.4 样本分类模块设计  51-53
  4.4 系统测试  53-54
  4.5 本章小结  54-55
第五章 结束语  55-57
  5.1 本文研究完成的工作  55-56
  5.2 本文的不足与进一步的工作  56-57
参考文献  57-61
致谢  61-62
攻读学位期间发表论文情况  62

相似论文

  1. K公司计划及预测改进对于合理库存配置的研究,F224
  2. 空间目标ISAR成像仿真及基于ISAR像的目标识别,TN957.52
  3. 基于词义及语义分析的问答技术研究,TP391.1
  4. 基于三维重建的焊点质量分类方法研究,TP391.41
  5. 基于串核的蛋白质分类算法的研究与实现,TP301.6
  6. 统计与语言学相结合的词对齐及相关融合策略研究,TP391.2
  7. 上下文相关的词汇复述研究,TP391.1
  8. 基于仿生模式识别的文本分类技术研究,TP391.1
  9. 互联网上旅游评论的情感分析及其有用性研究,TP391.1
  10. 基于SVM的中医舌色苔色分类方法研究,TP391.41
  11. 基于图像的路面破损识别,TP391.41
  12. 多样性密度学习算法的研究与应用,TP181
  13. 运动特征及地形约束的感知网目标跟踪算法及系统研究,TP212.9
  14. 基于支持向量机的故障诊断方法研究,TP18
  15. 基于数据挖掘技术的保健品营销研究,F426.72
  16. 高忠英学术思想与经验总结及运用补肺汤加减治疗呼吸系统常见病用药规律研究,R249.2
  17. 张炳厚学术思想与临床经验总结及应用地龟汤类方治疗慢性肾脏病的经验研究,R249.2
  18. 计算智能在数字化卷烟叶组配方中的应用研究,TS44
  19. 基于中国土壤系统分类的土壤类型和界线确定研究,S155
  20. 弯孢属种分子鉴定体系的建立及其在疑难种上的应用,Q949.32
  21. 基于视觉的番木瓜外观品质检测技术研究,S667.9

中图分类: > 工业技术 > 自动化技术、计算机技术 > 自动化基础理论 > 人工智能理论
© 2012 www.xueweilunwen.com