学位论文 > 优秀研究生学位论文题录展示

不确定数据上的关联分类器

作 者: 覃香菊
导 师: 张阳
学 校: 西北农林科技大学
专 业: 计算机软件与理论
关键词: 不确定数据 关联规则挖掘 关联分类器 多规则分类 悲观错误估计(PER)
分类号: TP311.13
类 型: 硕士论文
年 份: 2011年
下 载: 46次
引 用: 0次
阅 读: 论文下载
 

内容摘要


关联分类器具有易于被人类所理解,在很多分类问题上的性能优于决策树分类器等诸多优点。现有的关联分类器只能解决确定数据的分类问题,然而在很多现实应用中不确定数据普遍存在,例如传感器网络,基于位置的服务,市场分析,医疗诊断等场景。不确定性数据产生的原因比较复杂,包括不精确的测量,网络延迟,数据源过时,决策错误等诸多因素。目前,研究界鲜见有关于不确定数据上的关联规则挖掘和关联分类的相关研究工作的报道。针对此研究现状,本研究提出一个新的关联分类算法来挖掘不确定数据上的关联规则以解决不确定数据上的关联分类问题。本论文的主要研究内容如下:(1)提出了不确定数据上的关联分类的相关概念及关联规则的评估指标。本研究将不确定数据管理领域研究者提出的可能世界模型应用到不确定数据的关联规则挖掘中,基于Chui等人对期望支持度的定义,首先给出了不确定数据上的关联规则的期望支持度和置信度的定义;针对不确定数据的特点,本研究提出了关联规则所覆盖不确定样本的权重的概念,并给出了不确定数据上的多规则分类算法。在构造分类器算法中,该规则覆盖样本权重的定义能保证训练集中的每个不确定样本能被至少一条规则所匹配;同时,在不确定数据的多关联规则分类中,该定义能保证uCBA算法找到多条匹配的关联规则,从而综合多条匹配样本的关联规则来预测样本的类别,提高分类的性能。另外,该定义可以进一步控制用于预测未知不确定样本类别的关联规则的数目的上限,以防止那些匹配但预测或分类能力较弱的规则影响分类效果。(2)本研究还扩展C4.5算法中给出悲观错误估计(PER)的定义,得到不确定数据上的悲观错误估计。实验表明,本研究扩展的PER定义能有效地裁剪掉在训练集上预测能力弱或不显著的关联规则,从而大大减少关联规则的数目,提高了uCBA分类器的构造效率和分类的性能。(3)基于U-Apriori算法和CBA算法,本研究提出了不确定数据上的一个关联分类器,uCBA,以解决不确定数据上的关联分类问题;提出的uCBA分类器也能处理确定数据上的分类与预测问题。针对不确定数据的特点,本研究提出综合多条关联规则来预测未知不确定样本的类别,得到uCBA-Multi算法。在UCI机器学习库的20个数据集上的大量实验表明,提出的uCBA算法具有较好的分类性能,并在数据集的不确定程度较高时仍能取得令人满意的分类准确率;同时,与uCBA-Single算法相比,uCBA-Multi算法能显著地提高分类性能,并且uCBA-Multi算法对于数据的不确定性具有较好的鲁棒性。本研究提出的关于不确定数据上的关联分类的一些基本概念和定义,例如,关联规则的期望支持度和置信度的定义,规则覆盖不确定样本权重的定义,不确定数据上的关联规则的剪枝策略,多规则分类策略等,对其他研究者的相关研究具有一定的理论参考价值。

全文目录


摘要  5-7
ABSTRACT  7-11
第一章 绪论  11-20
  1.1 研究目的与意义  11-12
  1.2 不确定数据挖掘的研究现状  12-17
    1.2.1 不确定数据上的分类分析  12-15
    1.2.2 不确定数据上的聚类分析  15
    1.2.3 不确定数据上的孤立点检测  15-16
    1.2.4 不确定数据上的频繁模式挖掘  16-17
  1.3 研究的主要内容及方法  17-19
    1.3.1 研究主要内容及目标  17-18
    1.3.2 研究方法  18-19
  1.4 论文的组织结构  19-20
第二章 分类分析及相关概述  20-32
  2.1 不确定数据概述  20-21
  2.2 可能世界模型  21-23
  2.3 相关工作  23-31
    2.3.1 基于决策树的分类  24
    2.3.2 基于关联规则的分类  24-27
    2.3.3 不确定数据上的分类  27-31
  2.4 本章小结  31-32
第三章 不确定数据上的关联分类  32-46
  3.1 基本概念及相关定义  32-35
  3.2 不确定数据上的关联分类器  35-40
    3.2.1 规则构造算法  35-37
    3.2.2 构建分类器  37-38
    3.2.3 多规则分类算法  38-40
  3.3 不确定数据上的关联规则挖掘举例  40-45
  3.4 本章小结  45-46
第四章 实验结果与分析  46-54
  4.1 不确定数据的获取  47
  4.2 uCBA 算法在不确定数据上的性能表现  47-51
  4.3 coverThreshold 参数分析  51-52
  4.4 uCBA 分类器的时空分析  52-53
  4.5 本章小结  53-54
第五章 结论与展望  54-56
  5.1 结论  54-55
  5.2 展望  55-56
参考文献  56-62
致谢  62-63
作者简介  63

相似论文

  1. 基于不确定数据的轮廓查询处理技术研究,TP311.13
  2. 不确定数据的概率Skyline查询算法研究,TP311.13
  3. 基于闭频繁项集的Web日志挖掘,TP393.092
  4. 并行Apriori算法的性能优化技术研究,TP311.13
  5. 基于模式识别和数据挖掘的铝工业生产节能降耗研究,TP391.41
  6. 基于少数民族汉语教学的HSK成绩多元数据挖掘应用研究,TP311.13
  7. 数据挖掘中的关联规则挖掘算法研究,TP311.13
  8. 基于垂直数据布局的关联规则挖掘算法研究,TP311.13
  9. Deep Web下不确定数据处理的研究,TP311.13
  10. 基于距离和信息熵的不确定异常点检测研究,TP311.13
  11. 带稀有特征的不确定空间co-location模式挖掘,TP311.13
  12. 关联规则挖掘算法在web日志挖掘中的应用研究,TP311.13
  13. 分布式环境下关联规则挖掘的隐私保护方法研究,TP311.13
  14. 无线传感器网络中不确定数据处理的研究,TN929.5
  15. 不经意传输协议的研究与应用,TN918.1
  16. 基于滑动窗口的数据流关联规则挖掘研究,TP311.13
  17. 固定资产管理及状态分析的研究与实现,TP311.52
  18. 箱涵浅埋暗挖施工地表沉降监测资料分析与数据挖掘,U449
  19. 关于asp的高校选排课系统的设计与实现,TP311.52
  20. 基于智能算法的涤纶长丝运行优化研究,TQ342.2

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 程序设计 > 数据库理论与系统
© 2012 www.xueweilunwen.com