学位论文 > 优秀研究生学位论文题录展示

基于多视图集成的多关系分类方法研究

作 者: 郑利雄
导 师: 陈琼
学 校: 华南理工大学
专 业: 计算机系统结构
关键词: 数据挖掘 多关系分类 多视图 树结构 集成学习
分类号: TP311.13
类 型: 硕士论文
年 份: 2010年
下 载: 40次
引 用: 1次
阅 读: 论文下载
 

内容摘要


传统的数据挖掘方法,其知识表示方式主要是命题逻辑形式系统并且只能从单一的关系中发现模式。但是,现在大多数现实关系数据库中的信息存储于多个关系中,并且许多复杂模式难以用命题逻辑语言表示。多关系数据挖掘方法,研究发现关系数据库中涉及多个关系的复杂模式,而且能直接在多个关系的基础上分析数据而无须向单一的数据关系表进行转换。多关系数据挖掘技术由此而逐渐被广泛使用并得到发展。多关系数据挖掘主要借鉴ILP技术,并结合机器学习方法,是当前数据挖掘研究中快速发展的重要领域之一。本文主要研究多关系分类的方法。利用多视图的方法对关系数据库进行挖掘,在各个视图上可直接利用传统的方法分类,然后将各个视图的分类结果集成,实现多关系分类。该方法较其他现有的多关系分类方法具有较低的算法复杂性,在分类准确性方面也能取得较好的效果。多视图方法中的集成采用同一层次的集成方法,相当于把各个视图的贡献等同起来,能取得较好的分类效果,但还有提升的空间。本文认为,在多视图方法中,各个视图数据集不同,因而对分类的贡献应该是不同的,而且存在一定程度上的互补,如能有效利用这个互补的特征可以进一步提高集成的效果,提高分类器的性能。本文研究并验证了视图的互补性,以视图互补性作为集成时选择视图的依据,提出建立多视图层次化结构模型,通过启发式的搜索构造一棵多视图树的多关系分类方法。多视图集成中,视图的差异可能导致某些样例的学习难度过大,本文从Boosting集成学习方法中得到启发,通过提升某些样例的权值来干扰学习器,来降低这些样例的学习难度,从而进一步改进多视图树方法。多视图树方法通过启发式的搜索选择视图来改进模型的性能,避免全局搜索,并通过集成学习的方法来提高集成性能。实验结果表明,多视图树方法无论在分类效果还是效率上,都优于现有的多关系分类系统。

全文目录


摘要  5-6
ABSTRACT  6-10
第一章 绪论  10-15
  1.1 研究背景和现状  10-12
    1.1.1 概述  10
    1.1.2 国内外研究现状  10-11
    1.1.3 存在的问题  11-12
  1.2 本课题的研究内容  12-13
  1.3 本课题研究意义  13
  1.4 本文组织结构  13-15
第二章 多关系分类  15-19
  2.1 “升级”方法  15-16
  2.2 “整平”方法  16-17
  2.3 多视图方法  17-18
  2.4 本章 小结  18-19
第三章 集成学习  19-27
  3.1 集成学习简介  19-20
  3.2 集成学习方法  20-23
    3.2.1 基本分类器  20-21
    3.2.2 基本分类器的获取  21-22
    3.2.3 基本分类器的整合  22-23
  3.3 集成学习的分析  23-24
    3.3.1 Bias-Variance分解分析  23
    3.3.2 实验比较分析  23-24
  3.4 Boosting 算法  24-26
  3.5 本章 小结  26-27
第四章 多视图方法  27-37
  4.1 关系数据库  27-28
  4.2 方法描述  28-29
  4.3 构造视图  29-35
    4.3.1 信息传播  30-33
    4.3.2 生成聚合特征  33-34
    4.3.3 构造视图学习器  34-35
  4.4 多视图集成  35-36
    4.4.1 视图验证  35
    4.4.2 视图合并  35-36
  4.5 多视图方法存在的问题  36
  4.6 本章 小结  36-37
第五章 基于多视图树的多视图算法  37-47
  5.1 视图互补性  37-38
  5.2 多视图树  38-43
    5.2.1 多视图树的构造  39
    5.2.2 双视图集成  39-40
    5.2.3 多视图树的理论分析  40-41
    5.2.4 算法描述  41-43
  5.3 基于 Boosting 的多视图树  43-45
    5.3.1 双视图集成存在的问题  43-44
    5.3.2 Boosting的引入  44-45
    5.3.3 基于Boosting的双视图集成算法  45
  5.4 算法复杂性分析  45-46
  5.5 本章 小结  46-47
第六章 实验结果与分析  47-55
  6.1 实验的环境和方法  47-48
  6.2 实验数据集  48-49
    6.2.1 Mutagenesis数据集  48
    6.2.2 金融数据集  48-49
  6.3 视图互补性实验  49-51
  6.4 实验结果对比  51-52
  6.5 运行时间对比  52-53
  6.6 实验总结  53
  6.7 本章 小结  53-55
结论  55-57
参考文献  57-63
附录1 视图互补性实验人工数据  63-65
攻读硕士学位期间取得的研究成果  65-66
致谢  66

相似论文

  1. 基于数据挖掘技术的保健品营销研究,F426.72
  2. 高忠英学术思想与经验总结及运用补肺汤加减治疗呼吸系统常见病用药规律研究,R249.2
  3. 张炳厚学术思想与临床经验总结及应用地龟汤类方治疗慢性肾脏病的经验研究,R249.2
  4. Bicluster数据分析软件设计与实现,TP311.52
  5. 基于变异粒子群的聚类算法研究,TP18
  6. 融合粒子群和蛙跳算法的模糊C-均值聚类算法研究,TP18
  7. 基于遗传算法和粗糙集的聚类算法研究,TP18
  8. 基于数据挖掘的税务稽查选案研究,F812.42
  9. 面向社区教育的个性化学习系统的研究与实现,TP391.6
  10. 基于关联规则挖掘的入侵检测系统的研究与实现,TP393.08
  11. 数据仓库技术在银行客户管理系统中的研究和实现,TP315
  12. 基于Moodle的高职网络教学系统设计与实现,TP311.52
  13. 教学质量评估数据挖掘系统设计与开发,TP311.13
  14. 关联规则算法在高职院校贫困生认定工作中的应用,G717
  15. 基于数据挖掘技术在城市供水的分析与决策,F299.24;F224
  16. 数据挖掘技术在电视用户满意度分析中的应用研究,TP311.13
  17. Web使用挖掘与网页个性化服务推荐研究,TP311.13
  18. 数据挖掘在学校管理和学生培养中的应用,TP311.13
  19. 高校毕业生就业状况监测系统研究,G647.38
  20. 基于数据仓库的药品监管辅助决策支持系统的设计与实现,TP311.13
  21. 基于数据挖掘的信用卡客户激活与响应度研究,F832.2

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 程序设计 > 数据库理论与系统
© 2012 www.xueweilunwen.com