学位论文 > 优秀研究生学位论文题录展示

共享显露模式的挖掘算法研究

作 者: 张维
导 师: 陈湘涛
学 校: 湖南大学
专 业: 计算机科学与技术
关键词: 模式挖掘 显露模式 共享显露模式 共享跳跃显露模式 迁移学习 相似性挖掘
分类号: TP311.13
类 型: 硕士论文
年 份: 2013年
下 载: 4次
引 用: 0次
阅 读: 论文下载
 

内容摘要


模式挖掘是数据挖掘领域的一个重要部分,为数据挖掘的任务包括分类、聚类、关联规则等奠定基础,显露模式(EPs)是一种新兴的知识模式,显露模式是那些来自于两个类中支持度变化幅度大的项集,所以具有很好的分类性能,对显露模式的研究是在一个数据集中的两个或多个类中进行的,而共享显露模式(Shared Emerging Patterns,SEPs)是两个数据集中相同和相似的显露模式,它表征一种共同特性,对应用在迁移学习和类推等领域有很大的潜力。本文主要针对SEPs的应用以及挖掘算法做了一系列的研究,主要工作和贡献包括以下几点:(1)研究SEPs的应用,提出一种利用SEPs来衡量数据集相似性的算法。该算法给出一种衡量SEPs质量的定义,结合SEPs的质量和数量来计算SEPs在数据集中的贡献,相当于量化SEPs的贡献,然后通过量化了的贡献评价数据集的相似性。实验结果表明,当在分类实验中选择相似的辅助数据,取共享知识量化成相似度后值大的,分类准确性比量化成相似度后值小的高,且不管辅助数据以任何比例和源数据组合都不影响实验结论。(2)针对SEPs挖掘算法中产生模式数量较少的问题,提出一种新的模式相似度衡量方法,该方法参考编辑距离衡量字符串相似度,用距离来衡量模式的相似度,但是不需要考虑模式的顺序。实验结果表明,该模式相似度衡量方法在其他条件相同的情况下产生的模式数量是之前算法的将近3倍。(3)针对SEPs挖掘算法的挖掘性能较低的问题,提出一种基于OSP-tree的挖掘算法,该算法采用排序模式树来存储数据集,减少在插入树时查找项所用时间,同时考虑到跳跃显露模式(JEPs)强大的分类性能,利用OSP-tree挖掘shared JEPs,在挖掘过程中加入剪枝策略,减少递归深度。实验结果表明,对于同一数据集,同一最小支持度阈值,同样挖掘shared JEPs,OSP-tree挖掘算法的时间耗费是sp-tree挖掘算法的将近2/3。

全文目录


摘要  5-6
Abstract  6-7
目录  7-9
插图索引  9-10
附表索引  10-11
第1章 绪论  11-18
  1.1 研究背景及研究意义  11-14
    1.1.1 研究背景  11-13
    1.1.2 研究意义  13-14
  1.2 模式挖掘研究现状  14-16
  1.3 本文的主要工作  16-17
  1.4 本文的组织结构  17-18
第2章 相关工作基础  18-32
  2.1 显露模式概述  18-22
    2.1.1 显露模式的基本概念  18-20
    2.1.2 常见的特殊类型的 EPs  20-21
    2.1.3 EPs 的特性  21-22
  2.2 显露模式的挖掘算法  22-24
    2.2.1 基于边界的挖掘算法  22-23
    2.2.2 基于树的挖掘算法  23-24
  2.3 显露模式及其扩展模式在分类中的应用  24-27
  2.4 显露模式的其它应用  27-28
  2.5 跨领域相似性挖掘概述  28
  2.6 迁移学习概述  28-31
  2.7 小结  31-32
第3章 基于聚合 SEPs 衡量数据集相似性算法  32-41
  3.1 引言  32
  3.2 相似性衡量的相关工作及相关应用领域  32-34
  3.3 基于聚合 SEPs 衡量数据集相似性算法  34-40
    3.3.1 基本思想  34-35
    3.3.2 导出 SEPs 聚合贡献的计算公式  35-38
    3.3.3 衡量数据集相似性  38-40
  3.4 小结  40-41
第4章 基于 OSP-tree 的共享跳跃显露模式挖掘算法  41-52
  4.1 引言  41
  4.2 相关的模式挖掘算法  41-43
    4.2.1 基于排序 FP-tree 的最大频繁模式挖掘算法  41-42
    4.2.2 基于 P-tree 的 JEPs 挖掘算法  42-43
  4.3 相关概念和性质  43-46
    4.3.1 相似度衡量方法  43-44
    4.3.2 Shared JEPs 的基本概念  44-45
    4.3.3 OSP-tree 介绍  45-46
    4.3.4 主要的裁剪策略  46
  4.4 基于 OSP-tree 的挖掘算法  46-50
    4.4.1 算法思想  46
    4.4.2 构造 OSP-tree  46-49
    4.4.3 挖掘 shared JEPs  49-50
  4.5 小结  50-52
第5章 实验结果及分析  52-60
  5.1 基于 SEPs 衡量数据集相似度的实验结果及分析  52-55
    5.1.1 实验数据集  52
    5.1.2 实验结果及分析  52-55
  5.2 基于 OSP-tree 挖掘 shared JEPs 的实验结果及分析  55-58
    5.2.1 实验数据集  55
    5.2.2 实验结果及分析  55-58
  5.3 小结  58-60
结论  60-62
参考文献  62-67
致谢  67-68
附录A 攻读学位期间所发表的学术论文目录  68

相似论文

  1. 基于兴趣度的Web日志用户访问序列模式挖掘,TP311.13
  2. 基于序列模式挖掘的软件异常行为检测,TP311.53
  3. 大数据下时空同现模式挖掘算法研究,TP311.13
  4. 一种基于全局频繁模式的数据挖掘算法及系统实现,TP311.13
  5. 基于数据挖掘的移动行为预测,TP311.13
  6. 基于稀疏非负矩阵分解的图像检索,TP391.41
  7. 基于内容的商品图像分类技术研究,TP391.41
  8. 基于隐私保护的多步攻击关联方法研究,TP311.13
  9. 图像与文本数据间的异构迁移学习,TP391.41
  10. 基于互联网的人物简历问答系统的研究与设计,TP393.09
  11. 基于迁移学习理论的Markov检索模型,TP391.3
  12. 序列模式挖掘在公路隧道交通中的应用研究,TP311.13
  13. 基于小波消噪的聚类模式挖掘在股票收益率预测中的应用,F832.51
  14. 基于间隔事件的时间模式挖掘算法研究,TP311.13
  15. 多相关时间序列异常模式挖掘框架的研究,TP311.13
  16. 生物基因表达数据中局部线性模式的挖掘,TP311.13
  17. 基于约简频繁模式树的频繁模式挖掘及查询算法研究,TP311.13
  18. 序列模式挖掘在医疗保险上的应用,TP311.13
  19. 时间序列部分周期模式挖掘研究,TP311.13
  20. 不确定图上的近邻查询与近邻模式挖掘算法研究,TP311.13
  21. 领域自适应的中文实体关系抽取研究,TP391.1

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 程序设计 > 数据库理论与系统
© 2012 www.xueweilunwen.com