学位论文 > 优秀研究生学位论文题录展示
多源环境中数据预处理与模式挖掘的研究
作 者: 林耀进
导 师: 胡学钢; 吴信东
学 校: 合肥工业大学
专 业: 计算机应用技术
关键词: 多数据源 质量评估 标签传播 模式挖掘
分类号: TP311.13
类 型: 博士论文
年 份: 2014年
下 载: 14次
引 用: 0次
阅 读: 论文下载
内容摘要
随着数据库、网络以及各种信息技术的迅猛发展,许多实际应用领域如:传感器网络、商业交易、社会媒体分析等数据的描述信息变得越来越多,产生了种海量、多源和异构表现形式的数据。这些多源异构数据蕴含着丰富的知识和有用的信息。然而,由于多数据源具有异构性、自治性、复杂性、不一致性等特征,使得传统的数据挖掘技术面临着巨大的挑战。因此,开展多数据源环境下标签传播、数据源质量评估、模式挖掘等知识挖掘研究具有重要的研究与应用价值。本文主要研究内容如下:1)由于数据源之间结构的不一致性,很难将多个数据源直接整合成单一数据源进行学习。在充分利用有标签数据源的标签信息与无标签数据源的内部结构信息基础上,分别提出了全局一致化和局部一致化两种标签传播方法,利用此两种方法使无标签数据源的数据样本具有类标签。再次基础上,构建多数据源的集成学习方法,从分类精度、鲁棒性和扩展性等三方面验证了所提算法的有效性。另外,实验结果表明当无标签数据源较多时,局部一致化的标签传播方法效果优于全局一致化的标签传播方法。2)面对多数据源进行学习时,多数据源中可能存在无关的或冗余的数据源。从数据源的重要度和数据源间的冗余度出发,设计了一种基于最大重要度最小冗余度的数据源质量评估与选择算法。其中,重要度表示一个数据源对分类的贡献程度,冗余度表示不同数据源之间蕴含信息的重叠程度。最后,通过选择前p%个数据源进行多数据源的集成学习。实验结果表明该度量方法能有效地选择与任务相关的数据源。3)商场随着销售量的日益增长,存储了大量与时间相关的事务型销售数据。通过将销售数据按时间划分为多个时间戳数据库。针对多个时间戳数据库构成的多相关数据库,提出了一种以挖掘稳定模式为代表的有效算法。该算法首先通过定义两个约束条件:minsupp和varivalue以定义稳定数据项,然后基于灰色关联分析方法度量稳定数据项之间的相似度。在此基础上,提出了一种层次灰色聚类方法挖掘由稳定数据项组成的稳定模式。从模式的有效性、时间效率及拓展性等方面验证了所提算法的有效性。
|
全文目录
致谢 9-10 摘要 10-11 ABSTRACT 11-17 1 绪论 17-31 1.1 课题背景及研究意义 17-19 1.1.1 多数据源研究的应用背景 18-19 1.1.2 多数据源挖掘的定义 19 1.2 多数据源挖掘的研究现状 19-22 1.2.1 多数据源挖掘的任务 19-21 1.2.2 多数据源挖掘的挑战 21-22 1.3 多数据源挖掘的相关技术分析与比较 22-27 1.3.1 多视图学习 22-23 1.3.2 迁移学习 23-24 1.3.3 半监督学习 24-26 1.3.4 集成学习 26-27 1.4 主要研究内容与组织结构 27-29 1.4.1 课题来源 27 1.4.2 主要研究内容 27-28 1.4.3 内容组织 28-29 1.5 本章小结 29-31 2 基于标签传播的多异构数据源集成学习方法的研究 31-47 2.1 引言 31-32 2.2 相关内容 32-34 2.3 多异构数据源的集成学习 34-39 2.3.1 多异构数据源的集成学习框架 34 2.3.2 问题描述 34-36 2.3.3 标签传播与一致化方法 36-38 2.3.4 集成模型 38-39 2.4 实验结果 39-45 2.4.1 实验设置 39-42 2.4.2 实验结果分析 42-45 2.5 本章小结 45-47 3 信息源质量的评估与选择方法的研究 47-61 3.1 引言 47-48 3.2 相关内容 48-49 3.3 相关基础 49-52 3.3.1 信息熵和互信息 49-50 3.3.2 邻域熵和邻域互信息 50-52 3.4 信息源的质量 52-54 3.4.1 信息源的重要度 52 3.4.2 信息源的冗余度 52-53 3.4.3 信息源的选择与评估 53-54 3.5 实验结果 54-59 3.5.1 数据集与实验设置 54-55 3.5.2 实验结果分析 55-59 3.6 本章小结 59-61 4 多相关数据库中稳定模式挖掘的研究 61-79 4.1 引言 61-63 4.2 相关内容 63-64 4.3 相关基础 64-66 4.3.1 频繁项集 64-65 4.3.2 聚类 65 4.3.3 灰色关联分析 65-66 4.4 稳定模式的挖掘 66-71 4.4.1 稳定模式 66-67 4.4.2 稳定数据项之间相似度的度量 67-68 4.4.3 稳定项的层次聚类 68-71 4.5 实验结果 71-77 4.5.1 数据集 71-72 4.5.2 拓展性与效率分析 72-75 4.5.3 实验结果分析 75-77 4.6 本章小结 77-79 5 结束语 79-81 5.1 主要研究工作 79 5.2 下一步工作 79-81 参考文献 81-89 攻读博士学位期间的学术活动及成果情况 89-91
|
相似论文
- 教学质量评估数据挖掘系统设计与开发,TP311.13
- 基于兴趣度的Web日志用户访问序列模式挖掘,TP311.13
- 基于模糊综合评价的靶场实时光测数据质量评估,TJ06
- 面向云计算的动态模糊测度方法研究,TP274
- 虹膜图像质量评估算法的研究,TP391.41
- 基于序列模式挖掘的软件异常行为检测,TP311.53
- 大数据下时空同现模式挖掘算法研究,TP311.13
- 基础教育质量评估的研究:以学生为评估主体的研究,G637
- 基于互联网的人物简历问答系统的研究与设计,TP393.09
- 基于WEB的电子政务质量监理及评估的研究,TP399-C2
- 运营商城域网的服务质量评估与优化策略项目的研究,F224
- 融合多数据源构建基因调控网络,Q811.4
- 电网调度中心在线数据整合的研究和实践,TM73
- 基于富客户端技术的教学质量评估信息管理系统的研究与开发,TP311.52
- 不确定图上的近邻查询与近邻模式挖掘算法研究,TP311.13
- 数字集成电路功能验证中的变异测试方法研究,TN431.2
- 多数据源可控查询技术的研究与应用,TP311.13
- 面向分子生物系统的计算技术应用研究,Q7-3
- 基于用户操作模式的系统稳定性研究,TP311.53
- 面向问答的社区型知识抽取技术研究,TP391.1
- 光网络故障定位及其相关技术的研究,TN929.1
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 程序设计 > 数据库理论与系统
© 2012 www.xueweilunwen.com
|