学位论文 > 优秀研究生学位论文题录展示
复杂数据的粒化机理与数据建模
作 者: 钱宇华
导 师: 梁吉业
学 校: 山西大学
专 业: 计算机应用技术
关键词: 复杂数据 数据建模 粒计算 信息粒化 粒空间 信息粒度 多粒度 动态粒度 序化粒度 模型选择
分类号: TP274
类 型: 博士论文
年 份: 2011年
下 载: 114次
引 用: 0次
阅 读: 论文下载
内容摘要
迅猛发展的计算机技术、网络技术和传感器技术使得诸如天文、军事、生物、医疗、管理等学科的数据采集和数据传输更为便利和快捷,从而使得数据日趋复杂,规模不断增长,形成了大量类型复杂、形式异构的高维海量信息。从数据的描述看,数值型、名义型、区间型、缺省型、集值型等多种类型数据并存构成了复杂数据的主要特征。对复杂数据的建模、分析与利用已成为当今诸多应用领域知识发现面临的主要任务,而数据的复杂性是知识发现面临的主要困难之一。复杂数据已成为现代社会中数据资源和知识发现的主体。复杂数据的数据建模是其分析与利用的基础。近年来,借鉴认知科学的研究成果来创新数据建模理论与方法越来越受到人们的重视。基于认知科学的数据建模主要从两个方面进行研究,一类着重于感知机理的理解与模拟,另一类着重于认知机理的理解与模拟。作为人类认知的重要特征之一,粒化认知对复杂数据建模具有重要的借鉴作用。借鉴人类的粒化认知机理,有望诞生新的数据建模理论与方法。开展基于粒化机理的复杂数据建模研究,关键是要解决如下三个核心科学问题:·如何有效地进行复杂数据信息粒化?·如何分析粒化的不确定性?·如何借鉴粒化机理进行数据建模?有鉴于此,本文面向包含数值型、名义型、区间型、缺省型、集值型在内的复杂数据,借鉴人类的粒化认知机理,紧紧围绕三个核心科学问题,从信息粒化、粒化不确定性、建模策略与模型选择四个层次展开系统研究,获得的主要研究成果和创新概括如下:一、完善了复杂数据的信息粒化方法与算法体系,深刻揭示了复杂数据的粒化机理,为基于粒化机理的复杂数据建模提供了基础。提出了如何有效地进行带测量误差的数据聚类问题,给出了一种适合于带测量误差数据的聚类算法。实验分析表明:考虑测量误差的聚类算法可能比仅考虑测量值的聚类算法所获得的聚类结果更加贴近于数据的真实分类;误差数距离提供了度量带测量误差对象的差异性的有效方法。发展了一类基于选举类别代表策略的κ-representatives算法,在半监督环境下该算法在名义型、集值型以及缺省型数据的聚类分析中,其聚类精度、纯度、召回率与迭代次数四个聚类性能评价指标都显示了明显的优势。特别地,由于这个聚类策略回避了数据的空间结构分析,该算法不仅可用于单一数据类型的聚类分析,而且也可用于包含数值型、区间型、名义型、集值型和缺省型等多种类型并存的复杂数据的聚类分析。二、建立了粒空间的运算方法,从代数角度和几何角度刻画了粒空间的结构特征;揭示了信息粒度度量的本质,为粒化不确定性研究提供了约束性理论与指导性方法。在粒空间结构研究方面,给出了不同类型粒空间统一的知识表示方法;提出了交、并、补、差四个粒空间算子,给出了精确/模糊粒空间之间的合成、分解与转换运算方法,证明了所有粒空间与这些算子构成了完备有补格,从代数角度揭示了粒空间的层次结构特性;提出了知识距离与模糊知识距离的概念,在其意义下精确/模糊粒空间是一个距离测度空间,从几何角度揭示了粒空间上的几何结构特征。在信息粒度研究方面,系统建立了精确粒空间与模糊粒空间的信息粒度度量方法;给出了精确/模糊信息粒度的公理化方法,统一了不同类型粒空间背景下信息粒度的相关度量,深刻揭示了精确/模糊信息粒度度量的本质,为粒化不确定性研究提供了约束性理论与指导性方法。三、借鉴人类的粒化认知能力,发展了基于多粒度认知的、基于动态粒度认知的以及基于序化粒度认知的三大类复杂数据建模理论与方法,极大地推动了基于粒化认知的数据建模发展。借鉴人类的多粒度认知能力,给出了基于“求同存异”的、基于“求同排异”的以及带概念描述的三类多粒度数据建模方法,极大地丰富了基于粗糙集的建模理论与方法,可以广泛应用于诸如分布式信息系统、多智能Agent等多粒度环境下的数据分析。借鉴人类的动态粒度认知能力,建立了动态粒度下的概念逼近和决策逼近方法,提出了通用粗糙特征选择加速器,为高效地进行特征选择提供了有效方法。理论分析和实验结论表明:1)将加速器嵌入到每个特征选择方法中后,改进的算法能够保持原有算法的特征选择结果;2)与原有算法相比,带加速器的特征选择算法的耗时大大减少;3)数据规模越大,该加速器的优势越明显。提出了一种特征空间降维和样本空间降维相融合的结构降维策略,并设计了一种高效规则获取算法,分析表明该算法无论从计算时间还是决策性能都具有一定优势,为面向高维海量数据的知识发现提供了高效方法。借鉴人类的序化粒度认知能力,给出了区间型、合取集值型与析取集值型三类数据的描述语义,建立了基于序化粒度的排序决策与分级决策模型,提出了基于保序原理的特征选择方法,有效解决了序信息系统与序决策信息系统中的特征选择问题。研究结果进一步完善了复杂数据的排序决策、分级决策建模的理论与方法,也为有序分类、有序聚类等相关建模问题提供了可资借鉴的手段。四、建立了基于整体决策性能评价的模型选择方法,为知识发现的模型选择提供了理论依据与技术支持。对于完备决策信息系统,给出了整体确定度、整体协调度和整体支持度三个完备决策规则集决策性能评价指标;对于非完备决策信息系统,提出了用极大相容块刻画非完备决策规则的方法,给出了整体确定度、整体协调度和整体支持度;面向分级决策问题,给出了序意义下的整体确定度、整体协调度和覆盖度三个优势规则集决策性能评价指标。理论分析和实验结论表明,提出的评价方法都明显优于基于近似精度和近似质量的评价方法,可为特定问题的模型选择提供理论依据与技术支持。通过以上系统研究,从揭示人类的粒化认知机理出发,论文在信息粒化、粒化不确定性、建模策略与模型选择四个数据建模阶段都获得了重要的研究成果,初步形成了一个基于粒化机理的数据建模理论与方法体系,对面向复杂数据的数据建模有着重要的理论意义,同时对提高海量信息处理的效率具有实际的应用价值。
|
全文目录
摘要 14-17 ABSTRACT 17-22 第一章 绪论 22-38 1.1 研究意义 22-24 1.1.1 复杂数据是现代社会中数据资源和知识发现的主体 22 1.1.2 认知机理在复杂数据建模中具有重要作用 22-23 1.1.3 借鉴人类的粒化认知机理有望诞生新的数据建模理论与方法 23-24 1.1.4 对相关领域发展的重要意义 24 1.2 基于粒化机理的数据建模研究现状 24-32 1.2.1 信息粒化研究进展 24-27 1.2.2 复杂数据的不确定性分析研究进展 27-29 1.2.3 基于粒化机理的计算模型研究进展 29-32 1.3 三个核心科学问题 32-34 1.3.1 如何有效地进行复杂数据信息粒化 32-33 1.3.2 如何分析粒化的不确定性 33 1.3.3 如何借鉴粒化机理进行数据建模 33-34 1.4 本文的研究思路和创新 34-36 1.5 本文的研究内容和组织结构 36-38 第二章 信息粒化 38-78 2.1 基于二元关系的信息粒化 38-39 2.1.1 精确信息粒化 38-39 2.1.2 模糊信息粒化 39 2.2 基于聚类的数值数据信息粒化 39-41 2.3 带测量误差数据的信息粒化 41-55 2.3.1 问题提出 41-43 2.3.2 误差数距离 43-45 2.3.3 基于误差数距离的信息粒化 45 2.3.4 实验分析 45-55 2.4 基于聚类的符号数据信息粒化 55-64 2.4.1 问题提出 55-56 2.4.2 k-modes算法 56-57 2.4.3 k-representatives算法 57-60 2.4.4 实验分析 60-64 2.5 集值数据的信息粒化 64-70 2.5.1 问题提出 64-65 2.5.2 析取型集值数据的信息粒化 65-66 2.5.3 合取型集值数据的信息粒化 66-67 2.5.4 实验分析 67-70 2.6 缺省数据的信息粒化 70-74 2.6.1 问题提出 70 2.6.2 基于非完备邻域距离的k-representatives算法 70-71 2.6.3 实验分析 71-74 2.7 在基因聚类中的应用 74-76 2.8 本章小结 76-77 本章内容相关的论文 77-78 第三章 粒空间结构 78-98 3.1 知识表示 78-81 3.1.1 精确粒空间的知识表示 78-79 3.1.2 模糊粒空间的知识表示 79-81 3.2 粒空间运算—合成、分解与转换 81-86 3.2.1 精确粒空间运算 81-84 3.2.2 模糊粒空间运算 84-86 3.3 粒空间的代数结构 86-89 3.3.1 精确粒空间的代数结构 86-87 3.3.2 模糊粒空间的代数结构 87-89 3.4 粒空间的几何结构 89-96 3.4.1 精确粒空间距离 89-94 3.4.2 模糊粒空间距离 94-96 3.5 本章小结 96-97 本章内容相关的论文 97-98 第四章 信息粒度 98-126 4.1 精确粒空间的信息粒度 98-114 4.1.1 精确粒空间的信息粒度度量 98-99 4.1.2 精确粒空间上的偏序关系 99-103 4.1.3 精确信息粒度的公理化方法 103-106 4.1.4 信息熵及其粒化单调性 106-114 4.2 模糊粒空间的信息粒度 114-124 4.2.1 模糊粒空间的信息粒度度量 114-116 4.2.2 模糊粒空间上的偏序关系 116-119 4.2.3 模糊信息粒度的公理化方法 119-121 4.2.4 模糊信息熵及其粒化单调性 121-124 4.3 本章小结 124 本章内容相关的论文 124-126 第五章 基于多粒度的数据建模 126-158 5.1 问题描述 126-127 5.2 乐观多粒度粗糙集 127-142 5.2.1 Pawlak粗糙集理论 127-128 5.2.2 乐观粗糙近似 128-137 5.2.3 多粒度粗糙集中的几个度量 137-140 5.2.4 特征选择 140-142 5.3 悲观多粒度粗糙集 142-148 5.3.1 悲观粗糙近似 142-146 5.3.2 粗糙成员函数 146-147 5.3.3 多粒度粗糙集中的规则 147-148 5.4 带概念描述的多粒度粗糙集 148-153 5.4.1 粗糙近似 149-151 5.4.2 粒选择 151-152 5.4.3 粒度选择 152-153 5.5 在风险投资分析中的应用 153-155 5.6 本章小结 155-156 本章内容相关的论文 156-158 第六章 基于动态粒度的数据建模 158-206 6.1 问题描述 158-159 6.2 动态粒度下的概念近似 159-166 6.2.1 正向近似 159-161 6.2.2 逆向近似 161-166 6.3 向近似:一种粗糙特征选择加速器 166-183 6.3.1 前向特征选择算法 166-167 6.3.2 四个代表性属性重要性度量 167-170 6.3.3 特征选择的保序性 170-173 6.3.4 基于正向近似的粗糙特征选择算法 173-174 6.3.5 算法的时间高效性分析 174-179 6.3.6 算法的稳定性分析 179-183 6.4 非完备正向近似:一种非完备粗糙特征选择加速器 183-199 6.4.1 非完备正向近似 183-187 6.4.2 三个代表性属性重要性度量 187-188 6.4.3 特征选择的保序性 188-191 6.4.4 基于非完备正向近似的特征选择算法 191-194 6.4.5 算法的时间高效性分析 194-198 6.4.6 算法的稳定性分析 198-199 6.5 在高维海量数据的规则发现中的应用 199-203 6.6 本章小结 203-204 本章内容相关的论文 204-206 第七章 基于序化粒度的数据建模 206-234 7.1 问题描述 206-207 7.2 五类序信息系统 207-212 7.2.1 单值序信息系统 207 7.2.2 非完备序信息系统 207-208 7.2.3 区间序信息系统 208-209 7.2.4 合取集值序信息系统 209-210 7.2.5 析取集值序信息系统 210-212 7.3 排序决策 212-216 7.4 优势粗糙集 216-217 7.5 有序分级决策 217-223 7.6 有序决策的特征选择 223-228 7.7 在股票投资中的应用 228-231 7.8 本章小结 231-232 本章内容相关的论文 232-234 第八章 模型选择与评价 234-270 8.1 问题提出 234-235 8.2 完备决策规则集的决策性能评价方法 235-247 8.2.1 完备决策规则 235-236 8.2.2 完备决策信息系统的分类 236 8.2.3 完备决策规则集的决策性能评价指标 236-245 8.2.4 实验分析 245-247 8.3 非完备决策规则集的决策性能评价方法 247-260 8.3.1 非完备决策规则 248-249 8.3.2 非完备决策信息系统的分类 249-250 8.3.3 非完备决策规则集的决策性能评价指标 250-258 8.3.4 实验分析 258-260 8.4 序决策规则集的决策性能评价方法 260-267 8.4.1 序决策规则 261 8.4.2 序决策规则集的决策性能评价指标 261-266 8.4.3 实验分析 266-267 8.5 本章小结 267-269 本章内容相关的论文 269-270 结论及展望 270-274 参考文献 274-290 研究成果 290-294 攻读博士学位期间主持(参与)的科研项目 294-296 攻读博士学位期间获奖及登记的计算机软件著作权 296-298 致谢 298-300 个人简况及联系方式 300-304
|
相似论文
- 贝叶斯方法下二值与多值序次数据模型与异常点的同时识别,O212.1
- 随机网络模型分离,O157.5
- 支持向量机训练算法的研究与优化,TP18
- 雷达高分辨距离像目标识别方法研究,TN957.5
- 基于SOM的时态近似周期的数据挖掘研究,TP311.13
- 多粒度光交换实验系统部分单板的方案设计与实现,TN929.1
- 支持向量机参数选择的组合方法,TP18
- 基于动态粒度思想的实体关系识别方法研究,TP391.1
- 基于SVM的中文电子邮件过滤方法研究,TP393.098
- 基于粗糙集的粒度计算理论与方法研究,TP301
- 小波支持向量机在数据建模中的研究及应用,TP18
- 企业技术创新战略研究,F273.1
- 湿法炼锌净化渣—钴镍渣选择性溶出研究,TF813
- 基于支持向量回归机的盲均衡算法的研究,TN911.5
- 基于LDA模型的文本分类研究,TP391.1
- 组合预测中单项模型选择研究及其权重系数优化,O211.67
- 基于CFD离心泵数值模拟及性能优化,TH311
- 模型选择:推广的拉格朗日乘子法,O212.1
- 贝叶斯网络结构学习算法研究,TP311.13
- 面向时态查询的移动对象索引技术研究,TP391.3
中图分类: > 工业技术 > 自动化技术、计算机技术 > 自动化技术及设备 > 自动化系统 > 数据处理、数据处理系统
© 2012 www.xueweilunwen.com
|