学位论文 > 优秀研究生学位论文题录展示
一般分布式与区间型符号数据的动态聚类分析研究
作 者: 陈颖
导 师: 郭均鹏
学 校: 天津大学
专 业: 信息管理与信息系统
关键词: 分布式符号数据 区间型符号数据 一般分布 符号数据分析 聚类分析
分类号: TP311.13
类 型: 硕士论文
年 份: 2012年
下 载: 1次
引 用: 0次
阅 读: 论文下载
内容摘要
互联网技术的高速发展带来了数据的极大丰富,然而传统的聚类分析技术在面对如此庞大的样本空间时存在着局限性。符号数据分析产生于上个世纪80年代,它是针对海量数据进行知识发现和规律挖掘的一套理论方法。聚类作为一种解释复杂数据关系的技术在符号数据分析领域有着广泛的应用。但现有符号数据聚类分析的研究大多假设个体在区间内服从均匀分布,这往往并不符合实际情况。针对此问题,本文对一般分布的分布式符号数据和区间型符号数据动态聚类方法展开研究。首先给出了两种常用的符号数据的定义——分布式符号数据和区间型符号数据,随后对分布式符号数据的聚类分析进行了一些探索性研究,包括分布式符号数据的形成,一般分布情况下的距离度量,以及动态聚类算法等。以鸢尾属植物数据集为例,将其分组形成符号对象,并在其上进行动态聚类分析研究,以说明本算法的实用性。考虑区间数所包含个体的分布信息,基于Hausdorff距离提出了一种新的多维区间型符号数据距离度量。基于此,给出一般分布的区间型符号数据动态聚类算法。通过随机模拟试验对文中方法进行有效性评价,结论表明,在各种实验设计的条件下,考虑一般分布的动态聚类算法有效性均优于均匀分布假设下的动态聚类算法。最后将文中方法应用于汽车的聚类分析,进一步体现了文中方法在解决实际问题中的优势。本文针对多维分布式符号数据和区间型符号数据分别提出了动态聚类算法,并运用聚类有效性指标对其评价。应用研究结果表明,无论对于分布式符号数据或是区间型符号数据,本文所提出的一般分布的前提条件下的动态聚类分析方法较之均匀分布假设下的传统方法更有效也更客观。
|
全文目录
摘要 3-4 ABSTRACT 4-8 第一章 绪论 8-13 1.1 研究背景和研究意义 8-9 1.2 研究现状 9-10 1.3 论文主要内容 10-11 1.4 论文基本结构 11-13 第二章 基本原理概述 13-30 2.1 符号数据分析概述 13-22 2.1.1 符号数据概述 13-16 2.1.2 分布式符号数据定义及描述统计 16-18 2.1.3 区间型符号数据定义及描述统计 18-22 2.2 聚类分析概述 22-26 2.2.1 聚类分析算法概述 22-24 2.2.2 聚类分析有效性评价指标 24-26 2.3 Monte Carlo 方法概述 26-29 2.3.1 Monte Carlo 方法基本思想 27-28 2.3.2 Monte Carlo 方法的特点 28-29 2.4 本章小结 29-30 第三章 一般分布式符号数据动态聚类分析算法 30-41 3.1 分布式符号数据动态聚类分析算法 30-35 3.1.1 分布式符号数据距离度量方式 30-33 3.1.2 一般分布式符号数据动态聚类分析算法 33-35 3.2 应用实例及其有效性评价 35-39 3.2.1 实验数据选择及预处理 35-38 3.2.2 实验结果分析 38-39 3.3 本章小结 39-41 第四章 一般区间型符号数据动态聚类分析算法 41-55 4.1 一般区间型符号数据动态聚类分析及其有效性评价 41-46 4.1.1 区间型符号数据距离度量方式 41-44 4.1.2 基于改进 Hausdorff 距离的一般区间型符号数据动态聚类算法 44-46 4.2 随机模拟试验 46-50 4.2.1 随机模拟试验设计 46-48 4.2.2 试验结果分析 48-50 4.3 应用实例及其有效性评价 50-54 4.3.1 实例数据选择及预处理 50-52 4.3.2 实验结果分析 52-54 4.4 本章小结 54-55 第五章 总结与展望 55-57 5.1 研究内容总结 55-56 5.2 研究内容展望 56-57 参考文献 57-61 发表论文和参加科研情况说明 61-62 致谢 62
|
相似论文
- 牡丹EST-SSR引物开发及其亲缘关系分析,S685.11
- 大豆品种对腐竹品质的影响及其品质评价体系的初步构建,TS214.2
- 21个荷花品种遗传多样性的ISSR分析,S682.32
- 桃杂交后代(F1)幼苗光合效能评价,S662.1
- 基因表达谱数据聚类分析方法比较与大豆疫霉基因的网络构建,S435.651
- 基于同化能力杂种优势早期评价的桃光合特性研究,S662.1
- 基于分治法的聚类方法研究,TP311.13
- 基于多因素模糊聚类的底板突水危险性预测研究,TD745
- 基于信息熵的聚类个数确定方法研究,TP311.13
- 面向专科院校的图书管理与智能分析系统,TP311.13
- 改进K-MEANS聚类算法在银行CRM中的应用与研究,TP311.13
- 基金投资绩效评估的实证分析,F832.51
- 多组分纤维复合与机织物服用性能和风格的研究,TS941.15
- Web点击流数据的聚类技术研究,TP311.13
- 蚁群聚类算法研究与应用,TP18
- 多路空间距离连接查询技术的研究与应用,TP391.3
- 模糊C均值聚类算法的相关问题研究,TP311.13
- 多组份混纺服用面料的性能优化研究与产品开发,TS105
- 青海杜鹃属植物种质资源现状及园林应用,S685.21
- 永春县森林乔木层碳储量特征动态研究,S718.5
- 基于数据挖掘聚类技术的我国高校分类研究,TP311.13
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 程序设计 > 数据库理论与系统
© 2012 www.xueweilunwen.com
|