学位论文 > 优秀研究生学位论文题录展示
基于近邻保护嵌入的数据降维算法研究
作 者: 牛艳婷
导 师: 陆月明
学 校: 北京邮电大学
专 业: 通信与信息系统
关键词: 高维 数据降维 近邻保护 相似度 距离转换嵌入
分类号: TP391.41
类 型: 硕士论文
年 份: 2013年
下 载: 11次
引 用: 0次
阅 读: 论文下载
内容摘要
随着信息技术的飞速发展,各种高维数据大量出现,这些数据在提供给人们丰富、详细的信息的同时,也带来了很多给处理过程造成难度的冗余信息,如何从庞大的数据量中提取出真正有用的信息成为人们关注的重点,同时也成了数据处理的一大难点。高维不仅使数据难于被直观理解,也难以被现有的机器学习、数据挖掘等有效的处理。面对高维给数据处理所带来的一系列的问题和难点,数据降维成为其中一种有效的解决方法。本文针对传统的经典数据降维算法进行了分析,提出了在近邻保护方面的改进算法——基于图像资源的近邻保护嵌入算法和基于文本资源的近邻保护嵌入算法。基于图像资源的近邻保护嵌入算法主要包括子集划分、距离转换嵌入、多维尺度分析三个模块,通过搭建仿真平台对其进行验证,得出在参数设置合适的情况下,该算法在图像资源的近邻保护这一方面的表现要优于经典的降维算法。基于文本资源的近邻保护嵌入算法主要包括相似度变换、平方化距离和多维尺度分析三大步。通过对这一算法进行仿真,验证得到这一算法在文本资源的近邻关系保护与损失值评价函数两方面都要优于经典的降维算法。
|
全文目录
摘要 4-5 ABSTRACT 5-9 第一章 引言 9-13 1.1 研究背景 9-10 1.2 国内外研究现状 10-11 1.3 主要研究工作 11 1.4 论文结构 11-12 1.5 本章小结 12-13 第二章 降维算法分析比较及其调查 13-25 2.1 线性降维法 14-17 2.1.1 主成分分析 14-15 2.1.2 线性判别法 15-17 2.2 非线性降维法 17-23 2.2.1 多维尺度分析 17-18 2.2.2 等距映射法 18-19 2.2.3 局部线性嵌入 19-22 2.2.4 拉普拉斯特征映射 22-23 2.3 算法分析与比较 23 2.4 本章小结 23-25 第三章 基于图像资源的近邻保护算法研究 25-37 3.1 数据降维中图像的相似度计算方法 25-26 3.1.1 皮尔逊相关系数 25-26 3.1.2 欧氏距离(Euclidean Distance) 26 3.2 多维尺度变换的评价函数 26-27 3.3 距离转换嵌入式近邻保护算法设计 27-30 3.3.1 算法功能模块划分 27-28 3.3.2 算法具体实现步骤 28-30 3.4 算法的实验实施与数据分析 30-36 3.4.1 输入数据集与仿真工具介绍 30-31 3.4.2 实验实施与数据分析 31-36 3.5 本章小结 36-37 第四章 基于文本资源的近邻保护算法研究 37-54 4.1 文本资源的相似度计算方法研究 37-43 4.1.1 文本资源的数学表示 37-38 4.1.2 构建向量空间模型SVM 38-43 4.2 文本资源的近邻保护算法设计 43-47 4.2.1 余弦相似度的变换应用 43-45 4.2.2 应用距离转换技术实现MDS降维 45-47 4.3 算法的实验实施与数据分析 47-53 4.3.1 实验数据集介绍 47-49 4.3.2 实验处理与结果分析 49-53 4.4 本章小结 53-54 第五章 总结与展望 54-56 参考文献 56-58 致谢 58-59 攻读硕士学位期间发表论文 59
|
相似论文
- 基于句法特征的代词消解方法研究,TP391.1
- 多邮件自动文摘的关键技术研究,TP391.1
- 基于相似度计算的编程题自动评判方法研究,TP312.1
- 一种基于领域本体的语义Web服务匹配和组合方法,TP393.09
- WordNet和《中国分类主题词表》的映射研究,G254
- 基于图的科技文献相似性搜索关键技术研究,TP391.3
- 基于领域本体的专利地图研究,TP391.1
- 空间二维简化欧拉方程组解的结构,O175.24
- 基于动态自适应语言模型的手机中文输入系统的研究与实现,TP391.14
- 基于本体的食品投诉文档文本分类研究,TP391.1
- 基于本体的食品投诉文档文本聚类研究,TP391.1
- 基于支持向量机的基因表达数据降维方法的研究,TP181
- 数据流聚类算法研究,TP311.13
- 流形学习中样本点稀疏问题的研究,TP391.41
- 基于模糊区分矩阵的区间信息系统属性约简,O159
- 三维人脸识别系统研究,TP391.41
- 基于保局部核多元RVM的说话人识别方法研究,TN912.34
- 基于最近邻相似度的孤立点检测及半监督聚类算法,TP311.13
- 学习表达式的映射机制研究,TP181
- 基于兴趣区域匹配图像检索系统的研究与实现,TP391.41
- 数字学习中试题概念权重自动产生及其最佳化试题组合之研究,TP391.6
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 模式识别与装置 > 图像识别及其装置
© 2012 www.xueweilunwen.com
|