学位论文 > 优秀研究生学位论文题录展示
分布式的隐私保护特征选择研究
作 者: 万文强
导 师: 李云
学 校: 南京邮电大学
专 业: 计算机应用技术
关键词: 隐私保护 特征选择 分布式 差分隐私 主成分分析
分类号: TP311.13
类 型: 硕士论文
年 份: 2013年
下 载: 74次
引 用: 0次
阅 读: 论文下载
内容摘要
随着网络的迅速发展,计算能力与存储能力的不断提高,数据集的规模也有了飞速的增长。为了从大量数据中获取有价值的信息,需要对采集到的数据进行数据挖掘。而特征选择又是数据挖掘中一个重要而且经常采用的预处理过程。它可以减少特征数目,去除不相关的、冗余的噪声数据,带来明显的应用效果:加速数据挖掘算法,提高挖掘算法性能,如增强预测准确性及结果的可理解性。隐私保护是数据挖掘中的一个重要研究方向,正是由于数据挖掘的广泛使用,使得隐私保护受到了极大的关注。如何在保护个人隐私的同时有效地进行特征选择是当今的一个研究热点。然而,现有的特征选择算法大都没有考虑保护个人隐私的问题,如医疗与财政记录等,这使得特征选择日后将面临严峻的信息安全问题。另外,各类应用产生的大量数据可能存储在多个站点上,为了挖掘如此庞大而且分布式存储的数据,分布式计算技术孕育而生。本文从保护特征的隐私和保护数据集的隐私两方面出发,提出了基于隐私保护的分布式特征选择算法。保护特征隐私方面,本文将PCA与SVM-RFE相结合,通过对SVM-RFE中评价准则的三种优化方法,提出基于PCA与SVM-RFE的隐私保护算法。仿真实验表明,该算法具有较好的性能,能够在保证一定准确率的同时,尽可能的降低所选特征子集的信息量之和,从而保护特征的隐私。保护数据集隐私方面,本文将基于统计理论(基尼指数、误分类增益、熵)的特征选择方法与差分隐私相结合,应用于分布式的Map-Reduce框架下,实现了分布式环境下的差分隐私特征选择算法,并从理论上证明了该算法满足差分隐私的定义。通过对UCI数据集与人工合成数据集的仿真实验结果分析可以得知,该算法能够在保护一定程度隐私信息的同时,选取出重要的特征。同时,一些对比实验也表明该算法的准确性以及分布式环境较集中式环境的优越性。
|
全文目录
摘要 4-5 ABSTRACT 5-8 专用术语注释表 8-9 第一章 绪论 9-14 1.1 研究背景及研究意义 9-10 1.2 国内外研究现状 10-11 1.3 主要研究内容与工作 11-12 1.4 论文各章节安排 12-14 第二章 隐私保护综述 14-26 2.1 隐私的基本概念 14-16 2.2 隐私保护方法的分类 16-19 2.3 几种常见的隐私保护方法介绍 19-25 2.3.1 K-anonymity 19-21 2.3.2 安全多方计算 21-24 2.3.3 随机化回答 24-25 2.4 本章小结 25-26 第三章 特征选择与云计算概述 26-35 3.1 特征选择简介 26-30 3.1.1 特征选择的基本概念 26-28 3.1.2 几种常见的特征选择方法介绍 28-30 3.2 云计算简介 30-34 3.2.1 云计算的概念 30-32 3.2.2 Map-Reduce 32-34 3.3 本章小结 34-35 第四章 基于 PCA 的隐私保护特征选择方法 35-51 4.1 主成分分析 35-38 4.1.1 基本概念 35-36 4.1.2 理论基础 36-38 4.2 支持向量机 38-41 4.2.1 线性支持向量机 39-40 4.2.2 非线性支持向量机 40-41 4.3 基于 PCA 与 SVM-RFE 的隐私保护特征选择方法 41-45 4.4 仿真实验与分析 45-50 4.5 本章小结 50-51 第五章 分布式环境下的差分隐私特征选择 51-72 5.1 基于统计理论的特征选择 51-54 5.1.1 基尼指数 52-53 5.1.2 误分类增益 53-54 5.1.3 熵 54 5.2 差分隐私的特征选择 54-59 5.3 分布式环境下的差分隐私特征选择 59-61 5.4 仿真实验与分析 61-71 5.5 本章小结 71-72 第六章 总结与展望 72-74 6.1 工作的总结 72 6.2 工作的展望 72-74 参考文献 74-77 附录1 攻读硕士学位期间撰写的论文 77-78 附录2 攻读硕士学位期间参加的科研项目 78-79 致谢 79
|
相似论文
- Ad-Hoc网络多信道MAC层协议的信道分配问题的研究,TN929.5
- 基于仿生模式识别的文本分类技术研究,TP391.1
- 唇读中的特征提取、选择与融合,TP391.41
- 基于质谱的雷公藤甲素肝脏毒性代谢组学研究,R285
- 改进的主成分分析方法在学科建设中的应用,G642.4
- 基于移动Agent的分布式网络通信机制的研究,TP393.02
- 语音情感识别的特征选择与特征产生,TP18
- 高分辨率SAR影像裸土信息提取及土壤含水量反演初探,S152.7
- 高光谱图像技术诊断黄瓜病害方法的研究,S436.421
- 赵官煤矿下组煤底板突水预测及防治技术研究,TD745
- 分布式光纤传感定位系统中时间延迟估计研究,TN95
- 基于特征选择的入侵检测研究,TP393.08
- 无线局域网MAC层工作休假策略的研究,TN925.93
- 基于Map/Reduce框架的分布式日志分析系统的研究及应用,TP311.52
- 面向实时数据流的匿名化隐私保护发布技术研究,TP311.13
- 基于Oracle的移动彩铃分布式数据库设计与实现,TP311.13
- 隐私保护线性规划和支持向量机新算法,O221.1
- 人类抗原肽载体结合力预测,R392.1
- 基于特征分析的DDoS攻击检测技术研究,TP393.08
- 基于PET/CT的医学图像融合算法的设计与实现,TP391.41
- 非综合征性唇腭裂患者血浆和尿液的核磁共振代谢组学研究,R782.21
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 程序设计 > 数据库理论与系统
© 2012 www.xueweilunwen.com
|