学位论文 > 优秀研究生学位论文题录展示

差分隐私保护数据聚合优化方法及其在数据可视化中的应用

作 者: 李杨
导 师: 郝志峰
学 校: 广东工业大学
专 业: 控制理论与控制工程
关键词: 差分隐私保护 聚类 均分k-均值 数据聚合 数据可视化 质量评价指标
分类号: TP309
类 型: 博士论文
年 份: 2013年
下 载: 180次
引 用: 0次
阅 读: 论文下载
 

内容摘要


在医疗、金融、户籍管理等涉及国计民生的国家基础信息网络和重要信息系统中,存在着大量的隐私数据,其中,许多包含敏感信息的数据都是大样本数据,数据可视化技术可以辅助用户快速准确地发掘其中隐含的信息,如何对包含敏感信息的大样本数据进行可视化是本文的主要研宄内容。本文研宄2006年由Dwork等人首次提出的差分隐私保护方法,差分隐私保护方法首次定义了一个严格的攻击模型,通过添加噪声使数据失真,从而达到隐私保护的目的。差分隐私保护方法具有两大优点:①隐私披露风险与攻击者所具有的背景知识无关。②隐私保护所添加的噪声量不随数据集的增大而增加。由于差分隐私保护仅通过添加与数据集大小无关的少量噪声,就能达到高级别的隐私保护,极大的保证了数据可视化的可用性,因而非常适合于解决大样本数据的安全可视化问题。数据可视化通过数据聚合来减少可视化中的图像叠加,提高大样本数据可视化质量,差分隐私保护数据聚合的难点在于①数据聚合中的聚簇数量往往很大,噪音的添加使得聚合的成功率极低。②迭代次数的不确定性导致隐私预算消耗过快,一旦隐私预算耗尽,则难以实现有效的隐私保护。本文在上述背景下提出,研宄“差分隐私保护下的数据聚合及其在数据可视化中的应用”,包括以下四个内容:1.研宄获取&差分隐私保护的理论和方法,分析了交互式与非交互式框架下的差分隐私保护机制,列举了几种攻击模型下,差分隐私保护方法与A:-匿名和[diversity相比所具备的优势。差分隐私保护方法隐私预算的消耗速度与敏感度有着密切的关系,本文对几种特定情况下敏感度的界进行了分析。2.在对大样本数据进行可视化时,通常先对数据进行聚合处理,以减少可视化中的图像交叠、重合的现象,从而提高大样本数据的可视化图像质量。聚类是数据聚合的基本手段,本文研宄差分隐私保护下的聚类算法,针对差分隐私yt-means聚类可用性差的问题,在满足~差分隐私保护的基础上,通过改进初始中心点的选择,提出了一个IDPhmeans聚类方法,与现有的隐私保护yt-means聚类方法相比,IDPA-means聚类方法在同样的隐私保护级别下,提高了聚类可用性。为了更具客观性,我们引入了隐私保护聚类的同类算法与IDP yt-means聚类方法进行了比较,通过仿真实验可得出结论,IDP yt-means的聚类质量在各项指标上的表现更具优势,尤其在大样本数据集上的优势会更加明显。3.聚合与聚类算法的不同之处在于聚合算法需要支持数量更大的聚簇。很多聚类算法在聚簇数目较大的情况下,往往会出现聚类可用性低,迭代次数大,兑法效率低等问题。本文提出了一种均分/t-means++数据聚合算法,以数据可视化为口的对算法进行了改进,使算法支持高效地聚合为更多的簇。聚合得到的数据既较好地保持了原数据空间的大部分特性,又显著提高了可视化后的图像质量。仿真实验证明,在不同的DAL下,无论是图像质量还是质量评价指标HDM,NNM上,算法都表现出了较好的效果。4.差分隐私保护下的数据聚合方法是本文的主要研究内容之一,本文提出了一种差分隐私DPEfmeans数据聚合算法,在保护隐私数据的同时,解决了大样木数据可视化中数据重叠严重,图像质量低的问题,聚合后的数据较好的保持了原数据柒的分布、关联、聚柒等特性。^IDPlmeans算法相比,在同等隐私保护级别c-差分隐私保护下,DPElmeans提高了所能支持的最大DAL,即成功聚为更多的簇。聚合后的点在原数据集上的分布史加均匀,农征数据聚合质量的相关指标值有所提A’,算法运行时间比传统A-means聚合减少了-半以上。

全文目录


相似论文

  1. 隐式用户兴趣挖掘的研究与实现,TP311.13
  2. 图像分割中阴影去除算法的研究,TP391.41
  3. 基于图分割的文本提取方法研究,TP391.41
  4. 牡丹EST-SSR引物开发及其亲缘关系分析,S685.11
  5. 高血压前期证候特征研究,R259
  6. 高忠英学术思想与经验总结及运用补肺汤加减治疗呼吸系统常见病用药规律研究,R249.2
  7. K-均值聚类算法的研究与改进,TP311.13
  8. 大学生综合素质测评研究,G645.5
  9. 大豆品种对腐竹品质的影响及其品质评价体系的初步构建,TS214.2
  10. 21个荷花品种遗传多样性的ISSR分析,S682.32
  11. 基于聚类分析的P2P流量识别算法的研究,TP393.02
  12. 基于混合自适应遗传算法的动态网格调度问题研究,TP393.09
  13. 桃杂交后代(F1)幼苗光合效能评价,S662.1
  14. 南通市农业面源污染负荷研究与综合评价,X592
  15. 土壤环境功能区划研究,X321
  16. 基因表达谱数据聚类分析方法比较与大豆疫霉基因的网络构建,S435.651
  17. 大豆杂种优势及其遗传基础研究,S565.1
  18. 象草自交后代无性系的饲用价值及生物质能特性初步评价,S543.9
  19. 高校理论课课堂教学质量评价指标体系研究,G642.4
  20. 细菌聚类算法及其在图像分割问题中的研究与应用,TP391.41
  21. 基于变异粒子群的聚类算法研究,TP18

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 一般性问题 > 安全保密
© 2012 www.xueweilunwen.com