学位论文 > 优秀研究生学位论文题录展示
基于k-匿名隐私数据挖掘研究
作 者: 郑招华
导 师: 苏勇
学 校: 江苏科技大学
专 业: 计算机应用技术
关键词: 数据挖掘 k-匿名化 分类器 遗传算法 隐私
分类号: TP311.13
类 型: 硕士论文
年 份: 2011年
下 载: 51次
引 用: 0次
阅 读: 论文下载
内容摘要
随着信息技术的高速发展,网络中的数据共享和交换行为出现得越来越频繁。因为数据挖掘是从原始数据中挖掘提取对人们有用的信息,因此它也被作为数据分析工具而得到了广泛应用。而于此同时数据挖掘带来的隐私保护问题也已经引起了人们的关注。在隐私保护数据挖掘中,基于K-匿名的隐私保护数据挖掘方法是一种既能达到挖掘数据信息同时又能很好的保护隐私的方法。这种方法可以在数据被挖掘前有效的保护某些敏感信息,它要求数据集中的每一个记录都与至少k-1个关于这个数据集中的准标识符属性记录相同,这样在k-匿名数据集中,个人就无法从最少k-1个个人群中被分辨出来。其中,最常见的实现k-匿名的方法就是用一个语义上一致的值来代替需要保护的敏感信息。本文提出一种不同的方法来实现数据的k-匿名化,将原始数据集划分成若干个投影,并且使每一个投影都遵循k-匿名模型。然后我们用一个分类器对每个投影进行训练,分类结果表明没有被标记的元祖都可以被分类器很好的分类。考虑到分类器的准确性和k-匿名化的限制,本文提出的实现k-匿名化的方法采用遗传算法来寻找最佳的划分方法。为了得到该方法的分类性能,我们使用10个不同的数据集对其进行测试,并和其它主要k-匿名化方法进行比较。试验结果表明,本文提出的方法比现存的k-匿名化方法要好,并且在划分数据集时不在需要专业知识。最后采用多目标优化算法,我们对隐私保护数据挖掘的两个矛盾体——隐私保护度和挖掘准确度进行研究。
|
全文目录
摘要 6-7 ABSTRACT 7-12 第一章 绪论 12-15 1.1 研究背景及意义 12-13 1.2 国内外研究现状 13-14 1.3 本课题的主要研究内容 14 1.4 本文组织结构 14-15 第二章 隐私保护挖掘算法综述 15-26 2.1 数据挖掘概述 15-17 2.2 隐私的概念 17-19 2.2.1 隐私定义 17 2.2.2 隐私的发展 17-18 2.2.3 隐私信息的获取 18-19 2.2.4 隐私的分类 19 2.3 面向数据挖掘的隐私保护技术与方法 19-20 2.4 集中式隐私保护数据挖掘算法 20-22 2.5 分布式隐私保护数据挖掘算法 22-25 2.5.1 垂直分布条件下的隐私保护分类挖掘 22-23 2.5.2 水平分布条件下的隐私保护分类挖掘 23-25 2.6 本章小节 25-26 第三章 K-匿名的分类分析 26-29 3.1 全域K-匿名算法分类分析 26-27 3.1.1 全局泛化算法 26 3.1.2 算法分类 26-27 3.2 局部K-匿名算法分类分析 27-28 3.2.1 局部泛化算法 27 3.2.2 算法分类 27-28 3.3 本章小结 28-29 第四章 相关概念以及问题的阐述 29-35 4.1 问题描述 29 4.2 数据挖掘相关概念 29-32 4.2.1 分类问题(Classification problem) 29-31 4.2.2 投影 (Projection) 31-32 4.2.3 聚集 32 4.3 K-匿名算法相关概念 32-35 4.3.1 准标识符 (Quasi-identifier) 32 4.3.2 K-匿名特征分类 (Feature categories in K-anonymity model) 32-33 4.3.3 K-匿名约束 33 4.3.4 K-匿名 (k-anonymity) 33 4.3.5 K-匿名特征集划分 33-35 第五章 利用特征分布的新型k-匿名法 35-43 5.1 本文算法DMPD 35-39 5.1.1 基于遗传算法搜寻法 35-37 5.1.2 适应度评估 37 5.1.3 分类器模型 37-39 5.2 算法阐述 39-41 5.3 DMPD 的多目标最优化问题 41-43 第六章 试验结果及总结 43-49 6.1 实验过程 43 6.2 数据集的选择 43-44 6.3 k-匿名度对分类准确率的影响 44 6.4 可扩展性分析 44-47 6.5 DMPD 中遗传算法参数设置 47-49 6.6 DMPD 多目标最优化测试 49 总结 49-51 参考文献 51-54 硕士期间发表论文目录 54-55 致谢 55-56 大摘要 56-60
|
相似论文
- 天然气脱酸性气体过程中物性研究及数据处理,TE644
- 压气机优化平台建立与跨音速压气机气动优化设计,TH45
- 空间目标ISAR成像仿真及基于ISAR像的目标识别,TN957.52
- 统计与语言学相结合的词对齐及相关融合策略研究,TP391.2
- 基于数据挖掘技术的保健品营销研究,F426.72
- 高忠英学术思想与经验总结及运用补肺汤加减治疗呼吸系统常见病用药规律研究,R249.2
- 张炳厚学术思想与临床经验总结及应用地龟汤类方治疗慢性肾脏病的经验研究,R249.2
- 基于遗传算法的模糊层次综合评判在高职教学评价中的应用,G712
- 部队人员网上训练与考核系统的开发,TP311.52
- 基于并行算法的模糊综合评价模型的设计与应用,TP18
- 基于神经网络的牡蛎呈味肽制备及呈味特性研究,TS254.4
- 基于遗传算法的中短波磁天线的设计及实现,TN820
- 基于遗传算法的柑橘图像分割,TP391.41
- 基于混合自适应遗传算法的动态网格调度问题研究,TP393.09
- Web2.0下的网络隐私权与个人数据保护研究,G350
- 基于遗传—牛顿算法的公交优化调度,TP18
- 基于遗传算法优化的BP网络对生物柴油制备工艺的优化,TE667
- Bicluster数据分析软件设计与实现,TP311.52
- 基于云理论和蜜蜂进化型遗传算法的纹理合成研究,TP391.41
- 基于变异粒子群的聚类算法研究,TP18
- 融合粒子群和蛙跳算法的模糊C-均值聚类算法研究,TP18
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 程序设计 > 数据库理论与系统
© 2012 www.xueweilunwen.com
|