学位论文 > 优秀研究生学位论文题录展示
保护隐私的决策树算法的研究
作 者: 曹华
导 师: 余冬梅;张秋余
学 校: 兰州理工大学
专 业: 通信与信息系统
关键词: 数据挖掘 隐私保护 决策树 单步转移概率矩阵 属性间联合概率
分类号: TP311.13
类 型: 硕士论文
年 份: 2008年
下 载: 204次
引 用: 0次
阅 读: 论文下载
内容摘要
近些年,数据挖掘技术已经被广泛使用到包括金融、医学等的各个领域。虽然利用数据挖掘技术得到的规律和模式对我们后来的工作起到了有效的指导作用,但是,也给我们的生活带来了其他的问题,这当中被人们广泛关注的就是隐私的泄露。就数据挖掘技术而言,隐私包括两个方面的内容,一个是挖掘技术作用的原始数据;另一个则是从原始数据中挖掘出来的有价值的规律。目前,保护隐私的数据挖掘主要从两个方向进行研究,数据变换和密码学方法。第一种是改变原始数据,通过添加噪音或者随机改变数据来隐藏原始数据,该方法主要用于集中分布的数据;第二种是对原始数据及中间计算结果进行加密,主要用于分布式数据挖掘。本文提出了一种决策树改进算法,该算法利用原始数据构造属性间单步转移概率矩阵,并且在单步转移概率矩阵的基础上,根据构造决策树过程中需要的属性自行计算属性间联合概率,使得决策树构造算法在计算信息熵的时候不用从原始数据中统计获得概率。并且该算法改进了决策树创建叶节点的条件,从而决策树不会用尽所有的候选属性才停止构造,这就消除了没有原始数据造成的影响。由于属性问联合概率矩阵是通过单步转移概率矩阵计算得到的,因此其结果会与从原始数据中得到的结果有差异,而且终止条件的改进也会影响决策树的准确性,但是实验证明,由此差异造成的最终决策树同样会有较高的分类精度,能够达到应用的要求。这样既可以有效的保护原始数据,又没有降低决策树的分类精度。
|
全文目录
摘要 7-8 Abstract 8-9 插图索引 9-10 附表索引 10-11 第1章 绪论 11-16 1.1 研究背景 11-12 1.2 国内外研究现状 12-15 1.3 论文的主要研究内容与组织 15-16 第2章 隐私保护数据挖掘综述 16-25 2.1 数据挖掘概述 16-19 2.1.1 数据挖掘的基本概念 16 2.1.2 数据挖掘系统的主要组成部分 16-17 2.1.3 数据挖掘的步骤 17-18 2.1.4 数据挖掘的主要方法 18-19 2.2 数据分布 19 2.3 目前常用的保护隐私数据挖掘技术 19-24 2.3.1 随机响应技术 19-21 2.3.2 随机干扰技术 21-22 2.3.3 安全多方计算 22-23 2.3.4 其他一些隐私保护数据挖掘算法 23-24 2.4 小结 24-25 第3章 传统决策树的构造 25-29 3.1 决策树算法的基本步骤 26-27 3.2 属性度量选择 27 3.3 决策树的剪枝 27-28 3.4 由决策树提取分类规则 28 3.5 小结 28-29 第4章 隐私保护决策树的构造 29-40 4.1 基于集中分布的决策树的构造 29-36 4.1.1 基本思想 29-31 4.1.2 马尔可夫链的概念及转移概率 31 4.1.3 属性初始分布和转移概率矩阵的定义 31-34 4.1.4 叶节点的标记 34-35 4.1.5 算法描述 35-36 4.1.6 算法分析 36 4.2 试验与结论 36-40 总结 40-42 参考文献 42-46 致谢 46-47 附录A 攻读硕士学位期间所发表的学术论文 47
|
相似论文
- 基于支持向量机的故障诊断方法研究,TP18
- 基于数据挖掘技术的保健品营销研究,F426.72
- 高忠英学术思想与经验总结及运用补肺汤加减治疗呼吸系统常见病用药规律研究,R249.2
- 张炳厚学术思想与临床经验总结及应用地龟汤类方治疗慢性肾脏病的经验研究,R249.2
- Bicluster数据分析软件设计与实现,TP311.52
- 基于变异粒子群的聚类算法研究,TP18
- 融合粒子群和蛙跳算法的模糊C-均值聚类算法研究,TP18
- 基于遗传算法和粗糙集的聚类算法研究,TP18
- 基于数据挖掘的税务稽查选案研究,F812.42
- 面向社区教育的个性化学习系统的研究与实现,TP391.6
- 基于关联规则挖掘的入侵检测系统的研究与实现,TP393.08
- 基于Moodle的高职网络教学系统设计与实现,TP311.52
- 关联规则算法在高职院校贫困生认定工作中的应用,G717
- 基于数据挖掘技术在城市供水的分析与决策,F299.24;F224
- Web使用挖掘与网页个性化服务推荐研究,TP311.13
- 数据挖掘在学校管理和学生培养中的应用,TP311.13
- 基于WEB平台的家电类产品智能导购系统的研究,TP311.52
- 基于数据挖掘聚类技术的我国高校分类研究,TP311.13
- 纺织品服装出口的TBT风险监测与预警机理研究,TP311.13
- 校园收费系统的设计与实现,TP311.52
- 云计算数据隐私保护方法的研究,TP393.08
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 程序设计 > 数据库理论与系统
© 2012 www.xueweilunwen.com
|