学位论文 > 优秀研究生学位论文题录展示

基于距离的孤立点挖掘在计算机取证中的应用研究

作 者: 谢方方
导 师: 徐连诚
学 校: 山东师范大学
专 业: 计算机应用技术
关键词: 孤立点 计算机取证 取证模型 分布式计算 证据分析 数据挖掘
分类号: TP311.13
类 型: 硕士论文
年 份: 2014年
下 载: 6次
引 用: 0次
阅 读: 论文下载
 

内容摘要


随着信息技术的发展,我们已经进入了大数据时期,每天产生各类形式各异的数据,与之相随的会出现各种网络安全问题,针对这些问题,当前的研究工作主要集中在安全防御方面,但是计算机网络犯罪技术也在不断进步,因此仅靠防御方法是不能很好地打击计算机犯罪的,我们需要发挥社会和法律的力量去打击计算机犯罪,计算机取证技术应运而生。数据挖掘技术可以从海量的数据中挖掘出潜在的、有研究价值的知识,但是从这些海量数据中找到那些极少数的异常行为并发现有意义的知识是一项富有挑战性的工作,然而现实生活中经常包含一些与数据集一般行为或者一般模型不一致的数据对象,即孤立点。虽然正常的行为比数异常行为要多得多,但不正常的行为可能含有非常有趣的知识。所以研究这些孤立点具有一定的理论基础和实践意义。本文对K近邻孤立点检测算法进行了更为细致的研究,进而对其进行了改进,提高了算法的效率及准确性。同时针对网络操作日志数据量大、计算量大的特点,本文采用基于MapReduce架构的分布式算法思想,在Hadoop集群中快速的检测孤立点。对国内和国际的相关异常检测方法的研究和应用进行了详细分析,设计了基于孤立点挖掘的异常检测模型,最后将孤立点检测方法应用于计算机取证技术中。本文主要研究如下:(1)系统探讨了当前国内外孤立点挖掘算法的研究现状,分析了孤立点挖掘算法的应用实例,理论学习了孤立点挖掘算法的概念、流程,并对孤立点挖掘算法的性能和实现机制进行了总结。深入研究计算机取证的相关知识与技能,总结了计算机取证的关键技术,并给出计算机取证的流程。(2)深入研究基于距离的反向K近邻孤立点检测算法,并指出其不足,并对算法进行了改进,通过剪枝操作去除冗余数据后,加入了自适应确定参数的机制,避免了过多人工参与造成的数据偏离,提高了算法的准确性和高效性。在Hadoop集群架构中设计了基于MapReduce的孤立点检测算法,在分布式环境中快速检测孤立点。(3)构造一种基于孤立点挖掘算法的日志分析模型,对日志数据进行预处理后,将改进的孤立点检测算法应用到模型中,经实例证明,该模型可以有效的将算法中挖掘出的孤立点进行分析,能够得到初步证据,使得取证服务更加高效、智能。

全文目录


摘要  6-7
Abstract  7-8
第一章 绪论  8-12
  1.1 研究背景与意义  8-9
    1.1.1 课题研究背景  8
    1.1.2 课题研究意义  8-9
  1.2 研究现状  9-10
    1.2.1 国外研究现状  9-10
    1.2.2 国内研究现状  10
  1.3 论文主要研究工作  10
  1.4 论文组织结构  10-12
第二章 孤立点挖掘及计算机取证的相关知识  12-18
  2.1 孤立点挖掘算法  12-14
    2.1.1 数据挖掘及孤立点的概念  12-13
    2.1.2 孤立点数据挖掘的过程  13
    2.1.3 孤立点挖掘算法的主要类型  13-14
  2.2 计算机取证技术  14-17
    2.2.1 计算机取证基本概念  14-15
    2.2.2 计算机取证的特点及原则  15
    2.2.3 计算机取证的分类  15-16
    2.2.4 计算机取证的步骤  16-17
  2.3 本章小结  17-18
第三章 基于距离的反向 K 近邻孤立点检测算法及其改进  18-26
  3.1 算法基本思想及其存在的问题  18-20
    3.1.1 相关概念  18-19
    3.1.2 基于反向 K 近邻的孤立点检测算法基本思想  19
    3.1.3 基于反向 K 近邻的孤立点检测算法存在的问题  19-20
  3.2 改进的基于反向 K 近邻的孤立点检测算法  20-22
    3.2.1 通过样本计算自适应的选取 k 值  20
    3.2.2 对数据集进行剪枝操作  20-21
    3.2.3 改进算法总体流程  21-22
  3.3 实验结果及分析  22-23
    3.3.1 有效性分析  22-23
    3.3.2 算法的准确率与执行效率分析  23
  3.4 本章小结  23-26
第四章 基于 MapReduce 的孤立点检测  26-34
  4.1 Hadoop 概述  26-27
    4.1.1 HDFS 介绍  26-27
    4.1.2 MapReduce 语言  27
  4.2 Hadoop 平台的搭建  27-29
    4.2.1 平台资源需求及配置流程  27-28
    4.2.2 集群搭建  28-29
  4.3 基于 MapReduce 的孤立点挖掘算法  29-33
    4.3.1 基于 MapReduce 的孤立点挖掘算法思想  29-30
    4.3.2 基于 MapReduce 的孤立点挖掘算法流程  30-32
    4.3.3 算法的准确率及性能分析  32-33
  4.4 本章小结  33-34
第五章 基于孤立点挖掘的计算机取证模型设计与实现  34-42
  5.1 计算机日志的搜集与处理  34
    5.1.1 计算机日志内容  34
    5.1.2 日志数据预处理技术  34
  5.2 取证挖掘模型的构建  34-37
    5.2.1 取证模型的整体结构  35
    5.2.2 取证前端数据采集  35-36
    5.2.3 取证后端数据挖掘与分析平台设计  36-37
  5.3 取证实例分析  37-40
    5.3.1 基于用户登录日志的取证模型分析  37-38
    5.3.2 实验结果分析  38-40
  5.4 本章小结  40-42
第六章 总结和展望  42-43
  6.1 主要研究内容  42
  6.2 下一步工作  42-43
参考文献  43-46
发表的学术论文及参与的科研项目  46-48
致谢  48

相似论文

  1. 基于数据挖掘技术的保健品营销研究,F426.72
  2. 高忠英学术思想与经验总结及运用补肺汤加减治疗呼吸系统常见病用药规律研究,R249.2
  3. 张炳厚学术思想与临床经验总结及应用地龟汤类方治疗慢性肾脏病的经验研究,R249.2
  4. 基于windows日志的计算机取证模型设计,D918.2
  5. Bicluster数据分析软件设计与实现,TP311.52
  6. 基于变异粒子群的聚类算法研究,TP18
  7. 融合粒子群和蛙跳算法的模糊C-均值聚类算法研究,TP18
  8. 基于遗传算法和粗糙集的聚类算法研究,TP18
  9. 基于数据挖掘的税务稽查选案研究,F812.42
  10. 面向社区教育的个性化学习系统的研究与实现,TP391.6
  11. 基于关联规则挖掘的入侵检测系统的研究与实现,TP393.08
  12. 基于行业参数优化模型的投资项目决策支持系统,F283
  13. 自适应学习环境中学习行为与学习水平关联模型的研究,G434
  14. 基于数据挖掘技术的高校毕业生就业管理信息系统的设计与实现,TP311.52
  15. 面向专科院校的图书管理与智能分析系统,TP311.13
  16. 基于最近邻相似度的孤立点检测及半监督聚类算法,TP311.13
  17. 山东圣翰财贸职业学院图书馆WEB系统的设计与实现,TP311.52
  18. 基于支持向量机(SVM)理论的个人信用评估研究,TP18
  19. 隐私保护技术在数据挖掘中的应用研究,TP311.13
  20. 银行个人客户关系管理系统的设计与实现,TP311.52
  21. 基于改进模糊C均值的入侵检测算法及应用研究,TP393.08

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机软件 > 程序设计、软件工程 > 程序设计 > 数据库理论与系统
© 2012 www.xueweilunwen.com