学位论文 > 优秀研究生学位论文题录展示

基于MNNB方法的邮件分类技术

作 者: 胡文洁
导 师: 秦志光
学 校: 电子科技大学
专 业: 信息安全
关键词: 机器学习 反垃圾邮件 朴素贝叶斯 N-gram 马尔科夫链
分类号: TP393.098
类 型: 硕士论文
年 份: 2010年
下 载: 17次
引 用: 0次
阅 读: 论文下载
 

内容摘要


随着互联网的发展,电子邮件已经成为人们信息获取和信息交流的一个不可或缺的重要渠道,电子邮件已经成为互联网上最重要的应用之一。与此同时,垃圾邮件也成为互联网上的一个日益严重的全球性安全问题,越来越受到社会大众和研究人员的重视和关注。垃圾邮件占用了有限的存储空间、计算和网络资源,耗费了我们大量的处理时间,影响和干扰了我们的正常工作,生活和学习。本文从技术的角度出发,在全面系统学习和总结了国内外反垃圾邮件领域的最新研究成果的基础上,深入细致地研究了反垃圾邮件技术,取得了以下创新和成果。本文的主要创新和贡献包括:1、归纳总结了目前垃圾邮件过滤的方法和手段。发现采用基于内容的分类方法解决垃圾邮件分类问题已经日益成为当今反垃圾邮件的一个主要途径。与采用基于IP的垃圾邮件分类方法相比,具有系统可用性强、灵活度高、更加符合实际需求等优点。因此在业界己经被越来越多的人所关注,逐渐成为垃圾邮件研究的热门方向。2、贝叶斯分类器以自学习性、自适应性和极高的准确率占据了过滤器这个领域的主导地位。基于贝叶斯方法的邮件分类系统具有良好的分类性能。论文针对贝叶斯技术和朴素贝叶斯算法的基本原理以及在邮件过滤中的应用做了探讨和研究。3、在研究基于贝叶斯的垃圾邮件分类方法的基础上,提出了一种基于内容的MNNB垃圾邮件分类方法。MNNB方法应用Markov链改善了朴素贝叶斯垃圾邮件分类方法中的词条之间相互独立的缺陷,并假设断落与断落之间是独立的,来简化算法的计算时间。并且由于该算法不需要分词,对过滤不同语言的垃圾邮件具有更好的适应性。将该方法应用于国家863计划项目的邮件过滤技术平台,测试表明,该方法从准确率、错误率、召回率、精度和F值五个评价指标上优于基于朴素贝叶斯方法的邮件分类技术。

全文目录


摘要  4-5
ABSTRACT  5-9
第一章 绪论  9-26
  1.1 论文研究背景及意义  9-15
    1.1.1 垃圾邮件的定义、特性及类型  11-14
    1.1.2 垃圾邮件泛滥的原因  14-15
  1.2 反垃圾邮件技术  15-24
    1.2.1 反垃圾邮件技术的发展历程  15-16
    1.2.2 国内外研究现状及发展态势  16-24
  1.3 论文的主要内容  24-25
  1.4 论文的章节安排  25-26
第二章 基于贝叶斯方法的邮件分类技术  26-37
  2.1 贝叶斯技术简单介绍  26
  2.2 贝叶斯技术原理  26-31
    2.2.1 贝叶斯相关概率公式  26-28
    2.2.2 贝叶斯学习理论  28-31
  2.3 朴素贝叶斯学习器  31-33
  2.4 基于朴素贝叶斯方法的邮件分类技术  33-36
  2.5 本章小结  36-37
第三章 基于MNNB 方法的邮件分类技术  37-49
  3.1 马尔科夫链(MARKOV CHAIN)  37-38
  3.2 N-GRAM 语言模型  38-39
  3.3 MNNB 分类器  39-41
  3.4 基于MNNB 分类器的邮件分类技术  41-48
    3.4.1 邮件预处理过程  41-42
    3.4.2 邮件分词过程  42-47
    3.4.3 MNNB 邮件分类器  47-48
  3.5 本章小结  48-49
第四章 基于MNNB 方法的垃圾邮件分类原型系统设计  49-67
  4.1 基于MNNB 的垃圾邮件分类系统  49-57
    4.1.1 背景介绍  49-53
    4.1.2 MNNB 方法原型的设计与实现  53-57
  4.2 实验与分析  57-66
    4.2.1 测试数据集  57-59
    4.2.2 评价指标  59-62
    4.2.3 实验结果分析  62-66
  4.3 本章小结  66-67
第五章 总结与展望  67-69
  5.1 结论  67-68
  5.2 进一步研究工作  68-69
致谢  69-70
参考文献  70-72
攻硕期间取得的研究成果  72-73

相似论文

  1. 基于条件随机场的中文分词技术的研究与实现,TP391.1
  2. 基于学习的逆向运动学人体运动合成,TP391.41
  3. 基于内容的网页恶意代码检测的研究与实现,TP393.092
  4. 学术主页信息抽取系统的研究,TP393.092
  5. 数据挖掘在邮件反垃圾系统中的应用,TP393.098
  6. P2P流量识别方法研究,TP393.06
  7. 基于SIFT特征和SVM的场景分类,TP391.41
  8. 随机森林特征选择,TP311.13
  9. 基于Exchange的中小企业邮件系统的研究与实现,TP393.098
  10. 模板独立的网页信息抽取研究,TP393.092
  11. “总串分并”四层反垃圾邮件过滤系统研究,TP393.098
  12. 粗集理论在机器学习中的应用与研究,TP181
  13. 基于全局孤立性和局部紧凑性的显著目标检测算法研究,TP391.41
  14. 具有破产价值的保险公司的最优控制策略,F840.6
  15. 关于若干回归模型的研究,O212.1
  16. 马尔科夫链—蒙特卡罗算法及其在MIMO检测中的应用研究,TN919.3
  17. 状态维修在高速压着设备上的应用研究,TG305
  18. 遥感图像地物纹理特征的识别研究,TP751
  19. 机器学习理论研究及其在车载导航系统中的应用,TN966
  20. 生物医学命名实体识别研究,TP391.41
  21. 基于机器学习的图像边缘检测方法的研究与应用,TP391.41

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 计算机网络 > 一般性问题 > 计算机网络应用程序 > 电子邮件(E-mail)
© 2012 www.xueweilunwen.com