学位论文 > 优秀研究生学位论文题录展示

基于最小风险的贝叶斯邮件过滤算法研究

作 者: 伍红亮
导 师: 董守斌;林东生
学 校: 华南理工大学
专 业: 软件工程
关键词: 垃圾邮件 贝叶斯算法 最小风险贝叶斯 特征选择 指纹特征
分类号: TP393.098
类 型: 硕士论文
年 份: 2010年
下 载: 43次
引 用: 0次
阅 读: 论文下载
 

内容摘要


随着计算机网络与通讯技术的发展与广泛应用,电子邮件已经成为必不可少的通讯方式。但是,电子邮件带来的垃圾邮件问题日益严重,给人们的生活带来了诸多不便,同时也给网络安全带来了极坏的影响。因此,解决好此类问题具有十分重要的现实意义。利用技术方法来阻挡垃圾邮件,是目前为止对付垃圾邮件问题最有效的手段。各种过滤技术中,贝叶斯过滤技术,借鉴了在文本挖掘问题中获得成功的机器学习算法,是目前研究较多的一种过滤技术。贝叶斯过滤方法在分类的效果上以及在不需要太多人工干预上都有很大优势,因此逐渐被广泛接受。本文总结和分析了目前基于贝叶斯垃圾邮件过滤技术的现状,在朴素贝叶斯模型的基础上,引入风险因子,利用基于最小风险的贝叶斯算法来分类与过滤垃圾邮件。本文首先深入研究了国内外大量反垃圾邮件文献和数据,对已有的垃圾邮件过滤技术做出分析和总结。垃圾邮件过滤技术是反垃圾邮件的重要手段,目前主要有基于安全认证的垃圾邮件过滤技术、基于规则的垃圾邮件过滤技术和基于统计学习的垃圾邮件过滤技术。其次,考虑到正常邮件判为垃圾邮件的风险要高于垃圾邮件判断为正常邮件的风险,在朴素贝叶斯模型的基础上,引入风险因子,利用基于最小风险的贝叶斯算法来分类与过滤邮件。并且在文本表示方面利用了指纹散列特征项,指纹散列特征相对于词语特征来说,能提取更多的文本信息;在特征选择方面使用基于类条件分布的特征选择方法;并且从邮件消息格式出发,利用邮件头和邮件正文一起形成集成加权模型。最后,论文设计构建了一个基于最小风险的贝叶斯算法的垃圾邮件过滤器,在最新的标准数据集上的测试结果表明,与经典的贝叶斯过滤器Bogofilter相比,过滤效果有较大的提高。

全文目录


摘要  5-6
ABSTRACT  6-10
第一章 绪论  10-20
  1.1 研究背景及意义  10-15
    1.1.1 垃圾邮件的历史  10-11
    1.1.2 垃圾邮件的定义  11
    1.1.3 垃圾邮件泛滥的原因  11-12
    1.1.4 垃圾邮件的危害  12-13
    1.1.5 垃圾邮件的现状  13-15
  1.2 反垃圾邮件技术的发展历程  15-16
  1.3 国内外贝叶斯垃圾邮件过滤发展现状  16-18
  1.4 本文的主要工作  18
  1.5 本文的组织结构  18-20
第二章 反垃圾邮件相关技术研究  20-30
  2.1 电子邮件系统的相关协议及基本原理  20-23
    2.1.1 电子邮件的相关协议  20-22
    2.1.2 电子邮件系统的基本原理  22-23
  2.2 当前垃圾邮件过滤的主要技术方法  23-28
    2.2.1 基于安全认证方法  23-24
    2.2.2 基于规则的方法  24-26
    2.2.3 基于统计的方法  26-28
  2.3 基准过滤系统  28-29
  2.4 本章小结  29-30
第三章 基于最小风险的贝叶斯的邮件过滤模型  30-40
  3.1 一般贝叶斯过滤模型  30-32
    3.1.1 贝叶斯定理  30
    3.1.2 一般贝叶斯过滤的基本原理  30-32
  3.2 朴素贝叶斯过滤模型  32-36
    3.2.1 朴素贝叶斯过滤的基本原理  32-35
    3.2.2 朴素贝叶斯算法的优点和局限性  35-36
  3.3 基于最小风险的贝叶斯过滤模型  36-39
    3.3.1 过滤规则  36-38
    3.3.2 邮件过滤算法  38-39
  3.4 本章小结  39-40
第四章 基于最小风险的贝叶斯过滤算法的实现  40-53
  4.1 垃圾邮件的特征提取  41-49
    4.1.1 指纹散列特征项  41-44
    4.1.2 特征选择  44-47
    4.1.3 邮件头特征和邮件体特征的加权集成  47-49
  4.2 基于最小风险的贝叶斯过滤算法模型  49-51
  4.3 阈值动态调整  51
  4.4 本章小结  51-53
第五章 实验测试及结果分析  53-63
  5.1 实验环境  53
  5.2 垃圾邮件语料库及实验评价方式  53-57
    5.2.1 垃圾邮件语料库  53-54
    5.2.2 实验评价方式  54-57
  5.3 实验结果和性能分析  57-62
  5.4 本章小结  62-63
第六章 总结与展望  63-64
参考文献  64-67
致谢  67

相似论文

  1. 基于仿生模式识别的文本分类技术研究,TP391.1
  2. 唇读中的特征提取、选择与融合,TP391.41
  3. 语音情感识别的特征选择与特征产生,TP18
  4. 一种FFTT非对称加解密算法的研究与实现,TP309.7
  5. 基于数据分布特征的文本分类研究,TP391.1
  6. 网络隐私权的民法保护,D913
  7. 车辆识别系统动态特征选择算法的研究与实现,TP391.41
  8. 基于AdaBoost算法的人脸识别研究,TP391.41
  9. 面向肺部CAD的特征提取、选择及分类方法研究,TP391.41
  10. 基于组合及统计的图像型垃圾邮件检测研究,TP391.41
  11. 重构算法在OFDM信道估计中的应用研究,TN919.3
  12. 基于相似性测量检测图像型垃圾邮件技术的研究,TP393.098
  13. 数据挖掘在邮件反垃圾系统中的应用,TP393.098
  14. 基于群体智能的医学图像特征优化算法研究,TP391.41
  15. 基于FSVM的数据挖掘方法及其在入侵检测中的应用研究,TP393.08
  16. 流形学习的方差最小化准则,TP181
  17. 掌纹主线特征选择方法及成像系统研究,TP391.41
  18. 中国民族音乐特征提取与分类技术的研究,J607
  19. 随机森林特征选择,TP311.13
  20. 基于Exchange的中小企业邮件系统的研究与实现,TP393.098
  21. 基于信息增益的贝叶斯数据挖掘算法在垃圾邮件过滤中的应用,TP393.098

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 计算机网络 > 一般性问题 > 计算机网络应用程序 > 电子邮件(E-mail)
© 2012 www.xueweilunwen.com