学位论文 > 优秀研究生学位论文题录展示

垃圾邮件过滤技术的研究

作 者: 孙艳华
导 师: 陈玉华
学 校: 大连海事大学
专 业: 计算机应用技术
关键词: 垃圾邮件过滤 文本分类 Na(?)ve Bayes 特征
分类号: TP393.098
类 型: 硕士论文
年 份: 2007年
下 载: 218次
引 用: 6次
阅 读: 论文下载
 

内容摘要


电子邮件已经成为人们日常生活中通信、交流的重要手段之一,但垃圾邮件的泛滥已带来严重后果,有效地区分合法邮件和垃圾邮件成为一项紧迫的任务。 近年来,有关垃圾邮件过滤技术的研究逐渐兴起,常见的过滤方法有黑/白名单技术、规则过滤等,但这些方法都具有一定的局限性。目前,把垃圾邮件过滤与机器学习、文本分类和信息过滤技术结合起来,对邮件正文内容进行分析,成为研究的热点。 本文深入研究了大量近期垃圾邮件样本,归纳总结了当前垃圾邮件发送者经常采用的欺骗手段和方法,并参阅国内外大量反垃圾邮件文献和数据,对已有的反垃圾邮件技术作出分析和总结,尤其是对基于内容的垃圾邮件过滤方法进行了研究。文章重点分析了当前使用最广泛的Na(?)ve Bayes算法,指出其在实际应用中的不足,并采用N-gram理论对该算法进行了改进。同时,针对Na(?)ve Bayes算法性能受邮件特征影响这一特点,本文提出了一个基于结构特征的双层过滤模型。实验证明,改进后的Na(?)ve Bayes算法应用于双层过滤模型之后,邮件分类效果明显改善,垃圾邮件误判率、合法邮件误判率和平均误判率都有大幅度下降。文章最后综合各种过滤技术,设计并描述了一个客户端垃圾邮件过滤系统的完整框架。

全文目录


摘要  5-6
Abstract  6-9
第1章 绪论  9-18
  1.1 研究背景  9-12
  1.2 垃圾邮件的起源与历史  12-13
  1.3 垃圾邮件的定义与泛滥原因  13-14
  1.4 垃圾邮件的组成  14-15
  1.5 反垃圾邮件法律和政策  15-17
  1.6 本文内容安排  17-18
第2章 电子邮件的基础知识与工作原理  18-23
  2.1 电子邮件的格式  18
  2.2 电子邮件的传送过程  18-20
    2.2.1 电子邮件代理  18-19
    2.2.2 电子邮件的传送过程  19-20
  2.3 电子邮件的相关协议  20-22
    2.3.1 SMTP协议  20-21
    2.3.2 MIME协议  21
    2.3.3 POP3协议  21
    2.3.4 IMAP协议  21-22
  2.4 本章小结  22-23
第3章 垃圾邮件过滤技术研究现状  23-39
  3.1 垃圾邮件过滤的位置  23-24
  3.2 基于 IP地址的垃圾邮件过滤  24-25
  3.3 基于邮件头的垃圾邮件过滤  25-26
  3.4 基于内容的垃圾邮件过滤  26-37
    3.4.1 文本分类与垃圾邮件过滤  26-27
    3.4.2 信息过滤与垃圾邮件过滤  27-28
    3.4.3 基于规则的过滤方法  28-29
    3.4.4 基于统计的过滤方法  29-32
    3.4.5 性能评价体系  32-34
    3.4.6 垃圾邮件内容过滤中的常用语料库  34-36
    3.4.7 常用算法的对比实验  36-37
  3.5 其它过滤方法  37-38
  3.6 本章小结  38-39
第4章 邮件预处理与特征选取算法  39-48
  4.1 邮件预处理  39-43
    4.1.1 邮件正文提取  39
    4.1.2 邮件分词  39-40
    4.1.3 邮件表示  40-43
  4.2 各种特征选取算法  43-47
    4.2.1 特征选取算法  44-47
    4.2.2 各种特征选取算法的比较  47
  4.3 本章小结  47-48
第5章 垃圾邮件过滤模型  48-68
  5.1 基于贝叶斯的垃圾邮件过滤  48-60
    5.1.1 Na(?)ve Bayes分类算法  48-51
    5.1.2 用N-gram改进的Na(?)ve Bayes算法  51-54
    5.1.3 测试结果  54-60
  5.2 基于结构特征双层过滤模型  60-65
    5.2.1 邮件结构特性的分析  61-62
    5.2.2 基于结构的双层分类模型  62-63
    5.2.3 测试结果  63-65
  5.3 一个垃圾邮件过滤系统模型的设计  65-67
  5.4 本章小结  67-68
结论  68-70
参考文献  70-74
攻读学位期间公开发表论文  74-75
致谢  75-76
研究生履历  76

相似论文

  1. 基于SVM的高速公路路面浅层病害的自动检测算法研究,U418.6
  2. 东北满族民居的文化涵化研究,TU241.5
  3. 多厅影院空间架构研究,TU242.2
  4. 钢在建筑中的技术表现力研究,TU-0
  5. 长春市历史保护区的形态特征与保护对策研究,TU984.114
  6. 电网电压不平衡时复合型PWM整流器控制策略的研究,TM461
  7. 民国时期北平城市粮食市场区位分布及其等级研究,K291
  8. 昆明流动人口聚居区的现状、问题及其对策初步研究,C924.25
  9. 高频雷达信号电离层污染及时频分析方法研究,TN958.93
  10. 多重ANN/HMM混合模型在语音识别中的应用,TN912.34
  11. 空间目标ISAR成像仿真及基于ISAR像的目标识别,TN957.52
  12. 用于检索的人脸特征提取与匹配算法研究,TP391.41
  13. 基于用户兴趣特征的图像检索研究与实现,TP391.41
  14. 基于三维重建的焊点质量分类方法研究,TP391.41
  15. 基于句法特征的代词消解方法研究,TP391.1
  16. 基于特征的软构件建模方法及其在VMI管理系统中的应用,TP311.52
  17. 胆囊炎和肾病综合症脉象信号的特征提取与分类研究,TP391.41
  18. Q学习在基于内容图像检索技术中的应用,TP391.41
  19. 森林防火系统中图像识别算法的研究,TP391.41
  20. 统计与语言学相结合的词对齐及相关融合策略研究,TP391.2
  21. 直推式支持向量机研究及其在图像检索中的应用,TP391.41

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 计算机网络 > 一般性问题 > 计算机网络应用程序 > 电子邮件(E-mail)
© 2012 www.xueweilunwen.com