学位论文 > 优秀研究生学位论文题录展示

数据挖掘在反垃圾邮件领域中的应用与研究

作 者: 熊志勇
导 师: 程从从
学 校: 南昌大学
专 业: 计算机应用
关键词: 反垃圾邮件 邮件过滤 复制检测 贝叶斯算法 陪审团机制
分类号: TP393.098
类 型: 硕士论文
年 份: 2006年
下 载: 159次
引 用: 3次
阅 读: 论文下载
 

内容摘要


随着电子邮件的广泛应用,垃圾邮件已经泛滥成灾,越来越对系统的安全和人们的生活造成了严重的威胁,反垃圾邮件问题已经成为全球性的具有重要现实意义的课题。 邮件过滤技术是反垃圾邮件的重要手段,目前对垃圾邮件的过滤主要有基于内容、基于IP地址和基于信头、信封等方法,这些方法对垃圾邮件的过滤起到了一定作用。但不同的邮件过滤系统使用各自不同的邮件过滤技术,很少互相共享邮件过滤成果。并且单种邮件过滤技术只是针对邮件的某种属性进行过滤,因而造成邮件过滤判断的片面性。 本文根据去年我参与了一个反垃圾邮件网格课题小组的工作经历,重点研究了垃圾邮件过滤技术。学习中文分词技术,特征提取等中文文本分类技术。文中提出了将多种过滤技术综合在一起的想法,目的是为了避免单纯基于IP、信头、信封过滤的规则太强的缺点,降低误判风险。根据这种思路,本文设计了基于陪审团机制的邮件过滤系统。在这个系统中,各种现有的邮件过滤器对邮件的过滤结果,并非邮件过滤的最后结果,而是作为该系统的邮件过滤判断的一个输入值,最后根据系统所定的计算规则得出邮件的最终过滤结果。 基于陪审团机制的邮件系统,可以对邮件的各种属性进行判断,从而抛弃仅根据邮件的单一属性进行判断的做法,这样可以使邮件判断更为合理。

全文目录


摘要  3-4
ABSTRACT  4-8
第1章 绪论  8-11
  1.1 研究背景及问题的提出  8-9
    1.1.1 研究背景  8
    1.1.2 问题的提出  8-9
  1.2 论文研究的主要内容  9
  1.3 论文的章节安排  9-11
第2章 反垃圾邮件  11-32
  2.1 电子邮件的工作原理  11-17
    2.1.1 邮件传送过程  11-12
    2.1.2 SMTP协议  12-15
    2.1.3 POP3协议  15-16
    2.1.4 MIME协议  16-17
  2.2 垃圾邮件  17-22
    2.2.1 垃圾邮件定义  17
    2.2.2 垃圾邮件的来源、种类及格式  17-20
    2.2.3 垃圾邮件的危害  20-22
    2.2.4 垃圾邮件制造者的手段  22
  2.3 反垃圾邮件技术的研究状况  22-28
    2.3.1 反垃圾邮件的措施  23-24
    2.3.2 反垃圾邮件技术介绍  24-28
  2.4 垃圾邮件反过滤的新方法  28-30
  2.5 反垃圾邮件新技术  30-31
  2.6 本章小结  31-32
第3章 邮件处理过程  32-46
  3.1 邮件过滤系统流程  32
  3.2 邮件预处理  32-39
    3.2.1 邮件分词  33-36
    3.2.2 文本表示  36-37
    3.2.3 特征提取  37-39
  3.3 邮件过滤  39
  3.4 邮件过滤质量评定  39-40
  3.5 几种过滤器及系统测试  40-45
    3.5.1 评测数据准备  40-41
    3.5.2 Nilsimsa算法评测标准及评测结果  41-43
    3.5.3 Bayes分类器的评测标准及评测结果  43-44
    3.5.4 反垃圾邮件系统测试  44-45
  3.6 本章小结  45-46
第4章 邮件分类技术  46-56
  4.1 数据挖掘中的分类  46-48
    4.1.1 分类的过程  46-47
    4.1.2 分类的基本技术  47-48
  4.2 贝叶斯分类  48-55
    4.2.1 BAYES概率模型  48-51
    4.2.2 对贝叶斯过滤的改进  51-52
    4.2.3 BAYES过滤在反垃圾邮件系统中的应用  52-54
    4.2.4 贝叶斯反垃圾邮件算法  54-55
  4.3 本章小结  55-56
第5章 文本复制检测  56-64
  5.1 文本复制检测  56-63
    5.1.1 文本复制检察的困难  56-57
    5.1.2 文本复制检测简介  57-58
    5.1.3 两种典型文本复制检测算法简介  58-60
    5.1.4 文本复制检测技术在反垃圾邮件系统中的应用  60-63
  5.2 本章小结  63-64
第6章 陪审团机制  64-71
  6.1 单一过滤机制的缺陷  64-65
  6.2 陪审团机制的提出  65
  6.3 陪审团机制的可行性分析  65
  6.4 陪审团机制  65-69
    6.4.1 陪审团机制的工作流程图  65-66
    6.4.2 简单陪审团机制  66-67
    6.4.3 陪审团机制优化  67-69
  6.5 陪审团机制的优点  69-70
  6.6 本章小结  70-71
第7章 全文总结及展望  71-72
  7.1 全文总结  71
  7.2 有待改进的问题  71
  7.3 展望  71-72
参考文献  72-75
致谢  75

相似论文

  1. 重构算法在OFDM信道估计中的应用研究,TN919.3
  2. 基于Exchange的中小企业邮件系统的研究与实现,TP393.098
  3. 基于最小风险的贝叶斯邮件过滤算法研究,TP393.098
  4. “总串分并”四层反垃圾邮件过滤系统研究,TP393.098
  5. 中文文本复制检测技术研究,TP391.1
  6. 基于SVM的中文垃圾邮件过滤,TP393.098
  7. 基于内容的电子邮件过滤系统的研究,TP393.098
  8. 基于嵌入式与神经网络的邮件过滤系统设计,TP393.098
  9. 中小企业web邮件系统的设计与实现,TP393.098
  10. 基于Web的PGP安全电子邮件系统研究与实现,TP393.098
  11. 基于朴素贝叶斯与SVM的垃圾邮件检测系统的设计与实现,TP393.098
  12. 企业内网垃圾邮件监控软件设计,TP393.098
  13. 基于缓存策略的嵌入式浏览器解析器的实现,TP393.092
  14. 贝叶斯人脸识别方法的研究,TP391.41
  15. IB方法在垃圾邮件过滤问题中的应用研究,TP393.098
  16. 数据挖掘技术在入侵检测系统中的应用,TP393.08
  17. 基于马尔可夫逻辑网的垃圾邮件过滤技术研究,TP393.098
  18. 贝叶斯算法在垃圾邮件过滤技术中的研究与应用,TP393.098
  19. 基于行为识别的垃圾邮件过滤方法研究,TP393.098
  20. 数据仓库和数据挖掘在纳税评估中的应用,TP311.13
  21. 垃圾图像过滤系统的实现,TP393.098

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 计算机网络 > 一般性问题 > 计算机网络应用程序 > 电子邮件(E-mail)
© 2012 www.xueweilunwen.com