学位论文 > 优秀研究生学位论文题录展示
数据挖掘在反垃圾邮件领域中的应用与研究
作 者: 熊志勇
导 师: 程从从
学 校: 南昌大学
专 业: 计算机应用
关键词: 反垃圾邮件 邮件过滤 复制检测 贝叶斯算法 陪审团机制
分类号: TP393.098
类 型: 硕士论文
年 份: 2006年
下 载: 159次
引 用: 3次
阅 读: 论文下载
内容摘要
随着电子邮件的广泛应用,垃圾邮件已经泛滥成灾,越来越对系统的安全和人们的生活造成了严重的威胁,反垃圾邮件问题已经成为全球性的具有重要现实意义的课题。 邮件过滤技术是反垃圾邮件的重要手段,目前对垃圾邮件的过滤主要有基于内容、基于IP地址和基于信头、信封等方法,这些方法对垃圾邮件的过滤起到了一定作用。但不同的邮件过滤系统使用各自不同的邮件过滤技术,很少互相共享邮件过滤成果。并且单种邮件过滤技术只是针对邮件的某种属性进行过滤,因而造成邮件过滤判断的片面性。 本文根据去年我参与了一个反垃圾邮件网格课题小组的工作经历,重点研究了垃圾邮件过滤技术。学习中文分词技术,特征提取等中文文本分类技术。文中提出了将多种过滤技术综合在一起的想法,目的是为了避免单纯基于IP、信头、信封过滤的规则太强的缺点,降低误判风险。根据这种思路,本文设计了基于陪审团机制的邮件过滤系统。在这个系统中,各种现有的邮件过滤器对邮件的过滤结果,并非邮件过滤的最后结果,而是作为该系统的邮件过滤判断的一个输入值,最后根据系统所定的计算规则得出邮件的最终过滤结果。 基于陪审团机制的邮件系统,可以对邮件的各种属性进行判断,从而抛弃仅根据邮件的单一属性进行判断的做法,这样可以使邮件判断更为合理。
|
全文目录
摘要 3-4 ABSTRACT 4-8 第1章 绪论 8-11 1.1 研究背景及问题的提出 8-9 1.1.1 研究背景 8 1.1.2 问题的提出 8-9 1.2 论文研究的主要内容 9 1.3 论文的章节安排 9-11 第2章 反垃圾邮件 11-32 2.1 电子邮件的工作原理 11-17 2.1.1 邮件传送过程 11-12 2.1.2 SMTP协议 12-15 2.1.3 POP3协议 15-16 2.1.4 MIME协议 16-17 2.2 垃圾邮件 17-22 2.2.1 垃圾邮件定义 17 2.2.2 垃圾邮件的来源、种类及格式 17-20 2.2.3 垃圾邮件的危害 20-22 2.2.4 垃圾邮件制造者的手段 22 2.3 反垃圾邮件技术的研究状况 22-28 2.3.1 反垃圾邮件的措施 23-24 2.3.2 反垃圾邮件技术介绍 24-28 2.4 垃圾邮件反过滤的新方法 28-30 2.5 反垃圾邮件新技术 30-31 2.6 本章小结 31-32 第3章 邮件处理过程 32-46 3.1 邮件过滤系统流程 32 3.2 邮件预处理 32-39 3.2.1 邮件分词 33-36 3.2.2 文本表示 36-37 3.2.3 特征提取 37-39 3.3 邮件过滤 39 3.4 邮件过滤质量评定 39-40 3.5 几种过滤器及系统测试 40-45 3.5.1 评测数据准备 40-41 3.5.2 Nilsimsa算法评测标准及评测结果 41-43 3.5.3 Bayes分类器的评测标准及评测结果 43-44 3.5.4 反垃圾邮件系统测试 44-45 3.6 本章小结 45-46 第4章 邮件分类技术 46-56 4.1 数据挖掘中的分类 46-48 4.1.1 分类的过程 46-47 4.1.2 分类的基本技术 47-48 4.2 贝叶斯分类 48-55 4.2.1 BAYES概率模型 48-51 4.2.2 对贝叶斯过滤的改进 51-52 4.2.3 BAYES过滤在反垃圾邮件系统中的应用 52-54 4.2.4 贝叶斯反垃圾邮件算法 54-55 4.3 本章小结 55-56 第5章 文本复制检测 56-64 5.1 文本复制检测 56-63 5.1.1 文本复制检察的困难 56-57 5.1.2 文本复制检测简介 57-58 5.1.3 两种典型文本复制检测算法简介 58-60 5.1.4 文本复制检测技术在反垃圾邮件系统中的应用 60-63 5.2 本章小结 63-64 第6章 陪审团机制 64-71 6.1 单一过滤机制的缺陷 64-65 6.2 陪审团机制的提出 65 6.3 陪审团机制的可行性分析 65 6.4 陪审团机制 65-69 6.4.1 陪审团机制的工作流程图 65-66 6.4.2 简单陪审团机制 66-67 6.4.3 陪审团机制优化 67-69 6.5 陪审团机制的优点 69-70 6.6 本章小结 70-71 第7章 全文总结及展望 71-72 7.1 全文总结 71 7.2 有待改进的问题 71 7.3 展望 71-72 参考文献 72-75 致谢 75
|
相似论文
- 重构算法在OFDM信道估计中的应用研究,TN919.3
- 基于Exchange的中小企业邮件系统的研究与实现,TP393.098
- 基于最小风险的贝叶斯邮件过滤算法研究,TP393.098
- “总串分并”四层反垃圾邮件过滤系统研究,TP393.098
- 中文文本复制检测技术研究,TP391.1
- 基于SVM的中文垃圾邮件过滤,TP393.098
- 基于内容的电子邮件过滤系统的研究,TP393.098
- 基于嵌入式与神经网络的邮件过滤系统设计,TP393.098
- 中小企业web邮件系统的设计与实现,TP393.098
- 基于Web的PGP安全电子邮件系统研究与实现,TP393.098
- 基于朴素贝叶斯与SVM的垃圾邮件检测系统的设计与实现,TP393.098
- 企业内网垃圾邮件监控软件设计,TP393.098
- 基于缓存策略的嵌入式浏览器解析器的实现,TP393.092
- 贝叶斯人脸识别方法的研究,TP391.41
- IB方法在垃圾邮件过滤问题中的应用研究,TP393.098
- 数据挖掘技术在入侵检测系统中的应用,TP393.08
- 基于马尔可夫逻辑网的垃圾邮件过滤技术研究,TP393.098
- 贝叶斯算法在垃圾邮件过滤技术中的研究与应用,TP393.098
- 基于行为识别的垃圾邮件过滤方法研究,TP393.098
- 数据仓库和数据挖掘在纳税评估中的应用,TP311.13
- 垃圾图像过滤系统的实现,TP393.098
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 计算机网络 > 一般性问题 > 计算机网络应用程序 > 电子邮件(E-mail)
© 2012 www.xueweilunwen.com
|