学位论文 > 优秀研究生学位论文题录展示
垃圾邮件过滤理论和关键技术研究
作 者: 刘震
导 师: 周明天
学 校: 电子科技大学
专 业: 计算机应用技术
关键词: 垃圾邮件 误报率 漏报率 Bayesian网络 证据理论 核密度估计 支持向量机 Logistic回归
分类号: TP393.098
类 型: 博士论文
年 份: 2008年
下 载: 635次
引 用: 3次
阅 读: 论文下载
内容摘要
作为Internet的重大“灾难”之一,日益泛滥的垃圾邮件问题引起了人们的普遍关注。自上世纪80年代中期出现首封垃圾邮件以来,各种反垃圾邮件策略与技术也应运而生并得到了迅速发展,至今方兴未艾。然而,研究反垃圾邮件问题已经逐渐把研究者引入到了一个“不确定性花园”。由于对垃圾邮件的判别存在着主观和客观上的不确定性,造成了目前针对垃圾邮件的机器自动分类和过滤技术存在较大的性能瓶颈。经过多年的研究,有很多学者已经注意到利用不确定智能计算技术可以在一定程度上较好地处理实际工程应用中的某些不确定性推理问题,虽然相关研究尚不成熟,但正如很多研究者相信上帝并不是简单地通过掷骰子来创造人类一样,不确定性背后的某些奇妙的确定性规律正吸引着人们不懈地深入探索,并取得了阶段性的研究成果。本文认为不确定智能计算技术在某些层面上,同样可以有效处理垃圾邮件识别过程中存在的诸多主观和客观不确定性问题,因此研究不确定计算理论并应用相关理论改进现有邮件过滤算法和设计新的邮件过滤算法成为了本文的工作重点。不确定智能计算技术的引入,使研究反垃圾邮件问题成为了一件充满乐趣又富有挑战的工作。本文在全面吸取和借鉴目前在不确定智能计算领域和反垃圾邮件领域取得的最新技术成果的基础上,从理论和应用两个层面,深入细致地研究了不确定智能计算理论和反垃圾邮件技术。取得了如下的主要研究成果,包括:1、系统地分析了垃圾邮件问题的背景,指出研究反垃圾邮件技术的理论价值和现实意义。通过跟踪国内外反垃圾邮件技术的最新进展,较全面地归纳概括了现有反垃圾分类技术的发展状况,比较分析了各种方法的优点和不足。指出基于统计理论的不确定智能学习和分类方法是值得深入研究,并能够提高反垃圾邮件技术水平的重要理论手段。2、深入地研究了Bayesian网络理论,提出了一些改进和创新的方法。(1)对于一般复杂网络,提出了一种基于全局消息传播的PPJT算法。新算法可以将推理计算的时间复杂度有效降低,同时能够在较小规模观察样本条件下,保证一般复杂贝叶斯网络推理的精度需求。(2)对于Polytree条件下的复杂Bayesian网络,考虑将推理算法扩展到多机模式,通过分析Polytree条件下的中大型贝叶斯网络的结构,定义新的适用于多处理机环境下的并行证据处理格式,并提出基于多处理机的并行推理算法,为提高Polytree条件下中大型贝叶斯网络的全局证据传播效率提供了一种并行解决方案。(3)研究了不完备证据条件下的参数学习问题,基于标准似然函数构建证据丢失的计算模型,利用χ2距离近似估计证据丢失导致的误差距离,推导出了包含学习率的EM算法。实验结果表明,新算法与传统处理算法相比,在不降低估计精度的前提下具有更快的收敛速度,能够较好地保证不完备证据条件下可信高效的Bayesian网络参数估计。3、提出了一种包含核函数的Bayesian参数估计方法,提高了Bayesian参数估计的实用性。结合邮件内容和报文格式两个方面分析和提取邮件的重要特征,建立了对应的Bayesian邮件分类网络。将包含核函数的Bayesian参数估计方法应用到邮件分类网络,在对不同邮件测试集的在线学习试验结果证明,这种新的分类模型能够比较有效地实现垃圾邮件的分类过滤。4、尝试采用拟合Logistic Regression模型对邮件分类问题建模,并在建模的过程中通过引入偏依赖系数函数模拟了邮件过滤中的偏依赖特性。在不同邮件样本集中的实验结果显示,新的邮件分类模型对垃圾邮件的误报误差和漏报误差具有良好的不对称区分性,因而从算法的层次上实现了具有偏依赖特征的邮件分类器。5、为了规避目前反垃圾邮件技术在文本关联和内容理解方面所存在的诸多困难,提出从另一个角度研究垃圾邮件分类过滤问题,即从垃圾邮件发送者的行为模式角度出发研究邮件类别。通过从邮件发送者的行为紧密相关的邮件特征提取对应特征向量,并应用支持向量机的方法构建分类函数,提出一种基于行为特征的垃圾邮件模式分类模型。经过仿真实验我们发现采用这种全新的行为特征分类模型判定邮件的类别具有较精确的判定效果和较强的鲁棒性。6、构建了一个位于邮件服务器前端的、多层次的垃圾邮件过滤系统—SpamWeeder。SpamWeeder系统集成了本文提出的基于多级属性集的Naive Bayes邮件分类,基于Bayesian网络的邮件分类,基于Logistic回归模型的邮件分类和基于行为特征的邮件分类等多种方法,各种方法之间相互协作、互相补充,形成一个比较准确、快速、高效、易管理和满足不同个性化要求的反垃圾邮件过滤系统。
|
全文目录
中文摘要 5-7 Abstract 7-16 第一章 绪论 16-30 1.1 垃圾邮件问题的背景 16-18 1.1.1 垃圾邮件的起源与历史 16-17 1.1.2 垃圾邮件的分类 17-18 1.2 垃圾邮件问题的现状 18-23 1.2.1 垃圾邮件的特点 19-21 1.2.2 垃圾邮件问题产生和存在的原因 21-23 1.2.3 目前反垃圾邮件存在的主要问题 23 1.3 主要应对策略 23-26 1.4 将不确定智能计算引入到垃圾邮件过滤领域的原因 26-27 1.5 本文的主要研究工作 27-28 1.6 本文的内容安排 28-30 第二章 垃圾邮件过滤技术的研究基础 30-47 2.1 电子邮件工作原理 30-31 2.2 电子邮件协议 31-34 2.2.1 RFC 822 邮件格式 31 2.2.2 SMTP 协议 31-32 2.2.3 POP3 协议 32 2.2.4 IMAP4 协议 32-33 2.2.5 MIME 协议 33-34 2.3 邮件预处理 34-38 2.3.1 邮件分词 34-35 2.3.2 邮件表示 35-37 2.3.3 特征选择 37-38 2.4 常见邮件过滤策略和方法 38-43 2.4.1 基于规则的方法 38-40 2.4.2 基于统计的方法 40-43 2.5 基于多级属性集的 Naive Bayes 邮件分类器 43-46 2.5.1 改进算法 44-45 2.5.2 改进算法的性能分析与结论 45-46 2.6 本章小结 46-47 第三章 Bayesian 网络理论研究 47-79 3.1 Bayesian 网络概述 47-48 3.2 基于全局消息传播的 Bayesian 网络推理 48-55 3.2.1 势(potentials)的基本运算 49 3.2.2 生成连接树 49-51 3.2.3 推理原则 51-52 3.2.4 全局传播算法 52-53 3.2.5 计算实验与结论 53-55 3.3 Polytree 条件下的复杂Bayesian 网络推理 55-65 3.3.1 Polytree 条件下的证据 56-58 3.3.2 消息传递 58-60 3.3.3 并行处理算法 60-62 3.3.4 算法性能分析比较与结论 62-65 3.4 不完备证据条件下的 Bayesian 网络参数学习 65-77 3.4.1 基本 Bayesian 参数估计理论 66-68 3.4.2 新网络计算模型 68-71 3.4.3 参数更新规则 71 3.4.4 收敛性能分析 71-74 3.4.5 仿真试验结果与结论 74-77 3.5 本章小结 77-79 第四章 基于Bayesian 网络的邮件过滤技术 79-87 4.1 核密度估计和分类 79-81 4.2 Bayesian 邮件特征网络 81-83 4.3 分类算法 83-84 4.4 邮件分类网络的性能分析和结论 84-86 4.5 本章小结 86-87 第五章 垃圾邮件过滤的偏依赖特征研究 87-98 5.1 偏依赖特征的引入 87-88 5.2 偏依赖拟合Logistic Regression 模型 88-90 5.3 特征提取 90-91 5.4 测试与结果 91-96 5.4.1 精度性能测试 91-92 5.4.2 基于统计方法的分类器精度性能对比 92-93 5.4.3 维度选择特性测试 93-94 5.4.4 CPD 特性测试 94-95 5.4.5 抗扰动性能测试 95-96 5.5 本章小结 96-98 第六章 支持向量机的邮件分类 98-110 6.1 线性判别分析的推广 98-100 6.2 支持向量分类器 100-102 6.3 基于行为特征的SVM 垃圾邮件过滤 102-109 6.3.1 基于内容的垃圾邮件过滤技术存在的缺陷 102-103 6.3.2 基于行为特征的支持向量分类模型 103-107 6.3.3 实验结果与结论 107-109 6.4 本章小结 109-110 第七章 基于不确定学习理论的邮件过滤系统的设计与实现 110-118 7.1 设计目标 110-111 7.2 系统流程 111-112 7.3 系统框架 112-113 7.4 模块设计 113-116 7.4.1 协议代理模块 113 7.4.2 预处理模块 113-114 7.4.3 过滤模块 114-116 7.4.4 数据模块 116 7.4.5 管理模块 116 7.5 性能评测 116-117 7.6 本章小结 117-118 第八章 全文总结及未来的工作 118-123 8.1 全文总结 118-120 8.2 下一步值得研究的课题 120-123 8.2.1 概念漂移问题 120-121 8.2.2 数据倾斜问题 121-123 致谢 123-124 参考文献 124-137 论文发表和科研奖励情况 137-139
|
相似论文
- 基于SVM的常压塔石脑油干点软测量建模研究,TE622.1
- 基于SVM的高速公路路面浅层病害的自动检测算法研究,U418.6
- 基于PCA-SVM的液体火箭发动机试验台故障诊断算法研究,V433.9
- 空间目标ISAR成像仿真及基于ISAR像的目标识别,TN957.52
- 音乐结构自动分析研究,TN912.3
- 基于三维重建的焊点质量分类方法研究,TP391.41
- 双传感器图像联合目标检测及系统实现研究,TP391.41
- 胆囊炎和肾病综合症脉象信号的特征提取与分类研究,TP391.41
- 直推式支持向量机研究及其在图像检索中的应用,TP391.41
- 基于SVM的中医舌色苔色分类方法研究,TP391.41
- 基于图像的路面破损识别,TP391.41
- 基于支持向量机的故障诊断方法研究,TP18
- 过程支持向量机及其在卫星热平衡温度预测中的应用研究,TP183
- 基于监督流形学习算法的固有不规则蛋白质结构预测研究,Q51
- 大学生抑郁情绪的预测模型研究,B842.6
- 基于车载3D加速传感器的路况监测研究,TP274
- Copula-EGARCH-核密度模型研究及应用,O211.3
- 基于物联网的农产品安全监控系统与决策系统研究,TP277
- 高光谱图像技术诊断黄瓜病害方法的研究,S436.421
- 高职院校人力资源管理激励机制的研究,G717.2
- 结直肠手术手术部位感染相关因素Logistic回归分析,R656.7
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 计算机网络 > 一般性问题 > 计算机网络应用程序 > 电子邮件(E-mail)
© 2012 www.xueweilunwen.com
|