学位论文 > 优秀研究生学位论文题录展示
垃圾邮件过滤技术的研究
作 者: 孙艳华
导 师: 陈玉华
学 校: 大连海事大学
专 业: 计算机应用技术
关键词: 垃圾邮件过滤 文本分类 Na(?)ve Bayes 特征
分类号: TP393.098
类 型: 硕士论文
年 份: 2007年
下 载: 218次
引 用: 6次
阅 读: 论文下载
内容摘要
电子邮件已经成为人们日常生活中通信、交流的重要手段之一,但垃圾邮件的泛滥已带来严重后果,有效地区分合法邮件和垃圾邮件成为一项紧迫的任务。 近年来,有关垃圾邮件过滤技术的研究逐渐兴起,常见的过滤方法有黑/白名单技术、规则过滤等,但这些方法都具有一定的局限性。目前,把垃圾邮件过滤与机器学习、文本分类和信息过滤技术结合起来,对邮件正文内容进行分析,成为研究的热点。 本文深入研究了大量近期垃圾邮件样本,归纳总结了当前垃圾邮件发送者经常采用的欺骗手段和方法,并参阅国内外大量反垃圾邮件文献和数据,对已有的反垃圾邮件技术作出分析和总结,尤其是对基于内容的垃圾邮件过滤方法进行了研究。文章重点分析了当前使用最广泛的Na(?)ve Bayes算法,指出其在实际应用中的不足,并采用N-gram理论对该算法进行了改进。同时,针对Na(?)ve Bayes算法性能受邮件特征影响这一特点,本文提出了一个基于结构特征的双层过滤模型。实验证明,改进后的Na(?)ve Bayes算法应用于双层过滤模型之后,邮件分类效果明显改善,垃圾邮件误判率、合法邮件误判率和平均误判率都有大幅度下降。文章最后综合各种过滤技术,设计并描述了一个客户端垃圾邮件过滤系统的完整框架。
|
全文目录
摘要 5-6 Abstract 6-9 第1章 绪论 9-18 1.1 研究背景 9-12 1.2 垃圾邮件的起源与历史 12-13 1.3 垃圾邮件的定义与泛滥原因 13-14 1.4 垃圾邮件的组成 14-15 1.5 反垃圾邮件法律和政策 15-17 1.6 本文内容安排 17-18 第2章 电子邮件的基础知识与工作原理 18-23 2.1 电子邮件的格式 18 2.2 电子邮件的传送过程 18-20 2.2.1 电子邮件代理 18-19 2.2.2 电子邮件的传送过程 19-20 2.3 电子邮件的相关协议 20-22 2.3.1 SMTP协议 20-21 2.3.2 MIME协议 21 2.3.3 POP3协议 21 2.3.4 IMAP协议 21-22 2.4 本章小结 22-23 第3章 垃圾邮件过滤技术研究现状 23-39 3.1 垃圾邮件过滤的位置 23-24 3.2 基于 IP地址的垃圾邮件过滤 24-25 3.3 基于邮件头的垃圾邮件过滤 25-26 3.4 基于内容的垃圾邮件过滤 26-37 3.4.1 文本分类与垃圾邮件过滤 26-27 3.4.2 信息过滤与垃圾邮件过滤 27-28 3.4.3 基于规则的过滤方法 28-29 3.4.4 基于统计的过滤方法 29-32 3.4.5 性能评价体系 32-34 3.4.6 垃圾邮件内容过滤中的常用语料库 34-36 3.4.7 常用算法的对比实验 36-37 3.5 其它过滤方法 37-38 3.6 本章小结 38-39 第4章 邮件预处理与特征选取算法 39-48 4.1 邮件预处理 39-43 4.1.1 邮件正文提取 39 4.1.2 邮件分词 39-40 4.1.3 邮件表示 40-43 4.2 各种特征选取算法 43-47 4.2.1 特征选取算法 44-47 4.2.2 各种特征选取算法的比较 47 4.3 本章小结 47-48 第5章 垃圾邮件过滤模型 48-68 5.1 基于贝叶斯的垃圾邮件过滤 48-60 5.1.1 Na(?)ve Bayes分类算法 48-51 5.1.2 用N-gram改进的Na(?)ve Bayes算法 51-54 5.1.3 测试结果 54-60 5.2 基于结构特征双层过滤模型 60-65 5.2.1 邮件结构特性的分析 61-62 5.2.2 基于结构的双层分类模型 62-63 5.2.3 测试结果 63-65 5.3 一个垃圾邮件过滤系统模型的设计 65-67 5.4 本章小结 67-68 结论 68-70 参考文献 70-74 攻读学位期间公开发表论文 74-75 致谢 75-76 研究生履历 76
|
相似论文
- 基于SVM的高速公路路面浅层病害的自动检测算法研究,U418.6
- 东北满族民居的文化涵化研究,TU241.5
- 多厅影院空间架构研究,TU242.2
- 钢在建筑中的技术表现力研究,TU-0
- 长春市历史保护区的形态特征与保护对策研究,TU984.114
- 电网电压不平衡时复合型PWM整流器控制策略的研究,TM461
- 民国时期北平城市粮食市场区位分布及其等级研究,K291
- 昆明流动人口聚居区的现状、问题及其对策初步研究,C924.25
- 高频雷达信号电离层污染及时频分析方法研究,TN958.93
- 多重ANN/HMM混合模型在语音识别中的应用,TN912.34
- 空间目标ISAR成像仿真及基于ISAR像的目标识别,TN957.52
- 用于检索的人脸特征提取与匹配算法研究,TP391.41
- 基于用户兴趣特征的图像检索研究与实现,TP391.41
- 基于三维重建的焊点质量分类方法研究,TP391.41
- 基于句法特征的代词消解方法研究,TP391.1
- 基于特征的软构件建模方法及其在VMI管理系统中的应用,TP311.52
- 胆囊炎和肾病综合症脉象信号的特征提取与分类研究,TP391.41
- Q学习在基于内容图像检索技术中的应用,TP391.41
- 森林防火系统中图像识别算法的研究,TP391.41
- 统计与语言学相结合的词对齐及相关融合策略研究,TP391.2
- 直推式支持向量机研究及其在图像检索中的应用,TP391.41
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 计算机网络 > 一般性问题 > 计算机网络应用程序 > 电子邮件(E-mail)
© 2012 www.xueweilunwen.com
|