学位论文 > 优秀研究生学位论文题录展示
基于协作过滤的反垃圾邮件网关的设计与实现
作 者: 罗兵
导 师: 郝玉洁
学 校: 电子科技大学
专 业: 计算机应用技术
关键词: 反垃圾邮件 协作过滤 TF-IDF Rabin指纹
分类号: TP393.098
类 型: 硕士论文
年 份: 2011年
下 载: 36次
引 用: 0次
阅 读: 论文下载
内容摘要
随着电子邮件的广泛应用,垃圾邮件问题引起了人们的重视。垃圾邮件不仅降低互联网的服务质量,而且还浪费用户大量的时间和精力,一些垃圾邮件还给社会带来了极大的负面影响。面对垃圾邮件的严峻形势,反垃圾邮件技术已成为目前研究热点之一。目前,市场上反垃圾邮件产品众多,服务器端反垃圾邮件产品价格昂贵,而客户端反垃圾邮件产品又无法做到实时过滤。中小型企业面临这种情况时往往很难选择。本文首先分析国内外反垃圾邮件现状,以教研室项目为背景,将协作过滤的方法应用到反垃圾邮件系统中。通过分析服务器端反垃圾邮件技术,系统选择netfilter/iptables技术来进行实时过滤。整个系统采用透明接入,邮件服务器和该系统相分离,实现邮件服务器的负载平衡。通过对协作过滤思想的分析和研究,设计和实现基于邮箱用户和邮件的协作过滤。在基于邮箱用户的协作过滤中,分析了传统的聚类方法,在传统聚类方法上设计一种折中方法,与以往直接使用聚类对邮件判断是否属于垃圾邮件不同,本文通过聚类方法产生不同的邮件分类,根据邮箱用户对邮件分类情况的背景知识,判断新邮件是否属于垃圾邮件。当邮件特征不能满足分类条件时,本文利用朴素贝叶斯方法来判断该邮件,整个设计充分利用邮件个性化特点。本文中邮件的表示使用向量空间模型,在特征选择方面,基于传统的评分公式TF-IDF,再考虑邮件分类中的二元性,改进了该评分公式,并将改进的公式应用到特征选择中。在基于邮件的协作过滤中,传统方法是对垃圾邮件直接使用MD5方法进行指纹特征提取,判断该指纹是否属于垃圾邮件,本文则首先提取垃圾邮件中具有实际意义的词,然后对这些词进行Rabin指纹运算,最后判断该指纹是否在指纹数据库中。本系统运行在Linux系统上,其内核需要大于2.6.18,考虑维护的方便性,后台管理采用web界面进行设置。最后通过实验对系统进行测试,然后再给出系统在公司的试运行结果,证明该设计方案切实可行,满足企业需求。
|
全文目录
摘要 4-5 ABSTRACT 5-9 第一章 引言 9-14 1.1 研究背景 9 1.2 国内外反垃圾邮件现状 9-12 1.3 论文的来源与需求 12 1.4 论文开展的工作及特色 12-13 1.5 论文内容安排 13-14 第二章 技术基础 14-23 2.1 电子邮件概述 14-17 2.1.1 电子邮件格式 14-15 2.1.2 邮件发送原理 15-17 2.2 垃圾邮件概述 17-19 2.2.1 垃圾邮件的定义 17 2.2.2 垃圾邮件产生原因 17-18 2.2.3 垃圾邮件的危害 18-19 2.3 协作过滤思想 19-20 2.4 Netfilter/Iptables 20-22 2.5 本章小结 22-23 第三章 反垃圾邮件系统的设计 23-48 3.1 总体框架 23-26 3.2 底层管理模块设计 26-29 3.3 协议分析与行为分析模块设计 29-31 3.4 过滤模块设计 31-45 3.4.1 基于邮箱用户的协作过滤设计 33-41 3.4.2 基于邮件的协作过滤设计 41-45 3.5 邮件病毒扫描模块设计 45-46 3.6 邮件处理模块设计 46 3.7 后台管理的 WEB 设计 46-47 3.8 本章小结 47-48 第四章 反垃圾邮件系统的实现 48-63 4.1 系统网络配置 48 4.2 数据包获取 48-50 4.3 邮件获取 50-53 4.4 邮件分析 53-58 4.5 邮件病毒扫描 58-59 4.6 邮件处理 59-61 4.7 后台管理的实现 61-62 4.8 本章小结 62-63 第五章 系统测试 63-69 5.1 测试环境 63-64 5.2 测试系统的过滤效果 64-66 5.3 比较协作过滤与传统过滤效果 66-68 5.4 测试效率 68 5.5 本章小结 68-69 第六章 总结与展望 69-71 6.1 全文总结 69-70 6.2 未来工作的展望 70-71 致谢 71-72 参考文献 72-75 攻硕期间取得的研究成果 75-76
|
相似论文
- 个性化检索中相似用户群的获取与更新,TP391.3
- 基于Exchange的中小企业邮件系统的研究与实现,TP393.098
- 基于社会标签系统的推荐技术研究,TP391.3
- “总串分并”四层反垃圾邮件过滤系统研究,TP393.098
- 基于Slope One算法的协作过滤个性化推荐系统设计与实现,TP391.3
- 基于PageRank值的文本相似度改进模型,TP391.1
- 基于改进TF-IDF的文本信息热点话题发现,TP391.1
- 基于MNNB方法的邮件分类技术,TP393.098
- 基于数据消冗和Chord协议的分布式存储技术研究,TP333
- 网络交互中用户隐私保护模型和方法的研究,TP393.08
- 华润集团反垃圾邮件系统的研究与设计,TP393.098
- 基于文本分类的反垃圾邮件技术研究,TP393.098
- 基于用户代理的POP3邮件过滤模型的研究,TP393.098
- 基于数字签名的电子邮票模型研究,TP393.08
- 一种可信的反垃圾邮件网格体系研究与实现,TP393.098
- 服务网格在反垃圾邮件领域中的应用与研究,TP393.098
- 通用智能实时反垃圾邮件机的设计与实现,TP393.098
- 数据挖掘在反垃圾邮件领域中的应用与研究,TP393.098
- 设反垃圾邮件技术的研究和原型实现,TP393.098
- 服务网格在反垃圾邮件领域中的应用与研究,TP393.098
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 计算机网络 > 一般性问题 > 计算机网络应用程序 > 电子邮件(E-mail)
© 2012 www.xueweilunwen.com
|