学位论文 > 优秀研究生学位论文题录展示

基于协作过滤的反垃圾邮件网关的设计与实现

作 者: 罗兵
导 师: 郝玉洁
学 校: 电子科技大学
专 业: 计算机应用技术
关键词: 反垃圾邮件 协作过滤 TF-IDF Rabin指纹
分类号: TP393.098
类 型: 硕士论文
年 份: 2011年
下 载: 36次
引 用: 0次
阅 读: 论文下载
 

内容摘要


随着电子邮件的广泛应用,垃圾邮件问题引起了人们的重视。垃圾邮件不仅降低互联网的服务质量,而且还浪费用户大量的时间和精力,一些垃圾邮件还给社会带来了极大的负面影响。面对垃圾邮件的严峻形势,反垃圾邮件技术已成为目前研究热点之一。目前,市场上反垃圾邮件产品众多,服务器端反垃圾邮件产品价格昂贵,而客户端反垃圾邮件产品又无法做到实时过滤。中小型企业面临这种情况时往往很难选择。本文首先分析国内外反垃圾邮件现状,以教研室项目为背景,将协作过滤的方法应用到反垃圾邮件系统中。通过分析服务器端反垃圾邮件技术,系统选择netfilter/iptables技术来进行实时过滤。整个系统采用透明接入,邮件服务器和该系统相分离,实现邮件服务器的负载平衡。通过对协作过滤思想的分析和研究,设计和实现基于邮箱用户和邮件的协作过滤。在基于邮箱用户的协作过滤中,分析了传统的聚类方法,在传统聚类方法上设计一种折中方法,与以往直接使用聚类对邮件判断是否属于垃圾邮件不同,本文通过聚类方法产生不同的邮件分类,根据邮箱用户对邮件分类情况的背景知识,判断新邮件是否属于垃圾邮件。当邮件特征不能满足分类条件时,本文利用朴素贝叶斯方法来判断该邮件,整个设计充分利用邮件个性化特点。本文中邮件的表示使用向量空间模型,在特征选择方面,基于传统的评分公式TF-IDF,再考虑邮件分类中的二元性,改进了该评分公式,并将改进的公式应用到特征选择中。在基于邮件的协作过滤中,传统方法是对垃圾邮件直接使用MD5方法进行指纹特征提取,判断该指纹是否属于垃圾邮件,本文则首先提取垃圾邮件中具有实际意义的词,然后对这些词进行Rabin指纹运算,最后判断该指纹是否在指纹数据库中。本系统运行在Linux系统上,其内核需要大于2.6.18,考虑维护的方便性,后台管理采用web界面进行设置。最后通过实验对系统进行测试,然后再给出系统在公司的试运行结果,证明该设计方案切实可行,满足企业需求。

全文目录


摘要  4-5
ABSTRACT  5-9
第一章 引言  9-14
  1.1 研究背景  9
  1.2 国内外反垃圾邮件现状  9-12
  1.3 论文的来源与需求  12
  1.4 论文开展的工作及特色  12-13
  1.5 论文内容安排  13-14
第二章 技术基础  14-23
  2.1 电子邮件概述  14-17
    2.1.1 电子邮件格式  14-15
    2.1.2 邮件发送原理  15-17
  2.2 垃圾邮件概述  17-19
    2.2.1 垃圾邮件的定义  17
    2.2.2 垃圾邮件产生原因  17-18
    2.2.3 垃圾邮件的危害  18-19
  2.3 协作过滤思想  19-20
  2.4 Netfilter/Iptables  20-22
  2.5 本章小结  22-23
第三章 反垃圾邮件系统的设计  23-48
  3.1 总体框架  23-26
  3.2 底层管理模块设计  26-29
  3.3 协议分析与行为分析模块设计  29-31
  3.4 过滤模块设计  31-45
    3.4.1 基于邮箱用户的协作过滤设计  33-41
    3.4.2 基于邮件的协作过滤设计  41-45
  3.5 邮件病毒扫描模块设计  45-46
  3.6 邮件处理模块设计  46
  3.7 后台管理的 WEB 设计  46-47
  3.8 本章小结  47-48
第四章 反垃圾邮件系统的实现  48-63
  4.1 系统网络配置  48
  4.2 数据包获取  48-50
  4.3 邮件获取  50-53
  4.4 邮件分析  53-58
  4.5 邮件病毒扫描  58-59
  4.6 邮件处理  59-61
  4.7 后台管理的实现  61-62
  4.8 本章小结  62-63
第五章 系统测试  63-69
  5.1 测试环境  63-64
  5.2 测试系统的过滤效果  64-66
  5.3 比较协作过滤与传统过滤效果  66-68
  5.4 测试效率  68
  5.5 本章小结  68-69
第六章 总结与展望  69-71
  6.1 全文总结  69-70
  6.2 未来工作的展望  70-71
致谢  71-72
参考文献  72-75
攻硕期间取得的研究成果  75-76

相似论文

  1. 个性化检索中相似用户群的获取与更新,TP391.3
  2. 基于Exchange的中小企业邮件系统的研究与实现,TP393.098
  3. 基于社会标签系统的推荐技术研究,TP391.3
  4. “总串分并”四层反垃圾邮件过滤系统研究,TP393.098
  5. 基于Slope One算法的协作过滤个性化推荐系统设计与实现,TP391.3
  6. 基于PageRank值的文本相似度改进模型,TP391.1
  7. 基于改进TF-IDF的文本信息热点话题发现,TP391.1
  8. 基于MNNB方法的邮件分类技术,TP393.098
  9. 基于数据消冗和Chord协议的分布式存储技术研究,TP333
  10. 网络交互中用户隐私保护模型和方法的研究,TP393.08
  11. 华润集团反垃圾邮件系统的研究与设计,TP393.098
  12. 基于文本分类的反垃圾邮件技术研究,TP393.098
  13. 基于用户代理的POP3邮件过滤模型的研究,TP393.098
  14. 基于数字签名的电子邮票模型研究,TP393.08
  15. 一种可信的反垃圾邮件网格体系研究与实现,TP393.098
  16. 服务网格在反垃圾邮件领域中的应用与研究,TP393.098
  17. 通用智能实时反垃圾邮件机的设计与实现,TP393.098
  18. 数据挖掘在反垃圾邮件领域中的应用与研究,TP393.098
  19. 设反垃圾邮件技术的研究和原型实现,TP393.098
  20. 服务网格在反垃圾邮件领域中的应用与研究,TP393.098

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 计算机网络 > 一般性问题 > 计算机网络应用程序 > 电子邮件(E-mail)
© 2012 www.xueweilunwen.com