学位论文 > 优秀研究生学位论文题录展示

垃圾邮件行为识别技术研究

作 者: 李新洁
导 师: 张新有
学 校: 西南交通大学
专 业: 计算机应用技术
关键词: 垃圾邮件 发送行为 行为识别 拓扑结构 相似度
分类号: TP393.098
类 型: 硕士论文
年 份: 2011年
下 载: 48次
引 用: 0次
阅 读: 论文下载
 

内容摘要


随着Internet的普及,电子邮件已经成为了现代人际交流中逐受青睐的通信方式之一。然而由于电子邮件系统本身存在的技术缺陷,SMTP协议(简单邮件传输)对邮件发送不做任何身份验证,使得垃圾邮件制造者有机可乘,在暴利驱使下发送大量的垃圾邮件,给人们造成困扰的同时,也是互联网资源的严重浪费。为了营造一个绿色的电子邮件通信环境,本文在对大量垃圾邮件和正常邮件分析和对比中发现,由于垃圾邮件发送的动机和心理不同,会导致不同与正常邮件的发送行为,一是发送信息中的异常行为,二是单向“伞形”广播发送行为。针对两种不同的垃圾邮件发送行为进行深入的研究,本文提出了如下两种行为过滤技术:第一是基于发送行为特征的垃圾邮件过滤技术。在研究SMTP协议基础上,发现具有垃圾邮件与正常邮件区分价值的行为特征。以“信息-知识-智能”统一理论和数据挖掘相关理论为指导,对邮件发送行为特征进行挖掘并建立行为识别模型,从而在邮件传输阶段就可以对垃圾邮件进行拦截。本研究的主要工作有邮件头信息的分析和提取、行为特征分析与提取、邮件向量表示、建立行为识别模型等,为了提高识别的精准率,增加特征贡献度计算的环节。通过采用分类算法进行训练建立行为识别模型,以判别垃圾邮件。本文选择支持向量机分类算法和朴素贝叶斯分类算法,并在Weka环境中进行分类实验。第二是拓扑结构相似性行为识别技术,该技术属于基于流量行为的垃圾邮件判别技术。通过分析邮件通信拓扑特征,可得知正常邮件与垃圾邮件拓扑结构的差异性。引入相似度的概念,用户通信关系之间相似度的比较将用户分为不同的集合,统计每个集合收、发垃圾邮件的概率。通过判别邮件发件人、收件人归属集合,利用所属集合收、发垃圾邮件的概率进行计算并判别该邮件是否为垃圾邮件。最后,以查全率、查准率、F1值为评价标准,仿真实验证明本文提出的行为识别技术表现出了良好的过滤性能。与其它文献中的实验结果进行对比,说明本文提出的行为识别技术的优越性。

全文目录


摘要  6-7
Abstract  7-11
第1章 绪论  11-22
  1.1 研究背景及意义  11-12
  1.2 垃圾邮件概念  12-14
    1.2.1 定义  12-13
    1.2.2 危害  13
    1.2.3 产生原因分析  13-14
  1.3 垃圾邮件发送技术  14
  1.4 反垃圾邮件研究现状  14-20
    1.4.1 反垃圾邮件技术研究方向  14
    1.4.2 预防技术  14-15
    1.4.3 过滤技术  15-20
  1.5 反垃圾邮件技术发展趋势  20
  1.6 本文研究工作和组织结构  20-21
  本章小结  21-22
第2章 行为识别技术研究  22-28
  2.1 电子邮件系统  22-24
    2.1.1 邮件通信原理  22-24
    2.1.2 邮件系统安全隐患  24
  2.2 行为识别技术概述  24-26
    2.2.1 行为识别技术的定义  25
    2.2.2 垃圾邮件发送行为  25
    2.2.3 行为识别的优势  25-26
  2.4 行为识别技术发展现状  26-27
  本章小结  27-28
第3章 基于发送行为特征的垃圾邮件过滤技术研究  28-48
  3.1 相关理论  28-29
    3.1.1 信息-知识-智能统一理论  28-29
    3.1.2 数据挖掘  29
  3.2 研究方案  29-31
  3.3 头信息提取  31-35
    3.3.1 邮件头  31-33
    3.3.2 头信息提取  33-35
  3.4 行为特征  35-39
    3.4.1 行为特征分析  35-38
    3.4.2 特征提取  38-39
  3.5 行为特征向量表示  39
  3.6 行为特征权重计算  39-40
  3.7 分类算法  40-43
    3.7.1 支持向量机  40-42
    3.7.2 朴素贝叶斯算法  42-43
  3.8 分类实验  43-47
  本章小结  47-48
第4章 拓扑结构相似性行为识别技术研究  48-67
  4.1 邮件通信拓扑特征  48-50
  4.2 总体思想  50-51
  4.3 邮件用户表示  51-52
  4.4 拓扑结构相似性  52-55
    4.4.1 相似度  52-54
    4.4.2 拓扑结构相似度计算  54-55
  4.5 发件群与收件群  55-56
    4.5.1 群组划分  55-56
    4.5.2 群概率  56
  4.6 垃圾邮件识别方案  56-59
    4.6.1 识别原理  56-57
    4.6.2 垃圾邮件识别算法  57-58
    4.6.3 算法描述  58-59
  4.7 实验  59-66
  本章小结  66-67
总结与展望  67-69
致谢  69-70
参考文献  70-74
攻读硕士学位期间发表的论文  74

相似论文

  1. 多层卫星网络稳定性设计研究,TN927.23
  2. 基于句法特征的代词消解方法研究,TP391.1
  3. 多邮件自动文摘的关键技术研究,TP391.1
  4. 柔性、刚性混配配合物的合成与性质表征,O621.1
  5. 基于相似度计算的编程题自动评判方法研究,TP312.1
  6. 一种基于领域本体的语义Web服务匹配和组合方法,TP393.09
  7. WordNet和《中国分类主题词表》的映射研究,G254
  8. 多属性无向加权图上的聚类方法研究,O157.5
  9. 网络隐私权的民法保护,D913
  10. 长链芳香多羧酸金属有机配位聚合物的合成、结构及性能研究,O631.3
  11. 基于本体的食品投诉文档文本聚类研究,TP391.1
  12. Web环境下基于语义模式匹配的实体关系提取方法的研究,TP391.1
  13. 智能答疑系统中句子相似度计算的研究与应用,TP391.1
  14. 应用于搜索引擎的人物分类系统设计与实现,TP391.3
  15. 基于组合及统计的图像型垃圾邮件检测研究,TP391.41
  16. 光端机矩阵嵌入式控制器软件的设计与开发,TP311.52
  17. 基于无线传感器网络的智能家居安全监测系统的研究与应用,TP273.5
  18. 基于空间数据库和视觉特征的钓鱼网页检测,TP393.08
  19. 基于相似性测量检测图像型垃圾邮件技术的研究,TP393.098
  20. 聚己内酯的表面改性及其对细胞行为的影响,R318.08
  21. 大流量环境下实时P2P流媒体行为识别系统设计与实现,TN919.8

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 计算机网络 > 一般性问题 > 计算机网络应用程序 > 电子邮件(E-mail)
© 2012 www.xueweilunwen.com