学位论文 > 优秀研究生学位论文题录展示
垃圾邮件行为识别技术研究
作 者: 李新洁
导 师: 张新有
学 校: 西南交通大学
专 业: 计算机应用技术
关键词: 垃圾邮件 发送行为 行为识别 拓扑结构 相似度
分类号: TP393.098
类 型: 硕士论文
年 份: 2011年
下 载: 48次
引 用: 0次
阅 读: 论文下载
内容摘要
随着Internet的普及,电子邮件已经成为了现代人际交流中逐受青睐的通信方式之一。然而由于电子邮件系统本身存在的技术缺陷,SMTP协议(简单邮件传输)对邮件发送不做任何身份验证,使得垃圾邮件制造者有机可乘,在暴利驱使下发送大量的垃圾邮件,给人们造成困扰的同时,也是互联网资源的严重浪费。为了营造一个绿色的电子邮件通信环境,本文在对大量垃圾邮件和正常邮件分析和对比中发现,由于垃圾邮件发送的动机和心理不同,会导致不同与正常邮件的发送行为,一是发送信息中的异常行为,二是单向“伞形”广播发送行为。针对两种不同的垃圾邮件发送行为进行深入的研究,本文提出了如下两种行为过滤技术:第一是基于发送行为特征的垃圾邮件过滤技术。在研究SMTP协议基础上,发现具有垃圾邮件与正常邮件区分价值的行为特征。以“信息-知识-智能”统一理论和数据挖掘相关理论为指导,对邮件发送行为特征进行挖掘并建立行为识别模型,从而在邮件传输阶段就可以对垃圾邮件进行拦截。本研究的主要工作有邮件头信息的分析和提取、行为特征分析与提取、邮件向量表示、建立行为识别模型等,为了提高识别的精准率,增加特征贡献度计算的环节。通过采用分类算法进行训练建立行为识别模型,以判别垃圾邮件。本文选择支持向量机分类算法和朴素贝叶斯分类算法,并在Weka环境中进行分类实验。第二是拓扑结构相似性行为识别技术,该技术属于基于流量行为的垃圾邮件判别技术。通过分析邮件通信拓扑特征,可得知正常邮件与垃圾邮件拓扑结构的差异性。引入相似度的概念,用户通信关系之间相似度的比较将用户分为不同的集合,统计每个集合收、发垃圾邮件的概率。通过判别邮件发件人、收件人归属集合,利用所属集合收、发垃圾邮件的概率进行计算并判别该邮件是否为垃圾邮件。最后,以查全率、查准率、F1值为评价标准,仿真实验证明本文提出的行为识别技术表现出了良好的过滤性能。与其它文献中的实验结果进行对比,说明本文提出的行为识别技术的优越性。
|
全文目录
摘要 6-7 Abstract 7-11 第1章 绪论 11-22 1.1 研究背景及意义 11-12 1.2 垃圾邮件概念 12-14 1.2.1 定义 12-13 1.2.2 危害 13 1.2.3 产生原因分析 13-14 1.3 垃圾邮件发送技术 14 1.4 反垃圾邮件研究现状 14-20 1.4.1 反垃圾邮件技术研究方向 14 1.4.2 预防技术 14-15 1.4.3 过滤技术 15-20 1.5 反垃圾邮件技术发展趋势 20 1.6 本文研究工作和组织结构 20-21 本章小结 21-22 第2章 行为识别技术研究 22-28 2.1 电子邮件系统 22-24 2.1.1 邮件通信原理 22-24 2.1.2 邮件系统安全隐患 24 2.2 行为识别技术概述 24-26 2.2.1 行为识别技术的定义 25 2.2.2 垃圾邮件发送行为 25 2.2.3 行为识别的优势 25-26 2.4 行为识别技术发展现状 26-27 本章小结 27-28 第3章 基于发送行为特征的垃圾邮件过滤技术研究 28-48 3.1 相关理论 28-29 3.1.1 信息-知识-智能统一理论 28-29 3.1.2 数据挖掘 29 3.2 研究方案 29-31 3.3 头信息提取 31-35 3.3.1 邮件头 31-33 3.3.2 头信息提取 33-35 3.4 行为特征 35-39 3.4.1 行为特征分析 35-38 3.4.2 特征提取 38-39 3.5 行为特征向量表示 39 3.6 行为特征权重计算 39-40 3.7 分类算法 40-43 3.7.1 支持向量机 40-42 3.7.2 朴素贝叶斯算法 42-43 3.8 分类实验 43-47 本章小结 47-48 第4章 拓扑结构相似性行为识别技术研究 48-67 4.1 邮件通信拓扑特征 48-50 4.2 总体思想 50-51 4.3 邮件用户表示 51-52 4.4 拓扑结构相似性 52-55 4.4.1 相似度 52-54 4.4.2 拓扑结构相似度计算 54-55 4.5 发件群与收件群 55-56 4.5.1 群组划分 55-56 4.5.2 群概率 56 4.6 垃圾邮件识别方案 56-59 4.6.1 识别原理 56-57 4.6.2 垃圾邮件识别算法 57-58 4.6.3 算法描述 58-59 4.7 实验 59-66 本章小结 66-67 总结与展望 67-69 致谢 69-70 参考文献 70-74 攻读硕士学位期间发表的论文 74
|
相似论文
- 多层卫星网络稳定性设计研究,TN927.23
- 基于句法特征的代词消解方法研究,TP391.1
- 多邮件自动文摘的关键技术研究,TP391.1
- 柔性、刚性混配配合物的合成与性质表征,O621.1
- 基于相似度计算的编程题自动评判方法研究,TP312.1
- 一种基于领域本体的语义Web服务匹配和组合方法,TP393.09
- WordNet和《中国分类主题词表》的映射研究,G254
- 多属性无向加权图上的聚类方法研究,O157.5
- 网络隐私权的民法保护,D913
- 长链芳香多羧酸金属有机配位聚合物的合成、结构及性能研究,O631.3
- 基于本体的食品投诉文档文本聚类研究,TP391.1
- Web环境下基于语义模式匹配的实体关系提取方法的研究,TP391.1
- 智能答疑系统中句子相似度计算的研究与应用,TP391.1
- 应用于搜索引擎的人物分类系统设计与实现,TP391.3
- 基于组合及统计的图像型垃圾邮件检测研究,TP391.41
- 光端机矩阵嵌入式控制器软件的设计与开发,TP311.52
- 基于无线传感器网络的智能家居安全监测系统的研究与应用,TP273.5
- 基于空间数据库和视觉特征的钓鱼网页检测,TP393.08
- 基于相似性测量检测图像型垃圾邮件技术的研究,TP393.098
- 聚己内酯的表面改性及其对细胞行为的影响,R318.08
- 大流量环境下实时P2P流媒体行为识别系统设计与实现,TN919.8
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 计算机网络 > 一般性问题 > 计算机网络应用程序 > 电子邮件(E-mail)
© 2012 www.xueweilunwen.com
|