学位论文 > 优秀研究生学位论文题录展示
基于LDAP的智能邮件头信息分析机制的设计与实现
作 者: 韩琳
导 师: 王兴伟
学 校: 东北大学
专 业: 计算机系统结构
关键词: 垃圾邮件 邮件头 特征选择 LDAP 智能算法
分类号: TP393.098
类 型: 硕士论文
年 份: 2008年
下 载: 27次
引 用: 0次
阅 读: 论文下载
内容摘要
随着Internet的发展,电子邮件以其经济快捷的特点,成为网络时代人们最基本最常用的信息交换手段之一。但电子邮件给用户带来便利的同时,也遭到了一些人的滥用,结果就是有大量的垃圾邮件充斥Internet。这些垃圾邮件不但影响了正常的网络应用,也影响了人们正常的工作和学习,给用户和网络服务提供商ISP(Internet Service Provider)造成了巨大的损失。因此,如何对垃圾邮件进行有效地过滤是当前网络应用研究中的一个重要方向。本文对垃圾邮件的主要过滤技术进行了总结和分析,发现近年来垃圾邮件的防治工作主要是依靠技术方式来实现,一种很有效的手段就是在邮件传输代理MTA(Mail Transfer Agent)处判断出垃圾邮件并进行过滤。电子邮件有很多特点,其中邮件结构是由邮件头和邮件主体组成的,而邮件头有很多信息可以被用作判断垃圾邮件的重要依据,并可以根据部分头信息追踪出垃圾邮件的源头,对垃圾邮件发送者给以治裁和处理。LDAP目录服务被设计为对读密集型操作进行优化,使用LDAP来存储信息会大大提高服务器的响应能力,所以本文选择OpenLdap数据库服务器。从邮件样本中提取邮件头信息将其存入数据库,利用向量空间模型生成邮件头信息向量,对这些向量进行分析。针对样本集规模、分类精度、发生类别增量时离线训练时间和敏感词汇等问题,文中分别设计了四种智能邮件头信息分析机制,分别基于可伸缩决策树算法、变精度粗糙集决策树算法、适应类别增量的决策树算法和一种新的快速BP神经网络算法(Back Propagation)。利用这四种算法对邮件头信息进行分析,提取特征,‘得到垃圾邮件过滤规则,这样就可以把分析得到的结果直接应用到MTA处,实现对垃圾邮件的阻挡。为了验证设计的四种邮件头信息分析机制的可行性和有效性,本文对这些机制进行了实现,并对以下几个方面的性能进行测试:获取规则的时间,发现垃圾邮件的能力,正确判断垃圾邮件的能力,将正常邮件误判为垃圾邮件的比例。在对四个机制分别测试后还进行了综合比较,从测试结果可以看到,这些机制在性能上取得了比较令人满意的结果,在过滤垃圾邮件的应用中是可行的和有效的。
|
全文目录
摘要 5-6 ABSTRACT 6-11 第一章 绪论 11-27 1.1 电子邮件 11-19 1.1.1 电子邮件发展历史 11-12 1.1.2 电子邮件格式 12 1.1.3 邮件头的格式和结构 12-15 1.1.4 电子邮件传输过程 15-16 1.1.5 POP与IMTP 16-17 1.1.6 SMTP协议概述 17-19 1.2 垃圾邮件 19-21 1.2.1 垃圾邮件的定义和产生的原因 19-20 1.2.2 垃圾邮件危害和反垃圾邮件研究现状 20-21 1.3 垃圾邮件过滤技术 21-26 1.3.1 服务器端和用户端邮件过滤 21-22 1.3.2 白名单和黑名单 22 1.3.3 基于规则的垃圾邮件过滤技术 22-23 1.3.4 基于内容的垃圾邮件过滤技术 23-26 1.3.4.1 基于规则的方法 23-24 1.3.4.2 基于统计的方法 24-26 1.4 课题来源及主要内容 26-27 第二章 相关知识和技术 27-47 2.1 LDAP 27-30 2.1.1 LDAP概述 27-28 2.1.2 LDAP模型 28-30 2.1.2.1 信息模型 28 2.1.2.2 命名模型 28-29 2.1.2.3 功能模型 29-30 2.1.2.4 安全模型 30 2.2 向量空间模型 30-31 2.3 智能算法 31-47 2.3.1 基于信息熵的可伸缩决策树算法 31-35 2.3.2 基于变精度粗糙集决策树算法 35-38 2.3.3 适应类别增量的决策树算法 38-40 2.3.4 快速BP神经网络算法 40-47 第三章 系统设计 47-59 3.1 设计目标 47 3.2 总体设计 47-51 3.2.1 基于LDAP的系统模型设计 47-48 3.2.2 LDAP目录设计 48 3.2.3 邮件头向量设计 48-50 3.2.4 基于信息熵的可伸缩决策树算法的邮件头信息分析机制 50 3.2.5 基于变精度粗糙集决策树算法的邮件头信息分析机制 50 3.2.6 基于适应类别增量决策树算法的邮件头信息分析机制 50 3.2.7 基于快速BP神经网络算法的邮件头信息分析机制 50-51 3.3 详细设计 51-59 3.3.1 LDAP目录详细设计 51-53 3.3.1.1 信息模型设计 51-52 3.3.1.2 命名模型的设计 52-53 3.3.2 基于LDAP的邮件头信息提取入库模块 53-54 3.3.3 生成邮件头信息向量模块 54-55 3.3.4 基于信息熵的可伸缩决策树算法的邮件头信息分析机制模块 55-56 3.3.5 基于变精度粗糙集决策树算法的邮件头信息分析机制模块 56-57 3.3.6 基于适应类别增量决策树算法的邮件头信息分析机制模块 57-58 3.3.7 基于快速BP神经网络算法的邮件头信息分析机制模块 58-59 第四章 系统实现 59-71 4.1 实现环境 59-61 4.1.1 Linux平台 59-60 4.1.2 Linux C 60 4.1.3 OpenLdap服务器 60-61 4.1.4 WindowsⅡS服务器和PHP 61 4.2 系统实现 61-71 4.2.1 基于LDAP的邮件头信息提取入库功能的实现 61-63 4.2.2 生成邮件头信息向量模块的实现 63 4.2.3 基于信息熵的可伸缩决策树算法的邮件头信息分析机制的实现 63-65 4.2.4 基于变精度粗糙集决策树算法的邮件头信息分析机制的实现 65-67 4.2.5 基于适应类别增量决策树算法的邮件头信息分析机制的实现 67-69 4.2.6 基于快速BP神经网络算法的邮件头信息分析机制的实现 69-71 第五章 性能评价 71-85 5.1 样本来源 71 5.2 性能评价 71-85 5.2.1 性能指标 71-72 5.2.2 基于LDAP的邮件头信息入库性能评价 72-74 5.2.3 基于信息熵的可伸缩决策树算法的邮件头信息分析机制性能评价 74-75 5.2.4 基于变精度粗糙集决策树算法的邮件头信息分析机制性能评价 75-77 5.2.5 基于适应类别增量决策树算法的邮件头信息分析机制性能评价 77-79 5.2.6 基于快速BP神经网络算法的邮件头信息分析机制性能评价 79-80 5.2.7 四种机制性能比较 80-85 第六章 结束语 85-87 参考文献 87-91 致谢 91-93 攻读硕士期间发表的论文 93
|
相似论文
- 基于仿生模式识别的文本分类技术研究,TP391.1
- 唇读中的特征提取、选择与融合,TP391.41
- 语音情感识别的特征选择与特征产生,TP18
- 基于数据分布特征的文本分类研究,TP391.1
- 网络隐私权的民法保护,D913
- 车辆识别系统动态特征选择算法的研究与实现,TP391.41
- 基于AdaBoost算法的人脸识别研究,TP391.41
- 面向肺部CAD的特征提取、选择及分类方法研究,TP391.41
- 能量有效的无线传感器网络路由协议研究,TP212.9
- 基于组合及统计的图像型垃圾邮件检测研究,TP391.41
- 安全应用层组播组成员管理模型,TP393.08
- 基于相似性测量检测图像型垃圾邮件技术的研究,TP393.098
- 不确定信息环境下集约生产计划方法研究与应用,F273
- 数据挖掘在邮件反垃圾系统中的应用,TP393.098
- 基于群体智能的医学图像特征优化算法研究,TP391.41
- 基于FSVM的数据挖掘方法及其在入侵检测中的应用研究,TP393.08
- 流形学习的方差最小化准则,TP181
- 掌纹主线特征选择方法及成像系统研究,TP391.41
- 中国民族音乐特征提取与分类技术的研究,J607
- 随机森林特征选择,TP311.13
- 基于Exchange的中小企业邮件系统的研究与实现,TP393.098
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 计算机网络 > 一般性问题 > 计算机网络应用程序 > 电子邮件(E-mail)
© 2012 www.xueweilunwen.com
|