学位论文 > 优秀研究生学位论文题录展示
垃圾图像过滤系统的实现
作 者: 刘菊新
导 师: 徐从富
学 校: 浙江大学
专 业: 计算机应用
关键词: 邮件过滤 图像型垃圾邮件 图像特征 文字特征
分类号: TP393.098
类 型: 硕士论文
年 份: 2010年
下 载: 65次
引 用: 0次
阅 读: 论文下载
内容摘要
电子邮件作为一种现代通信技术手段,已成为人们日常生活中不可缺少的通信手段之一,但是垃圾邮件的泛滥却给人们带来了很大的危害。自动垃圾邮件过滤技术已引起机器学习、文本分类、信息过滤等相关领域科研人员的兴趣,利用邮件的文本内容特征识别垃圾邮件已并被广泛应用于反垃圾邮件系统,并取得了不错的结果。尽管对于文本垃圾邮件有着很好的拦截率,但确有越来越多的垃圾邮件利用嵌入文本的图像来逃避基于文本识别的反垃圾邮件系统,导致了基于文本内容的反垃圾邮件工具失效,并且图像占用更多的存储资源和带宽,会容易造成网络的阻塞。这就需要对图像型垃圾邮件进行研究。本文首先对图像型垃圾邮件进行了概述,分析了图像型垃圾邮件的特点和检测难点,并对基于统计学习的图像型垃圾邮件过滤模型作了综述,包括常用的支持向量机(SVM)、朴素贝叶斯(na(?)ve bayes)、1ogistic、k邻近法等。然后着重介绍了垃圾图像的特征提取方法包括文本方面特征和图像方面特征。在文本方面特征由于垃圾图像需要传递制造者的信息,通常会比正常图像包含有跟多的文字内容,同时为了阻碍过滤器对图像文字特征的提取通常会包含有混淆内容;而在图像特征方面,由于垃圾图像的特性,一般是由人工合成,在色彩饱和度等颜色特性上与正常图像分布的数据分布不同。最后我们设计一个两层分类器进行学习和分类,将两方面特征相结合,弥补各自的弱点,结合两者的长处。实验表明,系统能取得优异的性能,特别在图像是有复杂背景或其他混淆情况的下也能取到不错的结果。
|
全文目录
摘要 3-4 Abstract 4-9 第1章 绪论 9-15 1.1 垃圾图像过滤 9-12 1.1.1 课题背景 9-10 1.1.2 垃圾图像的定义 10 1.1.3 垃圾图像的特点 10-11 1.1.4 图像型垃圾邮件的检测难点 11-12 1.2 基于统计学习的图像型垃圾邮件过滤器 12-13 1.2.1 图像预处理 13 1.2.2 模型训练 13 1.3 本文的研究内容 13 1.4 本文的组织结构 13-15 第2章 垃圾图像分类模型 15-27 2.1 Naive Bayes模型 15-16 2.2 K-近邻法 16-17 2.3 基于实例映射分类(LLSF)模型 17-20 2.4 支持向量机(SVM) 20-25 2.5 Logistic回归模型(LR) 25-27 第3章 垃圾图像过滤器的实现 27-42 3.1 邮件的格式 27-29 3.2 垃圾图像特征分析 29-31 3.3 垃圾邮件过滤体系结构 31-32 3.4 系统体系结构 32-41 3.4.1 文字相关特征提取 32-37 3.4.2 关键字过滤 37 3.4.3 图像特征提取 37-40 3.4.4 第一级过滤器 40 3.4.5 第二级过滤器 40-41 3.5 本章小结 41-42 第4章 实验结果和比较 42-46 4.1 评价指标 42-43 4.1.1 本文的评价标准 43 4.1.2 本文的数据集合 43 4.2 实验结果 43-46 第5章 总结和展望 46-47 5.1 总结 46 5.2 未来工作 46-47 参考文献 47-51 攻读硕士学位期间主要的研究成果 51-52 致谢 52
|
相似论文
- 立体视觉里程计中的空间不确定度,TP391.41
- 基于组合及统计的图像型垃圾邮件检测研究,TP391.41
- 基于相似性测量检测图像型垃圾邮件技术的研究,TP393.098
- 基于特征的图像瑕疵检测算法研究与应用,TP391.41
- 基于图像特征提取的图像融合研究,TP391.41
- 基于模式识别方法的天气雷达数字产品的监控与分析,TN959.4
- 智能家居照明控制系统研究,TP273.5
- 图像配准技术与优化算法研究,TP391.41
- 基于多特征的图像检索技术研究及实现,TP391.41
- 基于小波包及数学形态学的图像边缘处理技术及应用,TP391.41
- 基于SVM的中文垃圾邮件过滤,TP393.098
- 基于内容的电子邮件过滤系统的研究,TP393.098
- 基于嵌入式与神经网络的邮件过滤系统设计,TP393.098
- 中小企业web邮件系统的设计与实现,TP393.098
- 基于Web的PGP安全电子邮件系统研究与实现,TP393.098
- 基于朴素贝叶斯与SVM的垃圾邮件检测系统的设计与实现,TP393.098
- 企业内网垃圾邮件监控软件设计,TP393.098
- 图像匹配方法研究与应用,TP391.41
- 藻类细胞图像的特征提取与分类方法研究,TP391.41
- 纸币多光谱图像分析方法,TP391.41
- 基于语义的图像分类和检索研究,TP391.41
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 计算机网络 > 一般性问题 > 计算机网络应用程序 > 电子邮件(E-mail)
© 2012 www.xueweilunwen.com
|