学位论文 > 优秀研究生学位论文题录展示

基于组合及统计的图像型垃圾邮件检测研究

作 者: 王慕妮
导 师: 张卫丰
学 校: 南京邮电大学
专 业: 计算机软件与理论
关键词: 图像型垃圾邮件 特征提取 局部不变特征 高斯混合模型 交叉熵
分类号: TP391.41
类 型: 硕士论文
年 份: 2012年
下 载: 18次
引 用: 0次
阅 读: 论文下载
 

内容摘要


随着物联网时代逐步到来,电子邮件仍然是最重要的沟通工具之一。然而,其副产物——垃圾邮件的出现给人们的生活带来了潜在的危险。其中图像型垃圾邮件促使着反垃圾邮件技术进入一个新的研究领域。如何精确和高效地检测图像型垃圾邮件是急需解决的问题。论文系统地分析了图像型垃圾邮件的产生背景、发展现状及研究意义,提出了基于组合及统计分类器的图像型垃圾邮件的检测方法。论文的主要工作和贡献在于:(1)提出了利用SURF特征提取算法来提取图片的局部不变特征并使用统计学中的高斯混合模型来对图像的这种特征进行高斯混合分布的拟合。通过改进K-means均值聚类算法,以交叉熵作为高斯混合分布之间的距离计算标准,对数据集中图像的高斯混合模型进行聚类以减少实验的计算量,提高实验的效率。最终设计并实现了基于交叉熵的高斯混合模型分类器,通过实验验证,新提出的分类器具有较好的分类效果。(2)以往的图像型垃圾邮件过滤系统只针对图像的内容特征或者图像的文字特征,而容易丢失图像信息,导致分类的准确度不高。论文提出使用堆栈组合模型分类器结合了图像的文字特征与图像的内容特征,充分利用了图像所携带的数据信息,特别地,针对不同的图像特征使用不同的分类器进行分类,然后通过多层次组合得出一个综合的结果。通过多种实验验证,发现使用堆栈组合模型综合图像的文字及内容特征能够获得更高的分类精确度及召回率。

全文目录


摘要  4-5
Abstract  5-8
第一章 绪论  8-12
  1.1 研究背景  8-9
  1.2 研究目的与意义  9-10
  1.3 研究内容与结构  10-12
第二章 图像型垃圾邮件检测技术综述  12-22
  2.1 引言  12
  2.2 垃圾图像  12-15
    2.2.1 垃圾图像的构造  12-14
    2.2.2 垃圾图像的特点  14-15
  2.3 图像型垃圾邮件检测方法  15-20
    2.3.1 基于文本特征的检测方法  15-16
    2.3.2 基于边缘特征的检测方法  16-17
    2.3.3 基于造假特征的检测方法  17-19
    2.3.4 其它检测方法  19-20
  2.4 评价指标  20-21
  2.5 本章小结  21-22
第三章 基于统计分类器的图像型垃圾邮件检测  22-36
  3.1 引言  22
  3.2 图像型垃圾邮件的相似性检测  22-23
  3.3 高斯混合模型分类器的提出  23-24
  3.4 特征提取与优化  24-27
    3.4.1 尺度旋转不变特征算法  24-25
    3.4.2 SURF特征提取算法  25-26
    3.4.3 特征向量的优化  26-27
  3.5 GMM分类器的设计  27-32
    3.5.1 GMM简介  27-28
    3.5.2 GMM分类器的设计  28-32
  3.6 实验与讨论  32-35
    3.6.1 图像样本库的构建  32-33
    3.6.2 实验与结果分析  33-35
  3.7 本章小结  35-36
第四章 基于组合的图像型垃圾邮件检测  36-47
  4.1 引言  36
  4.2 传统的图像型垃圾邮件检测算法  36-37
  4.3 堆栈组合分类模型的设计  37-41
    4.3.1 堆栈组合分类模型的提出  37
    4.3.2 堆栈组合分类模型的总设计思路  37-39
    4.3.3 图像特征的提取  39-40
    4.3.4 投票与堆栈方法  40-41
  4.4 实验与讨论  41-46
    4.4.1 实验数据集  41-42
    4.4.2 实验与结果分析  42-46
  4.5 本章小结  46-47
第五章 总结与展望  47-49
  5.1 论文完成的工作  47-48
  5.2 未来的研究方向  48-49
致谢  49-50
攻读硕士学位期间发表的论文  50
攻读硕士学位期间获得的专利申请  50-51
缩略词  51-52
图表清单  52-53
参考文献  53-58

相似论文

  1. 基于SVM的高速公路路面浅层病害的自动检测算法研究,U418.6
  2. 空间目标ISAR成像仿真及基于ISAR像的目标识别,TN957.52
  3. 胆囊炎和肾病综合症脉象信号的特征提取与分类研究,TP391.41
  4. Q学习在基于内容图像检索技术中的应用,TP391.41
  5. 直推式支持向量机研究及其在图像检索中的应用,TP391.41
  6. 中医舌诊中舌形与齿痕的特征提取及分类研究,TP391.41
  7. 图像分割中阴影去除算法的研究,TP391.41
  8. 空间交会接近视觉测量方法研究,TP391.41
  9. 图像实时采集、存储与处理方法研究,TP391.41
  10. 唇读中的特征提取、选择与融合,TP391.41
  11. 多币种纸币处理技术的研究与实现,TP391.41
  12. 基于类Harr特征和最小包含球的纸币识别方法的研究,TP391.41
  13. 基于图像的路面破损识别,TP391.41
  14. 移动机器人视觉检测和跟踪研究,TP242.62
  15. 高光谱与高空间分辨率遥感图像融合算法研究,TP751
  16. 基于随机森林的植物抗性基因识别方法研究,Q943
  17. 基于图像处理技术的烟叶病害自动识别研究,S435.72
  18. 基于视觉的番木瓜外观品质检测技术研究,S667.9
  19. 羊绒与羊毛纤维鉴别系统的研究,TS101.921
  20. 红外图像目标识别及跟踪技术研究,TP391.41
  21. 水下目标特征的压缩与融合技术研究,TN911.7

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 模式识别与装置 > 图像识别及其装置
© 2012 www.xueweilunwen.com