学位论文 > 优秀研究生学位论文题录展示

基于信息增益的贝叶斯数据挖掘算法在垃圾邮件过滤中的应用

作 者: 张倩
导 师: 张敏霞
学 校: 浙江工业大学
专 业: 计算机技术
关键词: 垃圾邮件 贝叶斯分类 信息增益
分类号: TP393.098
类 型: 硕士论文
年 份: 2012年
下 载: 26次
引 用: 0次
阅 读: 论文下载
 

内容摘要


无论是日常生活中,还是商务活动中,电子邮件都已成为重要的沟通工具之一,但电子邮件的日益发展,人们饱受垃圾邮件的骚扰,严重影响了正常的通信沟通。随着互联网时代信息的大发展,垃圾邮件在内容上有了许多新变化,这些新型的垃圾邮件使得旧有的过滤系统防不胜防,识别率不够高的过滤系统无法阻挡新型垃圾邮件,但过度严格的过滤系统却可能将正常信件误判为垃圾邮件。因此,邮件过滤系统仍有很大的改进空间,目前垃圾邮件过滤技术的瓶颈已不在于提升拦截率,而是应该思考如何在保持高拦截率的同时,也能降低过滤系统对正常信件的误判率。通过观察发现,邮件用户所保留的正常信件中,具有一些重要特征可供邮件过滤系统学习,因此本文分别从垃圾邮件与正常信件中挖掘一部份特征,提高贝叶斯模型知识获取的效率,从而改善贝叶斯挖掘算法的分类效果,并结合马尔科夫链处理法,提出一个以邮件内容为基础的垃圾邮件过滤方法。此外,特征值的数量大小会影响分类器的过滤效能,但以固定数量选取特征却不一定是最佳的,因此本文提出基于信息增益的特征选择方法,并以此改进贝叶斯模型,通过信息增益计算来决定最佳特征数量,以找出最适当的特征值数量,达到垃圾邮件过滤效果的最佳化。论文以TREC 2006所提供的中文语料库设计了实验论证,实验结果表明本文方法可明显区别垃圾邮件与正常信件的不同,可以有效对中文垃圾邮件进行过滤。

全文目录


摘要  5-6
ABSTRACT  6-10
第1章 绪论  10-16
  1.1 课题背景  10-11
  1.2 国内外研究现状  11-14
  1.3 论文研究内容和结构  14-16
    1.3.1 研究内容  14
    1.3.2 论文组织结构  14-16
第2章 相关技术研究  16-27
  2.1 垃圾邮件特性  16-17
  2.2 防治垃圾邮件相关技术  17-27
    2.2.1 垃圾邮件阻挡技术研究  18-19
    2.2.2 垃圾邮件过滤技术研究  19-27
第3章 基于信息增益的贝叶斯数据挖掘过滤算法的改进  27-44
  3.1 传统垃圾邮件过滤技术瓶颈  27-28
    3.1.1 正常信件的重要信息特征  27-28
    3.1.2 特征值数量  28
  3.2 贝叶斯算法的基本思想  28-30
  3.3 贝叶斯定理  30-32
  3.4 贝叶斯数据挖掘过滤的建置  32-39
    3.4.1 基于马尔科夫链的分词技术  33-35
    3.4.2 停用字  35-36
    3.4.3 贝叶斯分类器  36-39
  3.5 基于信息增益的算法改进  39-44
    3.5.1 以信息增益选取重要特征值  40-41
    3.5.2 特征选取方法的改进  41-42
    3.5.3 以互斥信息过滤负相关之特征值  42
    3.5.4 特征值个数  42-44
第4章 仿真实验设计  44-53
  4.1 实验数据  44
  4.2 实验结果和比较  44-50
  4.3 错误分析  50-53
第5章 结论与展望  53-55
参考文献  55-58
致谢  58

相似论文

  1. 类药性和生物利用度的理论预测研究,R914
  2. 网络隐私权的民法保护,D913
  3. 基于组合及统计的图像型垃圾邮件检测研究,TP391.41
  4. 基于改进遗传算法的神经网络输入约简,TP18
  5. 基于改进的非参数回归交通流量预测方法,F570
  6. 基于相似性测量检测图像型垃圾邮件技术的研究,TP393.098
  7. 基于贝叶斯理论的网页木马检测技术研究,TP393.092
  8. 数据挖掘在邮件反垃圾系统中的应用,TP393.098
  9. 基于数据挖掘技术的求职招聘系统设计与实现,TP311.13
  10. 视频数据中人体动作的分类研究,TP391.41
  11. 基于Exchange的中小企业邮件系统的研究与实现,TP393.098
  12. 贝叶斯分类算法的研究与应用,TP18
  13. 基于内容检索的垃圾邮件过滤器研究与实现,TP393.098
  14. 面向工程监理的多Agent信息智能检索机制研究,TP391.3
  15. 基于朴素贝叶斯分类技术的纳税评估模型研究,F812.42
  16. 基于有监督奇异值分解和类随机森林决策方法的肿瘤特征基因筛选研究,R730.4
  17. 半监督学习中协同训练与多视图方法的比较及改进,TP18
  18. 集成学习及其应用研究,TP181
  19. 基于内容挖掘的中文垃圾邮件过滤技术研究,TP393.098
  20. 基于聚类分析的网络流量分类研究,TP393.06

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 计算机网络 > 一般性问题 > 计算机网络应用程序 > 电子邮件(E-mail)
© 2012 www.xueweilunwen.com