学位论文 > 优秀研究生学位论文题录展示

基于内容的垃圾邮件过滤研究

作　者: 潘文锋
导　师: 王斌
学　校: 中国科学院研究生院（计算技术研究所）
专　业: 计算机软件与理论
关键词: 垃圾邮件过滤文本分类简单贝叶斯 Winnow 反馈学习信息过滤
分类号: TP393.098
类　型: 硕士论文
年　份: 2004年
下　载: 614次
引　用: 71次
阅　读: 论文下载

内容摘要

电子邮件已经成为人们日常生活中通信、交流的重要手段之一,但垃圾邮件问题也日益严峻,网民平均每天收到的垃圾邮件数量已超过了正常邮件。目前经常采用的垃圾邮件过滤技术一般包括白名单与黑名单技术、规则过滤以及基于关键词匹配的内容扫描等。另外一条路线就是从电子邮件的文本内容入手,使用文本分类、信息过滤的算法,在训练邮件集合上学习垃圾邮件分类器。垃圾邮件过滤中常用的文本分类方法有简单贝叶斯、k-近邻、决策树、boosting等。简单贝叶斯方法计算简便,但召回率和正确率难以提到一个更高的层次,而且不适合于增量式的反馈学习。其他的几种方法有的效果比简单贝叶斯好一些,但计算较复杂。本文在分析简单贝叶斯方法的基础上,试图寻找一种速度快、计算简便、性能好、反馈学习方便的垃圾邮件过滤器。Winnow是一种错误驱动的在线学习线性分类算法,其在线学习的特性非常适合“一例一学”的增量式反馈,作者将Winnow算法应用于垃圾邮件过滤,在公用的邮件语料上的实验表明,Winnow的效果比简单贝叶斯方法要好,接近于Boosting方法。具体的说,本文的工作主要包含下列内容:1)概述垃圾邮件过滤问题的研究现状。包括垃圾邮件的定义、危害以及常用的过滤技术。2)介绍文本分类算法在邮件过滤上的应用,总结了常用的特征选择方法、分类算法以及通用的邮件语料库。3)详细分析邮件过滤中的简单贝叶斯算法。使用PU1邮件语料实验贝叶斯算法的性能,并比较特征数量、分类阈值以及语料的预处理层次对结果的影响。4)将Winnow线性分类算法引入到邮件过滤中,在PU1语料和Ling-Spam语料上实验Winnow分类器,得到了较好的效果。5)结合简单贝叶斯算法和Winnow分类器,分析垃圾邮件过滤的反馈学习技术。6)设计了一个客户端邮件过滤系统的基本框架。

全文目录

摘要  4-5
Abstract  5-9
第一章引言  9-12
  1.1 背景  9-11
  1.2 本文的内容安排  11-12
第二章垃圾邮件过滤研究现状  12-18
  2.1 服务器端和客户端的邮件过滤  12-13
  2.2 白名单和黑名单  13
  2.3 设定过滤规则  13-15
    2.3.1 信头分析  14-15
    2.3.2 群发过滤  15
    2.3.3 关键词精确匹配  15
    2.3.4 邮件内容中的其他特征  15
  2.4 基于内容的垃圾邮件过滤技术  15-16
    2.4.1 垃圾邮件过滤与文本分类  15-16
    2.4.2 垃圾邮件过滤与信息过滤  16
  2.5 小结  16-18
第三章垃圾邮件内容过滤技术  18-30
  3.1 文本分类简介  18-19
  3.2 特征选择方法  19-21
    3.2.1 文档频次  19
    3.2.2 互信息  19
    3.2.3 信息增益  19-20
    3.2.4 χ~2 统计量  20
    3.2.5 相对熵  20-21
    3.2.6 优势率  21
  3.3 垃圾邮件内容过滤中应用的文本分类方法  21-25
    3.3.1 贝叶斯分类算法  21-22
    3.3.2 Memory-Based方法  22
    3.3.3 决策树  22-23
    3.3.4 Boosting方法  23-24
    3.3.5 支持向量机  24-25
  3.4 垃圾邮件内容过滤中的常用语料库  25-28
    3.4.1 PU1 语料  26-27
    3.4.2 Ling-Spam语料  27-28
    3.4.3 Spam Assassin语料  28
    3.4.4 Spambase语料  28
    3.4.5 Spamarchive  28
  3.5 评价体系  28-29
  3.6 小结  29-30
第四章贝叶斯邮件过滤  30-42
  4.1 贝叶斯方法简介  30
  4.2 贝叶斯文本分类算法的两种模型  30-34
    4.2.1 多变量贝努里事件模型  32-33
    4.2.2 多项式事件模型  33-34
  4.3 贝叶斯算法中的特征选择  34
  4.4 基于最小风险的贝叶斯决策  34-35
  4.5 贝叶斯算法应用于垃圾邮件过滤的实验  35-37
  4.6 实验结果比较与分析  37-39
    4.6.1 特征数量对实验结果的影响  37-39
    4.6.2 阈值对实验结果的影响  39
    4.6.3 语料的预处理层次对实验结果的影响  39
  4.7 小结  39-42
第五章 Winnow算法在垃圾邮件过滤上的应用  42-51
  5.1 线性分类器  42-43
  5.2 Winnow分类算法  43-45
    5.2.1 错误驱动的在线学习  43
    5.2.2 最基本的Winnow算法  43-44
    5.2.3 Balanced Winnow  44-45
  5.3 Winnow在垃圾邮件过滤上的应用  45-48
    5.3.1 PU1 语料上的实验  45-48
    5.3.2 Ling-Spam语料上的实验  48
  5.4 结果分析：Winnow的优势  48-50
  5.5 小结  50-51
第六章垃圾邮件过滤中的反馈学习  51-54
  6.1 Rocchio算法  51
  6.2 垃圾邮件过滤的反馈学习方法  51-52
    6.2.1 增量式学习  51-52
    6.2.2 重新学习  52
  6.3 贝叶斯邮件过滤中的反馈学习技术  52-53
  6.4 Winnow过滤中的反馈学习技术  53
  6.5 小结  53-54
第七章总结  54-57
  7.1 一个垃圾邮件过滤系统的设计  54
  7.2 本文总结  54-55
  7.3 未来工作  55-57
参考文献  57-62
致谢  62-63
作者简历  63

相似论文

基于仿生模式识别的文本分类技术研究,TP391.1
互联网上旅游评论的情感分析及其有用性研究,TP391.1
基于数据分布特征的文本分类研究,TP391.1
面向文本分类的改进K近邻的支持向量机算法研究,TP391.1
基于树型条件随场的特定域事件提取方法研究,TP391.1
基于策略Agent的个性化信息检索系统的研究与实现,TP391.3
网络舆情分析关键技术研究与实现,TP393.09
基于概率的潜在语义分析模型在搜索引擎商业文本分类系统中的应用研究,TP391.1
面向工程监理的多Agent信息智能检索机制研究,TP391.3
基于决策树分类算法的Web文本分类研究,TP391.1
结合本体HowNet的中文文本分类研究,TP391.1
基于NMF垃圾邮件过滤系统研究,TP393.098
基于WEB2.0的网络招聘管理系统开发与设计,TP311.52
中文文本分类方法研究,TP391.1
互联网文本视频过滤技术研究与应用,TP391.41
网络文本信息采集分析关键技术研究与实现,TP391.1
面向企业竞争情报的Web文本挖掘关键技术的研究与实现,TP391.1
异构信息源的领域人物信息抽取研究,TP391.1
基于改进KNN的文本分类算法的设计与实现,TP391.1
文本分类中特征降维技术的研究,TP391.1
面向网络知识服务的医疗信息分类方法,TP391.1