学位论文 > 优秀研究生学位论文题录展示

基于逻辑回归模型的垃圾邮件过滤系统的研究

作 者: 安波
导 师: 顾国昌
学 校: 哈尔滨工程大学
专 业: 计算机应用技术
关键词: 垃圾邮件过滤 机器学习 在线判别学习 文本分类 逻辑回归 字节级n元文法 TONE
分类号: TP393.098
类 型: 硕士论文
年 份: 2009年
下 载: 52次
引 用: 0次
阅 读: 论文下载
 

内容摘要


垃圾邮件的传播蔓延,严重侵害了电子邮件用户利益,影响了电子邮件服务运营秩序,危害了互联网安全和社会稳定,已经成为互联网一大公害。本文研究了使用文本分类进行邮件过滤的方法。基于机器学习理论的垃圾邮件过滤算法是解决垃圾邮件问题的研究热点,本文重点对中文过滤特征项和垃圾邮件过滤模型两方面进行研究。本文采用在线逻辑回归模型解决垃圾邮件过滤,提出了字节级n元文法获取邮件特征,有效解决了垃圾邮件特征获取的问题,应用该文法不仅简化了特征提取,还使得过滤器具有能够处理图像、病毒邮件的能力,为大幅提高垃圾邮件过滤器的性能奠定了基础;本文采用TONE训练方法进行垃圾邮件过滤器的训练,减轻了系统对训练数据的需求,提高了系统的效率,同时还提高了系统的鲁棒性。实验结果表明,该方法的性能极佳,可以满足实际应用的需求。本文描述的系统参加了中国计算机学会主办的SEWM (Search Engine and Web Mining) 2008垃圾邮件过滤评测,获立即反馈、主动学习、延迟反馈全部在线评测项目的第一,性能优于第二名100倍左右;在另外两个中文测试集(SEWM 2007和TREC05C)上也显著优于当年评测的最好结果。

全文目录


摘要  5-6
Abstract  6-9
第1章 绪言  9-17
  1.1 课题的来源  9-10
  1.2 课题的背景及意义  10-12
  1.3 国内外研究现状  12-16
  1.4 研究的主要内容与论文组织结构  16-17
第2章 垃圾邮件过滤的相关技术  17-31
  2.1 文本分类技术  17-21
    2.1.1 文本表示  17-18
    2.1.2 特征项定义  18-19
    2.1.3 特征选择方法(Feature Selection)  19-21
  2.2 文本分类技术解决垃圾邮件过滤  21-23
  2.3 垃圾邮件过滤中的常用算法  23-29
    2.3.1 自学习K邻近算法(KNN)  24-26
    2.3.2 支持向量机(SVM)  26-29
    2.3.3 逻辑回归(Logistic Regression)  29
  2.4 本章小结  29-31
第3章 基于逻辑回归的垃圾邮件过滤系统  31-50
  3.1 垃圾邮件过滤系统的体系结构  31-32
  3.2 逻辑回归模型  32-34
  3.3 基于字节级n-gram的特征项定义  34-44
  3.4 邮件特征选择  44
  3.5 特征向量权值估计  44-48
  3.6 训练方法  48-49
    3.6.1 TOE方法  48
    3.6.2 TONE方法  48-49
  3.7 本章小结  49-50
第4章 系统性能测试与分析  50-59
  4.1 测试环境  50-54
    4.1.1 测试集  50-51
    4.1.2 测试任务  51-52
    4.1.3 评测指标  52-54
  4.2 测试结果  54-57
  4.3 测试结果分析  57-58
  4.4 本章小结  58-59
结论  59-61
参考文献  61-64
攻读硕士学位期间发表的论文和取得的科研成果  64-65
致谢  65-66
个人简历  66-67
附录  67-72

相似论文

  1. 基于仿生模式识别的文本分类技术研究,TP391.1
  2. 互联网上旅游评论的情感分析及其有用性研究,TP391.1
  3. 基于数据分布特征的文本分类研究,TP391.1
  4. 面向文本分类的改进K近邻的支持向量机算法研究,TP391.1
  5. 周口方言连读变调的优选论分析,H172.1
  6. 基于条件随机场的中文分词技术的研究与实现,TP391.1
  7. 领域知识指导的半监督学习和主动学习倾向性分类研究,TP181
  8. 基于树型条件随场的特定域事件提取方法研究,TP391.1
  9. Android恶意软件静态检测方案的研究,TP309
  10. 网络教育新闻文本分类系统的设计与实现,TP391.1
  11. 监督主题模型的研究与应用,TP391.1
  12. 一种于经验数据的软件缺陷修复工作量预测模型研究,TP311.53
  13. 基于失真效应的图像质量评价与分类,TP391.41
  14. 基于学习的逆向运动学人体运动合成,TP391.41
  15. 基于内容的网页恶意代码检测的研究与实现,TP393.092
  16. 学术主页信息抽取系统的研究,TP393.092
  17. 社会化网络中的推荐算法及其应用,TP391.3
  18. 数据挖掘在邮件反垃圾系统中的应用,TP393.098
  19. 河北省乳产品消费需求及其对策的数学模型研究,F426.82
  20. 基于自学习的社会关系抽取的研究,TP391.1
  21. 跨语言文本分类的研究,TP391.1

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 计算机网络 > 一般性问题 > 计算机网络应用程序 > 电子邮件(E-mail)
© 2012 www.xueweilunwen.com