学位论文 > 优秀研究生学位论文题录展示
基于NMF垃圾邮件过滤系统研究
作 者: 王军伟
导 师: 裴小兵
学 校: 华中科技大学
专 业: 软件工程
关键词: 文本分类 垃圾邮件 特征降维 非负矩阵分解
分类号: TP393.098
类 型: 硕士论文
年 份: 2009年
下 载: 24次
引 用: 0次
阅 读: 论文下载
内容摘要
随着Internet的发展,电子邮件已是人们日常交流的重要工具,方便了人们的生活和学习。但同时垃圾邮件也不断的增多,占据了邮件服务器的大量存储空间,还严重干扰了人们的正常信息交流。如何有效地控制垃圾邮件已成为人们关注的课题,基于非负矩阵分解的垃圾邮件过滤技术采用了基于语义层次的降维方法,已被很好地推广到文本分类和数据挖掘等领域。非负矩阵分解是一种新的特征项降维方法,它是一种基于语义层次上的特征项降维。与传统的降维方法相比,在降维的过程中它将特征项从语义上进行聚类,这样就可以消除特征项中一词多义,多词同义现象,从而在文本分类过程中对类别的判别正确率更高。由于非负矩阵分解是基于语义上的降维,降维效果十分显著,因此算法实现效率更快。实验结果也证实了这一点,说明非负矩阵分解在文本分类领域有重要的理论和应用价值。首先研究了文本分类中传统的降维方法,分析了这些降维方法的应用背景和实际效果,并用实验的方法进行了验证。将非负矩阵分解方法引入到邮件过滤特征项降维中,并与传统降维方法进行了对比分析。与传统降维方法相比,非负矩阵分解的方法降维效果更好,因为它是基于语义上的降维,解决了同义词和依次多义的现象,在实际的邮件过滤应用中更具有强的区分度。最后设计和实现了基于非负矩阵分解的垃圾邮件过滤演示系统。实验结果表明了非负矩阵分解的降维方法比传统降维方法更有效,邮件过滤效率更高,特征库的更新更方便。
|
全文目录
摘要 4-5 Abstract 5-9 1 绪论 9-19 1.1 课题提出的背景 9-10 1.2 国内外研究现状 10-17 1.3 本文主要研究内容 17 1.4 论文成果 17-18 1.5 论文结构 18-19 2 邮件过滤相关技术分析 19-30 2.1 文本的表示 19-22 2.2 传统特征项降维方法 22-25 2.3 非负矩阵分解降维方法 25-29 2.4 本章总结 29-30 3 基于非负矩阵的邮件过滤模型 30-36 3.1 向量空间 30-31 3.2 概念语义空间 31-32 3.3 基于非负矩阵的垃圾邮件过滤 32-35 3.4 本章小结 35-36 4 系统的设计与实现 36-44 4.1 系统的总体结构 36-37 4.2 预处理模块 37-38 4.3 中文分词 38-41 4.4 中文停用词的处理 41-42 4.5 过滤模块 42 4.6 更新模块 42-43 4.7 本章小结 43-44 5 实验结果及分析 44-52 5.1 邮件分类语料库 44-45 5.2 邮件分类算法 45-47 5.3 邮件分类评价指标 47-48 5.4 实验结果 48-50 5.5 实验结果分析 50-51 5.6 本章小结 51-52 6 总结与展望 52-54 6.1 总结 52 6.2 展望 52-54 致谢 54-55 参考文献 55-58
|
相似论文
- 基于仿生模式识别的文本分类技术研究,TP391.1
- 互联网上旅游评论的情感分析及其有用性研究,TP391.1
- 基于数据分布特征的文本分类研究,TP391.1
- 网络隐私权的民法保护,D913
- 面向文本分类的改进K近邻的支持向量机算法研究,TP391.1
- 联合聚类算法研究及应用,TP311.13
- 基于组合及统计的图像型垃圾邮件检测研究,TP391.41
- 基于树型条件随场的特定域事件提取方法研究,TP391.1
- 基于相似性测量检测图像型垃圾邮件技术的研究,TP393.098
- 网络教育新闻文本分类系统的设计与实现,TP391.1
- 一种于经验数据的软件缺陷修复工作量预测模型研究,TP311.53
- 面向图像表达的非负局部坐标分解算法,TP391.41
- 数据挖掘在邮件反垃圾系统中的应用,TP393.098
- 基于稀疏非负矩阵分解的图像检索,TP391.41
- 跨语言文本分类的研究,TP391.1
- 基于分类模型监测电子商务违禁信息的研究与实现,TP393.09
- 基于Exchange的中小企业邮件系统的研究与实现,TP393.098
- 基于语义分析的文本挖掘研究,TP391.1
- 智能视频监控系统中人体异常行为检测与识别研究,TP391.41
- 基于信息增益的贝叶斯数据挖掘算法在垃圾邮件过滤中的应用,TP393.098
- 面向互联网中文舆情信息的情感倾向分析,TP391.1
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 计算机网络 > 一般性问题 > 计算机网络应用程序 > 电子邮件(E-mail)
© 2012 www.xueweilunwen.com
|