学位论文 > 优秀研究生学位论文题录展示

基于集成学习的垃圾短信多级分类技术研究

作 者: 雷杨
导 师: 傅彦
学 校: 电子科技大学
专 业: 计算机软件与理论
关键词: 垃圾短信 集成学习 文本分类
分类号: TN929.53
类 型: 硕士论文
年 份: 2011年
下 载: 83次
引 用: 0次
阅 读: 论文下载
 

内容摘要


近年来手机短信以其廉价性和方便快捷性的特点越来越成为人们所喜爱的一种联络方式,短信的应用也从最初的人与人之间的沟通工具渐渐地扩展到了一种服务的提供方式,如航班查询、天气预报订阅等。虽然手机短信业务的爆发式增长带给人们的生活极大的便利,但是与此同时,随之而来的大量的垃圾手机短信也逐渐对人们的生活产生极大负面影响。垃圾短信的泛滥不仅干扰人们的正常生活,同时给社会稳定带来了不利影响。本文以垃圾短信过滤技术为研究对象,首先介绍了垃圾短信过滤的传统技术的基本原理,如黑白名单法、关键词过滤法和基于内容识别的机器学习法,以及它们各自的优缺点,并且着重比较了各种不同的机器学习算法对于垃圾短信的分类能力。其次,本文介绍了旨在提高短信分类的稳定性和准确性的各种集成学习多级分类方法,并且以Stacking作为我们的短信过滤系统的集成学习算法,通过实验两种集成策略,我们最终得到了一个比较有效的短信分类系统。本文的主要工作体现在如下几个方面:(1)通过实验分析比较了各种机器学习算法对垃圾短信的分类能力以及它们的优缺点。(2)提出了一种分类器训练策略,通过合并那些容易混淆的类别的数据作为训练集训练出第一级分类器,然后再将这些容易混淆的类别的数据提取出来作为另外一个训练集训练出第二级分类器,使用两级分类策略有助于分类效果的提高。(3)提出了一种基于互信息的特征选择改进算法,使用改进后的算法后取得良好的效果。(4)采用Stacking集成学习技术集成了多个基本分类器,并提出了两种集成策略,在真实数据集上相对于单个分类器提高了分类的准确性。(5)实际实现了一个垃圾短信多级分类的原型系统。(6)提出了未来对这个系统的多个改进方向。

全文目录


相似论文

  1. 基于仿生模式识别的文本分类技术研究,TP391.1
  2. 互联网上旅游评论的情感分析及其有用性研究,TP391.1
  3. 基于数据分布特征的文本分类研究,TP391.1
  4. 面向文本分类的改进K近邻的支持向量机算法研究,TP391.1
  5. 基于树型条件随场的特定域事件提取方法研究,TP391.1
  6. 网络教育新闻文本分类系统的设计与实现,TP391.1
  7. 一种于经验数据的软件缺陷修复工作量预测模型研究,TP311.53
  8. 跨语言文本分类的研究,TP391.1
  9. 基于分类模型监测电子商务违禁信息的研究与实现,TP393.09
  10. 基于语义分析的文本挖掘研究,TP391.1
  11. 网络舆情分析关键技术研究与实现,TP393.09
  12. 基于概率的潜在语义分析模型在搜索引擎商业文本分类系统中的应用研究,TP391.1
  13. 基于关联技术的中文文本分类研究,TP391.1
  14. 软件缺陷自动分派研究,TP311.52
  15. 基于过滤技术的投诉信息智能分析与实现,TP391.1
  16. 基于决策树分类算法的Web文本分类研究,TP391.1
  17. 结合本体HowNet的中文文本分类研究,TP391.1
  18. 手机号码实名制下北京移动的经营策略分析,F626
  19. 基于专家委员会的主动学习算法研究,TP181
  20. 集成学习及其应用研究,TP181

中图分类: > 工业技术 > 无线电电子学、电信技术 > 无线通信 > 移动通信 > 蜂窝式移动通信系统(大哥大、移动电话手机)
© 2012 www.xueweilunwen.com