学位论文 > 优秀研究生学位论文题录展示

Boosting在文本分类中的应用

作 者: 周志平
导 师: 郭建华
学 校: 东北师范大学
专 业: 概率论与数理统计
关键词: 文本分类 Na(?)ve Bayes Boosting AdaBoost
分类号: TP391.1
类 型: 硕士论文
年 份: 2010年
下 载: 87次
引 用: 0次
阅 读: 论文下载
 

内容摘要


在当今社会,人们身边充斥着大量的数据,特别是文本数据,使人目不暇接。面对如此海量数据,我们已经不能简单地凭借人工处理来得到信息,迫切需要计算机来帮助我们更好地发现和管理这些信息资源。如何从海量数据中挖掘出有用的信息已成为当今科学研究的一个重要课题。文本数据挖掘是应用数理统计方法及计算机技术,对文本数据进行信息提取的一门新兴学科。文本分类是文本数据挖掘的一个重要研究方向。文本分类的方法已经有很多,比如Na?ve Bayes,K-近邻,支持向量机,神经网络等等。但对于中文文本分类问题,由于中文文本本身的复杂性,一直没有得到很好的解决,中文文本分类是建立在汉字编码,词语切分,歧义词消解和新词的识别等基础上的一项技术。中文文本数据的处理是以语句作为研究对象,以词作为最小研究单位的,因此无论是在中文文本数据的语法研究还是计算数学模型上都存在相当大的难度,目前采用的方法主要有基于语法规则的方法,基于数理统计方法,以及语法规则与数理统计相结合的方法。本文是在采用反向最大匹配分词技术,消解歧义,以及添加新词的基础上,建立了向量空间模型。基于数理统计的方法,使用Na?ve Bayes分类器,并使用AdaBoost算法对分类器的分类效率进行提升,以达到提高预测精度的目的。针对本文提出的方法,将其应用到了“长春市市长公开电话”数据的分类问题中,分类精度得到提升,显示该方法的有效性及其重要的应用价值。

全文目录


摘要  4-5
Abstract  5-7
引言  7-9
一、Boosting方法  9-11
二、Na(?)ve Bayes方法  11-14
  (一) 模型假设  11-12
  (二) 参数估计  12-13
  (三) 建立分类器  13-14
三、AdaBoost  14-17
  (一) 带权重数据的参数估计  14-15
  (二) AdaBoost算法  15-17
四、实例分析  17-20
  (一) 确定分类器个数M  17-19
  (二) 训练样本和检测样本的精度对比  19-20
五、结论  20-21
参考文献  21-23
致谢  23

相似论文

  1. 基于三维重建的焊点质量分类方法研究,TP391.41
  2. 舌体特征的提取及融合分类方法研究,TP391.41
  3. 基于人眼检测的驾驶员疲劳状态识别技术,TP391.41
  4. 基于仿生模式识别的文本分类技术研究,TP391.1
  5. 互联网上旅游评论的情感分析及其有用性研究,TP391.1
  6. 唇读中的特征提取、选择与融合,TP391.41
  7. 基于类Harr特征和最小包含球的纸币识别方法的研究,TP391.41
  8. 基于监督流形学习算法的固有不规则蛋白质结构预测研究,Q51
  9. 基于差分演化的人脸识别方法研究,TP391.41
  10. 基于数据分布特征的文本分类研究,TP391.1
  11. 面向文本分类的改进K近邻的支持向量机算法研究,TP391.1
  12. 基于AdaBoost算法的人脸识别研究,TP391.41
  13. 基于单目视觉的车辆检测算法研究与实现,TP274
  14. 基于连续Adaboost算法的多角度人脸检测技术研究与实现,TP391.41
  15. 人脸表情识别算法研究,TP391.41
  16. 基于树型条件随场的特定域事件提取方法研究,TP391.1
  17. 网络教育新闻文本分类系统的设计与实现,TP391.1
  18. 一种于经验数据的软件缺陷修复工作量预测模型研究,TP311.53
  19. 多目标跟踪算法研究,TN953
  20. 基于小波变换和线性子空间的人脸识别技术研究,TP391.41
  21. 基于结构化稀疏谱哈希的图像索引算法,TP391.41

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com