学位论文 > 优秀研究生学位论文题录展示

基于支持向量机的文本分类研究

作 者: 吴国进
导 师: 周爱武
学 校: 安徽大学
专 业: 计算机软件与理论
关键词: 文本分类 支持向量机 二叉树多分类SVM 文本预处理 球结构
分类号: TP391.1
类 型: 硕士论文
年 份: 2011年
下 载: 52次
引 用: 0次
阅 读: 论文下载
 

内容摘要


随着信息化时代的不断进步,人们越来越多的依赖网络,每天产生的电子信息数以万计,如何对这些信息进行有效的归类成了一大难题。数据挖掘技术的出现给人们指引了一条解决文本分类的道路,其中文本自动分类技术就是数据挖掘中的一个重要的分支。伴随着人们对文本分类方法不断的了解,越来越多的方法应用于文本分类,如:朴素贝叶斯方法、K近邻方法、最大熵方法等,目前有一种新的方法学者们研究的是如火如荼,那就是支持向量机方法[1,2]。支持向量机是Vapnik最先提出,是一种统计学方法,支持向量机同样继承了统计学方法在机器学习中表现的诸多优点,同时支持向量机方法在解决小样本非线性问题时更表现出强大的性能。但是传统支持向量机方法主要是解决两类问题的分类,如何将其拓展到多类分类是很多学者正在研究的重点,这也是本文研究的重点。本文在介绍文本挖掘和文本分类的相关技术的基础上,重点介绍了几种多分支持向量机的构造方法,分析他们的优缺点,然后提出了一种改进的多分支持向量机,并通过实验验证了其在文本分类中具有很好的效果。本文主要在下面几个方面进行了研究:①介绍了文本挖掘和文本分类的相关技术,包括:文本的预处理、文本的表示、文本的特征的提取和特征值的计算。本文中文本的表示方法使用向量空间模型(Vector Space Model, VSM),特征值权重的计算使用TF-IDF公式。在介绍完这些基础知识之后列举了几种常见的文本分类方法:朴素贝叶斯、类中心向量、K近邻、最大熵和支持向量机方法,分析和比较了这些方法的优缺点。②介绍了支持向量机的理论知识,分析和阐述了支持向量机作为一种统计学方法在机器学习中的优势。然后介绍了其用于分类的基本原理,和用于分类时常用技术:如向量空间的映射、核函数的选择等。最后重点阐述了几种常用的构造多分支持向量机的方法:一对一、一对多、决策导向非循环图和二叉树方法,分析了这些方法的分类的性能,然后着重阐述二叉树分类方法相对于其它三种方法具有更好的性能。③本文的核心部分是提出了一种改进的二叉树多分支持向量机的构造方法。在介绍改进算法之前,首先介绍了两种典型的二叉树生成算法:偏二叉树和完全或近似完全二叉树,比较了这两种二叉树在模型训练、分类准确性和分类效率方面的性能,这两种方法是各有所长。在分析完这两种二叉树构造方法之后介绍了一种改进的二叉树生成算法,改进后的算法构造出的二叉树结构比较符合样本的分布情况,这样使得分类的准确率有所提高,而且改进后得到的二叉树的整体结构类似于完全二叉树,所以又可以使分类的效率比较高。最后通过一个具体的例子说明了改进后的算法相比另外两种算法具有更好的性能。④本文的又一个核心部分是最后的实验,分为两个实验,第一个实验的数据来源于UCI数据库的数值数据,该实验在分类的准确率和模型的训练时间上对改进的算法、偏二叉树算法和完全二叉树算法进行了比较,实验的结果验证了改进算法的预期效果。第二个实验是将改进的算法运用于文本分类,实验的样本数据来源于门户网站上,已经确定好的类别,并将改进后的算法与朴素贝叶斯、K近邻、Rocchio、偏二叉树和完全二叉树算法进行比较,最后得出结论:改进的算法在分类性能上有所提高。

全文目录


摘要  3-5
Abstract  5-8
目录  8-10
第一章 绪论  10-15
  1.1 引言  10-11
  1.2 选题背景及课题意义  11-12
  1.3 研究现状  12-14
    1.3.1 支持向量机的研究现状  12-13
    1.3.2 文本分类的研究现状  13-14
  1.4 论文的研究思路及内容  14-15
第二章 文本分类的相关技术  15-26
  2.1 文本预处理  15
  2.2 文本表示  15-18
    2.2.1 布尔模型  15-16
    2.2.2 概率模型  16
    2.2.3 向量空间模型  16-18
  2.3 特征选取  18-20
    2.3.1 信息增益(information gain)  19
    2.3.2 期望交叉熵  19
    2.3.3 互信息  19-20
    2.3.4 文本特征权  20
    2.3.5 词频  20
  2.4 常用的分类方法  20-26
    2.4.1 朴素贝叶斯  20-22
    2.4.2 类中心向量  22-24
    2.4.3 K近邻  24
    2.4.4 最大熵模型  24-25
    2.4.5 支持向量机  25-26
第三章 SVM理论及多分构造方法  26-35
  3.1 引言  26
  3.2 支持向量机理论  26-31
    3.2.1 最优分类超平面  26-29
    3.2.2 向量空间映射  29-31
    3.2.3 支持向量机分类算法步骤  31
  3.3 多类支持向量机  31-35
    3.3.1 一对多方法  32
    3.3.2 一对一方法  32
    3.3.3 决策导向非循环图SVM分类方法  32-33
    3.3.4 二叉树的多类SVM分类方法  33-35
第四章 一种改进的二叉树多分SVM算法  35-46
  4.1 常用的二叉树多分支持向量机  36-41
    4.1.1 偏二叉树多分支持向量机  36-37
    4.1.2 完全或近似完全二叉树支持向量机  37
    4.1.3 两种算法的分析  37-41
  4.2 一种改进的二叉树多分支持向量机  41-45
    4.2.1 相似度函数  41-42
    4.2.2 一种改进的二叉树生成算法  42-44
    4.2.3 改进算法的分析  44-45
  4.3 本章小结  45-46
第五章 改进算法在文本分类中的应用  46-52
  5.1 实验环境  46
  5.2 分类器性能评判标准  46-47
  5.3 三种二叉树之间的实验比较  47-49
  5.4 改进后的算法应用与文本分类并与其它算法比较  49-51
  5.5 本章小结  51-52
第六章 总结与展望  52-54
  6.1 总结  52-53
  6.2 展望  53-54
参考文献  54-58
附录A 图目录  58-59
附录B 表目录  59-60
Appendix A:Figure Index  60-61
Appendix B:Table Index  61-62
致谢  62-63
攻读硕士学位期间主要科研工作及成果  63
  参与的科研开发项目  63
  学术论文  63

相似论文

  1. 基于SVM的常压塔石脑油干点软测量建模研究,TE622.1
  2. 基于SVM的高速公路路面浅层病害的自动检测算法研究,U418.6
  3. 基于PCA-SVM的液体火箭发动机试验台故障诊断算法研究,V433.9
  4. 空间目标ISAR成像仿真及基于ISAR像的目标识别,TN957.52
  5. 音乐结构自动分析研究,TN912.3
  6. 基于三维重建的焊点质量分类方法研究,TP391.41
  7. 胆囊炎和肾病综合症脉象信号的特征提取与分类研究,TP391.41
  8. 直推式支持向量机研究及其在图像检索中的应用,TP391.41
  9. 基于仿生模式识别的文本分类技术研究,TP391.1
  10. 互联网上旅游评论的情感分析及其有用性研究,TP391.1
  11. 基于SVM的中医舌色苔色分类方法研究,TP391.41
  12. 基于图像的路面破损识别,TP391.41
  13. 基于支持向量机的故障诊断方法研究,TP18
  14. 过程支持向量机及其在卫星热平衡温度预测中的应用研究,TP183
  15. 基于监督流形学习算法的固有不规则蛋白质结构预测研究,Q51
  16. 基于车载3D加速传感器的路况监测研究,TP274
  17. 高光谱图像技术诊断黄瓜病害方法的研究,S436.421
  18. 基于数据分布特征的文本分类研究,TP391.1
  19. 基于机器学习的入侵检测系统研究,TP393.08
  20. 支持向量机回归在短期电力负荷预测中的应用研究,TM715;F224
  21. 面向文本分类的改进K近邻的支持向量机算法研究,TP391.1

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com