学位论文 > 优秀研究生学位论文题录展示

基于SVM的中文文本分类相关算法的研究与实现

作 者: 陈平
导 师: 刘晓霞
学 校: 西北大学
专 业: 计算机应用技术
关键词: 文本分类 支持向量机 多类支持向量机 增量学习 组合学习
分类号: TP391.1
类 型: 硕士论文
年 份: 2008年
下 载: 377次
引 用: 6次
阅 读: 论文下载
 

内容摘要


文本分类是按照文本内容、结构等方面来组织信息,帮助人们从中挑选出所需要的内容。支持向量机是机器学习和模式识别领域研究的热点,近年来在文本分类方面广泛应用。本文以支持向量机为基础,对文本分类的相关算法进行了深入的研究,用这些算法设计并实现了一个中文文本分类系统,该系统主要包括以下几个模块:(1)预处理。实现了正向最大匹配分词算法和逆向最大匹配分词算法,提出并实现了一种改进的分词算法。该算法改进了传统的纯文本词表,使用首字索引的二级哈希词典结构;分词算法改进的匹配规则还可以同时有效地处理歧义词和未登录词问题;然后将编码策略结合到停用词表的匹配过程中进行停用词处理;(2)特征处理。实现了互信息、文档频率、信息增益和X~2(CHI)四种特征选择算法,用公式表示了特征词制约分类精度的三大因素,然后与互信息结合提出了改进的互信息特征选择算法,该算法在保留原有互信息计算简单的优点的同时还有利于强关联词的选择;(3)构造分类器。将标准支持向量机扩展到多类分类器以适应多个类别情况下的分类;针对样本的动态增加提出了一种支持向量机的增量学习方法;提出了一种改进的基于组合学习方法AdaBoost的支持向量机分类器的构造算法,这种方法采用规则抽样,有利于解决样本分布不平衡情况下的分类问题。另外,通过实验对本文系统中各个模块实现的算法进行了评测和比较。

全文目录


摘要  3-4
Abstract  4-6
目录  6-9
第一章 引言  9-14
  1.1 研究背景及意义  9-10
  1.2 文本分类的定义  10
  1.3 中文文本分类的研究基础  10-11
  1.4 研究历史与现状  11-12
  1.5 本文的研究工作  12-14
第二章 中文文本分类的主要技术  14-24
  2.1 文本分类的过程  14
  2.2 文本预处理  14-17
    2.2.1 中文分词  14-16
    2.2.2 停用词处理  16-17
  2.3 特征处理  17-19
  2.4 文本表示  19-20
  2.5 文本分类算法  20-24
第三章 基于SVM的中文文本分类系统的设计  24-28
  3.1 系统开发环境  24
  3.2 系统设计  24-27
    3.2.1 语料库(corpus)的设计  24-25
    3.2.2 主要功能模块设计  25-26
    3.2.3 系统评价标准  26-27
  3.3 本章小结  27-28
第四章 预处理模块的设计和实现  28-37
  4.1 中文分词内容  28-29
  4.2 实现的两种机械分词算法  29
  4.3 改进的分词算法  29-32
    4.3.1 算法的词典结构  30-31
    4.3.2 算法的匹配方式  31
    4.3.3 算法对歧义词的处理策略  31-32
    4.3.4 算法识别未登录词的策略  32
  4.4 去停用词处理  32-33
  4.5 预处理模块的实现和实验分析  33-36
    4.5.1 预处理模块的实现  33-34
    4.5.2 实验分析  34-36
  4.6 本章小结  36-37
第五章 特征选择算法  37-43
  5.1 特征选择  37
  5.2 实现的常用特征选择算法  37-39
  5.3 改进的特征选择算法  39-40
  5.4 特征处理模块的实现和实验分析  40-42
    5.4.1 特征处理模块的实现  40-41
    5.4.2 实验分析  41-42
  5.5 本章小结  42-43
第六章 基于SVM的分类器构造算法  43-58
  6.1 统计学习理论  43-44
  6.2 支持向量机  44-48
    6.2.1 最优超平面  44-45
    6.2.2 线性可分情况  45-46
    6.2.3 线性不可分情况  46-47
    6.2.4 非线性情况  47-48
  6.3 SVM的多类分类问题  48-51
    6.3.1 多类分类的理论基础  48-49
    6.3.2 多类分类的方法  49
    6.3.3 多类分类器的构造模式  49-50
    6.3.4 本文多类分类器的设计思路  50-51
  6.4 SVM的增量学习  51-52
    6.4.1 本文的增量学习算法  51-52
    6.4.2 实验分析  52
  6.5 基于组合学习的SVM分类器  52-57
    6.5.1 AdaBoost算法  53-54
    6.5.2 改进的基于组合学习的SVM分类算法  54-56
    6.5.3 实验结果  56-57
  6.6 本章小结  57-58
第七章 基于SVM的中文文本分类系统的实现  58-64
  7.1 系统功能模块  58
  7.2 系统实现  58-61
    7.2.1 系统主界面  59
    7.2.2 KNN分类器  59-60
    7.2.3 SVM分类器  60-61
  7.3 系统特点  61
  7.4 实验与分析  61-64
    7.4.1 实验样本集  61-62
    7.4.2 实验结果  62-64
第八章 总结与展望  64-66
  8.1 总结  64-65
  8.2 展望  65-66
参考文献  66-70
致谢  70-71
在读期间发表的论文  71

相似论文

  1. 基于SVM的常压塔石脑油干点软测量建模研究,TE622.1
  2. 基于SVM的高速公路路面浅层病害的自动检测算法研究,U418.6
  3. 空间目标ISAR成像仿真及基于ISAR像的目标识别,TN957.52
  4. 音乐结构自动分析研究,TN912.3
  5. 基于三维重建的焊点质量分类方法研究,TP391.41
  6. 胆囊炎和肾病综合症脉象信号的特征提取与分类研究,TP391.41
  7. 直推式支持向量机研究及其在图像检索中的应用,TP391.41
  8. 基于仿生模式识别的文本分类技术研究,TP391.1
  9. 互联网上旅游评论的情感分析及其有用性研究,TP391.1
  10. 基于SVM的中医舌色苔色分类方法研究,TP391.41
  11. 基于图像的路面破损识别,TP391.41
  12. 基于支持向量机的故障诊断方法研究,TP18
  13. 过程支持向量机及其在卫星热平衡温度预测中的应用研究,TP183
  14. 基于监督流形学习算法的固有不规则蛋白质结构预测研究,Q51
  15. 基于车载3D加速传感器的路况监测研究,TP274
  16. 高光谱图像技术诊断黄瓜病害方法的研究,S436.421
  17. 基于数据分布特征的文本分类研究,TP391.1
  18. 基于机器学习的入侵检测系统研究,TP393.08
  19. 基于AdaBoost算法的人脸识别研究,TP391.41
  20. 面向肺部CAD的特征提取、选择及分类方法研究,TP391.41
  21. SAR成像目标识别子区选取与匹配方法研究,TN957.52

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com