学位论文 > 优秀研究生学位论文题录展示

基于VSM模型和特征选择算法的中文文本自动分类研究

作 者: 朱坤红
导 师: 汪浩
学 校: 江西师范大学
专 业: 管理科学与工程
关键词: 特征选择 tf-idf 向量空间模型(VSM) 互信息 KNN 支持向量机(SVM) 文本分类
分类号: TP391.1
类 型: 硕士论文
年 份: 2011年
下 载: 61次
引 用: 1次
阅 读: 论文下载
 

内容摘要


文本分类(Text Categorization)是指根据文本的内容,计算机按照某种自动分类算法,把文本判分为预先定义好的类别。文本分类在信息检索,信息过滤,基于个性化的信息服务等方面有着重要用途。随着数字化文档信息总量的快速增长,大规模文本处理已经成为一个挑战。实现文本自动分类的基本困难之一是特征项空间的维数过高,数量过大的特征项一方面导致分类算法的代价过高,另一方面导致无法准确地提取文档的类别信息,造成分类效果不佳。因此,需要在不牺牲分类质量的前提下尽可能地降低特征项空间的维数。本文研究如何利用向量空间模型(VSM)特征选择技术来有效对文本特征向量空间进行降维,减少维数过高对分类结果召回率和准确率的影响。本文针对特征选择算法中tf-idf无法反映词汇的重要程度和特征词的分布情况和互信息没有考虑特征项出现在文本中的次数提出改进方法,同时还引入测量学中的区分度方法来对文本进行特征选择,然后通过SVM分类算法进行分析、统计、学习,最后得到一个自动的文本分类系统。本文是在向量空间模型(VSM)的基础上对中文文本自动分类进行研究,研究的主要内容和创新点如下:1.本文针对向量空间模型(VSM)中的tf-idf存在的不足提出了一种改进方法,传统的tf-idf方法无法反映词汇的重要程度和特征词的分布情况,改进的tf-idf加入了类别中包含词汇的文本数及词汇出现在某一类文本中的次数,改进后的tf-idf可以很明了地区分出特征项的重要程度;2.为了降维特征向量空间,本文针对特征选择方法中互信息方法提出了一种改进方法,改进后的互信息有效的解决了受特征词条的边缘分布的影响导致稀有词的值偏大这个问题,从一定程度上解决了“过度拟合”问题;3.在降低特征向量空间维数方法上,本文引入了测量学上的区分度方法,一种特征选择区分度方法-比例区分度(CPD)算法,CPD算法可以反映了词出现在某个类和其他类中的文本数,通过结合改进的tf-idf权重公式可以选取出更具有代表性的特征项,有利于文本分类;4.本文设计了一个中文文本分类系统,该系统由预处理、特征选择、文本表示、文本分类及评价五个部分组成。预处理是对训练集文本进行分词,过滤停用词、数字等;特征选择部分采用了文档频率、互信息、卡方统计和改进的互信息、比例区分度几种方法进行比较,并结合改进的tf-idf方法计算特征项在文本中的权重;分类部分则是利用SVM分类器进行分类。5.本文所有的实验都是以中文文本分类语料库-TanCorpvl.0为实验数据,利用汉语分词系统ICTCLAS对文本进行分词,性能评估方法使用的是文本分类常用的微平均和宏平均。

全文目录


摘要  3-5
Abstract  5-9
第1章 绪论  9-14
  1.1 研究文本自动分类的背景和意义  9-10
  1.2 国内外研究现状综述  10-12
    1.2.1 特征选择算法的研究现状  10-11
    1.2.2 文本自动分类的研究现状  11-12
  1.3 本文的研究目标和主要内容  12-13
  1.4 本文组织结构  13-14
第2章 文本分类研究综述  14-26
  2.1 文本分类基本概念  14-15
    2.1.1 文本分类的定义  14
    2.1.2 文本分类的流程  14-15
  2.2 文本表示综述  15-18
    2.2.1 向量空间模型(VSM)  16-17
      2.2.1.1 tf-idf 权重  16-17
      2.2.1.2 词频权重(TF)  17
      2.2.1.3 熵权重  17
    2.2.2 布尔模型  17
    2.2.3 概率模型  17-18
  2.3 特征选择算法研究综述  18-20
    2.3.1 文档频率方法(DF)  18
    2.3.2 信息增益方法(Information Gain,IG)  18-19
    2.3.3 卡方统计量方法(CHI-square)  19-20
    2.3.4 期望交叉熵(Expected Cross Entropy,ECE)  20
  2.4 文本分类算法研究综述  20-25
    2.4.1 基于实例的KNN 分类算法  20-21
    2.4.2 基于Rocchio 的分类算法  21-22
    2.4.3 基于统计的贝叶斯分类算法  22
    2.4.4 基于决策树的分类算法  22-23
    2.4.5 基于神经网络的分类算法  23
    2.4.6 基于支持向量机的分类算法  23-25
  2.5 本章小结  25-26
第3章 基于 tf-idf 的改进互信息算法和比例区分度 CPD 算法  26-35
  3.1 改进的 tf-idf 权重方法  26-27
  3.2 传统的互信息算法  27-30
  3.3 基于互信息的特征选择方法研究  30-32
    3.3.1 改进的互信息的特征选择算法  30-31
    3.3.2 结合改进的 tf-idf 的 DMI 算法的文本分类方法  31-32
  3.4 基于比例区分度(CPD)的特征选择算法  32-33
  3.5 本章小结  33-35
第4章 基于VSM 的中文文本分类系统的设计  35-43
  4.1 系统设计目标  35
  4.2 文本分类系统框架  35-36
  4.3 中文文本预处理  36-40
  4.4 特征选择  40
  4.5 文本分类  40-41
  4.6 文本分类器的评价  41-42
    4.6.1 精确率(Precision)和召回率(Recall)  41-42
    4.6.2 微平均和宏平均  42
  4.7 本章小结  42-43
第5章 中文文本分类实验测试及结果分析  43-49
  5.1 实验环境和实验目的  43
  5.2 实验语料  43-44
  5.3 实验结果及结果分析  44-48
    5.3.1 基于VSM 模型的DMI 算法的实验结果分析  44-46
    5.3.2 基于VSM 模型的CPD 的实验结果分析  46-47
    5.3.3 tf-idf 和改进后的tf-idf 的实验结果分析  47-48
  5.4 本章小结  48-49
结论  49-51
参考文献  51-54
附录  54-55
致谢  55-56
在读期间公开发表论文(著)及科研情况  56

相似论文

  1. 词义消歧语料库自动获取方法研究,TP391.1
  2. 基于仿生模式识别的文本分类技术研究,TP391.1
  3. 互联网上旅游评论的情感分析及其有用性研究,TP391.1
  4. 唇读中的特征提取、选择与融合,TP391.41
  5. 语音情感识别的特征选择与特征产生,TP18
  6. 基于数据分布特征的文本分类研究,TP391.1
  7. 面向文本分类的改进K近邻的支持向量机算法研究,TP391.1
  8. 车辆识别系统动态特征选择算法的研究与实现,TP391.41
  9. 非刚性医学图像准算法研究和实现,TP391.41
  10. 基于AdaBoost算法的人脸识别研究,TP391.41
  11. 面向肺部CAD的特征提取、选择及分类方法研究,TP391.41
  12. 基于树型条件随场的特定域事件提取方法研究,TP391.1
  13. 网络教育新闻文本分类系统的设计与实现,TP391.1
  14. 一种于经验数据的软件缺陷修复工作量预测模型研究,TP311.53
  15. 基于属性集合的产品评论挖掘研究,F274
  16. 基于本体的医学命名实体识别技术研究,TP391.1
  17. 医学图像配准平台及结合灰度与几何信息的新配准测度,TP391.41
  18. 跨语言文本分类的研究,TP391.1
  19. 基于群体智能的医学图像特征优化算法研究,TP391.41
  20. 基于FSVM的数据挖掘方法及其在入侵检测中的应用研究,TP393.08
  21. 基于分类模型监测电子商务违禁信息的研究与实现,TP393.09

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com