学位论文 > 优秀研究生学位论文题录展示

基于VSM模型和特征选择算法的中文文本自动分类研究

作　者: 朱坤红
导　师: 汪浩
学　校: 江西师范大学
专　业: 管理科学与工程
关键词: 特征选择 tf-idf 向量空间模型(VSM) 互信息 KNN 支持向量机(SVM) 文本分类
分类号: TP391.1
类　型: 硕士论文
年　份: 2011年
下　载: 61次
引　用: 1次
阅　读: 论文下载

内容摘要

文本分类(Text Categorization)是指根据文本的内容,计算机按照某种自动分类算法,把文本判分为预先定义好的类别。文本分类在信息检索,信息过滤,基于个性化的信息服务等方面有着重要用途。随着数字化文档信息总量的快速增长,大规模文本处理已经成为一个挑战。实现文本自动分类的基本困难之一是特征项空间的维数过高,数量过大的特征项一方面导致分类算法的代价过高,另一方面导致无法准确地提取文档的类别信息,造成分类效果不佳。因此,需要在不牺牲分类质量的前提下尽可能地降低特征项空间的维数。本文研究如何利用向量空间模型(VSM)和特征选择技术来有效对文本特征向量空间进行降维,减少维数过高对分类结果召回率和准确率的影响。本文针对特征选择算法中tf-idf无法反映词汇的重要程度和特征词的分布情况和互信息没有考虑特征项出现在文本中的次数提出改进方法,同时还引入测量学中的区分度方法来对文本进行特征选择,然后通过SVM分类算法进行分析、统计、学习,最后得到一个自动的文本分类系统。本文是在向量空间模型(VSM)的基础上对中文文本自动分类进行研究,研究的主要内容和创新点如下:1.本文针对向量空间模型(VSM)中的tf-idf存在的不足提出了一种改进方法,传统的tf-idf方法无法反映词汇的重要程度和特征词的分布情况,改进的tf-idf加入了类别中包含词汇的文本数及词汇出现在某一类文本中的次数,改进后的tf-idf可以很明了地区分出特征项的重要程度;2.为了降维特征向量空间,本文针对特征选择方法中互信息方法提出了一种改进方法,改进后的互信息有效的解决了受特征词条的边缘分布的影响导致稀有词的值偏大这个问题,从一定程度上解决了“过度拟合”问题;3.在降低特征向量空间维数方法上,本文引入了测量学上的区分度方法,一种特征选择区分度方法-比例区分度(CPD)算法,CPD算法可以反映了词出现在某个类和其他类中的文本数,通过结合改进的tf-idf权重公式可以选取出更具有代表性的特征项,有利于文本分类;4.本文设计了一个中文文本分类系统,该系统由预处理、特征选择、文本表示、文本分类及评价五个部分组成。预处理是对训练集文本进行分词,过滤停用词、数字等;特征选择部分采用了文档频率、互信息、卡方统计和改进的互信息、比例区分度几种方法进行比较,并结合改进的tf-idf方法计算特征项在文本中的权重;分类部分则是利用SVM分类器进行分类。5.本文所有的实验都是以中文文本分类语料库-TanCorpvl.0为实验数据,利用汉语分词系统ICTCLAS对文本进行分词,性能评估方法使用的是文本分类常用的微平均和宏平均。

全文目录

摘要  3-5
Abstract  5-9
第1章绪论  9-14
  1.1 研究文本自动分类的背景和意义  9-10
  1.2 国内外研究现状综述  10-12
    1.2.1 特征选择算法的研究现状  10-11
    1.2.2 文本自动分类的研究现状  11-12
  1.3 本文的研究目标和主要内容  12-13
  1.4 本文组织结构  13-14
第2章文本分类研究综述  14-26
  2.1 文本分类基本概念  14-15
    2.1.1 文本分类的定义  14
    2.1.2 文本分类的流程  14-15
  2.2 文本表示综述  15-18
    2.2.1 向量空间模型（VSM）  16-17
      2.2.1.1 tf-idf 权重  16-17
      2.2.1.2 词频权重（TF）  17
      2.2.1.3 熵权重  17
    2.2.2 布尔模型  17
    2.2.3 概率模型  17-18
  2.3 特征选择算法研究综述  18-20
    2.3.1 文档频率方法（DF）  18
    2.3.2 信息增益方法（Information Gain，IG）  18-19
    2.3.3 卡方统计量方法（CHI-square）  19-20
    2.3.4 期望交叉熵（Expected Cross Entropy，ECE）  20
  2.4 文本分类算法研究综述  20-25
    2.4.1 基于实例的KNN 分类算法  20-21
    2.4.2 基于Rocchio 的分类算法  21-22
    2.4.3 基于统计的贝叶斯分类算法  22
    2.4.4 基于决策树的分类算法  22-23
    2.4.5 基于神经网络的分类算法  23
    2.4.6 基于支持向量机的分类算法  23-25
  2.5 本章小结  25-26
第3章基于 tf-idf 的改进互信息算法和比例区分度 CPD 算法  26-35
  3.1 改进的 tf-idf 权重方法  26-27
  3.2 传统的互信息算法  27-30
  3.3 基于互信息的特征选择方法研究  30-32
    3.3.1 改进的互信息的特征选择算法  30-31
    3.3.2 结合改进的 tf-idf 的 DMI 算法的文本分类方法  31-32
  3.4 基于比例区分度（CPD）的特征选择算法  32-33
  3.5 本章小结  33-35
第4章基于VSM 的中文文本分类系统的设计  35-43
  4.1 系统设计目标  35
  4.2 文本分类系统框架  35-36
  4.3 中文文本预处理  36-40
  4.4 特征选择  40
  4.5 文本分类  40-41
  4.6 文本分类器的评价  41-42
    4.6.1 精确率（Precision）和召回率（Recall）  41-42
    4.6.2 微平均和宏平均  42
  4.7 本章小结  42-43
第5章中文文本分类实验测试及结果分析  43-49
  5.1 实验环境和实验目的  43
  5.2 实验语料  43-44
  5.3 实验结果及结果分析  44-48
    5.3.1 基于VSM 模型的DMI 算法的实验结果分析  44-46
    5.3.2 基于VSM 模型的CPD 的实验结果分析  46-47
    5.3.3 tf-idf 和改进后的tf-idf 的实验结果分析  47-48
  5.4 本章小结  48-49
结论  49-51
参考文献  51-54
附录  54-55
致谢  55-56
在读期间公开发表论文（著）及科研情况  56

基于VSM模型和特征选择算法的中文文本自动分类研究

内容摘要

全文目录

相似论文