学位论文 > 优秀研究生学位论文题录展示

文本分类中特征降维方法的研究

作　者: 王雅菲
导　师: 赵伟
学　校: 长春工业大学
专　业: 计算机软件与理论
关键词: 文本分类特征降维特征选择蚁群算法遗传算法 k-means算法
分类号: TP391.1
类　型: 硕士论文
年　份: 2010年
下　载: 43次
引　用: 0次
阅　读: 论文下载

内容摘要

文本分类是将自然文本根据内容自动分为预先定义的一个或者几个类别的过程。它作为处理和组织大量文本数据的关键技术,可以在较大程度上解决信息杂乱无章的问题,方便用户准确地定位所需的信息。在文本分类领域,高维的特征空间是影响分类效果的主要因素,如何降低特征空间的维数、提高分类的效率和精度,成为文本自动分类中需要首先解决的问题。为此,特征降维成为文本分类的一个非常重要的步骤。他主要是找出描述特定领域的相关词汇,去除影响分类效果的噪音词汇(如虚词、形容词等),可以大大减少特征集合中的特征数,好的特征选择算法能够找到代表数据集的最小特征子集,提高系统运行的速度和分类准确度。针对文本分类中特征降维准确性和效率的要求,本文深入研究特征降维算法,提出了两种新的特征降维方法。最后将现已提出的多种特征降维算法从选择效率和耗费时间等方便进行了分析比较。本文主要包括以下两大部分内容：第一,基于相似融合的文本特征降维方法,分析蚁群算法中运动速度类型各异的多个蚁群,独立而并行地进行搜索分析,先求出不同搜索结果中每个簇的对应关系,然后计算这几个搜索结果对应簇的交集,对特征项使用一种改进的互信息方法进行二次选择,在最大限度减少信息损失的前提下实现了文本特征的有效降维。该方法具有良好的降维效果并且提高了分类的效率。第二,基于遗传算法与k-means算法相结合的特征选择算法,针对文本分类中高维的特征对分类准确率和效率的影响,传统的特征选择方法都很难得到最优特征子集,遗传算法具有全局优化的特点并且具有高的寻优效率,但用于特征选择时搜索随机性强,故将k-means算法用于选择操作中提出一种新的特征选择方法。通过选择、交叉和变异的遗传操作,能快速地求出最优特征子集,该方法能有效地提高特征选择的精确度和效率。

全文目录

摘要  2-3
Abstract  3-7
第一章绪论  7-12
  1.1 论文选题背景  7-8
  1.2 论文研究的目的和意义  8
  1.3 国内外有关研究现状  8-10
    1.3.1 国内研究现状  8-9
    1.3.2 国外研究现状  9-10
  1.4 论文的研究工作和体系结构  10-12
    1.4.1 主要研究工作  10-11
    1.4.2 本文的体系结构  11-12
第二章文本分类基本理论及相关技术  12-21
  2.1 文本分类定义  12-13
  2.2 文本表示模型  13-14
    2.2.1 布尔模型  13
    2.2.2 向量空间模型  13
    2.2.3 概率模型  13-14
  2.3 文本预处理  14-15
  2.4 特征降维问题的描述  15
  2.5 关键算法介绍  15-16
  2.6 文本分类方法概述  16-18
    2.6.1 基于统计的方法  17
    2.6.2 基于规则的方法  17-18
  2.7 文本分类性能评价  18-21
    2.7.1 影响因素分析  18
    2.7.2 评价标准  18-21
第三章基于相似融合的文本特征降维方法  21-34
  3.1 引言  21-22
  3.2 特征降维方法  22-24
    3.2.1 特征选择  22-24
    3.2.2 特征抽取  24
  3.3 关于特征降维方法的讨论  24-25
  3.4 基于蚁群融合的特征降维  25-27
    3.4.1 单蚁群算法  25-26
    3.4.2 多蚁群并行模型  26-27
  3.5 算法描述  27-29
  3.6 分类算法的决策过程  29-30
  3.7 模拟实验  30-33
    3.7.1 分类系统  30-31
    3.7.2 实验数据集  31
    3.7.3 实验一性能分析  31-33
    3.7.4 实验二算法耗时分析  33
  3.8 本章小结  33-34
第四章基于GA与k-means相结合的特征选择算法  34-45
  4.1 引言  34-35
  4.2 特征选择问题的数学模型  35
  4.3 GA与k-means相结合的特征选择设计  35-38
    4.3.1 文本表示  35
    4.3.2 特征项编码  35
    4.3.3 初始特征项群体的选择  35-36
    4.3.4 适应值函数  36
    4.3.5 基于k-means的算子选择  36-38
    4.3.6 交叉和变异  38
    4.3.7 终止条件  38
  4.4 GA与k-means结合的特征选择流程  38-39
  4.5 模拟实验  39-44
    4.5.1 性能评价  39-40
    4.5.2 实验数据  40-41
    4.5.3 实验一分类性能比较  41-43
    4.5.4 实验二本文的两种算法比较  43-44
  4.6 本章小结  44-45
第五章总结与展望  45-47
  5.1 总结  45-46
  5.2 展望  46-47
致谢  47-48
参考文献  48-53
攻读硕士学位期间研究成果  53-54

文本分类中特征降维方法的研究

内容摘要

全文目录

相似论文