学位论文 > 优秀研究生学位论文题录展示

文本分类中特征降维方法的研究

作 者: 王雅菲
导 师: 赵伟
学 校: 长春工业大学
专 业: 计算机软件与理论
关键词: 文本分类 特征降维 特征选择 蚁群算法 遗传算法 k-means算法
分类号: TP391.1
类 型: 硕士论文
年 份: 2010年
下 载: 43次
引 用: 0次
阅 读: 论文下载
 

内容摘要


文本分类是将自然文本根据内容自动分为预先定义的一个或者几个类别的过程。它作为处理和组织大量文本数据的关键技术,可以在较大程度上解决信息杂乱无章的问题,方便用户准确地定位所需的信息。在文本分类领域,高维的特征空间是影响分类效果的主要因素,如何降低特征空间的维数、提高分类的效率和精度,成为文本自动分类中需要首先解决的问题。为此,特征降维成为文本分类的一个非常重要的步骤。他主要是找出描述特定领域的相关词汇,去除影响分类效果的噪音词汇(如虚词、形容词等),可以大大减少特征集合中的特征数,好的特征选择算法能够找到代表数据集的最小特征子集,提高系统运行的速度和分类准确度。针对文本分类中特征降维准确性和效率的要求,本文深入研究特征降维算法,提出了两种新的特征降维方法。最后将现已提出的多种特征降维算法从选择效率和耗费时间等方便进行了分析比较。本文主要包括以下两大部分内容:第一,基于相似融合的文本特征降维方法,分析蚁群算法中运动速度类型各异的多个蚁群,独立而并行地进行搜索分析,先求出不同搜索结果中每个簇的对应关系,然后计算这几个搜索结果对应簇的交集,对特征项使用一种改进的互信息方法进行二次选择,在最大限度减少信息损失的前提下实现了文本特征的有效降维。该方法具有良好的降维效果并且提高了分类的效率。第二,基于遗传算法k-means算法相结合的特征选择算法,针对文本分类中高维的特征对分类准确率和效率的影响,传统的特征选择方法都很难得到最优特征子集,遗传算法具有全局优化的特点并且具有高的寻优效率,但用于特征选择时搜索随机性强,故将k-means算法用于选择操作中提出一种新的特征选择方法。通过选择、交叉和变异的遗传操作,能快速地求出最优特征子集,该方法能有效地提高特征选择的精确度和效率。

全文目录


摘要  2-3
Abstract  3-7
第一章 绪论  7-12
  1.1 论文选题背景  7-8
  1.2 论文研究的目的和意义  8
  1.3 国内外有关研究现状  8-10
    1.3.1 国内研究现状  8-9
    1.3.2 国外研究现状  9-10
  1.4 论文的研究工作和体系结构  10-12
    1.4.1 主要研究工作  10-11
    1.4.2 本文的体系结构  11-12
第二章 文本分类基本理论及相关技术  12-21
  2.1 文本分类定义  12-13
  2.2 文本表示模型  13-14
    2.2.1 布尔模型  13
    2.2.2 向量空间模型  13
    2.2.3 概率模型  13-14
  2.3 文本预处理  14-15
  2.4 特征降维问题的描述  15
  2.5 关键算法介绍  15-16
  2.6 文本分类方法概述  16-18
    2.6.1 基于统计的方法  17
    2.6.2 基于规则的方法  17-18
  2.7 文本分类性能评价  18-21
    2.7.1 影响因素分析  18
    2.7.2 评价标准  18-21
第三章 基于相似融合的文本特征降维方法  21-34
  3.1 引言  21-22
  3.2 特征降维方法  22-24
    3.2.1 特征选择  22-24
    3.2.2 特征抽取  24
  3.3 关于特征降维方法的讨论  24-25
  3.4 基于蚁群融合的特征降维  25-27
    3.4.1 单蚁群算法  25-26
    3.4.2 多蚁群并行模型  26-27
  3.5 算法描述  27-29
  3.6 分类算法的决策过程  29-30
  3.7 模拟实验  30-33
    3.7.1 分类系统  30-31
    3.7.2 实验数据集  31
    3.7.3 实验一 性能分析  31-33
    3.7.4 实验二 算法耗时分析  33
  3.8 本章小结  33-34
第四章 基于GA与k-means相结合的特征选择算法  34-45
  4.1 引言  34-35
  4.2 特征选择问题的数学模型  35
  4.3 GA与k-means相结合的特征选择设计  35-38
    4.3.1 文本表示  35
    4.3.2 特征项编码  35
    4.3.3 初始特征项群体的选择  35-36
    4.3.4 适应值函数  36
    4.3.5 基于k-means的算子选择  36-38
    4.3.6 交叉和变异  38
    4.3.7 终止条件  38
  4.4 GA与k-means结合的特征选择流程  38-39
  4.5 模拟实验  39-44
    4.5.1 性能评价  39-40
    4.5.2 实验数据  40-41
    4.5.3 实验一 分类性能比较  41-43
    4.5.4 实验二 本文的两种算法比较  43-44
  4.6 本章小结  44-45
第五章 总结与展望  45-47
  5.1 总结  45-46
  5.2 展望  46-47
致谢  47-48
参考文献  48-53
攻读硕士学位期间研究成果  53-54

相似论文

  1. 天然气脱酸性气体过程中物性研究及数据处理,TE644
  2. 压气机优化平台建立与跨音速压气机气动优化设计,TH45
  3. 多导弹协同作战突防效能评估及组合优化算法研究,TJ760.1
  4. 基于蚁群算法的电梯群优化控制研究,TU857
  5. 基于仿生模式识别的文本分类技术研究,TP391.1
  6. 互联网上旅游评论的情感分析及其有用性研究,TP391.1
  7. 唇读中的特征提取、选择与融合,TP391.41
  8. 动态环境下移动对象导航系统相关技术的研究,TP301.6
  9. 基于改进蚁群算法的机器人路径规划研究,TP242
  10. 基于遗传算法的模糊层次综合评判在高职教学评价中的应用,G712
  11. 部队人员网上训练与考核系统的开发,TP311.52
  12. 基于并行算法的模糊综合评价模型的设计与应用,TP18
  13. 基于神经网络的牡蛎呈味肽制备及呈味特性研究,TS254.4
  14. 基于遗传算法的中短波磁天线的设计及实现,TN820
  15. 改进的蚁群算法及其在TSP上的应用研究,TP301.6
  16. 基于遗传算法的柑橘图像分割,TP391.41
  17. 基于混合自适应遗传算法的动态网格调度问题研究,TP393.09
  18. 基于遗传—牛顿算法的公交优化调度,TP18
  19. 基于遗传算法优化的BP网络对生物柴油制备工艺的优化,TE667
  20. 基于云理论和蜜蜂进化型遗传算法的纹理合成研究,TP391.41
  21. K-means聚类优化算法的研究,TP311.13

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com