学位论文 > 优秀研究生学位论文题录展示

基于粒度计算的文本分类技术研究

作　者: 张学谦
导　师: 王自强
学　校: 河南工业大学
专　业: 计算机应用技术
关键词: 粒度计算特征分布距离粗糙集信息粒度
分类号: TP391.1
类　型: 硕士论文
年　份: 2011年
下　载: 28次
引　用: 0次
阅　读: 论文下载

内容摘要

随着网络信息的急剧膨胀和大量电子文本的不断出现，如何组织和管理好这些海量信息成为人们面临的一大挑战。自动文本分类技术就是研究如何让机器通过自主学来对未知文本进行分类，从而解决手工分类中遇到的困难。特征降维和分类器的设计是当前文本分类研究的重点。由于粒度计算在解决复杂问题时能将知识进行降维，从而更方便归纳和获取知识，成为近些年来研究的热点，也为文本分类的研究提供了新的思路。与支持向量机和K最近邻等算法相比，粒度计算的粗糙集模型可以通过挖掘决策规则来获取知识，决策过程显得更加透明和容易理解，已在文本分类研究中得到重视和应用。本文在研究了现有成果的基础之上对粒度计算在文本分类中的应用做了进一步的研究，完成了以下工作：(1)在分析了现有特征选择方法后，根据特征词和类别之间的关系，提出了特征分布距离。通过计算任意两个特征词之间的分布距离，将分布距离相近的特征词进行聚合，有效降低了特征空间的维数，同时也避免了现有特征选择算法造成的个别样本由于不包含所选特征而被丢弃的现象。实验结果证明了该聚类方法在用SVM作为分类器时可以获得较其他特征选择方法高的分类精度。(2)根据粒度计算的粒化原理，提出了通过将训练文本集划分为不同的信息粒度来降低分析问题的复杂度的方法。同时根据粗糙集的相关原理，对每个信息粒度进行特征选择，将所选特征作为条件属性并构建协同矩阵，通过启发式搜索最相似样本来获取属性约简集。(3)通过分析信息粒度之间是否有相同的条件属性来计算信息粒度的纯度，为处理规则不一致时提供投票依据。实验结果证明了本次研究工作在特征降维，以及将粒度计算的相关原理应用于文本分类中取得了一定的成效，通过属性约简获取的分类规则通俗易懂，在分类方面能获得较高的正确率。

全文目录

摘要  4-5
ABSTRACT  5-9
第一章绪论  9-15
  1.1 研究背景  9
  1.2 研究意义  9-10
    1.2.1 信息检索  9-10
    1.2.2 信息过滤  10
    1.2.3 数字图书馆  10
  1.3 基于机器学习的知识发现技术在文本分类中的应用  10-11
  1.4 文本分类技术流程  11-12
  1.5 研究现状  12-14
  1.6 本文研究内容  14-15
第二章文本分类技术[2-27]  15-27
  2.1 文本分类任务  15
  2.2 文本表示模型  15-16
  2.3 文本预处理  16
  2.4 特征选择和特征抽取  16-20
    2.4.1 文档频率（Document Frequency，DF）  16-17
    2.4.2 信息增益（Information Gain）  17
    2.4.3 期望交叉熵（Expected Cross Entropy，ECE）  17
    2.4.4 互信息（Mutual Information）  17
    2.4.5 CHI 统计量  17-18
    2.4.6 GSS 系数  18
    2.4.7 NGL 系数  18-19
    2.4.8 几率比（Odds Ratio）  19-20
  2.5 分类方法  20-24
    2.5.1 决策树（Decision Trees）  20
    2.5.2 KNN 算法（K-Nearest Neighbor）  20-21
    2.5.3 朴素贝叶斯（Na ve Bayes）分类  21
    2.5.4 人工神经网络（Artificial Neural Network, ANN）  21-22
    2.5.5 支持向量机（SVM）  22-23
    2.5.6 粗糙集  23-24
  2.6 分类性能评估  24-27
    2.6.1 查全率和查准率  24-25
    2.6.2 宏平均和微平均  25-27
第三章基于分布距离的特征聚类方法  27-35
  3.1 引言  27
  3.2 文本特征降维  27-28
    3.2.1 降维对分类的影响  27
    3.2.2 特征选择  27-28
    3.2.3 特征抽取  28
  3.3 基于分布距离的特征聚类  28-30
    3.3.1 特征聚类  28
    3.3.2 特征分布距离  28-30
    3.3.3 聚类步骤  30
  3.4 实验结果及分析  30-33
  3.5 结论  33-35
第四章粒度计算的粗糙集理论模型[34-47]  35-43
  4.1 粒度计算概述  35-36
  4.2 粗糙集基本理论  36-39
    4.2.1 信息表和不可分辨关系  36-37
    4.2.2 上下近似关系  37
    4.2.3 属性依赖  37-38
    4.2.4 属性约简  38-39
  4.3 决策规则及其测度  39
  4.4 规则匹配及规则冲突解决[24]  39-40
  4.5 约简算法  40-43
    4.5.1 基于可分辨矩阵的属性约简算法[28]  41-42
    4.5.2 基于属性重要性的属性约简算法  42-43
第五章基于粒度计算的文本分类方法研究[25-30]  43-55
  5.1 基于粒度计算的文本分类方法流程  43
  5.2 训练集粒化分解  43-44
  5.3 构造粒度决策表  44
  5.4 文本粒度属性约简  44-48
    5.4.1 构建协同矩阵  44-45
    5.4.2 最相似样本  45-46
    5.4.3 启发式搜索最相似样本  46-48
  5.5 规则不一致解决方法  48
  5.6 分类算法描述  48-49
    5.6.1 信息粒度规则获取  48-49
    5.6.2 信息粒度属性约简  49
  5.7 实验结果及分析  49-54
    5.7.1 训练  49-53
    5.7.2 测试  53-54
  5.8 本章小结  54-55
总结与展望  55-56
参考文献  56-59
致谢  59-60
个人简介  60

基于粒度计算的文本分类技术研究

内容摘要

全文目录

相似论文