学位论文 > 优秀研究生学位论文题录展示

基于粗糙集的文本分类技术研究

作 者: 刘毅
导 师: 杨燕
学 校: 西南交通大学
专 业: 计算机应用技术
关键词: 文本分类 特征选择 权值计算 粗糙集 属性约简
分类号: TP391.1
类 型: 硕士论文
年 份: 2007年
下 载: 204次
引 用: 2次
阅 读: 论文下载
 

内容摘要


随着互联网的普及和规模的急剧扩张,作为网络80%以上信息的主要表达方式,各种各样的电子文本得以迅速膨胀,往往造成大量无用信息淹没了有用信息,出现了信息极大丰富知识却相对贫乏的网络信息搜索现状。如何有效地组织和管理这些海量信息资源,使人们能够按照文本内容实现对其自动分类,帮助用户迅速准确地获取其所需要的知识和信息,是计算机科学领域目前的研究热点之一,具有广泛的应用背景和实用价值。粗糙集是由波兰数学家Z.Pawlak于1982年提出的一种处理含糊和不确定问题的集合理论,建立了知识和分类能力的联系,其主要思想是在保持分类能力不变的前提下,通过知识约简,导出决策或分类规则。该理论自90年代被引入到机器学习、人工智能等领域后,己经成功地用于知识获取、规则提取、决策分析、模式识别、数据挖掘等领域。本文结合粗糙集理论对文本分类进行研究,主要进行了以下工作:研究文本分类过程中的特征选择方法和文本向量模型的权值计算公式TF-IDF,采取不同的特征选取方法,比较基于文本特征选择方法的改进TF-IDF权值计算公式效果,确定进行文本分类的合适权值计算公式。研究将粗糙集应用于文本分类技术,通过简单的等距离数据离散化方法,生成易于理解的文本分类规则。研究粗糙集理论中的属性约简算法,对利用文本特征选择方法和粗糙集理论本身的两种不同属性重要性的评价方法进行综合,并详细比较各种属性评价方法在精确约简和近似约简的表现,从中找出合适的用于启发式属性约简的属性重要性衡量方法。对于粗糙集理论中的启发式属性约简算法进行改进,利用两种约简信息,变传统的一次约简为二次约简。本文研究结果证明,将粗糙集的属性约简理论应用于文本分类,可以较大降低文本描述维数,很好地解决文本向量维数过大的问题。通过属性约简生成的文本分类规则,具有较高的文本分类正确率和较大的应用价值。

全文目录


摘要  4-5
Abstract  5-9
第1章 绪论  9-13
  1.1 论文研究的背景及意义  9-11
  1.2 论文主要工作介绍  11-12
  1.3 论文的结构和安排  12-13
第2章 文本分类概述  13-26
  2.1 文本分词(Text Segmentation)  13-16
    2.2 特征选择(Feature Selection,FS)  15-16
  2.3 文本描述(Text Respresentation)  16-19
    2.3.1 布尔模型(Boolean Model)  16-17
    2.3.2 空间向量模型(Vector Space Model)  17-18
    2.3.3 概率模型(Probabilistic Model)  18-19
  2.4 分类算法(Classification Algorithm)  19-26
    2.4.1 朴素贝叶斯算法(Naive Bayes)  20
    2.4.2 KNN(k-Nearest Neighbor)算法  20-21
    2.4.3 基于神经网络的算法(Artificial Neural Networks)  21-23
    2.4.4 决策树方法(Decision Tree)  23-24
    2.4.5 粗糙集方法(Rough Set)  24-26
第3章 基于特征选择的权值计算研究  26-34
  3.1 常见特征选择方法  26-29
    3.1.1 信息增益(Information Gain)  26-27
    3.1.2 互信息(Mutual Information)  27
    3.1.3 CHI2统计  27-28
    3.1.4 交叉熵(Cross Entropy)  28
    3.1.5 证据权值(Weight of Evidence)  28-29
  3.2 经典权值计算公式TFIDF及其弊端  29-30
  3.3 基于特征选择的TFIDF权值计算改进研究  30-31
  3.4 实验设计和结果  31-34
第4章 基于粗集理论的文本分类概述  34-44
  4.1 粗集基本概念  34-39
    4.1.1 信息系统  34-35
    4.1.2 决策表信息系统  35-36
    4.1.3 等价关系  36
    4.1.4 不可分辨关系  36
    4.1.5 近似空间  36-38
    4.1.6 知识约简  38-39
  4.2 基于粗糙集理论的文本分类系统  39-44
    4.2.1 文本向量描述  41
    4.2.2 权值离散化  41-42
    4.2.3 构造决策信息表  42
    4.2.4 进行决策信息表条件属性约简  42-43
    4.2.5 对分类规则进行值约简  43
    4.2.6 生成分类规则  43
    4.2.7 对新文本进行分类  43-44
第5章 粗糙集启发式属性约简的改进  44-58
  5.1 属性重要性评价研究  44-47
    5.1.1 粗糙集理论对属性重要性的代数形式衡量方法  44-46
    5.1.2 基于文本特征选择的属性重要性的衡量方法  46
    5.1.3 综合糙集理论和文本特征选择的属性重要性评价  46-47
  5.2 启发式属性约简的研究和改进  47-49
    5.2.1 基于空集基础上的属性约简算法  47-48
    5.2.2 基于约简核基础上的属性约简算法  48
    5.2.3 改进启发式属性约简算法  48-49
  5.3 基于改进启发式属性约简的粗糙集文本分类系统  49-51
  5.4 实验结果和分析  51-58
    5.4.1 属性重要性的实验比较研究  51-56
    5.4.2 改进启发式属性约简的实验比较研究  56-58
总结与展望  58-60
  全文总结  58-59
  进一步研究工作展望  59-60
致谢  60-61
参考文献  61-66
攻读硕士学位期间发表的论文  66

相似论文

  1. 基于仿生模式识别的文本分类技术研究,TP391.1
  2. 互联网上旅游评论的情感分析及其有用性研究,TP391.1
  3. 唇读中的特征提取、选择与融合,TP391.41
  4. 基于支持向量机的故障诊断方法研究,TP18
  5. 基于连锁图的QTL综合分析方法研究,S562
  6. 语音情感识别的特征选择与特征产生,TP18
  7. 基于遗传算法和粗糙集的聚类算法研究,TP18
  8. 基于粗糙集的城市区域交通绿时控制系统研究,TP18
  9. 基于数据分布特征的文本分类研究,TP391.1
  10. 粗糙集的增量式属性约简研究,TP18
  11. 知识粒度的计算及其在属性约简中的应用研究,TP18
  12. 基于粗糙集和模糊SVM的车牌识别技术研究,TP391.41
  13. 面向文本分类的改进K近邻的支持向量机算法研究,TP391.1
  14. 车辆识别系统动态特征选择算法的研究与实现,TP391.41
  15. 基于AdaBoost算法的人脸识别研究,TP391.41
  16. 面向肺部CAD的特征提取、选择及分类方法研究,TP391.41
  17. 粗糙集理论和Flex技术在中长期径流预报中的应用,P338
  18. 服装质量预测系统的软件设计与实现,TP311.52
  19. 基于树型条件随场的特定域事件提取方法研究,TP391.1
  20. 网络教育新闻文本分类系统的设计与实现,TP391.1
  21. 一种于经验数据的软件缺陷修复工作量预测模型研究,TP311.53

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com