学位论文 > 优秀研究生学位论文题录展示

基于数据分布特征的文本分类研究

作　者: 徐红国
导　师: 王素格
学　校: 山西大学
专　业: 计算数学
关键词: 非平衡语料特征选择文本分类推拉算法机器学习
分类号: TP391.1
类　型: 硕士论文
年　份: 2011年
下　载: 10次
引　用: 0次
阅　读: 论文下载

内容摘要

随着因特网迅猛地向前发展,互联网已经成为一种不可缺少的信息传播媒介数字化图书馆,新闻资源等Web信息量呈几何级增长,出现了像文档检索、图像匹配、气象预报、入侵检测,基冈工程分析等大量机器学习问题。面对信息爆炸带来的挑战,人们迫切需要更快更有效地获取这类信息,用传统的人工分类方法去处理这些问题已经变得捉襟见肘,借助计算机工作便成为最佳选择。当前文本分类是一个热点研究领域,开展此项工作具有重要的研究价值和现实意义。在文本分类技术的研究过程中,虽然提出了许多方式方法,并且有些方法已经相对成熟且分类效果不错,但实用性强的分类技术仍旧比较缺乏。不少分类模型和特征选择算法的复杂性比较高,实现过程过于复杂而导致训练和分类的效率低下,难以应付实际当中碰到的庞大数据集。如何从海量数据中找到需要的日标信息是文本分类的一项重要的任务。如何提高文本分类的准确率和运行效率(时间复杂度,空间复杂度)是一个需要不断深刻思考的课题。特征选择方法与分类算法是文本分类技术当中两块核心内容,绝大多数研究人员都致力于其方法的探索与改进,许多新方法付诸的应用都取得了不错的成绩。总之,这是一项很有必要也非常有前途的研究。本文针对数据语料类别数据不均衡,从特征选择方法和文本分类器方面进行研究,大致内容如下：(1)基于改进的类别分布特征选择方法在文本特征降维空间中,本文发现基于Fisher思想的特征选择方法应该兼具考虑类内、类间方差,这样才可以得到具有更好类别区分能力的特征。具体到本文工作所面向的类别数据分布是不均衡的,为此在充分考虑类别之间样本数差异的基础上,作者提出了一种基于改进的类别分布特征选择方法。该方法可以选出在类别间差异比较大的特征而且还可以灵活地调整类别的权重,实验表明该方法在非平衡语料上结果很好,说明它在稀有类别上可以达到不错的效果。(2)基于推拉方法的非平衡中文文本分类从分类器学习角度,为了论证推拉方法优于SVM,KNN。本文首先介绍了传统分类方法涉及的相关知识,提出了传统分类器在语料类别非平衡下存在的问题,随后引入了解决该问题的推拉方法,最后把IG+推拉,IG+SVM, IG+KNN运用到实验中去。实验结果比较发现,IG+推拉方法在不同非平衡语料上的效果要比其他两个方法好,这允分证实该方法的优越性。

全文目录

中文摘要  8-10
ABSTRACT  10-12
第一章引言  12-18
  1.1 研究背景、目的及意义  12-13
  1.2 国内外研究现状  13-16
  1.3 主要研究内容  16-17
  1.4 论文的组织结构  17-18
第二章基于改进的类别分布特征选择方法  18-22
  2.1 基于类别分布改进的特征选择方法(IFSM)  18-19
    2.1.1 特征t在文档d占有的信息F(t,d)  18
    2.1.2 特征t在类别c_i中的类均值F(t,c_1)  18
    2.1.3 特征t在类间的信息F_1(t)  18
    2.1.4 特征t的类间方差D_b(t)  18-19
    2.1.5 类内方差D_w(t)  19
    2.1.6 特征t对非平衡语料分类贡献的度量  19
  2.2 支持向量机分类器  19-20
  2.3 实验结果与分析  20-21
  2.4 本章小结  21-22
第三章基于推拉方法的非平衡中文文本分类  22-38
  3.1 传统的文本分类方法  22-23
    3.1.1 特征选择方法  22-23
    3.1.2 KNN分类器  23
  3.2 传统分类器用于非平衡语料分类存在的问题  23
  3.3 推拉方法  23-24
    3.3.1 推拉算法  23-24
    3.3.2 算法概述  24
  3.4 实验部分  24-36
    3.4.1 数据准备  24-25
    3.4.2 实验结果与分析  25-36
  3.5 小章总结  36-38
第四章结论与展望  38-40
  4.1 结论  38
  4.2 展望  38-40
参考文献  40-44
攻读学位期间的研究成果  44-45
致谢  45-46
个人简历  46-48

基于数据分布特征的文本分类研究

内容摘要

全文目录

相似论文