学位论文 > 优秀研究生学位论文题录展示

基于分类文本库的文本分类系统的应用研究及实现

作　者: 何文涛
导　师: 管建和
学　校: 中国地质大学（北京）
专　业: 计算机科学与技术
关键词: 空间向量模型信息增益贝叶斯分类文档分类
分类号: TP391.1
类　型: 硕士论文
年　份: 2011年
下　载: 61次
引　用: 0次
阅　读: 论文下载

内容摘要

文本表示是文本分类系统的基础,当前文本表示模型中,向量空间模型(Vector space Model,VSM)是使用最广泛的文本表示模型。其基本思想是:将文档中文分词之后得到的每个特征,作为特征空间坐标系的一维,用特征空间的向量来表示文本。信息增益(IG,Information Gain)是很有效的特征选择方法。在信息增益中,重要性的衡量标准就是看某一特征能够为分类系统带来多少信息,带来的信息越多,该特征越重要。贝叶斯分类是统计学分类方法,它是一类利用概率统计知识进行分类的算法。在许多场合,朴素贝叶斯(Na?ve Bayes,NB)分类算法可以与决策树和神经网络分类算法相媲美,该算法能运用到大型数据库中,且方法简单、分类准确率高、速度快。向量空间模型是文本表示的一种方法,它将每篇文章的处理转化为高维向量空间的向量计算,每一个分量表示一个词元权重,也就是把每篇文章的处理转化为了向量的计算,这种方法简单、有效;信息增益体现了某个词组给分类系统带来了多少信息,计算公式虽多,但是原理明了,据此方法选择出来的特征项具有很好的代表性,而贝叶斯分类更是文本分类中简单、高效、速度快的算法,能很好地提高分类的速度和准确率,是进行文本分类操作重要算法之一。因此,在训练过程中选择用空间向量模型来表示文档,然后通过信息增益来选取特征项,完成训练过程;而在分类过程之中,先利用向量空间模型对需分类的文档进行表示,表示完成之后,以训练模块提供的统计信息为依据,利用贝叶斯分类模型,来实现对该文档的分类并给出特定的类别标识。本文从训练文本的选择、预处理、特征选择、模型的建立、文档所属类别概率的计算等几个文本分类的重要环节、训练数据存储以及训练数据在系统中的数据结构表示,既证明了贝叶斯文本分类算法是一种有效的分类算法,又体现了系统所选择的数据结构的有效性。

全文目录

摘要  5-6
ABSTRACT  6-9
第一章绪论  9-15
  1.1 研究背景和意义  9-11
    1.1.1 研究背景  9-10
    1.1.2 研究意义  10-11
  1.2 研究现状  11-12
  1.3 课题的提出  12
  1.4 课题的主要工作  12-13
  1.5 论文组织结构  13-15
第二章文本分类系统的总体设计  15-23
  2.1 系统总体设计  15-19
  2.2 系统功能结构  19-20
    2.2.1 权限管理功能  19-20
    2.2.2 系统训练功能  20
    2.2.3 文档分类功能  20
  2.3 系统用例分析  20-21
    2.3.1 角色定义  20-21
    2.3.2 用例分析  21
  2.4 本章小结  21-23
第三章关键技术  23-39
  3.1 文档表示技术  23-25
  3.2 中文分词技术  25-31
    3.2.1 基于字符串匹配的分词方法  25-26
    3.2.2 基于理解的分词方法  26-27
    3.2.3 基于统计的分词方法  27
    3.2.4 中文分词难点  27-28
    3.2.5 中科院的分词词典技术  28-31
  3.3 特征项选取  31-35
    3.3.1 文档频率法（DF）  31-32
    3.3.2 信息增益方法  32-33
    3.3.3 开方检验法(CHI)  33-34
    3.3.4 互信息法(MI)  34
    3.3.5 小结  34-35
  3.4 特殊数据处理  35
  3.5 贝叶斯模型简介  35-36
  3.6 本章小结  36-39
第四章系统的详细设计  39-67
  4.1 用户登录模块设计  39-40
  4.2 文本格式转换模块设计  40-58
    4.2.1 html/htm 格式文件转换成txt 格式  40-44
    4.2.2 word 格式文件转换成txt 格式  44-50
    4.2.3 pdf 格式文件转换成txt 格式  50-58
  4.3 系统训练模块设计  58-61
    4.3.1 训练流程设计  58-59
    4.3.2 去停用词及词组信息统计设计  59-60
    4.3.3 特征项选取及存储设计  60-61
    4.3.4 训练模块总结  61
  4.4 文本分类系统分类模块设计  61-64
    4.4.1 文档分类处理过程  61-62
    4.4.2 文档分别属于各类别的概率计算  62
    4.4.3 概率计算流程  62-63
    4.4.4 文档类别归属设计  63-64
  4.5 数据结构设计  64-65
  4.6 实现工具选取  65
  4.7 本章小结  65-67
第五章系统的具体实现及效果测试  67-79
  5.1 数据库的设计  67
  5.2 系统功能模块的实现  67-73
    5.2.1 用户登录模块的实现  67-69
    5.2.3 训练模块的实现  69-71
    5.2.4 分类模块的实现  71-73
  5.3 文档格式转换程序测试  73-76
  5.4 训练及分类模块程序测试  76-77
  5.5 本章小结  77-79
第六章结论  79-81
致谢  81-82
参考文献  82-84
个人简历  84

基于分类文本库的文本分类系统的应用研究及实现

内容摘要

全文目录

相似论文