学位论文 > 优秀研究生学位论文题录展示
基于分类文本库的文本分类系统的应用研究及实现
作 者: 何文涛
导 师: 管建和
学 校: 中国地质大学(北京)
专 业: 计算机科学与技术
关键词: 空间向量模型 信息增益 贝叶斯分类 文档分类
分类号: TP391.1
类 型: 硕士论文
年 份: 2011年
下 载: 61次
引 用: 0次
阅 读: 论文下载
内容摘要
文本表示是文本分类系统的基础,当前文本表示模型中,向量空间模型(Vector space Model,VSM)是使用最广泛的文本表示模型。其基本思想是:将文档中文分词之后得到的每个特征,作为特征空间坐标系的一维,用特征空间的向量来表示文本。信息增益(IG,Information Gain)是很有效的特征选择方法。在信息增益中,重要性的衡量标准就是看某一特征能够为分类系统带来多少信息,带来的信息越多,该特征越重要。贝叶斯分类是统计学分类方法,它是一类利用概率统计知识进行分类的算法。在许多场合,朴素贝叶斯(Na?ve Bayes,NB)分类算法可以与决策树和神经网络分类算法相媲美,该算法能运用到大型数据库中,且方法简单、分类准确率高、速度快。向量空间模型是文本表示的一种方法,它将每篇文章的处理转化为高维向量空间的向量计算,每一个分量表示一个词元权重,也就是把每篇文章的处理转化为了向量的计算,这种方法简单、有效;信息增益体现了某个词组给分类系统带来了多少信息,计算公式虽多,但是原理明了,据此方法选择出来的特征项具有很好的代表性,而贝叶斯分类更是文本分类中简单、高效、速度快的算法,能很好地提高分类的速度和准确率,是进行文本分类操作重要算法之一。因此,在训练过程中选择用空间向量模型来表示文档,然后通过信息增益来选取特征项,完成训练过程;而在分类过程之中,先利用向量空间模型对需分类的文档进行表示,表示完成之后,以训练模块提供的统计信息为依据,利用贝叶斯分类模型,来实现对该文档的分类并给出特定的类别标识。本文从训练文本的选择、预处理、特征选择、模型的建立、文档所属类别概率的计算等几个文本分类的重要环节、训练数据存储以及训练数据在系统中的数据结构表示,既证明了贝叶斯文本分类算法是一种有效的分类算法,又体现了系统所选择的数据结构的有效性。
|
全文目录
摘要 5-6 ABSTRACT 6-9 第一章 绪论 9-15 1.1 研究背景和意义 9-11 1.1.1 研究背景 9-10 1.1.2 研究意义 10-11 1.2 研究现状 11-12 1.3 课题的提出 12 1.4 课题的主要工作 12-13 1.5 论文组织结构 13-15 第二章 文本分类系统的总体设计 15-23 2.1 系统总体设计 15-19 2.2 系统功能结构 19-20 2.2.1 权限管理功能 19-20 2.2.2 系统训练功能 20 2.2.3 文档分类功能 20 2.3 系统用例分析 20-21 2.3.1 角色定义 20-21 2.3.2 用例分析 21 2.4 本章小结 21-23 第三章 关键技术 23-39 3.1 文档表示技术 23-25 3.2 中文分词技术 25-31 3.2.1 基于字符串匹配的分词方法 25-26 3.2.2 基于理解的分词方法 26-27 3.2.3 基于统计的分词方法 27 3.2.4 中文分词难点 27-28 3.2.5 中科院的分词词典技术 28-31 3.3 特征项选取 31-35 3.3.1 文档频率法(DF) 31-32 3.3.2 信息增益方法 32-33 3.3.3 开方检验法(CHI) 33-34 3.3.4 互信息法(MI) 34 3.3.5 小结 34-35 3.4 特殊数据处理 35 3.5 贝叶斯模型简介 35-36 3.6 本章小结 36-39 第四章 系统的详细设计 39-67 4.1 用户登录模块设计 39-40 4.2 文本格式转换模块设计 40-58 4.2.1 html/htm 格式文件转换成txt 格式 40-44 4.2.2 word 格式文件转换成txt 格式 44-50 4.2.3 pdf 格式文件转换成txt 格式 50-58 4.3 系统训练模块设计 58-61 4.3.1 训练流程设计 58-59 4.3.2 去停用词及词组信息统计设计 59-60 4.3.3 特征项选取及存储设计 60-61 4.3.4 训练模块总结 61 4.4 文本分类系统分类模块设计 61-64 4.4.1 文档分类处理过程 61-62 4.4.2 文档分别属于各类别的概率计算 62 4.4.3 概率计算流程 62-63 4.4.4 文档类别归属设计 63-64 4.5 数据结构设计 64-65 4.6 实现工具选取 65 4.7 本章小结 65-67 第五章 系统的具体实现及效果测试 67-79 5.1 数据库的设计 67 5.2 系统功能模块的实现 67-73 5.2.1 用户登录模块的实现 67-69 5.2.3 训练模块的实现 69-71 5.2.4 分类模块的实现 71-73 5.3 文档格式转换程序测试 73-76 5.4 训练及分类模块程序测试 76-77 5.5 本章小结 77-79 第六章 结论 79-81 致谢 81-82 参考文献 82-84 个人简历 84
|
相似论文
- 类药性和生物利用度的理论预测研究,R914
- 基于改进遗传算法的神经网络输入约简,TP18
- 贝叶斯分类算法的研究与应用,TP18
- 基于概率的潜在语义分析模型在搜索引擎商业文本分类系统中的应用研究,TP391.1
- 半监督学习中协同训练与多视图方法的比较及改进,TP18
- 集成学习及其应用研究,TP181
- 基于聚类分析的网络流量分类研究,TP393.06
- miRNA前体与成熟体预测方法的设计与实现,TP18
- 基于Copula理论的两种分类算法研究,TP181
- 基于最优分割策略的高性能文本分类方法,TP18
- 面向支持向量机的特征约简研究,TP181
- 基于灰度差投影与贝叶斯分类器的表情识别研究,TP391.41
- 贝叶斯网络中不确定性知识推理算法及其应用研究,TP183
- 用户网页浏览兴趣模型建模方法的研究,TP393.092
- 基于BP神经网络的WEB数据挖掘,TP311.13
- 监督学习下的贝叶斯分类器研究,TP18
- 个性化站内搜索引擎的设计与应用,TP391.3
- 基于形式概念分析的类无冗余关联分类规则提取研究,TP311.13
- 基于主题相关性的中文文本情感分类研究,TP391.1
- 模糊聚类在自动判别专家知识领域中的应用研究,TP182
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com
|