学位论文 > 优秀研究生学位论文题录展示
模糊知识处理在中文文本自动分类中的应用研究
作 者: 檀林
导 师: 张永奎
学 校: 山西大学
专 业: 计算机软件与理论
关键词: 文本分类 模糊集合 模糊分类 贴近度 隶属度 模糊语义关联度
分类号: TP391.1
类 型: 硕士论文
年 份: 2004年
下 载: 155次
引 用: 2次
阅 读: 论文下载
内容摘要
文本分类(Text Categorization,TC)是指在分析文本内容的基础上按一定的策略把文本归入一个或多个合适的类别的应用技术。根据是否有固定的类别体系可分为有监督(Supervised)的自动归类和无监督(Unsupervised)的自动聚类。随着互联网上在线文本信息的急剧增加,文本分类对于信息处理的意义变得更加重要。文本自动分类广泛应用于文本处理和信息检索的各个领域,成为处理和组织大规模文本信息的关键技术,并推动了信息处理朝着自动化的方向发展。本文所研究的文本自动分类就是指在给定类别体系下的文本自动归类。 由于自然语言的复杂性,以及在描述和理解方面具有高度的不确定性和模糊性,因而文本类别的识别带有一定的模糊性,对这些具有模糊性的模式借助于模糊理论来刻画显得很自然。并且实际经验告诉我们,很多实际分类问题往往不好精确地确定某个对象属于某个类,而只能给出某个对象属于某个类的可能性有多大,因此将模糊知识处理的理论技术应用到文本分类的领域中,利用适当的模糊反而可以达到更精确的分类结果。 本文以科技文献信息处理为背景,从理论和应用的角度对基于模糊知识处理的文本分类技术进行了较为深入的研究,主要工作总结如下: 1.将模糊数学中模糊集合的理论应用到文本分类领域,并对模糊文本分类做了系统的理论和应用研究。 2.结合科技文献的结构特点,将模糊集间的贴近度和模糊语义关联度(Fuzzy Semantic Relationship)两种概念的分类算法分别应用于中文文本分类,测试并对比了这两种算法的分类性能。两个模糊集间的语义关联度,不但依赖于两个模糊集论域的元素间的隶属度,而且与相应论域元素间的语义近似程度有关,而贴近度的方法只考虑了相同元素在不同模糊集中隶属度值的关系,因此模糊语义关联度的方法获得了更好的分类效果,并且更好地解决了文本兼类的问题。 3.在模糊文本分类的基础上,对分类结果进行了分析,将分类错误归结为两种类型,并针对这两种情况提出了隶属度更新算法,结合模糊语义关联度的分类算法提出了运用更新公式不断对分类结果进行校验纠错进而逐渐地构造分类器的算法。实验结果表明这种算法有效利用了训练文本集,提取出了最优的描述训练文本的模糊集表示,提高了文本分类的精度。 4.对我们所提的训练算法进行了迭代改进,在保证分类精度的基础上有效控制了迭代次数和速度。
|
全文目录
1 引言 9-13 1.1 问题描述 9 1.2 文本分类的背景和意义 9-10 1.3 国内外相关研究概述 10-12 1.3.1 文本自动分类研究在国内外的发展 10-11 1.3.2 中文科技文献分类的发展与现状 11-12 1.4 论文的内容组织 12-13 2 模糊文本分类方法概述 13-29 2.1 模糊理论的引入 13-16 2.1.1 模糊理论概述 13 2.1.2 模糊理论与文本分类的结合 13-14 2.1.3 模糊分类的研究现状 14-16 2.2 模糊文本分类的相关概念 16-18 2.2.1 一组基本定义 16-17 2.2.2 模糊模式识别的基本方法 17-18 2.3 文本的表示 18-19 2.4 文本的预处理 19-29 2.4.1 文本格式的转换 20-22 2.4.2 模糊特征词集的获取 22-23 2.4.3 合并特征词集中的同义词 23-26 2.4.4 描述类别的特征词集的获取 26-27 2.4.5 描述类别的特征词集的模糊化 27-29 3 两种模糊分类方法的应用 29-35 3.1 基于模糊集贴近度的分类方法 29-31 3.1.1 贴近度的定义 29-30 3.1.2 模糊集贴近度分类方法的具体实现 30-31 3.2 基于模糊语义关联度的分类方法 31-35 3.2.1 语义关联度的引入 31 3.2.2 模糊语义关联度的定义 31-33 3.2.3 基于模糊语义关联度分类方法的实现 33-35 4 迭代学习分类器的构造方法 35-40 4.1 基本思想 35-36 4.1.1 分类结果的分析 35 4.1.2 训练算法流程图 35-36 4.2 隶属度更新算法的提出 36-38 4.3 隶属度更新算法的迭代改进 38-40 5 实验及其结果分析 40-47 5.1 实验条件 40-41 5.2 实验评价标准 41-43 5.3 实验测试的内容及结果分析 43-47 5.3.1 模糊集间的贴近度和模糊语义关联度的比较 43-44 5.3.2 采用隶属度更新算法的分类性能 44-46 5.3.3 迭代改进后的隶属度更新算法的分类性能 46-47 6 结束语和展望 47-49 致谢 49-50 参考文献 50-52
|
相似论文
- 空间目标ISAR成像仿真及基于ISAR像的目标识别,TN957.52
- 基于仿生模式识别的文本分类技术研究,TP391.1
- 互联网上旅游评论的情感分析及其有用性研究,TP391.1
- 多传感器信息融合及其在可穿戴计算机上的应用,TP202
- 基于数据分布特征的文本分类研究,TP391.1
- 面向文本分类的改进K近邻的支持向量机算法研究,TP391.1
- 基于API Hook技术的Bot检测方法的研究与实现,TP393.08
- 江西省水生态承载力分析,TV213.4
- 基于中介真值程度度量的图像分割方法研究,TP391.41
- 基于树型条件随场的特定域事件提取方法研究,TP391.1
- 主观题自动评分技术研究,TP391.1
- 网络教育新闻文本分类系统的设计与实现,TP391.1
- 一种于经验数据的软件缺陷修复工作量预测模型研究,TP311.53
- 无线传感器网络分布式目标检测研究,TP212.9
- 跨语言文本分类的研究,TP391.1
- 基于分类模型监测电子商务违禁信息的研究与实现,TP393.09
- 基于语义分析的文本挖掘研究,TP391.1
- 网络舆情分析关键技术研究与实现,TP393.09
- 基于概率的潜在语义分析模型在搜索引擎商业文本分类系统中的应用研究,TP391.1
- 基于关联技术的中文文本分类研究,TP391.1
- 软件缺陷自动分派研究,TP311.52
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com
|