学位论文 > 优秀研究生学位论文题录展示
基于SVM的多类文本分类算法及其应用研究
作 者: 成艳洁
导 师: 王建仁
学 校: 西安理工大学
专 业: 管理科学与工程
关键词: 支持向量机 文本分类 多类分类 语义概念空间 特征提取
分类号: F224
类 型: 硕士论文
年 份: 2009年
下 载: 64次
引 用: 1次
阅 读: 论文下载
内容摘要
随着通信技术和计算机技术、尤其是Internet的飞速发展,各种各样的信息成几何级数增长,作为传统信息载体的文本信息更是如此。为了能在海量的文本中及时准确地获得有效的知识和信息,文本表示技术以及文本自动分类技术受到了广泛的关注。SVM作为一种基于统计学习理论的新型机器学习方法,较好地解决了非线性、高维数、局部极小点等实际问题,是机器学习领域新的研究热点。文本分类是基于内容的自动信息管理的核心技术。文本向量稀疏性大、维数高、特征之间具有较大的相关性,支持向量机对于特征相关性和稀疏性不敏感,处理高维数问题具有较大的优势,因此,支持向量机非常适用于文本分类问题,在文本分类中具有很大的应用潜力,更是当前的一个研究热点。本文主要针对支持向量机在文本分类等实际应用中存在的问题进行深入研究,主要工作如下:首先,本文研究分析文本分类的总体模型,包括信息预处理、特征表示、特征提取。重点研究分析了特征表示与特征提取技术,文本的分类算法。支持向量机是针对两类分类问题提出的,如何将其有效地推广到多类分类仍是一个尚未完全解决的问题。本文分析了现有多类分类方法的缺陷,接着引出半对半分类分类算法。在此基础上,根据树型支持向量机的特性,提出了一种基于支持向量机的半对半多类分类方法。该方法设计树型支持向量机的树型结构,克服其差错积累问题。实验表明,与其它支持向量机多类分类方法相比,该方法具有较高的分类精度和训练速度,提高了支持向量机在多类分类问题中的应用效果。其次,认真研究了统计学习理论的主要内容和SVM算法的基本原理,讨论了核函数这一热点问题,阐述了SVM研究和应用现状,以及所面临的问题。并且结合语义概念空间,提出了一种基于支持向量机和语义概念空间的HAH多类分类算法。实验表明,该算法不仅在分类精度方面有所提高,而且大大降低了标号数据数目。最后,基于支持向量机在文本分类中的优势,将支持向量机方法应用于文本分类的特征提取,提出了一种基于支持向量机的单词聚类方法。该方法基于支持向量机度量单词对分类的贡献大小,将对分类贡献一致的单词合并起来作为文本向量的一个特征项。实验表明,该方法在基本不丢失分类信息的前提下,较大程度地降低了文本向量的维数、减少了文本特征之间的相关性,并提高了文本分类的查准率和查全率。
|
全文目录
摘要 3-4 Abstract 4-8 1 绪论 8-13 1.1 研究背景 8 1.2 研究意义 8-9 1.3 研究现状 9-11 1.3.1 文本分类的研究现状 9-10 1.3.2 支持向量机的研究现状 10-11 1.4 本文的组织结构 11-13 2 文本分类系统研究 13-19 2.1 文本分类的任务 13 2.2 文本分类的过程 13-16 2.2.1 文本分类过程概述 13-14 2.2.2 文本预处理 14 2.2.3 文本特征表示 14-15 2.2.4 特征提取 15-16 2.3 文本分类算法研究 16-17 2.4 文本分类的性能评价 17-18 2.5 本章小结 18-19 3 统计学习理论和支持向量机 19-32 3.1 统计学习理论 19-22 3.1.1 经验风险最小化原理 19-20 3.1.2 VC维 20 3.1.3 学习过程的一致性 20-21 3.1.4 结构风险最小化原理 21-22 3.2 支持向量机 22-31 3.2.1 机器学习 23 3.2.2 支持向量机模型 23-24 3.2.3 硬间隔SVM 24-26 3.2.4 软间隔SVM 26-27 3.2.5 线性不可分 27-29 3.2.6 核函数及选择 29-31 3.3 本章小结 31-32 4 多类分类算法研究 32-40 4.1 第Ⅰ类多类分类算法 32-33 4.2 第Ⅱ类多类分类算法 33-37 4.2.1 One-Against-All多类分类方法 33 4.2.2 OVO多类分类方法 33-34 4.2.3 DDAG多分类方法 34-35 4.2.4 第Ⅱ类多类方法的缺陷 35-37 4.3 半对半(HAH)多类分类算法 37-38 4.4 基于SVM的HAH算法设计 38 4.5 实验结果与分析 38-39 4.6 本章小结 39-40 5 基于SVM和语义空间的HAH多类分类算法研究 40-48 5.1 语义概念空间概述 40-41 5.2 核主成分分析 41-43 5.2.1 主成分分析法 41 5.2.2 核主成分分析提取语义概念空间 41-42 5.2.3 核化泛化Hebbian算法 42-43 5.3 渐进直推SVM 43-44 5.4 基于SVM和语义概念空间的HAH多类分类算法设计 44-46 5.5 试验结果与分析 46-47 5.6 本章小结 47-48 6 支持向量机在文本分类特征提取中的应用 48-62 6.1 文本分类特征选择和提取方法 49-53 6.1.1 基于评估函数的文本特征选择方法 49-50 6.1.2 基于单词聚类的文本特征提取方法 50-53 6.2 基于支持向量机的单词聚类方法 53-57 6.2.1 若干相关概念的界定 53-55 6.2.2 基于支持向量机的单词聚类方法 55-57 6.3 实验结果分析 57-61 6.4 本章小结 61-62 7 研究结论与展望 62-64 7.1 研究工作与成果 62-63 7.2 研究展望 63-64 致谢 64-65 参考文献 65-70
|
相似论文
- 基于SVM的常压塔石脑油干点软测量建模研究,TE622.1
- 基于SVM的高速公路路面浅层病害的自动检测算法研究,U418.6
- 基于PCA-SVM的液体火箭发动机试验台故障诊断算法研究,V433.9
- 空间目标ISAR成像仿真及基于ISAR像的目标识别,TN957.52
- 音乐结构自动分析研究,TN912.3
- 基于三维重建的焊点质量分类方法研究,TP391.41
- 胆囊炎和肾病综合症脉象信号的特征提取与分类研究,TP391.41
- Q学习在基于内容图像检索技术中的应用,TP391.41
- 直推式支持向量机研究及其在图像检索中的应用,TP391.41
- 中医舌诊中舌形与齿痕的特征提取及分类研究,TP391.41
- 基于仿生模式识别的文本分类技术研究,TP391.1
- 互联网上旅游评论的情感分析及其有用性研究,TP391.1
- 空间交会接近视觉测量方法研究,TP391.41
- 图像实时采集、存储与处理方法研究,TP391.41
- 唇读中的特征提取、选择与融合,TP391.41
- 基于SVM的中医舌色苔色分类方法研究,TP391.41
- 多币种纸币处理技术的研究与实现,TP391.41
- 基于类Harr特征和最小包含球的纸币识别方法的研究,TP391.41
- 基于图像的路面破损识别,TP391.41
- 移动机器人视觉检测和跟踪研究,TP242.62
- 高光谱与高空间分辨率遥感图像融合算法研究,TP751
中图分类: > 经济 > 经济计划与管理 > 经济计算、经济数学方法 > 经济数学方法
© 2012 www.xueweilunwen.com
|