学位论文 > 优秀研究生学位论文题录展示
面向文本分类的改进K近邻的支持向量机算法研究
作 者: 王卓
导 师: 邵良杉
学 校: 辽宁工程技术大学
专 业: 管理科学与工程
关键词: 支持向量机 文本分类 K近邻算法 新闻分类系统
分类号: TP391.1
类 型: 硕士论文
年 份: 2011年
下 载: 22次
引 用: 0次
阅 读: 论文下载
内容摘要
在信息爆炸的时代,面对浩如烟海的信息,怎样有效地组织和管理这些信息并且快速准确地获得所需信息仍是一个亟待解决的问题。文本自动分类是一个有效的解决办法,它能够处理大量的文本,较大程度解决信息紊乱的现状,帮助用户方便准确地把握所需要的信息。支持向量机(SVM)是建立在结构风险最小化原则以及VC理论基础上的一种机器学习算法。由于它对特征相关性和稀疏性不敏感,对高维问题的处理具有较大的优势。因此,支持向量机在文本分类上具有应用前景。然而,使用支持向量机进行分类时总会出现在分界面附近的样本分类精度不高的问题。针对该缺点做了进一步的研究提出了一种改进K近邻的支持向量机算法。通过计算一些已知类别样本在不同阈值下的分类情况来自动确定最优阈值;同时将改进的加权KNN算法融合到支持向量机中力求在不增加支持向量机算法时间复杂度的基础上,减少分类超平面附近样本的错分率。最后,将改进算法应用到新闻分类系统中,实现新闻信息的文本归类,方便了用户阅读和浏览新闻。
|
全文目录
致谢 5-6 摘要 6-7 Abstract 7-11 1 绪论 11-16 1.1 研究背景和意义 11-12 1.2 国内外研究现状 12-14 1.2.1 文本分类研究现状 12-13 1.2.2 支持向量机研究现状 13-14 1.3 论文的研究内容与组织结构 14-16 1.3.1 论文的研究内容 14-15 1.3.2 论文的组织结构 15-16 2 文本分类相关理论 16-25 2.1 文本分类的定义 16 2.2 文本分类的过程 16-17 2.3 文本分类的关键技术 17-25 2.3.1 文本预处理 17-18 2.3.2 文本表示模型 18-19 2.3.3 文本特征选择 19-21 2.3.4 特征项权重 21-22 2.3.5 常用的分类算法 22-25 3 改进K 近邻的支持向量机算法 25-48 3.1 支持向量机理论 25-34 3.1.1 支持向量机数学模型 25-33 3.1.2 支持向量机算法的优缺点 33-34 3.2 K 近邻算法 34-36 3.2.1 K 近邻算法的实现 34-35 3.2.2 K 近邻算法的优缺点 35-36 3.3 支持向量机与K 近邻算法的融合 36-37 3.3.1 支持向量机与K 近邻算法的联系 36 3.3.2 支持向量机与K 近邻结合算法 36-37 3.4 支持向量机与K 近邻结合算法的不足 37 3.5 改进K 近邻的支持向量机算法 37-43 3.5.1 算法改进的思想 37-38 3.5.2 改进算法的原理 38-39 3.5.3 改进算法的整体描述 39-40 3.5.4 改进算法中加权KNN 算法的描述 40-42 3.5.5 改进算法中加权KNN 算法的实现 42-43 3.5.6 改进K 近邻的支持向量机算法的性能分析 43 3.6 实验及结果分析 43-48 3.6.1 实验环境 43 3.6.2 实验数据 43-44 3.6.3 评价标准 44-45 3.6.4 实验过程及结果分析 45-48 4 改进K 近邻的支持向量机算法在新闻分类系统中的应用 48-57 4.1 新闻分类系统概述 48 4.2 新闻分类系统的模型 48-49 4.3 新闻分类系统的实现 49-53 4.3.1 新闻分类系统的功能模型 49-50 4.3.2 新闻分类系统的运行环境 50 4.3.3 新闻分类系统的分类过程 50-53 4.4 新闻分类系统的分类结果及分析 53-57 4.4.1 训练文本的运行结果及分析 53-54 4.4.2 测试文本的运行结果及分析 54-57 5 结论 57-59 5.1 总结 57 5.2 展望 57-59 参考文献 59-62 作者简历 62-64 学位论文数据集 64-65
|
相似论文
- 基于SVM的常压塔石脑油干点软测量建模研究,TE622.1
- 基于SVM的高速公路路面浅层病害的自动检测算法研究,U418.6
- 基于PCA-SVM的液体火箭发动机试验台故障诊断算法研究,V433.9
- 空间目标ISAR成像仿真及基于ISAR像的目标识别,TN957.52
- 音乐结构自动分析研究,TN912.3
- 基于三维重建的焊点质量分类方法研究,TP391.41
- 胆囊炎和肾病综合症脉象信号的特征提取与分类研究,TP391.41
- 直推式支持向量机研究及其在图像检索中的应用,TP391.41
- 基于仿生模式识别的文本分类技术研究,TP391.1
- 互联网上旅游评论的情感分析及其有用性研究,TP391.1
- 基于SVM的中医舌色苔色分类方法研究,TP391.41
- 基于图像的路面破损识别,TP391.41
- 基于支持向量机的故障诊断方法研究,TP18
- 过程支持向量机及其在卫星热平衡温度预测中的应用研究,TP183
- 基于监督流形学习算法的固有不规则蛋白质结构预测研究,Q51
- 基于车载3D加速传感器的路况监测研究,TP274
- 高光谱图像技术诊断黄瓜病害方法的研究,S436.421
- 基于数据分布特征的文本分类研究,TP391.1
- 基于机器学习的入侵检测系统研究,TP393.08
- 支持向量机回归在短期电力负荷预测中的应用研究,TM715;F224
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com
|