学位论文 > 优秀研究生学位论文题录展示

基于半监督的支持向量机网页分类方法

作 者: 吴成刚
导 师: 李村合
学 校: 中国石油大学
专 业: 计算机科学与技术
关键词: 支持向量机 半监督式学习 网页分类 主动学习 最佳训练样本
分类号: TP393.092
类 型: 硕士论文
年 份: 2010年
下 载: 144次
引 用: 0次
阅 读: 论文下载
 

内容摘要


随着网络的发展,为了能够有效地组织和分析海量的网页信息,人们希望能够对网页实现自动分类。因此,网页分类技术便成了快速且有效地组织网络上海量信息的一项重要技术。在众多的网页分类算法中,支持向量机凭借其出色的学习能力,已成为机器学习界的研究热点。而现实生活中大量数据却是无标记的,为数据作标记的工作耗时费力。这推动了机器学习的研究进入到一个新的阶段,结合有标记数据和无标记数据的半监督式学习正成为新热点。讲述了网页分类的过程,分类方法种类划分和评价标准。然后介绍了支持向量机的原理、发展和相关技术,阐述了支持向量机技术在网页分类中的重要作用。之后研究了目前支持向量机常用的训练算法和半监督支持向量机的训练算法;还研究了主动学习的样本选择策略。针对目前半监督支持向量机训练算法存在训练速度慢并且准确率不高等缺点,提出了一种基于主动学习的半监督支持向量机学习算法,它以少量的有标记数据来训练初始学习器,通过主动学习策略来选择最佳训练样本,并通过删除非支持向量来降低学习代价,获得较好的学习效果。最后,将改进的半监督支持向量机训练算法应用到网页分类系统中,并对以上的改进策略进行实验对比和性能分析。实验数据表明,本文算法具有更高的分类效率和准确率。

全文目录


摘要  4-5
Abstract  5-8
第一章 前言  8-15
  1.1 课题背景与意义  8
  1.2 国内外研究现状  8-13
  1.3 论文研究内容  13
  1.4 论文组织结构  13-15
第二章 网页分类技术  15-25
  2.1 网页分类预处理技术  15-18
    2.1.1 文本分类  15-16
    2.1.2 文本的表示  16-17
    2.1.3 预处理  17
    2.1.4 特征提取  17-18
  2.2 网页分类算法分类  18-20
  2.3 常用网页分类算法  20-23
    2.3.1 NB 算法  20-21
    2.3.2 KNN 算法  21-22
    2.3.3 最大熵模型分类方法  22
    2.3.4 聚类分类方法  22-23
  2.4 网页分类的评价方法  23-24
  2.5 本章小结  24-25
第三章 半监督支持向量机主动学习  25-35
  3.1 支持向量机基本原理  25-31
    3.1.1 支持向量机概述  25
    3.1.2 支持向量机的几何意义  25-26
    3.1.3 支持向量机的一般原理  26-28
    3.1.4 支持向量机的训练算法  28-31
  3.2 半监督支持向量机  31-33
    3.2.1 半监督支持向量机概述  31-32
    3.2.2 半监督支持向量机原理和训练方法  32-33
  3.3 主动学习  33-34
  3.4 本章小结  34-35
第四章 基于主动学习的半监督支持向量机改进算法  35-41
  4.1 半监督支持向量机训练算法分析  35-36
  4.2 基于主动学习的半监督支持向量机训练方法  36-38
  4.3 实验与讨论  38-40
  4.4 本章小结  40-41
第五章 中文网页分类实验系统设计  41-52
  5.1 实验环境设定  41
  5.2 实验系统结构设计  41-47
    5.2.1 特征提取模块  42-46
    5.2.2 训练模块  46
    5.2.3 分类模块  46-47
  5.3 运行结果及分析  47-51
    5.3.1 系统运行  47-50
    5.3.2 运行结果分析  50-51
  5.4 本章小结  51-52
总结  52-54
  主要工作  52
  主要创新点  52-53
  存在的问题及未来的方向  53-54
参考文献  54-58
在学期间的研究成果  58-59
致谢  59

相似论文

  1. 基于SVM的常压塔石脑油干点软测量建模研究,TE622.1
  2. 基于SVM的高速公路路面浅层病害的自动检测算法研究,U418.6
  3. 基于PCA-SVM的液体火箭发动机试验台故障诊断算法研究,V433.9
  4. 空间目标ISAR成像仿真及基于ISAR像的目标识别,TN957.52
  5. 音乐结构自动分析研究,TN912.3
  6. 基于三维重建的焊点质量分类方法研究,TP391.41
  7. 胆囊炎和肾病综合症脉象信号的特征提取与分类研究,TP391.41
  8. 直推式支持向量机研究及其在图像检索中的应用,TP391.41
  9. 基于SVM的中医舌色苔色分类方法研究,TP391.41
  10. 基于图像的路面破损识别,TP391.41
  11. 基于支持向量机的故障诊断方法研究,TP18
  12. 过程支持向量机及其在卫星热平衡温度预测中的应用研究,TP183
  13. 基于监督流形学习算法的固有不规则蛋白质结构预测研究,Q51
  14. 基于车载3D加速传感器的路况监测研究,TP274
  15. 高光谱图像技术诊断黄瓜病害方法的研究,S436.421
  16. 基于机器学习的入侵检测系统研究,TP393.08
  17. 支持向量机回归在短期电力负荷预测中的应用研究,TM715;F224
  18. 面向文本分类的改进K近邻的支持向量机算法研究,TP391.1
  19. 基于AdaBoost算法的人脸识别研究,TP391.41
  20. 面向肺部CAD的特征提取、选择及分类方法研究,TP391.41
  21. 城市污水处理厂中A~2O工艺过程的建模研究,X703

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 计算机网络 > 一般性问题 > 计算机网络应用程序 > 网络浏览器
© 2012 www.xueweilunwen.com