学位论文 > 优秀研究生学位论文题录展示

基于SVM的网页分类器的研究

作 者: 吴艳玲
导 师: 左万利
学 校: 吉林大学
专 业: 计算机软件与理论
关键词: 多分类器 链接信息 文本分类 支持向量机 特征选择 网页 自动分类 模式识别 分类系统 纠错功能
分类号: TP393.09
类 型: 硕士论文
年 份: 2004年
下 载: 527次
引 用: 3次
阅 读: 论文下载
 

内容摘要


随着Internet的迅速发展,尤其是World Wide Web的全球普及,Web上信息资源已含盖了社会生活的各个方面,网络信息过载(Information Overload)问题日益突出,这促使Web挖掘技术和Web信息检索技术迅速发展。处理海量数据的一个重要方法就是将它们分类。网页自动分类是信息检索(IR)领域的一个很重要的研究方向。通过自动分类不仅仅可以将网页按照类别信息分别建立相应的数据库,提高搜索引擎的查全率和查准率,而且可以建立自动的分类信息资源,为用户提供分类信息目录。文本分类是一个特定的模式识别问题,在文本中使用模式识别的机器学习方法会取得比相关反馈方法更好的效果。如果说文本分类曾一度被看作信息检索问题,现在文本分类正越来越被作为模式识别的一个特例进行研究。大量经典的模式识别学习算法已经被应用于文本分类中,如近邻分类法,贝叶斯决策法,决策树,神经网络,支持向量机等。 本文对文本自动分类中所涉及的各项技术进行了全面的论述,并通过试验测试对文本分类研究中的两点关键技术——文本特征的获取和分类学习算法进行了深入的研究。本文主要做了以下几方面的工作:1.文本特征抽取技术特征选择是文本分类中的一个重要环节。由于文本特征集的数量非常庞大,一般的学习算法无法对其进行类别学习,使得进行特征子集的抽取变得十分必要。特征选择可以从两个方面提高系统性能:一是分类速度,通过特征选择,可以大大减少特征集合中的特征数,降低文本向量的特征数,提高系统运行速度。二是准确率,通过适当的特征选择,不但不会降低系统准确性,反而会使系统精度提高。我们通过对多种特征提取算法的比较,采用了CHI特征提取算法。同时分析了网页中对分类过程有贡献的结构成分,并针对网页的特点和网页标记作用的不同对权值进行调整,改进了TF-IDF公式使其更加适用于自动分类过程。2.文本分类算法 本文重点讨论了支持向量机的相关问题。概述了统计学习理论的主要内容,推导了支持向量机方法在文本线性可分和线性不可分情况下实现分类的数学公式,将学习问题转化为一个在等式约束和不等式约束下的凸二次优化问题,总结了求解的过程。针对超大规模文本库的训练与评估问题,采用分解算法,迭代求解,然后利用基于Leave-One-Out技术的ξα评估方法快速有效地计算错误率、准确率、召回率和F1指标。证明了分解算法的有效性,在实验系统中采取了五种加速训练的措施。我们以支持向量机为<WP=67>基础,进行了改进和扩展,采用组合结构实现N个类别的支持向量机多分类器,建立了基于SVM的结合链接信息的层次化多归属的分类系统Clearcut。 改进和扩展主要从三方面来考虑:单分类器融合成多分类器。人们从大量的实验和应用中发现,将多个分类器的决策结果结合在一起,往往可以得到比单个分类器更好的性能,如更高的识别率和更低的错误率。基本的SVM是只能判断两个类别的单分类器,为了能够判断出多个类别,我们需要把若干个单分类器结合成一个多分类器。我们研究了现有的多种分类器结合方法,并针对其不足之处进行了相应的改进。并利用阈值来确定文档所属的多个类别,使分类系统具有多归属的特点。层次分类。大多数分类系统都是假设各个类之间是相互独立的,不考虑类之间的概念层次关系,对所有的类一视同仁,统一进行训练。我们称这样的分类器为水平分类器。但是实际上,互连网上的数量庞大的网页所属的类别是具有层次关系的,我们可以根据实际情况考虑类间层次关系把水平分类器改进成层次分类器。主要有两大类层次分类法:一种是不具有纠错功能的直接法。另外一种是具有纠错功能的反馈法。为了能保证文档被分到小类,又能结合纠错法的思想我们提出了层次加权投票法来改进层次分类器。链接信息的利用。传统的网页分类主要考虑网页的内容,往往忽略了页面中的链接信息。然而大部分网页都包含链接信息(平均一个网页包含7-10个链接)。最近在超文本信息处理技术上的一些研究表明,合理的利用链接信息可以提高分类的准确率。单纯依靠内容进行分类的算法已经不适合超文本分类的需求,只有将超链结构等全局信息引入分类模型才能实现高质量的分类。本文分析了链接的种类,以及不同链接对分类所作的贡献的差异。从对数据集的分析我们发现,与同一文档具有链接关系的文档并非都是相关的,即存在一些“噪音”链接,它们及其所对应的文档若被结合进入分类模型,必将对质量产生消极影响。我们从两方面来去除噪音链接信息,以减少负面影响。 最后,本文通过两个标准数据集和一个实际数据集进行测试实验,通过对结果的分析,表明分类结果稳定,精度高,性能好。还有一些需要我们继续研究的问题。如处理大规模数据时,分类器的复杂度较高。Hwanjo Yu等提出聚类和分类相结合的思想,来减轻分类器的训练任务,而且,使之具有较高的准确性。我们以后将进一步研究分类和聚类相结合的问题,以提高分类精度。

全文目录


第一章 绪论  7-11
  1.1 文本分类概述  7-8
  1.2 文本分类研究的技术现状  8-9
  1.3 本文所做的工作  9-11
第二章 常用文本分类算法  11-18
  2.1 文本分类模型  11-14
    2.1.1 问题描述  11
    2.1.2 文档分类的系统框架  11-12
    2.1.3 文档分类两阶段流程  12-13
    2.1.4 文档分类评估方法  13-14
  2.2 几种常用分类算法  14-18
    2.2.1 简单向量距离分类法  14-15
    2.2.2 贝叶斯分类方法  15-16
    2.2.3 KNN(K最近邻)算法  16-17
    2.2.4 支持向量机  17
    2.2.5 其它分类器  17-18
第三章 网页信息的自动提取  18-26
  3.1 网页信息的分析  18-20
    3.1.1 结构信息  18-19
    3.1.2 与分类密切相关的标记  19-20
  3.2 特征提取  20-23
    3.2.1 向量空间模型  20
    3.2.2 特征提取  20-23
  3.3 综合网页信息提取  23-26
第四章 SVM理论研究  26-39
  4.1 统计学习理论  26-32
    4.1.1 背景及发展  26-27
    4.1.2 机器学习的基本问题  27-28
    4.1.3 机器学习一般方法的不足  28-29
    4.1.4 统计学习理论的核心内容  29-32
  4.2 支持向量机  32-36
    4.2.1 线性可分  32-34
    4.2.2 线性不可分  34-35
    4.2.3 核函数  35-36
  4.3 训练算法比较与评估  36-39
    4.3.1 各种训练算法比较  36-38
    4.3.2 算法评估  38-39
第五章 SVM分类器的扩展  39-53
  5.1 单分类器融合成多分类器  39-43
    5.1.1 各种融合方法介绍  39-40
    5.1.2 SVM分类器的融合  40-43
    5.1.3 文档的多归属  43
  5.2 层次分类  43-49
    5.2.1 一般层次分类法  44-47
    5.2.2 SVM层次分类法  47-48
    5.2.3 小结  48-49
  5.3 链接信息的利用  49-53
    5.3.1 链接的种类  49-50
    5.3.2 链接的噪音  50-51
    5.3.3 链接的利用  51-53
第六章 实验结果  53-59
  6.1 数据集介绍  53-54
  6.2 实验结果  54-59
第七章 结束语  59-61
  7.1 结论  59-60
  7.2 今后工作展望  60-61
参考文献  61-65
致谢  65-66
中文摘要  66-68
Abstract  68-70

相似论文

  1. 寡核苷酸介导的基因定点纠错及其应用于β-地贫基因治疗的研究,Q789;R556
  2. 面向公众的教育视频共建共享平台的设计与实践研究,G434
  3. 面向文本分类的改进K近邻的支持向量机算法研究,TP391.1
  4. 统计和规则相结合的新闻网页分类系统的设计与实现,TP393.092
  5. 基于辐射干燥度的黄土高原潜在植被研究,Q948
  6. 水黄皮根瘤菌及内生菌的多相分类研究,S154.32
  7. 中国北方大尺度植被格局研究,Q948
  8. 应用18S rDNA和16S rDNA序列研究蝗总科昆虫的系统进化,Q961
  9. 初中生创造性思维加工策略及其测试研究,B842
  10. 基于多目标规划算法的智能电梯群控系统的研究,TU857
  11. 智能手机二维码识别系统设计与实现,TN929.53
  12. 基于DCE-MRI的乳腺病灶良恶性计算机辅助诊断研究,TP391.7
  13. kNN分类算法研究及其在中毒诊断中的应用,TP311.13
  14. 美元纸币关键信息的图像检测以及号码识别,TP391.41
  15. 基于CUDA的视频火灾检测系统,TP391.41
  16. 控制性详细规划信息分类与系统需求研究,TP399
  17. 基于连续分布方向图和改进Poincare Index的自动指纹分类系统,TP391.4
  18. 华北早二叠世鳞木类大孢子囊—孢子叶复合体—无被果孢属(Achlamydocarpon Schumacker-Lambry)的研究,Q914
  19. 表格手写内容识别系统的设计与实现,TP391.41
  20. 我国机动车辆保险分类费率厘定的实证研究,F224

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 计算机网络 > 一般性问题 > 计算机网络应用程序
© 2012 www.xueweilunwen.com