学位论文 > 优秀研究生学位论文题录展示

网页文本分类及其在搜索引擎中的应用

作　者: 徐学可
导　师: 蒋宗礼
学　校: 北京工业大学
专　业: 计算机软件与理论
关键词: 网页文本分类集成学习搜索引擎特征抽取主题爬虫
分类号: TP391.3
类　型: 硕士论文
年　份: 2008年
下　载: 355次
引　用: 2次
阅　读: 论文下载

内容摘要

网页自动文本分类是处理和组织大规模网络文本信息的关键技术,是使信息资源得以合理有效组织的重要方法,同时也是解决主题搜索、个性化信息检索、搜索引擎的目录导航、信息过滤中相关问题的核心技术。研究网页自动文本分类对于解决人们如何有效获取有效网络信息,研究新一代搜索引擎有着重要意义。本文研究了网页文本分类及其在搜索引擎应用,主要工作如下:1.网页文本分类相关技术的研究:包括特征选择,特征抽取,分类算法,网页处理等,在此基础上设计并实现一个网页文本分类子系统,对网页分类各种技术进行整合,使其具有良好的框架和可扩展性。2.提出了一种基于集成学习与类指示器的文本分类方法,该方法利用AdaBoost.MH算法框架,在每一轮次中,自适应地计算类指示器,通过加权组合所有成员类指示器,获得对理想类指示器的一种逼近。利用最终的类指示器所得到的分类器不仅简单易于更新,而且泛化能力强。3.将集成学习方法与推拉策略结合来修正中心法的分类器偏差,基于AdaBoost.MR方法,通过利用其自适应维护权重分布的特点,用每轮的权重分布,修正传统中心法分类器偏差,突出被误分类的文档的影响,降低其误分类概率。4.开展文本分类中特征抽取的研究,论述了应用词条聚合进行文本分类的特征抽取的基本思想与意义,设计了一种具体方案,利用改进的TGSOM进行词条聚合,并根据聚合特征的特点,提出了一种新的权重计算方法。5.将文本分类用于主题爬虫:探讨了主题爬虫的基本问题,主要包括主题模型,网页优先级计算,爬虫框架与系统调度等。设计实现了一个通用的主题爬虫子系统,应用文本分类技术,提出了一个基于AdaBoost集成学习方法的主题原型向量及阈值的计算方法,设计了主题敏感的链接分析方法用于优先级计算。6.设计与实现了一个主题搜索引擎原型系统,探讨了系统框架及文本分类在其中的应用。

全文目录

摘要  3-4
ABSTRACT  4-8
第1章绪论  8-14
  1.1 课题背景及意义  8
  1.2 网页文本分类及国内外研究现状  8-12
    1.2.1 文本分类概述  8-9
    1.2.2 文本分类研究现状  9-11
    1.2.3 网页文本分类研究现状  11-12
  1.3 本文的研究内容和组织结构  12-14
第2章网页文本分类相关技术  14-28
  2.1 普通文本分类相关技术  14-21
    2.1.1 特征选择  14-16
    2.1.2 常用分类算法  16-21
    2.1.3 多层次分类问题  21
  2.2 网页文本分类相关技术  21-26
    2.2.1 网页分块技术  22-24
    2.2.2 网页处理框架  24-26
  2.3 网页文本分类系统框架  26-27
  2.4 本章小结  27-28
第3章集成学习在文本分类中应用  28-48
  3.1 集成学习概述  28-29
  3.2 一种基于集成学习与类指示器的文本分类方法  29-38
    3.2.1 动机  29-30
    3.2.2 基于类指示器的文本分类方法  30-31
    3.2.3 算法框架  31-33
    3.2.4 权重函数及类指示度函数  33-35
    3.2.5 分类的时间复杂度  35-36
    3.2.6 AdaBoost.MH 算法的进一步改进  36
    3.2.7 实验和讨论  36-38
    3.2.8 算法总结  38
  3.3 基于集成学习与推拉策略的中心法的分类器偏差修正  38-46
    3.3.1 动机  38-39
    3.3.2 中心法分类偏差  39
    3.3.3 成员中心法的改进  39-43
    3.3.4 基于AdaBoost.MR 的改进方法  43-44
    3.3.5 实验和讨论  44-45
    3.3.6 算法总结  45-46
  3.4 本章小结  46-48
第4章文本分类中基于词条聚合的特征抽取  48-58
  4.1 引言  48-49
  4.2 基于词条聚合的文本分类  49-55
    4.2.1 基本思想  49
    4.2.2 特征选择  49-50
    4.2.3 词条类概率分布的计算  50
    4.2.4 词条聚合算法  50-53
    4.2.5 文本VSM 表示的权重计算  53
    4.2.6 分类方法的选取  53-54
    4.2.7 实验分析  54-55
  4.3 本章小结  55-58
第5章文本分类在主题爬虫系统中的应用  58-67
  5.1 序言  58-59
  5.2 主题爬虫系统设计  59-60
  5.3 主题爬虫相关技术  60-64
    5.3.1 链接分类器  60-61
    5.3.2 主题模型  61-62
    5.3.3 网页优先级计算  62-64
  5.4 相关实验  64-65
  5.5 本章小结  65-67
第6章基于网页分类的主题搜索引擎  67-77
  6.1 引言  67-69
  6.2 系统框架  69-76
    6.2.1 网络爬虫  69-71
    6.2.2 索引系统  71-73
    6.2.3 检索系统  73-74
    6.2.4 用户界面  74-75
    6.2.5 系统的扩展  75-76
  6.3 本章小结  76-77
结论  77-79
参考文献  79-83
攻读硕士学位期间取得的研究成果  83-85
致谢  85

网页文本分类及其在搜索引擎中的应用

内容摘要

全文目录

相似论文