学位论文 > 优秀研究生学位论文题录展示

网页文本分类及其在搜索引擎中的应用

作 者: 徐学可
导 师: 蒋宗礼
学 校: 北京工业大学
专 业: 计算机软件与理论
关键词: 网页文本分类 集成学习 搜索引擎 特征抽取 主题爬虫
分类号: TP391.3
类 型: 硕士论文
年 份: 2008年
下 载: 355次
引 用: 2次
阅 读: 论文下载
 

内容摘要


网页自动文本分类是处理和组织大规模网络文本信息的关键技术,是使信息资源得以合理有效组织的重要方法,同时也是解决主题搜索、个性化信息检索、搜索引擎的目录导航、信息过滤中相关问题的核心技术。研究网页自动文本分类对于解决人们如何有效获取有效网络信息,研究新一代搜索引擎有着重要意义。本文研究了网页文本分类及其在搜索引擎应用,主要工作如下:1.网页文本分类相关技术的研究:包括特征选择,特征抽取,分类算法,网页处理等,在此基础上设计并实现一个网页文本分类子系统,对网页分类各种技术进行整合,使其具有良好的框架和可扩展性。2.提出了一种基于集成学习与类指示器的文本分类方法,该方法利用AdaBoost.MH算法框架,在每一轮次中,自适应地计算类指示器,通过加权组合所有成员类指示器,获得对理想类指示器的一种逼近。利用最终的类指示器所得到的分类器不仅简单易于更新,而且泛化能力强。3.将集成学习方法与推拉策略结合来修正中心法的分类器偏差,基于AdaBoost.MR方法,通过利用其自适应维护权重分布的特点,用每轮的权重分布,修正传统中心法分类器偏差,突出被误分类的文档的影响,降低其误分类概率。4.开展文本分类中特征抽取的研究,论述了应用词条聚合进行文本分类的特征抽取的基本思想与意义,设计了一种具体方案,利用改进的TGSOM进行词条聚合,并根据聚合特征的特点,提出了一种新的权重计算方法。5.将文本分类用于主题爬虫:探讨了主题爬虫的基本问题,主要包括主题模型,网页优先级计算,爬虫框架与系统调度等。设计实现了一个通用的主题爬虫子系统,应用文本分类技术,提出了一个基于AdaBoost集成学习方法的主题原型向量及阈值的计算方法,设计了主题敏感的链接分析方法用于优先级计算。6.设计与实现了一个主题搜索引擎原型系统,探讨了系统框架及文本分类在其中的应用。

全文目录


摘要  3-4
ABSTRACT  4-8
第1章 绪论  8-14
  1.1 课题背景及意义  8
  1.2 网页文本分类及国内外研究现状  8-12
    1.2.1 文本分类概述  8-9
    1.2.2 文本分类研究现状  9-11
    1.2.3 网页文本分类研究现状  11-12
  1.3 本文的研究内容和组织结构  12-14
第2章 网页文本分类相关技术  14-28
  2.1 普通文本分类相关技术  14-21
    2.1.1 特征选择  14-16
    2.1.2 常用分类算法  16-21
    2.1.3 多层次分类问题  21
  2.2 网页文本分类相关技术  21-26
    2.2.1 网页分块技术  22-24
    2.2.2 网页处理框架  24-26
  2.3 网页文本分类系统框架  26-27
  2.4 本章小结  27-28
第3章 集成学习在文本分类中应用  28-48
  3.1 集成学习概述  28-29
  3.2 一种基于集成学习与类指示器的文本分类方法  29-38
    3.2.1 动机  29-30
    3.2.2 基于类指示器的文本分类方法  30-31
    3.2.3 算法框架  31-33
    3.2.4 权重函数及类指示度函数  33-35
    3.2.5 分类的时间复杂度  35-36
    3.2.6 AdaBoost.MH 算法的进一步改进  36
    3.2.7 实验和讨论  36-38
    3.2.8 算法总结  38
  3.3 基于集成学习与推拉策略的中心法的分类器偏差修正  38-46
    3.3.1 动机  38-39
    3.3.2 中心法分类偏差  39
    3.3.3 成员中心法的改进  39-43
    3.3.4 基于AdaBoost.MR 的改进方法  43-44
    3.3.5 实验和讨论  44-45
    3.3.6 算法总结  45-46
  3.4 本章小结  46-48
第4章 文本分类中基于词条聚合的特征抽取  48-58
  4.1 引言  48-49
  4.2 基于词条聚合的文本分类  49-55
    4.2.1 基本思想  49
    4.2.2 特征选择  49-50
    4.2.3 词条类概率分布的计算  50
    4.2.4 词条聚合算法  50-53
    4.2.5 文本VSM 表示的权重计算  53
    4.2.6 分类方法的选取  53-54
    4.2.7 实验分析  54-55
  4.3 本章小结  55-58
第5章 文本分类在主题爬虫系统中的应用  58-67
  5.1 序言  58-59
  5.2 主题爬虫系统设计  59-60
  5.3 主题爬虫相关技术  60-64
    5.3.1 链接分类器  60-61
    5.3.2 主题模型  61-62
    5.3.3 网页优先级计算  62-64
  5.4 相关实验  64-65
  5.5 本章小结  65-67
第6章 基于网页分类的主题搜索引擎  67-77
  6.1 引言  67-69
  6.2 系统框架  69-76
    6.2.1 网络爬虫  69-71
    6.2.2 索引系统  71-73
    6.2.3 检索系统  73-74
    6.2.4 用户界面  74-75
    6.2.5 系统的扩展  75-76
  6.3 本章小结  76-77
结论  77-79
参考文献  79-83
攻读硕士学位期间取得的研究成果  83-85
致谢  85

相似论文

  1. 基于SVM分类算法的主题爬虫研究,TP391.3
  2. 网络搜索引擎的相关技术研究,G354
  3. 基于语义网络的智能搜索引擎研究,TP391.3
  4. 搜索引擎服务提供商版权侵权责任认定标准探讨,D923.41
  5. 基于Web搜索和网页结构分析的IT相关主题新闻抓取研究,TP393.092
  6. 面向汽车行业的主题爬虫研究与实现,TP391.3
  7. 心电特征提取及分类方法研究,TN911.7
  8. 分布式搜索引擎索引安全及缓存策略研究,TP333
  9. 基于WebHarvest的中文财经新闻搜索引擎的设计与实现,TP311.52
  10. 面向教育新闻的主题爬虫设计与实现,TP391.3
  11. 食品(虾仁)分拣系统中的图像处理算法研究,TP391.41
  12. 教育培训行业互联网营销问题的研究,F49
  13. 搜索引擎侵权行为研究,D923
  14. 基于Web数据挖掘的个性化搜索引擎研究,TP391.3
  15. 基于Agent元搜索引擎的个性化研究,TP391.3
  16. 主题搜索引擎中的爬取技术研究,TP391.3
  17. 论搜索引擎竞价排名的法律规制,D923.43
  18. 搜索引擎悖论解读,G254
  19. 网络舆情分析关键技术研究与实现,TP393.09
  20. 基于搜索引擎网页排序算法研究,TP391.3
  21. 基于集成学习的垃圾短信多级分类技术研究,TN929.53

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com