学位论文 > 优秀研究生学位论文题录展示
网页文本分类及其在搜索引擎中的应用
作 者: 徐学可
导 师: 蒋宗礼
学 校: 北京工业大学
专 业: 计算机软件与理论
关键词: 网页文本分类 集成学习 搜索引擎 特征抽取 主题爬虫
分类号: TP391.3
类 型: 硕士论文
年 份: 2008年
下 载: 355次
引 用: 2次
阅 读: 论文下载
内容摘要
网页自动文本分类是处理和组织大规模网络文本信息的关键技术,是使信息资源得以合理有效组织的重要方法,同时也是解决主题搜索、个性化信息检索、搜索引擎的目录导航、信息过滤中相关问题的核心技术。研究网页自动文本分类对于解决人们如何有效获取有效网络信息,研究新一代搜索引擎有着重要意义。本文研究了网页文本分类及其在搜索引擎应用,主要工作如下:1.网页文本分类相关技术的研究:包括特征选择,特征抽取,分类算法,网页处理等,在此基础上设计并实现一个网页文本分类子系统,对网页分类各种技术进行整合,使其具有良好的框架和可扩展性。2.提出了一种基于集成学习与类指示器的文本分类方法,该方法利用AdaBoost.MH算法框架,在每一轮次中,自适应地计算类指示器,通过加权组合所有成员类指示器,获得对理想类指示器的一种逼近。利用最终的类指示器所得到的分类器不仅简单易于更新,而且泛化能力强。3.将集成学习方法与推拉策略结合来修正中心法的分类器偏差,基于AdaBoost.MR方法,通过利用其自适应维护权重分布的特点,用每轮的权重分布,修正传统中心法分类器偏差,突出被误分类的文档的影响,降低其误分类概率。4.开展文本分类中特征抽取的研究,论述了应用词条聚合进行文本分类的特征抽取的基本思想与意义,设计了一种具体方案,利用改进的TGSOM进行词条聚合,并根据聚合特征的特点,提出了一种新的权重计算方法。5.将文本分类用于主题爬虫:探讨了主题爬虫的基本问题,主要包括主题模型,网页优先级计算,爬虫框架与系统调度等。设计实现了一个通用的主题爬虫子系统,应用文本分类技术,提出了一个基于AdaBoost集成学习方法的主题原型向量及阈值的计算方法,设计了主题敏感的链接分析方法用于优先级计算。6.设计与实现了一个主题搜索引擎原型系统,探讨了系统框架及文本分类在其中的应用。
|
全文目录
摘要 3-4 ABSTRACT 4-8 第1章 绪论 8-14 1.1 课题背景及意义 8 1.2 网页文本分类及国内外研究现状 8-12 1.2.1 文本分类概述 8-9 1.2.2 文本分类研究现状 9-11 1.2.3 网页文本分类研究现状 11-12 1.3 本文的研究内容和组织结构 12-14 第2章 网页文本分类相关技术 14-28 2.1 普通文本分类相关技术 14-21 2.1.1 特征选择 14-16 2.1.2 常用分类算法 16-21 2.1.3 多层次分类问题 21 2.2 网页文本分类相关技术 21-26 2.2.1 网页分块技术 22-24 2.2.2 网页处理框架 24-26 2.3 网页文本分类系统框架 26-27 2.4 本章小结 27-28 第3章 集成学习在文本分类中应用 28-48 3.1 集成学习概述 28-29 3.2 一种基于集成学习与类指示器的文本分类方法 29-38 3.2.1 动机 29-30 3.2.2 基于类指示器的文本分类方法 30-31 3.2.3 算法框架 31-33 3.2.4 权重函数及类指示度函数 33-35 3.2.5 分类的时间复杂度 35-36 3.2.6 AdaBoost.MH 算法的进一步改进 36 3.2.7 实验和讨论 36-38 3.2.8 算法总结 38 3.3 基于集成学习与推拉策略的中心法的分类器偏差修正 38-46 3.3.1 动机 38-39 3.3.2 中心法分类偏差 39 3.3.3 成员中心法的改进 39-43 3.3.4 基于AdaBoost.MR 的改进方法 43-44 3.3.5 实验和讨论 44-45 3.3.6 算法总结 45-46 3.4 本章小结 46-48 第4章 文本分类中基于词条聚合的特征抽取 48-58 4.1 引言 48-49 4.2 基于词条聚合的文本分类 49-55 4.2.1 基本思想 49 4.2.2 特征选择 49-50 4.2.3 词条类概率分布的计算 50 4.2.4 词条聚合算法 50-53 4.2.5 文本VSM 表示的权重计算 53 4.2.6 分类方法的选取 53-54 4.2.7 实验分析 54-55 4.3 本章小结 55-58 第5章 文本分类在主题爬虫系统中的应用 58-67 5.1 序言 58-59 5.2 主题爬虫系统设计 59-60 5.3 主题爬虫相关技术 60-64 5.3.1 链接分类器 60-61 5.3.2 主题模型 61-62 5.3.3 网页优先级计算 62-64 5.4 相关实验 64-65 5.5 本章小结 65-67 第6章 基于网页分类的主题搜索引擎 67-77 6.1 引言 67-69 6.2 系统框架 69-76 6.2.1 网络爬虫 69-71 6.2.2 索引系统 71-73 6.2.3 检索系统 73-74 6.2.4 用户界面 74-75 6.2.5 系统的扩展 75-76 6.3 本章小结 76-77 结论 77-79 参考文献 79-83 攻读硕士学位期间取得的研究成果 83-85 致谢 85
|
相似论文
- 基于SVM分类算法的主题爬虫研究,TP391.3
- 网络搜索引擎的相关技术研究,G354
- 基于语义网络的智能搜索引擎研究,TP391.3
- 搜索引擎服务提供商版权侵权责任认定标准探讨,D923.41
- 基于Web搜索和网页结构分析的IT相关主题新闻抓取研究,TP393.092
- 面向汽车行业的主题爬虫研究与实现,TP391.3
- 心电特征提取及分类方法研究,TN911.7
- 分布式搜索引擎索引安全及缓存策略研究,TP333
- 基于WebHarvest的中文财经新闻搜索引擎的设计与实现,TP311.52
- 面向教育新闻的主题爬虫设计与实现,TP391.3
- 食品(虾仁)分拣系统中的图像处理算法研究,TP391.41
- 教育培训行业互联网营销问题的研究,F49
- 搜索引擎侵权行为研究,D923
- 基于Web数据挖掘的个性化搜索引擎研究,TP391.3
- 基于Agent元搜索引擎的个性化研究,TP391.3
- 主题搜索引擎中的爬取技术研究,TP391.3
- 论搜索引擎竞价排名的法律规制,D923.43
- 搜索引擎悖论解读,G254
- 网络舆情分析关键技术研究与实现,TP393.09
- 基于搜索引擎网页排序算法研究,TP391.3
- 基于集成学习的垃圾短信多级分类技术研究,TN929.53
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com
|