学位论文 > 优秀研究生学位论文题录展示
面向金融信息的主题爬虫研究与应用
作 者: 卜永忠
导 师: 王晓龙;陈清才
学 校: 哈尔滨工业大学
专 业: 计算机科学与技术
关键词: 链接块锚文本 主题相关性密度 朴素贝叶斯 主题爬虫
分类号: TP393.092
类 型: 硕士论文
年 份: 2008年
下 载: 104次
引 用: 0次
阅 读: 论文下载
内容摘要
随着Internet的迅速发展,网络上的Web资源以膨胀性的方式增长,面对庞大的Web网页资源,传统的全文搜索引擎,难以保证搜索结果的精确度和召回率。于是,人们提出使用主题搜索引擎来解决这个问题,网络中的Web网页是按类别来组织的,将搜索引擎建立在其中的一个或几个类别的网页资源之上,这样就缩小了搜索的范围和规模,可以有效的发挥搜索引擎的功能,其中网页资源的获取由主题爬虫来完成。主题爬虫下载的网页资源的主题类别是根据需求来定义的,一般应用于主题搜索引擎的主题类别是根据常用的分类来描述的,同样,也可以根据用户的需求来定制,如根据用户感兴趣的内容可以定制个性化的主题爬虫。本文以常用的金融类别为目标主题,该主题类别特征是包含多个子主题,如股票、基金、期货等,而且网络中的数据资源丰富,建立金融网页库可以用于聚类分析,数据挖掘等,在实际应用中对这些数据的分析可以作为人们进行投资的参考,有很好的应用前景。本文研究的目的是如何实现一个金融主题爬虫系统,能全面的获取网络中的金融主题网页资源,而且尽量提高获取网页库的主题精确度。经过分析,主题爬虫研究的重点是对网页和链接的主题相关性分析,主要从文本(包括网页内容文本和链接锚文本)和链接结构两个方面来分析,其中对前者的分析,通过建立文本分类器,判断文本与主题的相关性;后者主要是利用PageRank算法和HITS算法来评价链接与主题的相关性;根据网页和链接与主题的相关性,来对它们进行过滤。本文对网页进行分块,提取网页链接块锚文本,根据对链接块锚文本的主题相关性评价的结果作为块内各链接与主题的相关性,并针对这种文本的处理提出主题相关性密度算法。对网页内容文本的主题相关性的评价使用朴素贝叶斯算法进行处理。根据最后的实验数据分析,我们可以发现,这两种方法在文本分类上都能使金融主题的召回率达到90%以上,应用于主题爬虫中可以保证下载网页的主题覆盖率,而且系统实验获得金融网页的主题精确度在85%以上;这就说明本文提出的主题相关性密度的方法在链接块锚文本的应用上是很有效的。
|
全文目录
摘要 4-5 Abstract 5-9 第1章 绪论 9-13 1.1 课题背景 9 1.2 课题研究的目的和意义 9-10 1.3 主题爬虫技术研究现状 10-12 1.4 本文主要研究内容及组织 12-13 第2章 主题爬虫技术 13-33 2.1 概述 13-16 2.1.1 主题爬虫工作原理 13-15 2.1.2 主题爬虫基本结构 15-16 2.2 主题信息的描述与定义 16-19 2.2.1 主题信息描述形式 16-17 2.2.2 主题信息特征选择 17-19 2.3 网页与链接的主题相关性评价算法 19-29 2.3.1 基于链接结构的主题相关性评价算法 20-25 2.3.2 基于网页内容的主题相关性评价算法 25-29 2.4 主题爬虫搜索策略 29-32 2.4.1 深度优先搜索策略 29-30 2.4.2 广度优先搜索策略 30 2.4.3 最佳优先搜索策略 30-32 2.5 本章小结 32-33 第3章 主题相关性密度文本分类算法 33-43 3.1 引言 33 3.2 主题相关性密度的基本原理 33-34 3.3 基于主题相关性密度的文本分类器 34-36 3.3.1 类别特征的量化 34-35 3.3.2 文本与类别关系的度量 35-36 3.4 文本分类器评测实验 36-42 3.4.1 基于网页内容文本的分类器测试实验 37-39 3.4.2 基于链接块锚文本的分类器测试实验 39-42 3.5 本章小结 42-43 第4章 金融主题爬虫的设计与实现 43-53 4.1 引言 43 4.2 金融主题爬虫的结构设计 43-45 4.3 功能模块的实现 45-52 4.3.1 金融信息的定义 45-46 4.3.2 网页下载 46-48 4.3.3 基于网页分块的网页信息提取 48-50 4.3.4 网页及链接的主题相关性判断 50 4.3.5 URL解析及管理 50-52 4.4 本章小结 52-53 第5章 实验结果与分析 53-61 5.1 引言 53 5.2 实验环境 53 5.3 网页分块提取实验 53-55 5.4 文本分类算法在系统中的应用效果 55-60 5.4.1 效率测试 55-56 5.4.2 金融主题爬虫系统的主题精确度测试 56-60 5.5 本章小结 60-61 结论 61-63 参考文献 63-67 攻读学位期间发表的学术论文 67-69 致谢 69-70 个人简历 70
|
相似论文
- 基于SVM分类算法的主题爬虫研究,TP391.3
- 数据挖掘在邮件反垃圾系统中的应用,TP393.098
- 主题搜索引擎中的爬取技术研究,TP391.3
- 贝叶斯分类算法的研究与应用,TP18
- 面向工程监理的多Agent信息智能检索机制研究,TP391.3
- 基于朴素贝叶斯分类技术的纳税评估模型研究,F812.42
- 面向汽车行业的主题爬虫研究与实现,TP391.3
- 上市公司财务危机预测研究新探索,F275
- 本体映射及基于本体的数据集成研究,TP391.1
- 垂直搜索引擎主要技术研究,TP391.3
- 基于领域本体的主题爬虫研究及实现,TP391.3
- 基于互信息的朴素贝叶斯改进模型研究,TP311.13
- 使用机器学习方法对汉语评论进行情感分类,TP391.1
- 结合模糊分类的贝叶斯网络在信用风险评估中的应用,O212.8
- 中文文本分类的研究与应用,TP391.1
- 基于聚焦相关度排序的搜索引擎研究与应用,TP391.3
- 基于HMM的定题信息采集研究与实践,TP274.2
- 基于时态信息的主题搜索引擎的研究与实现,TP391.3
- 关系数据分类算法的研究,TP311.13
- 基于模式识别算法的网络入侵检测系统研究,TP393.08
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 计算机网络 > 一般性问题 > 计算机网络应用程序 > 网络浏览器
© 2012 www.xueweilunwen.com
|