学位论文 > 优秀研究生学位论文题录展示

基于Web搜索和网页结构分析的IT相关主题新闻抓取研究

作　者: 赵玉勇
导　师: 张巍
学　校: 中国海洋大学
专　业: 计算机应用技术
关键词: 主题新闻搜索引擎行业角色模型文本挖掘
分类号: TP393.092
类　型: 硕士论文
年　份: 2010年
下　载: 38次
引　用: 0次
阅　读: 论文下载

内容摘要

新闻是和人们日常工作娱乐生活相关性很强的信息,对于有影响的新闻事件,深度与跨度较大的主题新闻则更具知识性趣味性,所谓主题新闻,以其及时性突出新闻的“新”,以其时间跨度大突出“主题”和专题,讲求一个“深”。近几年来,互联网成为新闻信息发布的最好平台和最大来源,各种新闻以各种形式在网上快速传播。另一方面互联网上信息的爆炸式增长,使得手工方式获取更多更全的新闻内容越来越难,而作为信息获取方案之一的搜索引擎技术取得了长足的进步,以Google为代表的搜索引擎将触角伸进互联网上信息的角角落落。如何深入全面的挖掘新闻信息,对于许多新闻相关工作意义重大,通过搜索引擎挖掘深入全面的新闻信息,是本文的研究重点,即通过进一步挖掘和某一主题相关的新闻内容,形成主题新闻。IT新闻抓取的过程,本质上是Web数据挖掘的过程。挖掘中首先对2009年热点的新闻样本进行归类和分析,在样本分类的基础上,找出各样本的特点,提出行业角色模型(Trade-role Model)。此模型的提出是在与基于用户兴趣的搜索模型对照分析的基础上完成的,最终形成一个行业角色评分公式以对样本进行评价。以此模型为基础,在本文中主题新闻抓取通过两步实现。第一步,变换关键词搜索并对搜索引擎搜索结果URL提取。此步是本文研究工作的基础,提取的质量直接决定后续工作的成败。通过对搜索引擎中Google的搜索特点的研究,在几种方案中选择利用本机程序实现对其搜索结果的利用,通过基于行业角色的模型将URL链接进行比较,通过分值对这些链接进行评价与筛选,此步将大部分垃圾或无用的链接去除,保留了与新闻主题相关的链接,并选择了分值最高的一些为后面使用。第二步,URL对应的新闻正文提取。此步是本文的最终研究成果,通过对前一步中筛选后搜索到的URL链接对应的页面进行分析,提取网页对应的文本文件,通过行业角色模型进行文本挖掘,利用TRM模型以段落为基础评价得分,最后对各段落动态平衡,利用上面的分值和新闻网页的特点比较取舍,提取其中相应新闻正文内容。从新闻样本抓取的最终结果看,平均查准率达到90.2%,平均查全率达到72.8%。最终抓取的新闻正文,也最后形成主题新闻的文字正文。由于手工提炼互联网上的新闻要耗费大量的人力,通过利用搜索引擎的结果和程序的方式提炼出相关的新闻内容,会节约大量人力资源,并使新闻事件迅速全方位呈现在网络受众面前,这也是本文研究的价值所在。

全文目录

摘要  6-8
Abstract  8-12
1 绪论  12-18
  1.1 研究意义  12-13
  1.2 搜索引擎、新闻搜索简介  13-15
  1.3 IT相关主题新闻抓取  15-17
  1.4 小结  17-18
2 Web搜索引擎原理及其搜索结果利用方法对比  18-30
  2.1 Web搜索原理简介  18-22
    2.1.1 Web搜索简介  18-21
    2.1.2 Web搜索的问题  21-22
  2.2 主题爬行器  22-24
    2.2.1 爬行器的作用  22-23
    2.2.2 网络爬虫的爬取策略及对IT主题新闻的启示  23-24
  2.3 当前主流搜索引擎搜索结果利用比较  24-26
    2.3.1 百度(baidu.com)  24
    2.3.2 必应(Bing.com)  24-25
    2.3.3 谷歌Google  25-26
  2.4 搜索引擎搜索结果利用方法比较  26-29
    2.4.1 利用Google API整理搜索结果  26-29
    2.4.2 利用本机程序提取Web搜索URL链接  29
  2.5 小结  29-30
3 Web搜索结果利用和URL行业角色评价获取模型  30-50
  3.1 IT相关新闻分析及其行业特征提取  30-35
    3.1.1 2009年IT新闻事件回顾  30-32
    3.1.2 新闻事件剖析  32-34
    3.1.3 手工利用搜索引擎的困境  34-35
  3.2 从用户兴趣搜索模型到行业角色URL评价模型  35-40
    3.2.1 用户兴趣搜索模型设计  36-37
    3.2.2 基于兴趣向量的模型P2  37-38
    3.2.3 基于多兴趣向量的模型P3  38-39
    3.2.4 兴趣模型P4到基于行业角色模型  39-40
  3.3 行业角色模式下最佳URL挖掘  40-48
    3.3.1 各功能模块设计  40-41
    3.3.2 新闻事件注册与关键词库  41-42
    3.3.3 搜索引擎结果接口  42-45
    3.3.4 行业角色URL评价模块  45-47
    3.3.5 结果反馈模块  47-48
    3.3.6 结果URL链接库  48
  3.4 实验结果分析  48-49
  3.5 小结  49-50
4 网页新闻数据提取  50-62
  4.1 简介  50-52
    4.1.1 HTML及新闻HTML文档特点  50-51
    4.1.2 网页DOM树和MSHTML模型  51-52
  4.2 新闻网页提取流程  52-59
    4.2.1 网页文本提取  53-54
    4.2.2 新闻正文挖掘  54-56
    4.2.3 多网页新闻正文挖掘  56-58
    4.2.4 单网页平衡挖掘内容  58-59
  4.3 实验结果分析  59-60
  4.4 小结  60-62
5 结论与展望  62-64
  5.1 全文总结  62-63
  5.2 进一步工作  63-64
参考文献  64-65
致谢  65-66
个人简历  66
发表的学术论文  66

基于Web搜索和网页结构分析的IT相关主题新闻抓取研究

内容摘要

全文目录

相似论文