学位论文 > 优秀研究生学位论文题录展示

基于模板的Web新闻搜索技术的研究与实现

作 者: 林子熠
导 师: 沈备军
学 校: 上海交通大学
专 业: 软件工程
关键词: Web新闻搜索 分布式爬虫 正文抽取 搜索引擎
分类号: TP391.3
类 型: 硕士论文
年 份: 2010年
下 载: 91次
引 用: 0次
阅 读: 论文下载
 

内容摘要


在信息时代,资讯就是生产力。要从浩如烟海的互联网上找到自己关注的新闻资讯,必须借助搜素引擎的帮助。目前市场上有着多种通用Web新闻搜索引擎,比如谷歌新闻、百度资讯等,但是它们都无法满足企业级的定制新闻搜索需求。本课题的研究目标是建立一个以Web新闻搜索引擎为核心,支持新闻搜索、处理和存档的企业级集成工作平台,实现面向特定领域的高效、全面、准确和可靠的定制型Web新闻搜索。定制型Web新闻搜索引擎处理信息量远小于通用型搜索引擎,因此可以以更快的速度、更精确的匹配算法获取新闻,并抽取出来自异构数据源的新闻正文,转换为统一格式,方便用户使用。在本文中,我们首先分析了目前国内外的主要Web新闻搜索技术,结合定制型Web新闻搜索的实际需求,研究了基于模板的分布式Web新闻搜索的两个关键技术:1)网络爬虫的分布式架构和多爬虫间的动态任务分发。我们设计并实现了多爬虫和单协调服务器组成的分布式搜索引擎架构,各个爬虫从协调服务器领取任务,再将完成的搜索结果集中到协调服务器。同时我们针对协调服务器上的任务分发,提出了基于历史数据的最短耗时分发算法,使分布式系统整体完成搜索任务的耗时最少。2)基于模板的Web新闻正文抽取技术。为了高效准确地从新闻网页中抽取出新闻正文内容,我们基于模板技术,设计并实现了新闻网站模板标签的自动检测和基于该模板标签的新闻正文内容自动抽取。该新闻正文内容抽取算法的时间复杂度达到了O(n),能自动化完成模板标签的构建和Web新闻正文内容的抽取。然后,在关键技术研究的基础上,我们结合咨询公司w公司的实际业务需求,基于UML技术完成了定制型Web新闻搜索引擎的详细需求分析和架构设计,包括用例模型、静态逻辑模型和动态逻辑模型,并采用.Net技术和PostgreSql数据库实现了一个新闻搜索平台,通过了功能测试和性能测试。目前,该平台已在企业中进行了试用,能较好地满足其业务需求,每天用5个爬虫在4.5小时中搜索到3万条符合关键字的新闻;查全率为92%,高于谷歌资讯的38.15%和百度资讯的19.2%;准确率90.5%,高于w公司原有工具的67.68%。试点应用结果表明,本文所提出的方法和所开发的平台是有效的,能支持面向特定领域的高效、全面、准确和可靠的Web新闻搜索。

全文目录


摘要  5-7
ABSTRACT  7-11
1 绪论  11-14
  1.1 研究背景  11
  1.2 研究目的和意义  11-12
  1.3 研究目标和内容  12
  1.4 论文结构  12-14
2 国内外研究现状及分析  14-22
  2.1 Web 搜索技术  14-15
  2.2 Web 新闻抽取技术  15-18
    2.2.1 信息抽取  15-16
    2.2.2 Web 信息的抽取  16-18
  2.3 新闻搜索引擎  18-22
    2.3.1 搜索引擎的概念  18
    2.3.2 搜索引擎的分类  18-20
    2.3.3 现有新闻搜索引擎  20-22
3 多爬虫的分布式架构研究  22-33
  3.1 Web 新闻搜索总体方案  22-23
  3.2 分布式架构设计  23-25
  3.3 搜索任务的分发  25-30
    3.3.1 搜索任务数据结构  25-26
    3.3.2 任务分发算法  26-30
    3.3.3 分发流程  30
  3.4 爬虫设计  30-33
4 新闻内容抽取的研究  33-41
  4.1 新闻内容抽取方法  33
  4.2 标签模板的自动化构建  33-37
    4.2.1 分块标签排他性  34-35
    4.2.2 构建标签模板时机  35
    4.2.3 构造算法  35-37
  4.3 基于模板的新闻内容抽取  37-38
  4.4 新闻内容抽取器设计  38-41
5 一个WEB 新闻搜索平台的开发  41-52
  5.1 平台的需求分析  41-45
    5.1.1 现状分析  41
    5.1.2 平台的用例图  41-43
    5.1.3 模板系统管理  43
    5.1.4 Web 新闻搜索  43-44
    5.1.5 新闻后期处理  44
    5.1.6 非功能性需求  44-45
  5.2 平台的设计  45-52
    5.2.1 平台总体结构  45-46
    5.2.2 平台开发技术  46
    5.2.3 静态逻辑视图  46-49
    5.2.4 动态逻辑视图  49-52
6 实验和试用  52-60
  6.1 新闻正文内容抽取实验  52-55
    6.1.1 标签模板自动构建准确度  52-54
    6.1.2 新闻内容抽取准确度  54-55
  6.2 分布式多爬虫实验  55-57
  6.3 平台的应用试点  57-60
7 总结与展望  60-62
  7.1 本文工作小结  60
  7.2 展望  60-62
参考文献  62-65
致谢  65-66
攻读学位期间发表的学术论文  66-68

相似论文

  1. 网络搜索引擎的相关技术研究,G354
  2. 基于语义网络的智能搜索引擎研究,TP391.3
  3. 搜索引擎服务提供商版权侵权责任认定标准探讨,D923.41
  4. 基于Web搜索和网页结构分析的IT相关主题新闻抓取研究,TP393.092
  5. 分布式搜索引擎索引安全及缓存策略研究,TP333
  6. 基于WebHarvest的中文财经新闻搜索引擎的设计与实现,TP311.52
  7. 基于Nutch的企业搜索引擎的研究与实现,TP391.3
  8. 教育培训行业互联网营销问题的研究,F49
  9. 搜索引擎侵权行为研究,D923
  10. 基于Web数据挖掘的个性化搜索引擎研究,TP391.3
  11. 基于Agent元搜索引擎的个性化研究,TP391.3
  12. 论搜索引擎竞价排名的法律规制,D923.43
  13. 搜索引擎悖论解读,G254
  14. 基于搜索引擎网页排序算法研究,TP391.3
  15. 网络下载侵权分析,D923.41
  16. 垂直门户网站产品搜索系统的设计与实现,TP393.092
  17. 基于领域知识的Deep Web接口发现研究,TP393.09
  18. 基于对等网络的搜索引擎关键技术研究,TP391.3
  19. 基于本体的智能答疑系统研究与实现,TP311.52
  20. 基于聚类分析的搜索引擎自动性能评价研究,TP391.3
  21. 对搜索引擎扩充语义信息功能方法研究,TP391.3

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 检索机
© 2012 www.xueweilunwen.com