学位论文 > 优秀研究生学位论文题录展示

基于页面分块的Web档案构建技术研究

作 者: 于长富
导 师: 王大玲
学 校: 东北大学
专 业: 计算机应用技术
关键词: Web存档 历史页面 Web页面分块 版本比较
分类号: TP393.09
类 型: 硕士论文
年 份: 2009年
下 载: 30次
引 用: 1次
阅 读: 论文下载
 

内容摘要


随着Internet的普及和飞速发展,万维网累积了大量的信息资源。它作为一个巨大的资源库和知识库,与人们的生活联系越来越紧密。通过万维网看新闻、写博客、查找资料等等,已经成为日常生活不可或缺的一部分。但是,随着时间的推移,万维网也在默默地发生着变化,其体积在不断的增大,其中的内容也在不断消失、更换和增多。在万维网不断发展壮大的过程中,Internet有一部分内容在逐渐地消失,像一些过期的网页、个人博客等等。这种消失分为两种情况,一是Web页面所在的服务器不再提供服务,二是这些内容被新的内容替换了,但这两种消失都可能是永久性的。针对这种情况,近年来很多机构开始研究和建立各自Web档案系统,并不断地扩展其应用,使其成为一个不断增长的知识库,一个Web的历史博物馆。网页档案系统按照时间顺序将Internet上存在的大量网页收集起来,进行必要的整理,以供将来的研究和使用。其意义在于它能够将随着时间大量流逝的网页保留下来,为针对Internet的研究提供一个比较全面的数据源,并可以以近似原貌的形式将其显示出来,通过更深入的研究还可以在其基础上实现进一步的应用。基于此,本文提出了一种面向Web档案的页面分块方法,初步建立了一个基于页面分块的Web档案原型系统,该系统以页面块为单位探测Web页面的变化,并能够实现块级别的增量存储,为历史页面的查询和研究提供数据源。与传统的基于整个页面的Web档案构建方法相比,本文工作的特点是基于页面分块技术,使版本比较、存储均以块为单位,减少了版本比较和存储的开销。实验表明,本文提出的基于页面块的Web档案系统构建方法是可行和有效的。

全文目录


摘要  5-6
Abstract  6-9
第1章 绪论  9-17
  1.1 Web档案系统  9-12
    1.1.1 Web档案构建的意义  9-10
    1.1.2 Web档案系统的归档模式  10
    1.1.3 Web档案系统的一般结构  10-12
  1.2 Web网页分析  12-13
    1.2.1 Web网页特点  12-13
    1.2.2 Web网页组织结构  13
    1.2.3 Web网页的更新特点  13
  1.3 问题的提出  13-14
  1.4 本文的研究目标与研究内容  14-15
    1.4.1 本文的研究目标  14-15
    1.4.2 本文的研究内容  15
  1.5 本文的组织结构  15-17
第2章 相关工作  17-21
  2.1 Web档案构建相关工作  17
  2.2 Web页面分块相关工作  17-19
  2.3 本文工作的特点  19-20
  2.4 本章小结  20-21
第3章 面向Web档案系统的页面分块  21-45
  3.1 问题描述  21-25
    3.1.1 Web页面块定义  21-22
    3.1.2 Web页面块分类  22-23
    3.1.3 Web页面分块问题形式化描述  23-25
  3.2 Web页面分块相关技术  25-37
    3.2.1 Web页面构建基础  25-27
    3.2.2 基于节点熵的页面分块技术  27-28
    3.2.3 基于视觉特征的页面分块技术  28-34
    3.2.4 基于内容距离的页面分块技术  34-37
  3.3 面向Web档案系统的页面分块算法  37-43
    3.3.1 主题块的识别  37
    3.3.2 其它块的判定  37-38
    3.3.3 算法描述  38-43
  3.4 本章小结  43-45
第4章 基于页面分块的Web存档  45-53
  4.1 问题描述  45-46
  4.2 Web页面获取相关技术  46-47
  4.3 Web版本比较  47-48
  4.4 Web页面分块  48-49
  4.5 Web增量存储  49-51
  4.6 Web页面的历史查询与重构  51-52
  4.7 本章小结  52-53
第5章 实验分析与评价  53-59
  5.1 基于页面分块的Web存档原型系统  53-55
  5.2 实验结果与分析  55-57
  5.3 本章小结  57-59
第6章 结论与展望  59-61
  6.1 本文工作的总结  59
  6.2 进一步的工作  59-61
参考文献  61-63
致谢  63-65
攻读学位期间参与的项目  65

相似论文

  1. 莫扎特《G大调第一长笛协奏曲》演奏版本比较研究,J624.1
  2. 巴赫《恰空舞曲》四个音响版本表演创造的合理性初探,J624.1
  3. 基于多特征的Web页面分块算法MFPS的研究与实现,TP393.092
  4. 潮州筝曲《寒鸦戏水》四种不同演奏版本比较研究,J632.32
  5. 对李斯特《帕格尼尼练习曲》的分析与研究,J624.1
  6. 琵琶曲《塞上曲》两种演奏版本比较研究,J632.33
  7. 浅谈霍洛维兹与他改编的拉赫玛尼诺夫第二钢琴奏鸣曲,J624.1
  8. 德彪西钢琴练习曲研究,J624.1
  9. 舒伯特《G大调奏鸣曲》(D894)之版本研究,J624.1
  10. 胡裕树主编《现代汉语》不同版本比较研究,H109.4
  11. 舒伯特钢琴即兴曲的演奏与分析,J624.1
  12. 从肖邦练习曲OP.25之6的版本比较看版本选择,J605
  13. 乐谱版本问题的初步研究,J613
  14. 《黄河钢琴协奏曲》之研究,J624.1
  15. 经典钢琴作品演绎中的“再现”与“表现”,J624.1
  16. 格里格《a小调钢琴协奏曲》的作品研究与演奏版本比较,J624.1
  17. 纳西东巴经《哥来秋招魂的故事》版本比较研究,H257
  18. 湖南花鼓戏《洗菜心》探源及版本比较,J825
  19. 洗星海<黄河大合唱>的版本比较,J605
  20. 图里翻译规范视角下三个《圣经》中译本的比较研究,H059

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 计算机网络 > 一般性问题 > 计算机网络应用程序
© 2012 www.xueweilunwen.com