学位论文 > 优秀研究生学位论文题录展示

WWW孤立文件发现机制的设计与应用

作　者: 田大军
导　师: 赵林亮；李喆
学　校: 东北大学
专　业: 计算机软件与理论
关键词: 孤立文件网站日志 SQL Server 2005 ASP.Net 正则表达式全球资讯网
分类号: TP393.092
类　型: 硕士论文
年　份: 2009年
下　载: 7次
引　用: 0次
阅　读: 论文下载

内容摘要

随着网站的维护和发展,尤其是网页的链接维护和删除,致使在网站服务器上产生越来越多的孤立文件(Isolated Web Files, IWF)。孤立文件存在于WEB服务目录中,具有完整有效的URL地址。通常该文件不能通过正常的超级链接或非磁盘文件遍历方式的网站搜索结果所取得,而仅能输入准确URL地址进行访问。孤立文件不仅浪费服务器的存储空间、危害系统安全,而且可能导致泄密、引发著作权纠纷或侵犯隐私等问题发生。使用其提供的错误信息指导实践可能带来不可预期的后果。为使网站内容保持完整性和可控性,需要研究WWW孤立文件的形成原因及发现机制。本文在分析孤立文件成因的基础上,提出判断孤立文件的机制：在网站任一静态网页的HTML源代码及网页资源来源数据库记录中均不含有对该文件的引用；在WEB日志中含有对该文件的有效引用则为相对孤立文件(Relative Isolated Web Files, RIWF),否则是绝对孤立文件(Absolute Isolated Web Files, AIWF)。判断孤立文件时,首先遍历WEB发布目录,得到全部文件清单并保存在数据库中；然后遍历服务器上静态网页HTML源代码及数据库相关记录,将全部URL保存在数据库中；接着将WEB文件清单和URL记录进行比对,在URL记录中没有找到的WEB文件即为孤立文件。最后将孤立文件与WEB日志进行对比,找出相对孤立文件和绝对孤立文件。对网页源代码的分析,需要采用正则表达式,因此本研究构造并运用了适合URL分析的正则表达式。基于上述方法,将孤立文件发现机制应用于微软IIS服务器的WEB环境,采用微软.net技术实现了孤立文件的发现。本文也对如何避免产生孤立文件、处理孤立文件过程中可能会遇到的各种问题进行了探讨。

全文目录

中文摘要  5-6
Abstract  6-11
第1章绪论  11-15
  1.1 课题研究的背景及现状  11-13
  1.2 课题研究的内容和意义  13-14
  1.3 论文组织结构  14-15
第2章相关基础理论知识  15-33
  2.1 WWW网站  15-16
  2.2 WEB服务器分类及特点  16-17
    2.2.1 Apache和Tomcat  16
    2.2.2 IBM Web Sphere  16-17
    2.2.3 BEA WebLogic  17
    2.2.4 Internet Information Services (IIS)  17
  2.3 WWW网站的资源维护  17-18
    2.3.1 使用FTP软件  17-18
    2.3.2 使用远程桌面等网管工具  18
    2.3.3 使用动态网站自身管理程序  18
  2.4 正则表达式  18-23
    2.4.1 正则表达式的概念  18-19
    2.4.2 正则表达式的用途  19
    2.4.3 正则表达式的结构  19-20
    2.4.4 模式匹配元字符  20-23
  2.5 WEB日志的记录格式  23-24
  2.6 HTTP状态代码  24-25
  2.7 孤立文件发现实验的开发环境及技术  25-30
    2.7.1 .NET Framework  25-26
    2.7.2 ASP.NET 2.0  26-27
    2.7.3 Visual Studio 2005  27-28
    2.7.4 Microsoft Visual Basic 2005  28
    2.7.5 SQL Server 2005  28-30
  2.8 本章小结  30-33
第3章网站孤立文件的形成机制  33-39
  3.1 孤立文件的特征  33-34
  3.2 网站孤立文件的形成机制  34-37
    3.2.1 WEB应用程序未提供删除误上传文件功能  34
    3.2.2 单纯删除文件链接导致文件迷失  34-36
    3.2.3 未删除临时文件  36
    3.2.4 误上传工程文件等  36
    3.2.5 目录网页被删除导致其链接的文件游离  36
    3.2.6 单纯改变数据库中网页发布状态  36
    3.2.7 服务器空间被非法利用  36
    3.2.8 植入网站的木马通常为孤立文件  36-37
  3.3 孤立文件的危害  37-38
  3.4 本章小结  38-39
第4章孤立文件发现与处理机制的设计  39-55
  4.1 孤立文件的判定标准  39-40
    4.1.1 静态网站IWF的判定标准  39
    4.1.2 动态网站IWF的判定标准  39-40
    4.1.3 基于WEB日志的IWF判断标准  40
  4.2 孤立文件的发现机制  40-46
    4.2.1 基于网页HTML扫描的IWF发现  41-42
    4.2.2 基于数据库扫描的IWF发现  42-44
    4.2.3 基于WEB访问日志的IWF判断  44-46
  4.3 网页源代码分析及正则表达式  46-49
    4.3.1 网页源代码中的文件引用  46-48
    4.3.2 构建用于URL分析的正则表达式  48-49
  4.4 递归算法和磁盘文件的遍历  49-50
    4.4.1 递归算法  49
    4.4.2 WEB服务目录文件的遍历  49-50
  4.5 孤立文件处理及误判文件恢复  50-52
    4.5.1 孤立文件的处理  50-51
    4.5.2 误判原因分析  51
    4.5.3 误判文件的恢复机制  51-52
  4.6 防止孤立文件的产生  52-53
    4.6.1 建立WEB完整性约束  52-53
    4.6.2 防止孤立文件产生的一般措施  53
  4.7 本章小结  53-55
第5章孤立文件发现机制的实现  55-71
  5.1 系统框架  55-56
    5.1.1 实验对象的选择及开发环境构建  55-56
    5.1.2 系统总体设计  56
  5.2 数据库设计  56-58
  5.3 编程实现  58-67
    5.3.1 模块协调  58-59
    5.3.2 数据初始化模块  59-60
    5.3.3 维护白名单模块  60
    5.3.4 日志预处理模块  60-61
    5.3.5 获取网站文件模块  61-62
    5.3.6 网页源代码URL获取模块  62-64
    5.3.7 数据库存储URL获取模块  64
    5.3.8 孤立文件判断模块  64-66
    5.3.9 孤立文件管理模块  66-67
    5.3.10 容错处理  67
  5.4 程序运行结果及讨论  67-69
    5.4.1 程序运行结果  67-68
    5.4.2 结果分析  68-69
  5.5 本章小结  69-71
第6章总结  71-75
  6.1 总结  71-73
  6.2 展望  73-75
参考文献  75-77
致谢  77

WWW孤立文件发现机制的设计与应用

内容摘要

全文目录

相似论文