学位论文 > 优秀研究生学位论文题录展示
WWW孤立文件发现机制的设计与应用
作 者: 田大军
导 师: 赵林亮;李喆
学 校: 东北大学
专 业: 计算机软件与理论
关键词: 孤立文件 网站日志 SQL Server 2005 ASP.Net 正则表达式 全球资讯网
分类号: TP393.092
类 型: 硕士论文
年 份: 2009年
下 载: 7次
引 用: 0次
阅 读: 论文下载
内容摘要
随着网站的维护和发展,尤其是网页的链接维护和删除,致使在网站服务器上产生越来越多的孤立文件(Isolated Web Files, IWF)。孤立文件存在于WEB服务目录中,具有完整有效的URL地址。通常该文件不能通过正常的超级链接或非磁盘文件遍历方式的网站搜索结果所取得,而仅能输入准确URL地址进行访问。孤立文件不仅浪费服务器的存储空间、危害系统安全,而且可能导致泄密、引发著作权纠纷或侵犯隐私等问题发生。使用其提供的错误信息指导实践可能带来不可预期的后果。为使网站内容保持完整性和可控性,需要研究WWW孤立文件的形成原因及发现机制。本文在分析孤立文件成因的基础上,提出判断孤立文件的机制:在网站任一静态网页的HTML源代码及网页资源来源数据库记录中均不含有对该文件的引用;在WEB日志中含有对该文件的有效引用则为相对孤立文件(Relative Isolated Web Files, RIWF),否则是绝对孤立文件(Absolute Isolated Web Files, AIWF)。判断孤立文件时,首先遍历WEB发布目录,得到全部文件清单并保存在数据库中;然后遍历服务器上静态网页HTML源代码及数据库相关记录,将全部URL保存在数据库中;接着将WEB文件清单和URL记录进行比对,在URL记录中没有找到的WEB文件即为孤立文件。最后将孤立文件与WEB日志进行对比,找出相对孤立文件和绝对孤立文件。对网页源代码的分析,需要采用正则表达式,因此本研究构造并运用了适合URL分析的正则表达式。基于上述方法,将孤立文件发现机制应用于微软IIS服务器的WEB环境,采用微软.net技术实现了孤立文件的发现。本文也对如何避免产生孤立文件、处理孤立文件过程中可能会遇到的各种问题进行了探讨。
|
全文目录
中文摘要 5-6 Abstract 6-11 第1章 绪论 11-15 1.1 课题研究的背景及现状 11-13 1.2 课题研究的内容和意义 13-14 1.3 论文组织结构 14-15 第2章 相关基础理论知识 15-33 2.1 WWW网站 15-16 2.2 WEB服务器分类及特点 16-17 2.2.1 Apache和Tomcat 16 2.2.2 IBM Web Sphere 16-17 2.2.3 BEA WebLogic 17 2.2.4 Internet Information Services (IIS) 17 2.3 WWW网站的资源维护 17-18 2.3.1 使用FTP软件 17-18 2.3.2 使用远程桌面等网管工具 18 2.3.3 使用动态网站自身管理程序 18 2.4 正则表达式 18-23 2.4.1 正则表达式的概念 18-19 2.4.2 正则表达式的用途 19 2.4.3 正则表达式的结构 19-20 2.4.4 模式匹配元字符 20-23 2.5 WEB日志的记录格式 23-24 2.6 HTTP状态代码 24-25 2.7 孤立文件发现实验的开发环境及技术 25-30 2.7.1 .NET Framework 25-26 2.7.2 ASP.NET 2.0 26-27 2.7.3 Visual Studio 2005 27-28 2.7.4 Microsoft Visual Basic 2005 28 2.7.5 SQL Server 2005 28-30 2.8 本章小结 30-33 第3章 网站孤立文件的形成机制 33-39 3.1 孤立文件的特征 33-34 3.2 网站孤立文件的形成机制 34-37 3.2.1 WEB应用程序未提供删除误上传文件功能 34 3.2.2 单纯删除文件链接导致文件迷失 34-36 3.2.3 未删除临时文件 36 3.2.4 误上传工程文件等 36 3.2.5 目录网页被删除导致其链接的文件游离 36 3.2.6 单纯改变数据库中网页发布状态 36 3.2.7 服务器空间被非法利用 36 3.2.8 植入网站的木马通常为孤立文件 36-37 3.3 孤立文件的危害 37-38 3.4 本章小结 38-39 第4章 孤立文件发现与处理机制的设计 39-55 4.1 孤立文件的判定标准 39-40 4.1.1 静态网站IWF的判定标准 39 4.1.2 动态网站IWF的判定标准 39-40 4.1.3 基于WEB日志的IWF判断标准 40 4.2 孤立文件的发现机制 40-46 4.2.1 基于网页HTML扫描的IWF发现 41-42 4.2.2 基于数据库扫描的IWF发现 42-44 4.2.3 基于WEB访问日志的IWF判断 44-46 4.3 网页源代码分析及正则表达式 46-49 4.3.1 网页源代码中的文件引用 46-48 4.3.2 构建用于URL分析的正则表达式 48-49 4.4 递归算法和磁盘文件的遍历 49-50 4.4.1 递归算法 49 4.4.2 WEB服务目录文件的遍历 49-50 4.5 孤立文件处理及误判文件恢复 50-52 4.5.1 孤立文件的处理 50-51 4.5.2 误判原因分析 51 4.5.3 误判文件的恢复机制 51-52 4.6 防止孤立文件的产生 52-53 4.6.1 建立WEB完整性约束 52-53 4.6.2 防止孤立文件产生的一般措施 53 4.7 本章小结 53-55 第5章 孤立文件发现机制的实现 55-71 5.1 系统框架 55-56 5.1.1 实验对象的选择及开发环境构建 55-56 5.1.2 系统总体设计 56 5.2 数据库设计 56-58 5.3 编程实现 58-67 5.3.1 模块协调 58-59 5.3.2 数据初始化模块 59-60 5.3.3 维护白名单模块 60 5.3.4 日志预处理模块 60-61 5.3.5 获取网站文件模块 61-62 5.3.6 网页源代码URL获取模块 62-64 5.3.7 数据库存储URL获取模块 64 5.3.8 孤立文件判断模块 64-66 5.3.9 孤立文件管理模块 66-67 5.3.10 容错处理 67 5.4 程序运行结果及讨论 67-69 5.4.1 程序运行结果 67-68 5.4.2 结果分析 68-69 5.5 本章小结 69-71 第6章 总结 71-75 6.1 总结 71-73 6.2 展望 73-75 参考文献 75-77 致谢 77
|
相似论文
- 教学档案管理系统的设计与实现,TP311.52
- 部队在线考试系统设计与实现,TP311.52
- 基层部队人员日常管理信息系统设计实现,TP311.52
- 基层部队网站的设计与建设,TP311.52
- 部队人员住房管理系统的开发与实现,TP311.52
- 变电站综合预警系统研究与应用,TM76
- 康复医疗信息系统的设计和实现,TP311.52
- 军队现役干部考核信息系统的设计与实现,TP311.52
- 基于WebQuest的职校电子专业网络教学平台的设计与实现,TP311.52
- 企业事务日历即时管理系统,TP311.52
- 基于ASP.NET技术的托幼机构卫生保健管理系统的设计与实现,TP311.52
- 湖南网络职院教务综合管理平台的设计与实现,TP311.52
- 军队科技干部在线心理测评系统的设计与实现,TP311.52
- 银行客户关系管理信息系统的设计与实现,TP311.52
- 社区WebGIS原型系统设计与实现,P208
- 材料的分类及优化检索系统的研究与设计,TP311.13
- 基于流媒体技术的校园视频点播系统开发,TN948.64
- 高校教务管理系统与实现,TP311.52
- 江西省社区矫正对象信息管理系统设计与开发,TP311.52
- 工程项目管理系统的设计与实现方法研究,TP311.52
- 基于.net的酒店信息管理平台设计与实现,TP311.52
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 计算机网络 > 一般性问题 > 计算机网络应用程序 > 网络浏览器
© 2012 www.xueweilunwen.com
|