学位论文 > 优秀研究生学位论文题录展示

文本过滤防火墙技术研究

作 者: 李霞
导 师: 王景中
学 校: 北方工业大学
专 业: 计算机软件与理论
关键词: 网页文本过滤 URL过滤 关键字过滤 内容过滤
分类号: TP393.08
类 型: 硕士论文
年 份: 2011年
下 载: 73次
引 用: 1次
阅 读: 论文下载
 

内容摘要


随着信息网络的飞速发展,互联网已经成为世界上内容最丰富,范围最广泛的资源库。人们在充分享受信息共享所带来便利的同时,却也饱受着大量“无关信息”和“垃圾信息”的折磨,而且许多“有害信息”也正威胁着广大未成年人的身心健康。许多国家和地区已经意识到这一问题的严重性,大力地开展了相关讨论和研究,采取措施进行网络信息过滤。网络信息过滤,就是根据用户的信息需求,采用一定的工具或手段从大规模的动态信息流中筛选出满足用户需求的信息,同时屏蔽掉无用信息的过程。围绕着如何实现一个实时在线的网页文本内容过滤系统,本文主要进行了以下几方面的研究。首先,本文阐述了网络信息过滤的基本问题,包括信息过滤的基本原理,相关信息检索模型以及过滤系统的性能评价指标等。其次,着重对网页文本内容过滤中的相关技术进行了深入地分析和研究。主要包括网页正文提取技术、中文分词技术以及特征提取技术等,并在此基础上,提出了一种新的技术解决方案,即采用基于IE浏览器插件(BH0)的网页文本内容三级过滤系统。一级过滤是URL过滤,二级过滤是关键字组合过滤,三级过滤是基于向量空间模型的网页内容分析过滤。接着,本文对该方案进行了设计和实现,并对系统的总体框架、功能模块以及相关过滤算法和所采取的具体策略进行了详细地介绍。最后,本文对所实现的系统进行了测试,实验证明,该系统具有良好的过滤性能和运行速度。

全文目录


摘要  4-5
Abstract  5-6
目录  6-9
1. 引言  9-16
  1.1 课题背景与意义  9-12
    1.1.1 互联网的发展  10
    1.1.2 内容安全与信息过滤  10-12
  1.2 国内外研究状况  12-14
    1.2.1 国外研究状况  12-13
    1.2.2 国内研究状况  13-14
  1.3 主要研究内容  14
  1.4 论文组织结构  14-16
2. 网页的信息过滤问题  16-23
  2.1 信息过滤系统基本原理  16-17
  2.2 网络信息过滤分类  17
  2.3 文本信息过滤模型  17-21
    2.3.1 布尔模型  17-19
    2.3.2 向量空间模型  19-20
    2.3.3 神经网络模型  20-21
  2.4 文本过滤测评指标  21-22
    2.4.1 查全率和查准率  21
    2.4.2 Utility  21-22
    2.4.3 F值  22
  2.5 本章小结  22-23
3. 网页文本内容的过滤技术  23-31
  3.1 网页正文内容提取  23-24
  3.2 中文分词技术  24-28
    3.2.1 中文分词的重要性及其主要指标  24-25
    3.2.2 几种重要的分词方法  25-27
    3.2.3 分词中存在的问题  27-28
  3.3 特征提取与权重计算  28-30
    3.3.1 特征提取  28-29
    3.3.2 权重计算  29-30
  3.4 本章小结  30-31
4. 网页文本过滤防火墙系统的设计  31-50
  4.1 系统的总体结构设计  31-33
  4.2 系统的模块组成  33-35
  4.3 网页文本过滤防火墙系统客户端的设计  35-41
    4.3.1 IE浏览器事件简介  35-37
    4.3.2 使用BHO监控IE浏览器  37-41
  4.4 过滤算法的设计  41-47
    4.4.1 关键字过滤  41-42
    4.4.2 网页内容分析过滤  42-47
  4.5 用户模板的自适应学习和阈值的确定  47-48
  4.6 后台管理系统的设计  48-49
  4.7 本章小结  49-50
5. 网页文本过滤防火墙系统的实现与评价  50-59
  5.1 系统的实现  50-56
  5.2 系统的评价  56-58
    5.2.1 网页文本过滤防火墙系统的评价体系  56-57
    5.2.2 系统的测试  57-58
  5.3 本章小结  58-59
6. 总结和展望  59-61
  6.1 总结  59
  6.2 展望  59-61
参考文献  61-64
在学研究成果  64-65
致谢  65

相似论文

  1. 通用终端环境下移动存储介质信息安全通道的设计与实现,TP309
  2. 网络数据包深度内容过滤设备的研制,TP393.08
  3. 电子邮件系统的安全过滤设计,TP393.098
  4. 基于社会化媒体的自适应信息推荐机制研究,TP391.3
  5. 个性化书籍推荐系统研究与设计,TP391.3
  6. 个性化服务网站研究,TP393.092
  7. 硬件防火墙中多模式匹配算法的设计与实现,TP393.08
  8. 高性能千兆以太网硬件防火墙的智能日志管理和规则配置,TP393.08
  9. Windows CE系统下嵌入式WAP/Web浏览器的研究与实现,TP393.092
  10. 基于内容过滤的企业建站审核系统,TP393.08
  11. 西藏电信WAP网关建设方案探讨,TN929.5
  12. 基于Web应用系统的行为监控方法的设计与实现,TP393.08
  13. 网络内容审计系统关键技术研究与实现,TP393.08
  14. 基于最小风险贝叶斯的多层次邮件过滤系统的研究与实现,TP393.098
  15. 基于内容的Internet Web中文信息过滤,TP393.09
  16. 基于有限状态自动机的多模式匹配算法研究,TP393.08
  17. 基于网络设备的网页过滤设计与实现,TP393.092
  18. 基于NDIS的网络内容过滤技术研究,TP393.08
  19. 未成年人上网内容过滤系统的设计与实现,TP311.52
  20. 智能web过滤系统的研究与设计,TP311.52

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 计算机网络 > 一般性问题 > 计算机网络安全
© 2012 www.xueweilunwen.com