学位论文 > 优秀研究生学位论文题录展示

网页关键字过滤研究及改进

作 者: 靳瑞敏
导 师: 吴承勇
学 校: 内蒙古大学
专 业: 计算机科学与技术
关键词: 信息过滤 关键字匹配 敏感信息 信息安全
分类号: TP393.08
类 型: 硕士论文
年 份: 2012年
下 载: 84次
引 用: 0次
阅 读: 论文下载
 

内容摘要


在信息化高度发达的今天,互联网已经成为人们获取信息,即时沟通的重要媒介之一,给人们工作生活带来了很大的便利。但是由于其全球性、开放性、即时性的特点,互联网也成为不法分子传播不良信息的重要途径,与传统媒体相比更为棘手。如何对互联网进行有效的管理,过滤其中的不良信息,净化网络环境成为苛待解决的问题。目前网络中70%的信息是以文本形式存在,网页文本过滤成为目前网络监控的最重要手段。文本过滤方法有很多,关键字过滤是目前应用最广和最为可靠的技术,虽然存在一定的局限性,但是由于其过滤速度快、易于实现得到很大应用。本文就是针对文本关键字过滤的局限性,提出合理的解决方案,并设计了系统。本文首先简要介绍了网页文本过滤的背景,系统地探讨了关键字过滤流程的各个环节,其中包括概念扩展,敏感词特点分析和特征抽取,并提出了相应的解决方案。文章借鉴了其它文本过滤方法的优点,充分考虑了系统地召回率、查准率,运行效率及可实现性,给出了一种改进的网页文本过滤系统的体系结构,并详细阐述了一种多层次的网页文本关键字过滤方法,给出了实现该系统主要模块的数学模型及相关算法。本文所设计系统由两部分组成:数据包捕获与重组子系统和文本关键字过滤子系统。数据包捕获与重组子系统用来捕获局域网中流经网卡的web数据包,并对捕获的数据包重组,将其还原成完整的web页面。在文本关键字过滤子系统设计中,详细分析了当前网页中敏感词隐藏主要特点,改进了基于字典的敏感词识别方法,使敏感词恢复原始组合状态。改进了关键字权值算法,较好的解决了关键词在网页中不同位置及短文档对权重的不利影响。

全文目录


摘要  4-6
ABSTRACT  6-10
第一章 绪论  10-15
  1.1 研究背景及意义  10-11
  1.2 国内外研究现状  11-13
  1.3 本文的研究内容和结构安排  13-14
  1.4 本章小结  14-15
第二章 网页文本关键字相关技术介绍  15-26
  2.1 目前主要的网页过滤方法  15-18
    2.1.1 网页内容分级法  15-16
    2.1.2 URL地址列表法  16-17
    2.1.3 文本分析法  17
    2.1.4 多媒体信息过滤技术  17-18
    2.1.5 动态跟踪技术  18
  2.2 网页关键字过滤的数学模型  18-22
    2.2.1 布尔模型(Boolean Model)  18-19
    2.2.2 向量模型(Vector Space Model)  19-21
    2.2.3 概率模型(Probobilistic Model)  21-22
    2.2.4 潜在语义索引模型(Latent Semantic Indexing Model)  22
  2.3 文本过滤系统性能的评价  22-25
    2.3.1 召回率、准确率  23
    2.3.2 F值  23-24
    2.3.3 Utility  24
    2.3.4 E值  24-25
  2.4 本章小结  25-26
第三章 网页文本关键字过滤系统的总体设计  26-30
  3.1 系统功能要求  27-28
  3.2 系统运行环境  28
  3.3 系统工作流程  28-29
  3.4 本章小结  29-30
第四章 数据捕获子系统  30-40
  4.1 TCP协议  30-32
  4.2 基于WinPcap的数据包包捕获  32-37
    4.2.1 数据包捕获原理  32
    4.2.2 基于Windows平台的数据包捕获实现  32-37
  4.3 数据重组  37-39
  4.4 本章小结  39-40
第五章 网页文本关键字过滤子系统  40-51
  5.1 文本预处理  41-44
    5.1.1 无关信息过滤  41-42
    5.1.2 含有特殊符号的敏感词处理  42
    5.1.3 含有拼音的敏感词处理  42-43
    5.1.4 含有偏旁部首的敏感字的处理  43
    5.1.5 其他形式  43-44
  5.2 高频词的提取  44-45
  5.3 中文分词  45-48
    5.3.1 正向最大匹配法  46-47
    5.3.2 逆向最大匹配法  47
    5.3.3 双向最大匹配法  47-48
    5.3.4 最少切分法  48
  5.4 字典的扩充  48-49
  5.5 权值算法的改进  49-50
  5.6 本章小结  50-51
第六章 实验结果分析  51-56
第七章 总结与展望  56-58
  7.1 总结  56-57
  7.2 展望  57-58
参考文献  58-62
致谢  62

相似论文

  1. 矢量CAD电子图纸保护系统研究,TP391.72
  2. 我国涉密电子政务网信息安全建设对策的研究,D630
  3. 基于双线性映射的数字签名体制的研究,TN918.1
  4. 基于混沌保密的即时通信技术研究,TN918.82
  5. 一种FFTT非对称加解密算法的研究与实现,TP309.7
  6. C公司信息安全管理研究,F270.7
  7. 政务网隔离与监控技术研究与应用,TP393.08
  8. 中山市社会保障卡个人业务自助查询服务系统开发与实现,TP311.52
  9. 基于策略Agent的个性化信息检索系统的研究与实现,TP391.3
  10. 博弈论在信息安全投资中的应用,F49;F224.32
  11. 移动网络综合告警管理系统的设计与实现,TN929.5
  12. 面向工程监理的多Agent信息智能检索机制研究,TP391.3
  13. LED大屏幕显示系统的视频信息泄漏研究,TN873.92
  14. 手机号码实名制下北京移动的经营策略分析,F626
  15. 某高校图书馆信息安全管理研究,G258.6
  16. 高校校园网信息安全突发事件危机管理研究,TP393.08
  17. 石景山区教育城域网信息安全体系的设计与实现,TP393.08
  18. 基于WEB2.0的网络招聘管理系统开发与设计,TP311.52
  19. 互联网文本视频过滤技术研究与应用,TP391.41
  20. 基于XML的电子病历系统及其院际信息共享技术研究,TP311.10
  21. 网络敏感信息过滤技术研究与实现,TP393.09

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 计算机网络 > 一般性问题 > 计算机网络安全
© 2012 www.xueweilunwen.com