学位论文 > 优秀研究生学位论文题录展示
网页关键字过滤研究及改进
作 者: 靳瑞敏
导 师: 吴承勇
学 校: 内蒙古大学
专 业: 计算机科学与技术
关键词: 信息过滤 关键字匹配 敏感信息 信息安全
分类号: TP393.08
类 型: 硕士论文
年 份: 2012年
下 载: 84次
引 用: 0次
阅 读: 论文下载
内容摘要
在信息化高度发达的今天,互联网已经成为人们获取信息,即时沟通的重要媒介之一,给人们工作生活带来了很大的便利。但是由于其全球性、开放性、即时性的特点,互联网也成为不法分子传播不良信息的重要途径,与传统媒体相比更为棘手。如何对互联网进行有效的管理,过滤其中的不良信息,净化网络环境成为苛待解决的问题。目前网络中70%的信息是以文本形式存在,网页文本过滤成为目前网络监控的最重要手段。文本过滤方法有很多,关键字过滤是目前应用最广和最为可靠的技术,虽然存在一定的局限性,但是由于其过滤速度快、易于实现得到很大应用。本文就是针对文本关键字过滤的局限性,提出合理的解决方案,并设计了系统。本文首先简要介绍了网页文本过滤的背景,系统地探讨了关键字过滤流程的各个环节,其中包括概念扩展,敏感词特点分析和特征抽取,并提出了相应的解决方案。文章借鉴了其它文本过滤方法的优点,充分考虑了系统地召回率、查准率,运行效率及可实现性,给出了一种改进的网页文本过滤系统的体系结构,并详细阐述了一种多层次的网页文本关键字过滤方法,给出了实现该系统主要模块的数学模型及相关算法。本文所设计系统由两部分组成:数据包捕获与重组子系统和文本关键字过滤子系统。数据包捕获与重组子系统用来捕获局域网中流经网卡的web数据包,并对捕获的数据包重组,将其还原成完整的web页面。在文本关键字过滤子系统设计中,详细分析了当前网页中敏感词隐藏主要特点,改进了基于字典的敏感词识别方法,使敏感词恢复原始组合状态。改进了关键字权值算法,较好的解决了关键词在网页中不同位置及短文档对权重的不利影响。
|
全文目录
摘要 4-6 ABSTRACT 6-10 第一章 绪论 10-15 1.1 研究背景及意义 10-11 1.2 国内外研究现状 11-13 1.3 本文的研究内容和结构安排 13-14 1.4 本章小结 14-15 第二章 网页文本关键字相关技术介绍 15-26 2.1 目前主要的网页过滤方法 15-18 2.1.1 网页内容分级法 15-16 2.1.2 URL地址列表法 16-17 2.1.3 文本分析法 17 2.1.4 多媒体信息过滤技术 17-18 2.1.5 动态跟踪技术 18 2.2 网页关键字过滤的数学模型 18-22 2.2.1 布尔模型(Boolean Model) 18-19 2.2.2 向量模型(Vector Space Model) 19-21 2.2.3 概率模型(Probobilistic Model) 21-22 2.2.4 潜在语义索引模型(Latent Semantic Indexing Model) 22 2.3 文本过滤系统性能的评价 22-25 2.3.1 召回率、准确率 23 2.3.2 F值 23-24 2.3.3 Utility 24 2.3.4 E值 24-25 2.4 本章小结 25-26 第三章 网页文本关键字过滤系统的总体设计 26-30 3.1 系统功能要求 27-28 3.2 系统运行环境 28 3.3 系统工作流程 28-29 3.4 本章小结 29-30 第四章 数据捕获子系统 30-40 4.1 TCP协议 30-32 4.2 基于WinPcap的数据包包捕获 32-37 4.2.1 数据包捕获原理 32 4.2.2 基于Windows平台的数据包捕获实现 32-37 4.3 数据重组 37-39 4.4 本章小结 39-40 第五章 网页文本关键字过滤子系统 40-51 5.1 文本预处理 41-44 5.1.1 无关信息过滤 41-42 5.1.2 含有特殊符号的敏感词处理 42 5.1.3 含有拼音的敏感词处理 42-43 5.1.4 含有偏旁部首的敏感字的处理 43 5.1.5 其他形式 43-44 5.2 高频词的提取 44-45 5.3 中文分词 45-48 5.3.1 正向最大匹配法 46-47 5.3.2 逆向最大匹配法 47 5.3.3 双向最大匹配法 47-48 5.3.4 最少切分法 48 5.4 字典的扩充 48-49 5.5 权值算法的改进 49-50 5.6 本章小结 50-51 第六章 实验结果分析 51-56 第七章 总结与展望 56-58 7.1 总结 56-57 7.2 展望 57-58 参考文献 58-62 致谢 62
|
相似论文
- 矢量CAD电子图纸保护系统研究,TP391.72
- 我国涉密电子政务网信息安全建设对策的研究,D630
- 基于双线性映射的数字签名体制的研究,TN918.1
- 基于混沌保密的即时通信技术研究,TN918.82
- 一种FFTT非对称加解密算法的研究与实现,TP309.7
- C公司信息安全管理研究,F270.7
- 政务网隔离与监控技术研究与应用,TP393.08
- 中山市社会保障卡个人业务自助查询服务系统开发与实现,TP311.52
- 基于策略Agent的个性化信息检索系统的研究与实现,TP391.3
- 博弈论在信息安全投资中的应用,F49;F224.32
- 移动网络综合告警管理系统的设计与实现,TN929.5
- 面向工程监理的多Agent信息智能检索机制研究,TP391.3
- LED大屏幕显示系统的视频信息泄漏研究,TN873.92
- 手机号码实名制下北京移动的经营策略分析,F626
- 某高校图书馆信息安全管理研究,G258.6
- 高校校园网信息安全突发事件危机管理研究,TP393.08
- 石景山区教育城域网信息安全体系的设计与实现,TP393.08
- 基于WEB2.0的网络招聘管理系统开发与设计,TP311.52
- 互联网文本视频过滤技术研究与应用,TP391.41
- 基于XML的电子病历系统及其院际信息共享技术研究,TP311.10
- 网络敏感信息过滤技术研究与实现,TP393.09
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 计算机网络 > 一般性问题 > 计算机网络安全
© 2012 www.xueweilunwen.com
|