学位论文 > 优秀研究生学位论文题录展示

千万模式集高效匹配算法的研究与实现

作 者: 曹晓龙
导 师: 张宏莉
学 校: 哈尔滨工业大学
专 业: 计算机科学与技术
关键词: 字符串匹配 千万模式集合 AC算法 Wu-Manber算法 DAT算法 内存压缩
分类号: TP393.08
类 型: 硕士论文
年 份: 2012年
下 载: 12次
引 用: 0次
阅 读: 论文下载
 

内容摘要


字符串匹配一直都是计算机科学的研究热点和难点。在信息安全领域中,关键字规模变大、互联网流量的增加,使得字符串匹配算法成为网络安全系统的性能瓶颈。本论文首先综述了三种经典的多模式精确匹配算法,深入总结了这三种算法的优缺点。然后,在深入分析了现有规则集合的基础上,总结出了千万模式集合的特点。其次,针对千万模式集合匹配的需求,设计了基于AVL树的AC优化算法ACVL和基于分类思想的多模匹配算法CDWH两种算法。ACVL算法是利用AVL树来优化AC算法的内存占用情况,使AC算法可以支持千万模式集合的要求,同时还给出了ACVL算法的优化方面,使用规则去重、状态压缩、路径压缩三种方法来进一步压缩内存,实验表明ACVL算法在加载千万模式集合时使用内存仅为2.5G。CDWH算法是利用分类的思想,将模式集合分为长字符串模式集合和短字符串模式集合,然后分别采用DAT算法和WM算法进行匹配。CDWH算法还对DAT算法进行了内存压缩和缩短初始化时间的优化,并对WM算法进行了Hash冲突集减小和加快完全匹配速度的优化。最后,本论文分别实现了ACVL算法和CDWH算法,以可扩展的方式支持真实系统的运行,并进行了性能测试。离线测试分别测试算法的正确性,以及算法在不同规则模式集下的性能表现,包括初始化时间、占用内存量和扫描时间等。在线测试则测试了ACVL算法和CDWH算法的扫描速度。然后比较了ACVL算法和CDWH算法的测试结果,结果表明CDWH算法明显优于ACVL算法,它可以为系统带来21.4%的性能提升。

全文目录


摘要  4-5
Abstract  5-8
第1章 绪论  8-16
  1.1 课题研究的背景及意义  8-11
    1.1.1 课题的研究背景  8-10
    1.1.2 课题的研究意义  10-11
  1.2 字符串匹配算法的国内外研究现状和分析  11-14
    1.2.1 相关研究工作  11-13
    1.2.2 存在的问题  13-14
  1.3 课题的主要研究内容和贡献  14-15
  1.4 内容安排  15-16
第2章 精确多模式匹配算法分析  16-27
  2.1 字符串匹配基本概念  16-17
  2.2 常用的多模式匹配算法  17-24
    2.2.1 基于前缀搜索的 AC 自动机算法  18-19
    2.2.2 基于后缀搜索的 Wu-Manber 跳越扫描算法  19-22
    2.2.3 基于子串搜索的 SBOM 算法  22-24
  2.3 常用多模匹配算法性能分析  24-26
  2.4 本章小结  26-27
第3章 基于 AVL 树的 AC 优化算法 ACVL  27-42
  3.1 引言  27
  3.2 AVL 树简介  27-31
  3.3 基于 AVL 树的 AC 优化算法 ACVL  31-35
    3.3.1 规则去重  32-33
    3.3.2 状态压缩  33-34
    3.3.3 路径压缩  34-35
  3.4 ACVL 算法的实现  35-41
    3.4.1 基本匹配流程  35-36
    3.4.2 规则集合初始化流程  36-39
    3.4.3 数据扫描流程  39-41
  3.5 本章小结  41-42
第4章 基于分类思想的多模匹配算法 CDWH  42-55
  4.1 引言  42
  4.2 DAT 算法简介  42-45
  4.3 基于分类思想的多模匹配优化算法 CDWH  45-50
    4.3.1 DAT 算法的优化  46-48
    4.3.2 WM 算法的优化  48-50
  4.4 CDWH 算法的实现  50-54
    4.4.1 规则集初始化流程  51-53
    4.4.2 数据扫描流程  53-54
  4.5 本章小结  54-55
第5章 实验结果与分析  55-65
  5.1 离线测试  55-61
    5.1.1 测试环境  55
    5.1.2 正确性测试  55-56
    5.1.3 性能测试  56-60
    5.1.4 离线测试总结  60-61
  5.2 在线测试  61-64
    5.2.1 测试环境  61
    5.2.2 测试方案  61-62
    5.2.3 ACVL 算法测试结果  62
    5.2.4 CDWH 算法测试结果  62-63
    5.2.5 在线测试总结  63-64
  5.3 本章小结  64-65
结论  65-67
参考文献  67-72
致谢  72

相似论文

  1. 基于行为特征的IRC僵尸网络检测方法研究,TP393.08
  2. 基于明文特征的P2P协议识别系统的研究与设计,TP393.02
  3. 基于CUDA的正则表达式匹配系统的设计与实现,TP311.52
  4. 基于CPU+GPU异构平台的字符串匹配算法研究与实现,TP301.6
  5. 相似字符串匹配过滤算法研究,TP391.1
  6. 多模式匹配算法研究,TP393.08
  7. IDS检测算法和技术研究,TP393.08
  8. 针对大规模URL关键字的多模匹配算法的性能优化,TP309
  9. 基于特征匹配的网络业务流识别方法研究,TP393.08
  10. 基于内存压缩的虚拟机实时迁移机制研究,TP302
  11. 面向流媒体广播服务高效设计与实现,TN919.8
  12. 自组织数据挖掘在高炉炉温预测控制中的应用,TF573
  13. 使用内存压缩提高系统性能,TP333
  14. 基于马尔科夫链的算法复杂度分析,O211.62
  15. IP报文分类技术研究,TN915.02
  16. 程序代码相似度中的代码转换技术的研究,TP311.11
  17. IPv6环境下流量管理系统,TP393.04
  18. 基于WEB代理的访问控制网关系统研究与实现,TP393.07
  19. 变电站在线五防系统软件设计与研究,TM63
  20. 面向内容的网络安全监控模型及其关键技术研究,TP393.08

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 计算机网络 > 一般性问题 > 计算机网络安全
© 2012 www.xueweilunwen.com