学位论文 > 优秀研究生学位论文题录展示

一种基于TSVM的phishing网页检测方法

作 者: 赵留军
导 师: 李元诚
学 校: 华北电力大学(北京)
专 业: 计算机应用技术
关键词: phishing网页检测 谱聚类 网页特征 核主成分分析 直推支持向量机
分类号: TP393.092
类 型: 硕士论文
年 份: 2011年
下 载: 49次
引 用: 1次
阅 读: 论文下载
 

内容摘要


网络钓鱼(Phishing)是指欺诈者通过模拟相同或相似的Web页面或网站,假冒合法者身份,窃取个人信息或隐私信息,从而获得非法政治经济利益。随着phishing的危害越来越严重,phishing网页检测作为一种反钓鱼措施与技术受到普遍的关注和重视。本文提出一种基于直推支持向量机(Transductive Support Vector Machine, TSVM)的phishing网页检测方法,在分析网页内容特征的基础上,用TSVM模型分类检测识别phishing网页。首先,针对DOM (Document Objects Model)模型网页文档特征的局限性,论文增加提取网页图像特征。论文将量子进化算法,克隆变异操作引入谱聚类图像分割领域,实现对网页图像的精确分割。根据网页图像分割结果提取其子图形状,灰度直方图,彩色直方图及空间位置关系特征。然后根据网页DOM模型,提取URL信息,链接对象,表单元素,SSL证书信息等异常文档页面特征。其次,由于组成网页特征向量的数据元素格式不同,存在冗余,phishing网页分类器在处理其大量网页特征数据时,需要花费较长时间。为了解决效率问题,论文引入核主成分分析(Kernel Principal Component Analysis, KPCA)对前面生成的网页特征向量进行规格化降维处理,使之符合phishing网页分类器的输入要求。最后,针对支持向量机(Support Vector Machine, SVM)利用已知标签样本训练分类器模型,不能全部反映样本数据空间分布特性的不足,论文引入TSVM半监督学习方法,基于降维后的网页特征向量,分类识别phishing网页。TSVM分类器包含了未知标签样本的隐含分布信息,具有更好的泛化性能。实验证明,论文提出的基于TSVM的phishing网页检测方法在提高phishing网页检测率,降低误判率等方面有较大改进,作为独立的检测机制有较强的适用性。

全文目录


摘要  5-6
Abstract  6-9
第1章 绪论  9-14
  1.1 研究背景与意义  9-10
  1.2 国内外研究现状  10-11
  1.3 论文主要工作及内容安排  11-14
第2章 Phishing网页图像分割的改进谱聚类方法  14-24
  2.1 谱聚类算法  14-16
    2.1.1 k-均值方法  14-15
    2.1.2 谱图理论  15-16
  2.2 改进的谱聚类  16-20
    2.2.1 量子进化算法  16-18
    2.2.2 克隆变异操作  18-19
    2.2.3 改进的谱聚类算法分割phishing网页图像过程  19-20
  2.3 网页图像分割结果与分析  20-23
  2.4 本章小结  23-24
第3章 网页特征提取  24-30
  3.1 分割后的网页图像特征提取  24-26
    3.1.1 子图特征  24-25
    3.1.2 子图间位置关系特征  25-26
  3.2 页面文档特征提取  26-29
    3.2.1 文档模型分析  26-27
    3.2.2 文档特征提取  27-29
  3.3 本章小结  29-30
第4章 网页特征向量预处理  30-36
  4.1 核主成分分析(KPCA)  30-32
    4.1.1 主成分分析(PCA)  30-31
    4.1.2 KPCA  31-32
  4.2 基于KPCA的网页特征向量预处理  32-34
    4.2.1 基于KPCA的网页特征向量降维方法  32-33
    4.2.2 网页特征向量降维分析  33-34
  4.3 实验与结果分析  34-35
  4.4 本章小结  35-36
第5章 Phishing网页分类识别的半监督方法研究  36-46
  5.1 直推支持向量机(TSVM)的分析与研究  36-39
    5.1.1 支持向量机理论  36-39
    5.1.2 直推支持向量机(TSVM)  39
  5.2 基于TSVM的phishing网页分类识别方法及分析  39-42
    5.2.1 基于TSVM的phishing网页检测识别流程  39-41
    5.2.2 基于TSVM的phishing网页检测方法分析  41-42
  5.3 实验结果与分析  42-45
  5.4 本章小结  45-46
第6章 结论与展望  46-48
参考文献  48-51
攻读硕士学位期间发表的学术论文及其它成果  51-52
致谢  52-53
作者简介  53

相似论文

  1. 基于图分割的文本提取方法研究,TP391.41
  2. 基于谱聚类的无监督图像分割,TP391.41
  3. 烟草样品中微量金属元素含量测定及模式识别研究,TS47
  4. 改进的谱聚类图像分割方法研究,TP391.41
  5. 基于分形理论的中国股市预警机制研究,F832.51
  6. 叠前地震属性的提取与优化,P631.4
  7. 支持向量机在入侵检测中的应用研究,O212
  8. 加热炉钢坯温度建模及过程模拟,TP391.9
  9. 加热炉过程监测方法研究与实现,TG307
  10. 基于数据挖掘技术的网络社区发现方法的研究与实现,TP393.094
  11. 基于组群挖掘的服务发现推荐方法,TP393.09
  12. 数据挖掘中的谱聚类算法研究,TP311.13
  13. 核主成分分析在企业经济效益分析中的应用,O212
  14. 基于电子鼻的特征提取及模式分类方法研究,TP181
  15. 基于PCA的动态人脸特征提取及其增量学习算法的研究,TP391.41
  16. 稀疏线性判别分析在文本分类中的应用研究,TP391.1
  17. 基于完全正分解的图像分割,TP391.41
  18. 面向农业领域的垂直搜索技术的研究,TP391.3
  19. 基于Nystr(?)m扩展的大规模谱聚类算法,TP311.13
  20. 基于谱聚类的图书目录重构,TP391.1
  21. 基于特征学习的网络入侵检测技术研究,TP393.08

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 计算机网络 > 一般性问题 > 计算机网络应用程序 > 网络浏览器
© 2012 www.xueweilunwen.com