学位论文 > 优秀研究生学位论文题录展示
一种基于TSVM的phishing网页检测方法
作 者: 赵留军
导 师: 李元诚
学 校: 华北电力大学(北京)
专 业: 计算机应用技术
关键词: phishing网页检测 谱聚类 网页特征 核主成分分析 直推支持向量机
分类号: TP393.092
类 型: 硕士论文
年 份: 2011年
下 载: 49次
引 用: 1次
阅 读: 论文下载
内容摘要
网络钓鱼(Phishing)是指欺诈者通过模拟相同或相似的Web页面或网站,假冒合法者身份,窃取个人信息或隐私信息,从而获得非法政治经济利益。随着phishing的危害越来越严重,phishing网页检测作为一种反钓鱼措施与技术受到普遍的关注和重视。本文提出一种基于直推支持向量机(Transductive Support Vector Machine, TSVM)的phishing网页检测方法,在分析网页内容特征的基础上,用TSVM模型分类检测识别phishing网页。首先,针对DOM (Document Objects Model)模型网页文档特征的局限性,论文增加提取网页图像特征。论文将量子进化算法,克隆变异操作引入谱聚类图像分割领域,实现对网页图像的精确分割。根据网页图像分割结果提取其子图形状,灰度直方图,彩色直方图及空间位置关系特征。然后根据网页DOM模型,提取URL信息,链接对象,表单元素,SSL证书信息等异常文档页面特征。其次,由于组成网页特征向量的数据元素格式不同,存在冗余,phishing网页分类器在处理其大量网页特征数据时,需要花费较长时间。为了解决效率问题,论文引入核主成分分析(Kernel Principal Component Analysis, KPCA)对前面生成的网页特征向量进行规格化降维处理,使之符合phishing网页分类器的输入要求。最后,针对支持向量机(Support Vector Machine, SVM)利用已知标签样本训练分类器模型,不能全部反映样本数据空间分布特性的不足,论文引入TSVM半监督学习方法,基于降维后的网页特征向量,分类识别phishing网页。TSVM分类器包含了未知标签样本的隐含分布信息,具有更好的泛化性能。实验证明,论文提出的基于TSVM的phishing网页检测方法在提高phishing网页检测率,降低误判率等方面有较大改进,作为独立的检测机制有较强的适用性。
|
全文目录
摘要 5-6 Abstract 6-9 第1章 绪论 9-14 1.1 研究背景与意义 9-10 1.2 国内外研究现状 10-11 1.3 论文主要工作及内容安排 11-14 第2章 Phishing网页图像分割的改进谱聚类方法 14-24 2.1 谱聚类算法 14-16 2.1.1 k-均值方法 14-15 2.1.2 谱图理论 15-16 2.2 改进的谱聚类 16-20 2.2.1 量子进化算法 16-18 2.2.2 克隆变异操作 18-19 2.2.3 改进的谱聚类算法分割phishing网页图像过程 19-20 2.3 网页图像分割结果与分析 20-23 2.4 本章小结 23-24 第3章 网页特征提取 24-30 3.1 分割后的网页图像特征提取 24-26 3.1.1 子图特征 24-25 3.1.2 子图间位置关系特征 25-26 3.2 页面文档特征提取 26-29 3.2.1 文档模型分析 26-27 3.2.2 文档特征提取 27-29 3.3 本章小结 29-30 第4章 网页特征向量预处理 30-36 4.1 核主成分分析(KPCA) 30-32 4.1.1 主成分分析(PCA) 30-31 4.1.2 KPCA 31-32 4.2 基于KPCA的网页特征向量预处理 32-34 4.2.1 基于KPCA的网页特征向量降维方法 32-33 4.2.2 网页特征向量降维分析 33-34 4.3 实验与结果分析 34-35 4.4 本章小结 35-36 第5章 Phishing网页分类识别的半监督方法研究 36-46 5.1 直推支持向量机(TSVM)的分析与研究 36-39 5.1.1 支持向量机理论 36-39 5.1.2 直推支持向量机(TSVM) 39 5.2 基于TSVM的phishing网页分类识别方法及分析 39-42 5.2.1 基于TSVM的phishing网页检测识别流程 39-41 5.2.2 基于TSVM的phishing网页检测方法分析 41-42 5.3 实验结果与分析 42-45 5.4 本章小结 45-46 第6章 结论与展望 46-48 参考文献 48-51 攻读硕士学位期间发表的学术论文及其它成果 51-52 致谢 52-53 作者简介 53
|
相似论文
- 基于图分割的文本提取方法研究,TP391.41
- 基于谱聚类的无监督图像分割,TP391.41
- 烟草样品中微量金属元素含量测定及模式识别研究,TS47
- 改进的谱聚类图像分割方法研究,TP391.41
- 基于分形理论的中国股市预警机制研究,F832.51
- 叠前地震属性的提取与优化,P631.4
- 支持向量机在入侵检测中的应用研究,O212
- 加热炉钢坯温度建模及过程模拟,TP391.9
- 加热炉过程监测方法研究与实现,TG307
- 基于数据挖掘技术的网络社区发现方法的研究与实现,TP393.094
- 基于组群挖掘的服务发现推荐方法,TP393.09
- 数据挖掘中的谱聚类算法研究,TP311.13
- 核主成分分析在企业经济效益分析中的应用,O212
- 基于电子鼻的特征提取及模式分类方法研究,TP181
- 基于PCA的动态人脸特征提取及其增量学习算法的研究,TP391.41
- 稀疏线性判别分析在文本分类中的应用研究,TP391.1
- 基于完全正分解的图像分割,TP391.41
- 面向农业领域的垂直搜索技术的研究,TP391.3
- 基于Nystr(?)m扩展的大规模谱聚类算法,TP311.13
- 基于谱聚类的图书目录重构,TP391.1
- 基于特征学习的网络入侵检测技术研究,TP393.08
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 计算机网络 > 一般性问题 > 计算机网络应用程序 > 网络浏览器
© 2012 www.xueweilunwen.com
|