学位论文 > 优秀研究生学位论文题录展示
多视图学习在垃圾网页检测中的应用研究
作 者: 高爽
导 师: 张化祥
学 校: 山东师范大学
专 业: 计算机软件与理论
关键词: 多视图学习 垃圾网页检测 典型相关分析 协同训练 支持向量机 链接结构 特征提取
分类号: TP393.092
类 型: 硕士论文
年 份: 2014年
下 载: 3次
引 用: 0次
阅 读: 论文下载
内容摘要
现在网络极大地改变了人们表达自己和与他人互动的方式,已经成为最主要的信息检索方式。正因如此,向HTML页面或其他网络文件添加信息也变得越来越容易,同时用户就会更难分辨准确和不准确的信息或可信赖和不可靠的信息,因此创建一个有效的垃圾网页检测方法是当前面对的一大挑战。如今垃圾网页检测的主要工作在于检测基于内容作弊和链接作弊的垃圾网页。现有垃圾网页的检测方法通常利用网页单一视图的特征对其是否属于垃圾网页进行分类,而将垃圾网页两个方面的特征同时用于检测的多视图学习手段,可以使垃圾网页检测问题更为全面。本文围绕多视图学习,针对垃圾网页检测的问题,对多视图学习的特征提取方法、分类方法以及网页具体链接结构等进行研究,具体研究成果如下:(1)将垃圾网页数据集基于内容和链接的特征看作此检测问题的两个不同的视图,首先应用典型相关分析和其他改进方法提取特征,用转换矩阵得到两视图上相关性最大的投影方向的特征。然后使用不同的针对两视图特征的组合方式将两视图特征合为一个特征,使用新的单视图特征来训练分类器进行分类。实验结果显示把垃圾网页检测作为多视图分类问题即看成两个视图的数据使用典型相关分析方法,可提高分类精度。(2)由于垃圾网页检测问题中只有少量标记网页,因此可使用半监督协同训练方法进行垃圾网页检测。将网页特征分为内容和链接两个视图。在进行具体的分类步骤之前使用独立成分分析,提取两个视图特征的独立成分,具体的分类步骤是由协同训练实现的。实验结果显示这种特征提取和半监督分类的组合能够提高垃圾网页检测精度,对两个视图分别进行独立成分分析也更为有效。(3)利用网页链接结构修改SVM分类器,首先利用直接链接矩阵和间接链接矩阵来构建保持链接结构的类内散布矩阵,然后将网页链接结构组合到SVM分类器中来重新配置一个优化问题。此方法在利用网页链接信息方面具有优势。垃圾网页数据集上的实验结果表明将网页链接结构与SVM分类器组合可以显著地优于其他相关方法,实验还显示了分类准确率随间接链接步长的变化。(4)通过严密考虑内容与链接两视图特征的不同构造和统计特性来解决这个问题。分别针对内容及链接特征重构特征提取方法PCA和LPP,然后将它们组合到本文的方法中,从多视图表示的多视图嵌入中提取出一个一致的模式。通过一个迭代算法,可以求出每个视图的不同的嵌入表示以及从每个视图到一致模式的转换矩阵。同时提供了一个计算测试样本的一致模式的方法。WEBSPAM-UK2006和WEBSPAM-UK2007数据集上的实验结果显示使用一致模式来解决垃圾网页检测问题优于其他相关的降维方法。
|
全文目录
目录 4-6 摘要 6-7 ABSTRACT 7-9 第1章 绪论 9-12 1.1 课题背景及研究意义 9-10 1.2 本文主要研究工作 10-11 1.3 本文组织结构 11-12 第2章 多视图学习研究综述 12-14 2.1 多视图学习特征提取方法 12 2.2 多视图学习分类方法 12-13 2.3 其他的多视图学习方法 13-14 第3章 基于多视图典型相关分析的垃圾网页检测 14-21 3.1 引言 14 3.2 典型相关分析方法 14-16 3.2.1 典型相关分析 CCA 14-15 3.2.2 核典型相关分析 KCCA 15 3.2.3 局部保持典型相关分析 LPCCA 15-16 3.2.4 判别典型相关分析 DCCA 16 3.3 特征抽取后的数据组合方法及分类 16-17 3.4 实验结果及分析 17-20 3.4.1 Webspam 数据集 17-18 3.4.2 性能评估 18 3.4.3 特征提取方法和分类器的比较 18-19 3.4.4 两视图数据关联分析前后分类性能比较 19-20 3.5 本章小结 20-21 第4章 基于独立成分分析和协同训练的垃圾网页检测 21-29 4.1 引言 21 4.2 背景知识 21-23 4.2.1 协同训练 21-22 4.2.2 独立成分分析 22-23 4.3 本研究提出的方法 23-24 4.4 实验结果及分析 24-27 4.4.1 数据集及实验设置 24-25 4.4.2 使用 ICA 方法前后 Co-training 的比较 25-26 4.4.3 ICA 方法有效性的验证 26-27 4.5 本章小结 27-29 第5章 使用网页链接结构改进的 SVM 分类器在垃圾网页检测中的应用 29-39 5.1 引言 29 5.2 相关工作 29-32 5.2.1 最小化类方差支持向量机 MCVSVM 29-30 5.2.2 网络链接结构 30-32 5.3 使用链接结构的支持向量机的学习 32-35 5.3.1 保持链接结构的类内散布矩阵 32-33 5.3.2 算法求解 33-34 5.3.3 非线性变换 34-35 5.4 实验 35-38 5.4.1 数据集的描述和评价指标 35-36 5.4.2 与其他支持向量机方法的性能比较 36-37 5.4.3 间接链接结构的实验 37-38 5.5 本章小结 38-39 第6章 垃圾网页检测中内容特征与链接特征的一致模式 39-49 6.1 引言 39 6.2 相关工作 39-41 6.2.1 多视图的半监督降维 MVSSDR 39-40 6.2.2 主成分分析 PCA 40 6.2.3 局部保持投影 LPP 40-41 6.3 内容特征和链接特征的一致模式 41-44 6.3.1 每个视图的降维方法 41-42 6.3.2 约束优化问题 42 6.3.3 迭代算法 42-44 6.3.4 测试样本的一致模式 44 6.4 实验 44-48 6.4.1 数据集的描述和评价指标 45 6.4.2 与其它方法的性能比较 45-47 6.4.3 本方法的收敛性 47-48 6.5 本章小结 48-49 第7章 总结展望 49-50 7.1 研究内容总结 49 7.2 下一步工作 49-50 参考文献 50-53 攻读硕士学位期间发表的论文和参与的项目 53-54 致谢 54
|
相似论文
- 基于SVM的常压塔石脑油干点软测量建模研究,TE622.1
- 基于SVM的高速公路路面浅层病害的自动检测算法研究,U418.6
- 基于PCA-SVM的液体火箭发动机试验台故障诊断算法研究,V433.9
- 空间目标ISAR成像仿真及基于ISAR像的目标识别,TN957.52
- 音乐结构自动分析研究,TN912.3
- 基于三维重建的焊点质量分类方法研究,TP391.41
- 胆囊炎和肾病综合症脉象信号的特征提取与分类研究,TP391.41
- 直推式支持向量机研究及其在图像检索中的应用,TP391.41
- 中医舌诊中舌形与齿痕的特征提取及分类研究,TP391.41
- 空间交会接近视觉测量方法研究,TP391.41
- 图像实时采集、存储与处理方法研究,TP391.41
- 唇读中的特征提取、选择与融合,TP391.41
- 基于SVM的中医舌色苔色分类方法研究,TP391.41
- 多币种纸币处理技术的研究与实现,TP391.41
- 基于图像的路面破损识别,TP391.41
- 移动机器人视觉检测和跟踪研究,TP242.62
- 高光谱与高空间分辨率遥感图像融合算法研究,TP751
- 基于支持向量机的故障诊断方法研究,TP18
- 过程支持向量机及其在卫星热平衡温度预测中的应用研究,TP183
- 基于随机森林的植物抗性基因识别方法研究,Q943
- 基于图像处理技术的烟叶病害自动识别研究,S435.72
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 计算机网络 > 一般性问题 > 计算机网络应用程序 > 网络浏览器
© 2012 www.xueweilunwen.com
|