学位论文 > 优秀研究生学位论文题录展示
链接作弊垃圾网页的检测算法研究
作 者: 徐桢虎
导 师: 朱焱
学 校: 西南交通大学
专 业: 计算机应用技术
关键词: 链接型垃圾网页检测 随机森林算法 链接工厂检测 SpamRank算法
分类号: TP393.092
类 型: 硕士论文
年 份: 2012年
下 载: 95次
引 用: 0次
阅 读: 论文下载
内容摘要
随着互联网的迅速普及,Web上的垃圾网页也逐渐增多,这极大的影响了搜索引擎的精度和效率,如何识别垃圾网页已经成为互联网搜索所面临的最严峻的挑战之一。通过对垃圾网页深入的研究,多数网页作弊利用了链接的特点。本文在对各类垃圾网页链接作弊检测技术做了深入研究综述的基础上,设计垃圾网页检测系统框架,然后在这一框架下研究如何对网页的特征属性进行分析和分类器设计。论文中首先研究优化了一个基于随机森林算法的链接作弊分类器。通过对网页进行基于内容和链接等特征属性的综合提取,采用该分类器对测试集进行第一阶段分类。然后针对“链接工厂”等链接作弊的常见形式,采用SpamRank算法进行检测。通过对垃圾页面种子集赋予SpamRank权值,并在垃圾页面及其链接页面之间相互传递SpamRank值,构建Web图并对其进行遍历,从而达到对测试集进行第二阶段分类的目的。最后采用IN-OUT算法对链接工厂的检测结果进行了分析。本文最后利用Web Spam Challenge2008推出的检测研究用数据集WEBSPAM-UK2007分别训练分类器,同时对链接型垃圾网页检测算法进行了实验,并用各种评测指标和算法对比等对实验结果进行了详细的分析。结果表明,本论文实现的链接型垃圾网页检测系统达到了预期的目标。
|
全文目录
摘要 6-7 Abstract 7-11 第1章 绪论 11-16 1.1 研究背景和意义 11-13 1.2 链接型垃圾网页国内外研究现状 13-14 1.3 研究目标和内容 14-15 1.4 论文的结构安排 15-16 第2章 垃圾网页检测的相关技术研究 16-26 2.1 搜索引擎排序算法及其黑帽SEO作弊方法 16-18 2.1.1 内容排序算法 16-17 2.1.2 链接排序算法 17-18 2.2 垃圾网页分类 18-21 2.2.1 基于内容的垃圾网页 19 2.2.2 基于链接的垃圾网页 19-20 2.2.3 基于隐藏的垃圾网页 20-21 2.3 随机森林算法 21-23 2.3.1 随机森林介绍 21-22 2.3.2 随机森林的主要特点 22 2.3.3 Bagging算法 22 2.3.4 随机森林的生长过程 22-23 2.4 SPAMRANK算法 23-24 2.4.1 SpamRank算法介绍 23 2.4.2 SpamRank改进算法的具体过程 23-24 2.4.3 IN-OUT算法的具体步骤 24 2.5 垃圾网页检测的相关工具 24-25 2.5.1 系统开发语言 24 2.5.2 WebGraph 24 2.5.3 Weka 24-25 2.6 本章小结 25-26 第3章 链接型垃圾网页检测系统的设计 26-32 3.1 系统架构设计 26-27 3.2 数据集预处理 27-28 3.2.1 数据集介绍 27 3.2.2 不平衡分类问题 27-28 3.2.3 特征属性预处理 28 3.3 分类器设计 28-31 3.3.1 第一阶段分类器设计 28-29 3.3.2 第二阶段分类器设计 29-31 3.4 本章小结 31-32 第4章 链接型垃圾网页检测系统的实现 32-44 4.1 第一阶段分类器 32-37 4.1.1 分类器输入数据 32-34 4.1.2 重要特征选取 34-37 4.1.3 随机森林分类器 37 4.2 第二阶段分类器 37-43 4.2.1 Web图的构建 37-39 4.2.2 网页属性提取 39-40 4.2.3 SpamRank算法具体实现 40-41 4.2.4 链接工厂检测 41-43 4.3 本章小结 43-44 第5章 实验结果与分析 44-53 5.1 实验数据集 44 5.2 评测指标 44-46 5.3 第一阶段分类结果分析 46-50 5.4 第二阶段分类结果分析 50-52 5.5 本章小结 52-53 总结与展望 53-54 致谢 54-55 参考文献 55-59 攻读硕士学位期间发表的论文 59
|
相似论文
- 基于随机前沿和随机森林法的沿海开发区发展效率研究,F127
- 无Co马氏体时效不锈钢成分设计及性能研究,TG142.71
- 随机森林算法应用于肌电信号的情感识别,TN911.7
- 基于随机森林算法的企业信用风险评价研究-以我国电力生产行业上市公司为例,F224
- 国内植物园网站分析与上海植物园网站开发,TP393.092
- 基于ASP技术电子商务网站设计与实现,TP393.092
- 论网页设计中平面视觉元素的传达,TP393.092
- 点的魅力,TP393.092
- 一种WinCE环境下嵌入式浏览器的设计与开发,TP393.092
- 基于购物网站的交互设设框架研究,TP393.092
- 基于信息架构的综合型设计网站概念设计,TP393.092
- 手机网页浏览器中触摸手势的应用研究,TP393.092
- 基于GPRS的冻土远程监控软件功能扩展与网站设计实现,TP393.092
- B2C电子商务网站信息导航的用户体验设计研究,TP393.092
- 老年人社交网站界面可用性设计研究,TP393.092
- “十乐网”网站界面的优化设计,TP393.092
- 四川职业技术学院校务门户网站的改进与实现,TP393.092
- 基于兴趣分类的用户行为分析系统的研究,TP393.092
- 基于WEB 2.0社交型网站分析与设计,TP393.092
- 网页设计中视觉传达与信息传递的统一性研究,TP393.092
- 模型驱动的网站开发技术研究,TP393.092
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 计算机网络 > 一般性问题 > 计算机网络应用程序 > 网络浏览器
© 2012 www.xueweilunwen.com
|