学位论文 > 优秀研究生学位论文题录展示
垃圾博客检测及相关技术的研究
作 者: 尹明飞
导 师: 任永功
学 校: 辽宁师范大学
专 业: 计算机软件与理论
关键词: 特征关联树 组合特征 垃圾博客分类 统计特征 特征选择
分类号: TP393.092
类 型: 硕士论文
年 份: 2012年
下 载: 4次
引 用: 0次
阅 读: 论文下载
内容摘要
近年来随着internet技术的发展,博客(Web blog)通过为作者和读者之间提供交互式交流平台和动态更新的社会网络而成为极受欢迎的一种新媒体的社会沟通机制。据调查科学研究、统计调查、公共建设、教育、社会福利等研究领域都会应用博客的分析结果,所以博客巨大的信息源和信息量具有极其宝贵的价值。但随之产生的垃圾博客(spam blog or splog)也肆意猖獗。它产生的主要方式是盗窃他人内容或机器自动生成,其目的是提高目标网站在搜索引擎中的排名以链接盈利广告。垃圾博客造成的问题包括:1)严重降低博客的检索质量;2)明显浪费网络和存储资源。因此,为保护博客世界的良好环境,必须对垃圾博客进行过滤。首先本文根据博客的各种特征分析,提取了两种高效特征并结合传统的内容特征,采用特征组合的方法对博客进行分类。鉴于Yuuki Sato Takehito Utsuro对垃圾博客的统计规律以及对垃圾博客作者属性的分析,挖掘出博客的作者属性在博客分类中的重要性。这表明博客的作者属性具有十分重要的研究价值。博客作者常会无规律地发表博客,而垃圾博客为提高网页的点击率进而提高网站在ALEXA中的排名,须在短时间内发表大量的博文,同时机器生成垃圾博文的速度非常快。因此正常博客与垃圾博客在时间自相似特征上存在较大差异。本文根据文章中的作者属性和自相似特征的不同,对博客文章进行首次过滤,同时结合提取出的内容特征,增加特征之间的互补性,使垃圾博客过滤的效率大大提高。其次,本文设计了一种针对垃圾博客特征筛选的特征关联树分类算法。该算法根据特征之间的相关性构造出一种特征关联树结构来筛选特征,剪枝掉不相关和冗余特征,保留强相关和弱相关特征,同时利用期望交叉熵对特征关联树进行二次筛选[2]。与传统的特征选择算法相比,该算法可以消除博客样本数据非平衡的影响,根据特征的相似度和期望交叉熵的大小,自适应地调整特征关联树的规模,降低特征维度。垃圾博客过滤的对比实验表明,该算法用于垃圾博客过滤时,可以获得较好的准确率和召回率。本文提出的上述两种垃圾博客检测算法,均属于动态文本二分类算法。在分析传统的垃圾博客特征基础上,挖掘出检测垃圾博客的高效特征以及特征间的关联性,有效缩减了特征维度的规模,提高检测速度。经典分类器上进行对比实验测试,结果表明本文提出的垃圾博客检测算法具有良好的分类效果。
|
全文目录
相似论文
- 用于检索的人脸特征提取与匹配算法研究,TP391.41
- 基于仿生模式识别的文本分类技术研究,TP391.1
- 唇读中的特征提取、选择与融合,TP391.41
- 语音情感识别的特征选择与特征产生,TP18
- 基于特征选择的入侵检测研究,TP393.08
- 基于统计结构的联机手写藏文识别特征抽取研究,TP391.41
- 基于数据分布特征的文本分类研究,TP391.1
- 数据流特征选择策略的研究,TP311.13
- 领域间适应性情感分类方法研究,TP391.1
- 动词次范畴化驱动的汉语句法分析,TP391.1
- 基于改进的SVM模型的肝癌识别方法的研究与实现,TP391.41
- 车辆识别系统动态特征选择算法的研究与实现,TP391.41
- 滚动轴承故障诊断中的特征提取与选择方法,TH165.3
- 基于AdaBoost算法的人脸识别研究,TP391.41
- 民族面部特征提取及其识别算法研究,TP391.41
- 面向肺部CAD的特征提取、选择及分类方法研究,TP391.41
- 基于最小联合互信息亏损的最优特征选择算法研究,TP311.13
- 特征选择算法及其在网络流量识别中的应用研究,TP393.06
- 实用近红外人脸识别方法研究,TP391.41
- 基于脑电信号的疲劳估计和实时监控技术研究,TN911.6
- 基于复杂网络理论的水华暴发数值模型研究,X173
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 计算机网络 > 一般性问题 > 计算机网络应用程序 > 网络浏览器
© 2012 www.xueweilunwen.com
|