学位论文 > 优秀研究生学位论文题录展示

Web 2.0环境下互联网信息过滤理论与方法研究

作　者: 李东方
导　师: 俞能海
学　校: 中国科学技术大学
专　业: 信号与信息处理
关键词: Web 2.0 信息过滤广告检测大规模聚类算法谱聚类热度扩散模型热点话题检测
分类号: TP393.09
类　型: 博士论文
年　份: 2009年
下　载: 457次
引　用: 2次
阅　读: 论文下载

内容摘要

互联网近年来得到了迅猛发展,伴随着Web 2.0等技术的不断进步,互联网承载的应用与信息活动越来越多,人们对互联网的依赖程度也越来越高。在Web 2.0时代,一方面,互联网上的媒体类型呈现多样化特点。多媒体信息携带的听觉和视觉信息与传统的文本信息成互补,有效的丰富了互联网上的信息内容和用户浏览体验。如何针对多种媒体信息进行有效过滤是Web 2.0下信息过滤的重要任务。另一方面,在Web 2.0时代,用户为互联网的中心。互联网呈现出社会性与动态特性,大量动态的数据涌现。这些数据极大的丰富了互联网内容,给人们提供了众多的信息来源。如何从这些用户创造的数据中学习用户的习惯并过滤其中的热点信息成为互联网的重要的研究课题。此外,海量的用户参与为互联网带来了海量数据,如何改进传统算法以适应这些海量数据成为重要的研究课题。本文的研究重点是Web 2.0下信息过滤。本文分析了Web 2.0下信息过滤任务面临的挑战,我们分别对多种媒体信息综合过滤、应用于海量数据的学习算法和挖掘Web 2.0用户丰富的反馈数据进行了研究,并提出了应对这些问题的理论与方法。论文的主要研究内容与创新成果如下:本文针对Web 2.0时代多种媒体信息并存的特点提出了综合多种媒体特征的信息过滤方法。并针对互联网中广告图片过滤问题,综合利用网页中文本信息、图片内容信息等,结合SVM和AdaBoost学习算法,有效的实现了对广告图片的过滤。本文提取了丰富的媒体内容特征、相关的页面布局特征和文本特征。并基于AdaBoost提出了特征选取办法,对特征集合进行筛选和有机的整合。本文还构建了一个大规模的实验数据集来对算法进行验证。验证结果证实了算法特征集选取的合理性及特征选取算法的可行性。本文还对比了各种特征的分类效果及分类有效性。本文基于Normalized Cut提出了一种快速谱聚类算法FSC来对互联网上的海量的文本数据进行快速聚类。本文中分析了谱聚类算法应用到大规模文本聚类中的难点,并给出了解决办法。FSC首先利用GSASH算法将大规模的高维文本数据快速表示为图,并利用AMG数值分析方法将谱分析对应的大规模特征值系统迭代化简为较小规模特征值系统,进而取得近似解。本文还从理论角度分析了这种近似的有效性。实验结果表明,FSC保持了谱聚类算法优点,并且成功的将算法复杂度降低到O(nlogn),进而可以应用到大规模文本聚类问题上来。本文基于热量扩散模型提出了一种针对Web 2.0环境下的信息热度评价与挖掘算法。本文针对Web 2.0时代互联网呈现出的社会性与动态特性,对Web 2.0时代的互联网进行建模。本文将互联网上用户的信息活动看作为热度活动,建立互联网热量扩散模型,利用用户反馈信息对互联网上的信息进行热度评估,并挖掘其中的热点。本文对热度模型进行了详细的定义,并证明了其稳定性和算法收敛性。实验结果表明本文的算法能很好的模拟互联网上的信息活动。

全文目录

摘要  4-6
ABSTRACT  6-12
第1章绪论  12-22
  1.1 Web2.0 时代互联网现状  12-13
  1.2 信息过滤技术  13-16
    1.2.1 信息过滤技术背景  13-15
    1.2.2 Web 2.0 时代的信息过滤面临的挑战  15-16
  1.3 本文的研究内容  16-21
    1.3.1 综合多种媒体特征的信息过滤  16-18
      1.3.1.1 研究现状  17
      1.3.1.2 本文工作及主要贡献  17-18
    1.3.2 大规模文本数据的快速谱聚类算法  18-19
      1.3.2.1 研究现状  18
      1.3.2.2 本文工作及贡献  18-19
    1.3.3 Web 2.0 下互联网热点发现  19-21
      1.3.3.1 研究现状  19-20
      1.3.3.2 本文工作及贡献  20-21
  1.4 本文的组织  21-22
第2章基于综合媒体特征的信息过滤  22-40
  2.1 研究现状与问题描述  22-23
    2.1.1 研究现状  22-23
    2.1.2 问题描述  23
  2.2 算法详解  23-37
    2.2.1 问题定义  23-24
    2.2.2 特征抽取  24-31
      2.2.2.1 文本特征  24
      2.2.2.2 链接特征  24-25
      2.2.2.3 VIPS 及页面布局特征  25-27
      2.2.2.4 图像内容特征  27-31
    2.2.3 分类算法  31-36
      2.2.3.1 SVM  31-35
      2.2.3.2 AdaBoost  35-36
    2.2.4 特征选取算法  36-37
  2.3 实验及系统分析  37-39
    2.3.1 实验方案与评价准则  37
    2.3.2 实验结果及分析  37-39
  2.4 本章总结  39-40
第3章针对大规模数据集的快速谱聚类算法  40-64
  3.1 聚类算法综述  40-47
    3.1.1 聚类算法分类及介绍  40-44
      3.1.1.1 基于划分的聚类算法  40-41
      3.1.1.2 层次聚类算法  41-42
      3.1.1.3 基于密度的聚类算法  42-43
      3.1.1.4 栅格聚类算法  43
      3.1.1.5 其他聚类算法  43-44
    3.1.2 谱聚类算法  44-47
      3.1.2.1 最小割集准则（Minimum Cut）  44
      3.1.2.2 规范割集准则（Normalized Cut）  44-45
      3.1.2.3 比例割集准则（Ratio Cut）  45
      3.1.2.4 最小最大割集准则（Min-Max Cut）  45
      3.1.2.5 谱聚类算法框架与准则目标推导  45-47
  3.2 快速谱聚类算法  47-59
    3.2.1 谱聚类算法的瓶颈及出发点  48-50
      3.2.1.1 正则谱聚类与Normalized Cut 算法  48-49
      3.2.1.2 大规模高维数据快速图表示方法  49-50
    3.2.2 快速谱聚类算法  50-59
      3.2.2.1 大规模数据集快速图表示方法  51
      3.2.2.2 AMG 与大规模特征矩阵化简  51-53
      3.2.2.3 算法详解  53-59
      3.2.2.4 算法分析  59
  3.3 实验及分析  59-62
    3.3.1 数据集  59-60
    3.3.2 评价准则  60
    3.3.3 实验结果与分析  60-62
  3.4 本章总结  62-64
第4章 Web 2.0 下互联网热点话题挖掘  64-92
  4.1 引言  64-71
    4.1.1 Web 2.0 互联网环境  64-69
      4.1.1.1 Web 2.0 的定义  64-66
      4.1.1.2 Web 2.0 典型应用与技术基础  66-68
      4.1.1.3 Web 2.0 特征与相关研究  68-69
    4.1.2 话题发现与挖掘  69-71
    4.1.3 热点话题发现研究现状  71
  4.2 Web 2.0下互联网热点挖掘算法  71-83
    4.2.1 问题定义  71-72
    4.2.2 互联网模型  72-74
    4.2.3 互联网信息热度模型  74-80
      4.2.3.1 热量扩散模型  74-76
      4.2.3.2 互联网信息热度扩散模型  76-80
    4.2.4 算法详解  80-83
      4.2.4.1 话题抽取算法  80-83
      4.2.4.2 热度评价算法  83
  4.3 实验与分析  83-90
    4.3.1 实验系统  84-88
      4.3.1.1 系统结构  84-86
      4.3.1.2 热度爬虫系统  86-88
    4.3.2 实验数据集及参数设定  88-89
    4.3.3 实验结果与分析  89-90
  4.4 总结  90-92
第5章工作总结与未来展望  92-94
  5.1 工作总结  92-93
  5.2 未来展望  93-94
参考文献  94-105
致谢  105-106
在读期间发表的学术论文与取得的研究成果  106

Web 2.0环境下互联网信息过滤理论与方法研究

内容摘要

全文目录

相似论文