学位论文 > 优秀研究生学位论文题录展示

Web 2.0环境下互联网信息过滤理论与方法研究

作 者: 李东方
导 师: 俞能海
学 校: 中国科学技术大学
专 业: 信号与信息处理
关键词: Web 2.0 信息过滤 广告检测 大规模聚类算法 谱聚类 热度扩散模型 热点话题检测
分类号: TP393.09
类 型: 博士论文
年 份: 2009年
下 载: 457次
引 用: 2次
阅 读: 论文下载
 

内容摘要


互联网近年来得到了迅猛发展,伴随着Web 2.0等技术的不断进步,互联网承载的应用与信息活动越来越多,人们对互联网的依赖程度也越来越高。在Web 2.0时代,一方面,互联网上的媒体类型呈现多样化特点。多媒体信息携带的听觉和视觉信息与传统的文本信息成互补,有效的丰富了互联网上的信息内容和用户浏览体验。如何针对多种媒体信息进行有效过滤是Web 2.0下信息过滤的重要任务。另一方面,在Web 2.0时代,用户为互联网的中心。互联网呈现出社会性与动态特性,大量动态的数据涌现。这些数据极大的丰富了互联网内容,给人们提供了众多的信息来源。如何从这些用户创造的数据中学习用户的习惯并过滤其中的热点信息成为互联网的重要的研究课题。此外,海量的用户参与为互联网带来了海量数据,如何改进传统算法以适应这些海量数据成为重要的研究课题。本文的研究重点是Web 2.0下信息过滤。本文分析了Web 2.0下信息过滤任务面临的挑战,我们分别对多种媒体信息综合过滤、应用于海量数据的学习算法和挖掘Web 2.0用户丰富的反馈数据进行了研究,并提出了应对这些问题的理论与方法。论文的主要研究内容与创新成果如下:本文针对Web 2.0时代多种媒体信息并存的特点提出了综合多种媒体特征的信息过滤方法。并针对互联网中广告图片过滤问题,综合利用网页中文本信息、图片内容信息等,结合SVM和AdaBoost学习算法,有效的实现了对广告图片的过滤。本文提取了丰富的媒体内容特征、相关的页面布局特征和文本特征。并基于AdaBoost提出了特征选取办法,对特征集合进行筛选和有机的整合。本文还构建了一个大规模的实验数据集来对算法进行验证。验证结果证实了算法特征集选取的合理性及特征选取算法的可行性。本文还对比了各种特征的分类效果及分类有效性。本文基于Normalized Cut提出了一种快速谱聚类算法FSC来对互联网上的海量的文本数据进行快速聚类。本文中分析了谱聚类算法应用到大规模文本聚类中的难点,并给出了解决办法。FSC首先利用GSASH算法将大规模的高维文本数据快速表示为图,并利用AMG数值分析方法将谱分析对应的大规模特征值系统迭代化简为较小规模特征值系统,进而取得近似解。本文还从理论角度分析了这种近似的有效性。实验结果表明,FSC保持了谱聚类算法优点,并且成功的将算法复杂度降低到O(nlogn),进而可以应用到大规模文本聚类问题上来。本文基于热量扩散模型提出了一种针对Web 2.0环境下的信息热度评价与挖掘算法。本文针对Web 2.0时代互联网呈现出的社会性与动态特性,对Web 2.0时代的互联网进行建模。本文将互联网上用户的信息活动看作为热度活动,建立互联网热量扩散模型,利用用户反馈信息对互联网上的信息进行热度评估,并挖掘其中的热点。本文对热度模型进行了详细的定义,并证明了其稳定性和算法收敛性。实验结果表明本文的算法能很好的模拟互联网上的信息活动。

全文目录


摘要  4-6
ABSTRACT  6-12
第1章 绪论  12-22
  1.1 Web2.0 时代互联网现状  12-13
  1.2 信息过滤技术  13-16
    1.2.1 信息过滤技术背景  13-15
    1.2.2 Web 2.0 时代的信息过滤面临的挑战  15-16
  1.3 本文的研究内容  16-21
    1.3.1 综合多种媒体特征的信息过滤  16-18
      1.3.1.1 研究现状  17
      1.3.1.2 本文工作及主要贡献  17-18
    1.3.2 大规模文本数据的快速谱聚类算法  18-19
      1.3.2.1 研究现状  18
      1.3.2.2 本文工作及贡献  18-19
    1.3.3 Web 2.0 下互联网热点发现  19-21
      1.3.3.1 研究现状  19-20
      1.3.3.2 本文工作及贡献  20-21
  1.4 本文的组织  21-22
第2章 基于综合媒体特征的信息过滤  22-40
  2.1 研究现状与问题描述  22-23
    2.1.1 研究现状  22-23
    2.1.2 问题描述  23
  2.2 算法详解  23-37
    2.2.1 问题定义  23-24
    2.2.2 特征抽取  24-31
      2.2.2.1 文本特征  24
      2.2.2.2 链接特征  24-25
      2.2.2.3 VIPS 及页面布局特征  25-27
      2.2.2.4 图像内容特征  27-31
    2.2.3 分类算法  31-36
      2.2.3.1 SVM  31-35
      2.2.3.2 AdaBoost  35-36
    2.2.4 特征选取算法  36-37
  2.3 实验及系统分析  37-39
    2.3.1 实验方案与评价准则  37
    2.3.2 实验结果及分析  37-39
  2.4 本章总结  39-40
第3章 针对大规模数据集的快速谱聚类算法  40-64
  3.1 聚类算法综述  40-47
    3.1.1 聚类算法分类及介绍  40-44
      3.1.1.1 基于划分的聚类算法  40-41
      3.1.1.2 层次聚类算法  41-42
      3.1.1.3 基于密度的聚类算法  42-43
      3.1.1.4 栅格聚类算法  43
      3.1.1.5 其他聚类算法  43-44
    3.1.2 谱聚类算法  44-47
      3.1.2.1 最小割集准则(Minimum Cut)  44
      3.1.2.2 规范割集准则(Normalized Cut)  44-45
      3.1.2.3 比例割集准则(Ratio Cut)  45
      3.1.2.4 最小最大割集准则(Min-Max Cut)  45
      3.1.2.5 谱聚类算法框架与准则目标推导  45-47
  3.2 快速谱聚类算法  47-59
    3.2.1 谱聚类算法的瓶颈及出发点  48-50
      3.2.1.1 正则谱聚类与Normalized Cut 算法  48-49
      3.2.1.2 大规模高维数据快速图表示方法  49-50
    3.2.2 快速谱聚类算法  50-59
      3.2.2.1 大规模数据集快速图表示方法  51
      3.2.2.2 AMG 与大规模特征矩阵化简  51-53
      3.2.2.3 算法详解  53-59
      3.2.2.4 算法分析  59
  3.3 实验及分析  59-62
    3.3.1 数据集  59-60
    3.3.2 评价准则  60
    3.3.3 实验结果与分析  60-62
  3.4 本章总结  62-64
第4章 Web 2.0 下互联网热点话题挖掘  64-92
  4.1 引言  64-71
    4.1.1 Web 2.0 互联网环境  64-69
      4.1.1.1 Web 2.0 的定义  64-66
      4.1.1.2 Web 2.0 典型应用与技术基础  66-68
      4.1.1.3 Web 2.0 特征与相关研究  68-69
    4.1.2 话题发现与挖掘  69-71
    4.1.3 热点话题发现研究现状  71
  4.2 Web 2.0下互联网热点挖掘算法  71-83
    4.2.1 问题定义  71-72
    4.2.2 互联网模型  72-74
    4.2.3 互联网信息热度模型  74-80
      4.2.3.1 热量扩散模型  74-76
      4.2.3.2 互联网信息热度扩散模型  76-80
    4.2.4 算法详解  80-83
      4.2.4.1 话题抽取算法  80-83
      4.2.4.2 热度评价算法  83
  4.3 实验与分析  83-90
    4.3.1 实验系统  84-88
      4.3.1.1 系统结构  84-86
      4.3.1.2 热度爬虫系统  86-88
    4.3.2 实验数据集及参数设定  88-89
    4.3.3 实验结果与分析  89-90
  4.4 总结  90-92
第5章 工作总结与未来展望  92-94
  5.1 工作总结  92-93
  5.2 未来展望  93-94
参考文献  94-105
致谢  105-106
在读期间发表的学术论文与取得的研究成果  106

相似论文

  1. 基于用户兴趣特征的图像检索研究与实现,TP391.41
  2. 隐式用户兴趣挖掘的研究与实现,TP311.13
  3. 基于WEB的仿真互操作性测试工具研究,TP391.9
  4. 基于图分割的文本提取方法研究,TP391.41
  5. LXI仪器Web接口开发,TP274
  6. LXI计数器研制,TP274
  7. 面向服务的多主体协作机制的研究与实现,TP393.09
  8. 基于模型的Web测试技术研究与应用,TP311.53
  9. 面向RIA开发模型的研究,TP311.5
  10. 面向业务过程的服务动态组合方法研究,TP393.09
  11. 基于本体的语义检索研究,TP391.3
  12. 面向服务的Web报表的研究与设计,TP393.09
  13. 基于面向服务架构的公众信息系统在新农村信息化建设中的应用研究,TP393.09
  14. 基于嵌入式Web服务器的监控系统研究,TP393.05
  15. 一种基于领域本体的语义Web服务匹配和组合方法,TP393.09
  16. 面向主题的Web文档自动文摘生成方法研究,TP391.1
  17. 基于BMC的Web服务失配检测方法研究,TP311.52
  18. Web使用挖掘与网页个性化服务推荐研究,TP311.13
  19. 基于兴趣度的Web日志用户访问序列模式挖掘,TP311.13
  20. 基于嵌入式Web技术的动态应变仪研究与实现,TP368.1
  21. 基于SOA的车载信息服务计费系统的设计与实现,TP311.52

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 计算机网络 > 一般性问题 > 计算机网络应用程序
© 2012 www.xueweilunwen.com