学位论文 > 优秀研究生学位论文题录展示

基于Hadoop的微博用户影响力排名算法研究

作 者: 陈浩
导 师: 过弋
学 校: 华东理工大学
专 业: 计算机软件与理论
关键词: 微博平台 用户影响力 PageRank算法 Hadoop平台 MapReduce
分类号: TP393.092
类 型: 硕士论文
年 份: 2014年
下 载: 155次
引 用: 0次
阅 读: 论文下载
 

内容摘要


随着互联网和移动设备的发展,人与人之间的互动和联系越来越依赖社交网络。微博作为最流行的社交网络平台之一,在信息和言论传播、用户沟通交流等方面所扮演的角色越来越重要。微博影响力作为用户的重要衡量指标,是微博关系的基础,用户影响力越大,所受到的关注程度也就越高,对网络的影响、对信息的传播作用也就越大。通过影响力大的用户进行信息扩散、舆论导向、商品推介和宣传,无疑将收到事半功倍的效果,这对于社会信息传播和商业营销来说意义重大。在当下IT领域,不管是学术界还是业界,不管是企业、媒体还是技术人员,似乎都在谈论“大数据”。从技术的角度来说,Hadoop是大数据最重要的标签之一。Hadoop是一个能够让用户简易架构和使用的分布式计算平台,用户可以便捷地在Hadoop上开发运行处理海量数据的应用程序。本文首先研究与讨论了Hadoop平台及其相关技术,以及传统微博用户影响力评定方法,比如追随者数量排名算法、PageRank排名算法和用户行为权值排名算法等。在此基础上提出了基于PageRank改进的用户影响力排名算法UserRank。UserRank算法从用户自身质量及其追随者(即follower)质量入手,考虑追随者数量、追随者质量、评论率、转发率和是否微博认证用户等因素,全面分析得到用户微博影响力指数。最后,UserRank算法在搭建的Hadoop集群上实现,实验结果表明UserRank算法相对于追随者数量排名算法、PageRank算法等都具有很大优势,信息更充分,排名更真实,客观地反映出用户的实际影响力。

全文目录


摘要  5-6
ABSTRACT  6-9
第1章 绪论  9-14
  1.1 研究背景  9-11
  1.2 研究内容  11-12
  1.3 研究意义  12-13
  1.4 本文的组织结构  13-14
第2章 大数据与Hadoop平台  14-23
  2.1 大数据处理  14-16
    2.1.1 大数据的定义  14-15
    2.1.2 大数据的价值  15
    2.1.3 大数据处理技术  15-16
    2.1.4 大数据前景  16
  2.2 Hadoop平台介绍  16-17
    2.2.1 Hadoop简介  16
    2.2.2 Hadoop项目及其结构  16
    2.2.3 Hadoop的优势  16-17
    2.2.4 Hadoop平台的发展趋势  17
  2.3 Hadoop平台相关技术  17-21
    2.3.1 HDFS  17-18
    2.3.2 MapReduce  18-20
    2.3.3 HBase  20-21
  2.4 本章小结  21-23
第3章 微博用户影响力排名基本算法及改进  23-31
  3.1 微博用户影响力  23-24
    3.1.1 微博用户影响力定义  23
    3.1.2 微博影响力评定标准  23-24
  3.2 微博用户影响力国内外研究现状  24-27
    3.2.1 基于PageRank算法的微博用户影响力评定方法  25
    3.2.2 基于用户行为权值的微博用户影响力评定方法  25-26
    3.2.3 基于URL追踪的微博用户影响力评定方法  26
    3.2.4 基于信息传播的微博用户影响力评定方法  26
    3.2.5 微博用户影响力评定方法研究现状小结  26-27
  3.3 微博用户影响力排名改进算法——UserRank算法  27-30
    3.3.1 UserRank算法思想  27-28
    3.3.2 UserRank算法具体实现  28-30
    3.3.3 UserRank算法优势  30
  3.4 本章小结  30-31
第4章 基于Hadoop的微博用户影响力排名系统的设计和实现  31-52
  4.1 Hadoop平台搭建  31-33
    4.1.1 集群概况  31
    4.1.2 Hadoop搭建流程  31-33
  4.2 数据库设计与实现  33-46
    4.2.1 实验数据  33-36
    4.2.2 数据库设计  36-37
    4.2.3 数据处理及数据库实现  37-46
  4.3 UserRank算法实现  46-51
    4.3.1 基本PageRank算法的MapReduce实现  46-49
    4.3.2 UserRank算法的MapReduce实现  49-51
  4.4 本章小结  51-52
第5章 实验结果及其分析  52-56
  5.1 实验结果分析  52-53
  5.2 实验结果对比  53-55
    5.2.1 UserRank算法与追随者数量排名算法对比  53-55
    5.2.2 UserRank算法与PageRank算法对比  55
  5.3 本章小结  55-56
第6章 总结和展望  56-58
  6.1 全文研究总结  56
  6.2 未来研究展望  56-58
参考文献  58-62
致谢  62-63
攻读硕士学位期间发表的论文  63

相似论文

  1. 基于Map/Reduce框架的分布式日志分析系统的研究及应用,TP311.52
  2. 高速网络环境下的入侵检测系统的研究,TP393.08
  3. 基于Hadoop的文本分类研究,TP391.1
  4. 基于Hadoop的分布式服务注册中心研究和实现,TP393.09
  5. 基于多核CPU的任务级数据处理研究及其在集群平台下的性能测试,TP274
  6. 数据中心Hadoop部署与追踪系统研究,TP308
  7. 云环境下MapReduce容错技术的研究,TP302.8
  8. 一个可扩展的MapReduce原型设计与实现,TP311.52
  9. 基于MapReduce的分布式文本数据过滤技术研究与系统实现,TP391.1
  10. 基于段落指纹的大规模近似网页检测算法研究,TP393.092
  11. MapReduce FairScheduler的高性能优化及超大规模集群模拟器设计及实现,TP311.13
  12. 基于列存储的RFID数据的管理技术的研究与应用,TP315
  13. 高性能计算体系结构下的海量数据处理分析与优化,TP338
  14. 分布式系统中的信息流控制模型的研究,TP316.4
  15. 数据密集型计算系统中的作业调度技术研究,TP311.13
  16. 基于云计算的微博推荐系统,TP393.092
  17. 基于IaaS云计算的Web应用技术研究,TP393.09
  18. 云计算中MapReduce性能优化及应用,TP3
  19. 基于链接结构分析的Web页面排序算法,TP393.092
  20. 搜索引擎主题相关性研究,TP391.3
  21. 基于MapReduce的聚类算法的并行化研究,TP311.13

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 计算机网络 > 一般性问题 > 计算机网络应用程序 > 网络浏览器
© 2012 www.xueweilunwen.com