学位论文 > 优秀研究生学位论文题录展示
基于Hadoop的微博用户影响力排名算法研究
作 者: 陈浩
导 师: 过弋
学 校: 华东理工大学
专 业: 计算机软件与理论
关键词: 微博平台 用户影响力 PageRank算法 Hadoop平台 MapReduce
分类号: TP393.092
类 型: 硕士论文
年 份: 2014年
下 载: 155次
引 用: 0次
阅 读: 论文下载
内容摘要
随着互联网和移动设备的发展,人与人之间的互动和联系越来越依赖社交网络。微博作为最流行的社交网络平台之一,在信息和言论传播、用户沟通交流等方面所扮演的角色越来越重要。微博影响力作为用户的重要衡量指标,是微博关系的基础,用户影响力越大,所受到的关注程度也就越高,对网络的影响、对信息的传播作用也就越大。通过影响力大的用户进行信息扩散、舆论导向、商品推介和宣传,无疑将收到事半功倍的效果,这对于社会信息传播和商业营销来说意义重大。在当下IT领域,不管是学术界还是业界,不管是企业、媒体还是技术人员,似乎都在谈论“大数据”。从技术的角度来说,Hadoop是大数据最重要的标签之一。Hadoop是一个能够让用户简易架构和使用的分布式计算平台,用户可以便捷地在Hadoop上开发运行处理海量数据的应用程序。本文首先研究与讨论了Hadoop平台及其相关技术,以及传统微博用户影响力评定方法,比如追随者数量排名算法、PageRank排名算法和用户行为权值排名算法等。在此基础上提出了基于PageRank改进的用户影响力排名算法UserRank。UserRank算法从用户自身质量及其追随者(即follower)质量入手,考虑追随者数量、追随者质量、评论率、转发率和是否微博认证用户等因素,全面分析得到用户微博影响力指数。最后,UserRank算法在搭建的Hadoop集群上实现,实验结果表明UserRank算法相对于追随者数量排名算法、PageRank算法等都具有很大优势,信息更充分,排名更真实,客观地反映出用户的实际影响力。
|
全文目录
摘要 5-6 ABSTRACT 6-9 第1章 绪论 9-14 1.1 研究背景 9-11 1.2 研究内容 11-12 1.3 研究意义 12-13 1.4 本文的组织结构 13-14 第2章 大数据与Hadoop平台 14-23 2.1 大数据处理 14-16 2.1.1 大数据的定义 14-15 2.1.2 大数据的价值 15 2.1.3 大数据处理技术 15-16 2.1.4 大数据前景 16 2.2 Hadoop平台介绍 16-17 2.2.1 Hadoop简介 16 2.2.2 Hadoop项目及其结构 16 2.2.3 Hadoop的优势 16-17 2.2.4 Hadoop平台的发展趋势 17 2.3 Hadoop平台相关技术 17-21 2.3.1 HDFS 17-18 2.3.2 MapReduce 18-20 2.3.3 HBase 20-21 2.4 本章小结 21-23 第3章 微博用户影响力排名基本算法及改进 23-31 3.1 微博用户影响力 23-24 3.1.1 微博用户影响力定义 23 3.1.2 微博影响力评定标准 23-24 3.2 微博用户影响力国内外研究现状 24-27 3.2.1 基于PageRank算法的微博用户影响力评定方法 25 3.2.2 基于用户行为权值的微博用户影响力评定方法 25-26 3.2.3 基于URL追踪的微博用户影响力评定方法 26 3.2.4 基于信息传播的微博用户影响力评定方法 26 3.2.5 微博用户影响力评定方法研究现状小结 26-27 3.3 微博用户影响力排名改进算法——UserRank算法 27-30 3.3.1 UserRank算法思想 27-28 3.3.2 UserRank算法具体实现 28-30 3.3.3 UserRank算法优势 30 3.4 本章小结 30-31 第4章 基于Hadoop的微博用户影响力排名系统的设计和实现 31-52 4.1 Hadoop平台搭建 31-33 4.1.1 集群概况 31 4.1.2 Hadoop搭建流程 31-33 4.2 数据库设计与实现 33-46 4.2.1 实验数据 33-36 4.2.2 数据库设计 36-37 4.2.3 数据处理及数据库实现 37-46 4.3 UserRank算法实现 46-51 4.3.1 基本PageRank算法的MapReduce实现 46-49 4.3.2 UserRank算法的MapReduce实现 49-51 4.4 本章小结 51-52 第5章 实验结果及其分析 52-56 5.1 实验结果分析 52-53 5.2 实验结果对比 53-55 5.2.1 UserRank算法与追随者数量排名算法对比 53-55 5.2.2 UserRank算法与PageRank算法对比 55 5.3 本章小结 55-56 第6章 总结和展望 56-58 6.1 全文研究总结 56 6.2 未来研究展望 56-58 参考文献 58-62 致谢 62-63 攻读硕士学位期间发表的论文 63
|
相似论文
- 基于Map/Reduce框架的分布式日志分析系统的研究及应用,TP311.52
- 高速网络环境下的入侵检测系统的研究,TP393.08
- 基于Hadoop的文本分类研究,TP391.1
- 基于Hadoop的分布式服务注册中心研究和实现,TP393.09
- 基于多核CPU的任务级数据处理研究及其在集群平台下的性能测试,TP274
- 数据中心Hadoop部署与追踪系统研究,TP308
- 云环境下MapReduce容错技术的研究,TP302.8
- 一个可扩展的MapReduce原型设计与实现,TP311.52
- 基于MapReduce的分布式文本数据过滤技术研究与系统实现,TP391.1
- 基于段落指纹的大规模近似网页检测算法研究,TP393.092
- MapReduce FairScheduler的高性能优化及超大规模集群模拟器设计及实现,TP311.13
- 基于列存储的RFID数据的管理技术的研究与应用,TP315
- 高性能计算体系结构下的海量数据处理分析与优化,TP338
- 分布式系统中的信息流控制模型的研究,TP316.4
- 数据密集型计算系统中的作业调度技术研究,TP311.13
- 基于云计算的微博推荐系统,TP393.092
- 基于IaaS云计算的Web应用技术研究,TP393.09
- 云计算中MapReduce性能优化及应用,TP3
- 基于链接结构分析的Web页面排序算法,TP393.092
- 搜索引擎主题相关性研究,TP391.3
- 基于MapReduce的聚类算法的并行化研究,TP311.13
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 计算机网络 > 一般性问题 > 计算机网络应用程序 > 网络浏览器
© 2012 www.xueweilunwen.com
|