学位论文 > 优秀研究生学位论文题录展示

分布式微博采集系统的设计与实现

作 者: 杨一帆
导 师: 黑晓军
学 校: 华中科技大学
专 业: 通信与信息系统
关键词: 微博 开放平台 模拟登录 分布式 数据采集
分类号: TP393.092
类 型: 硕士论文
年 份: 2013年
下 载: 11次
引 用: 0次
阅 读: 论文下载
 

内容摘要


微博作为一个新兴互联网平台,改变了公众媒体习惯和信息传播模式,并成为社会化媒体中消息最即时、用户最活跃的信息传播平台。截至2012年12月底,中国微博用户数已达到3.09亿,占网民总数的54.7%。针对微博展开的研究有助于了解舆论动向、追踪热点话题、区分社交网络中不同社会群体,具有很重要的社会和科研意义,而这些研究都需要大量的微博数据做支撑。虽然国内外已有众多机构和组织针对微博数据采集展开研究,但因为微博具有新兴性和特殊性,目前仍没有出现像针对传统互联网应用那样较为成熟的数据采集方法,因此针对微博数据采集展开研究具有重要意义。本研究设计实现了分布式微博采集系统,具体工作包括:1)设计并实现通过调用开放平台接口采集微博数据,包括开放平台认证授权和编程接口等技术的研究和使用;2)设计并实现通过模拟登录解析页面采集微博数据,包括单点登录、页面解析等技术的理解和运用;3)结合以上两种采集方式,设计微博采集系统的总体框架、功能模块和数据库,并使用分布式策略实现一个高效易扩展的微博数据采集系统。使用本系统,用户只需导入要采集的目标微博用户账号,并选择要采集的数据类型,即可快速获得采集结果,同时可根据需要修改系统规模来调整采集速率。经过功能测试和数据采集速率测试,证明本系统可以稳定高效地采集微博数据,并且支持动态扩展,为基于微博数据展开的研究工作奠定了基础。

全文目录


摘要  4-5
Abstract  5-8
1 绪论  8-13
  1.1 课题背景与研究意义  8-9
  1.2 国内外研究现状  9-11
  1.3 课题来源及内容  11
  1.4 论文组织结构  11-13
2 相关技术介绍  13-22
  2.1 开放平台相关技术  13-15
  2.2 模拟登录及页面解析  15-18
  2.3 分布式相关技术  18-21
  2.4 本章小结  21-22
3 分布式微博采集系统设计  22-37
  3.1 需求分析  22-23
  3.2 总体架构设计  23-25
  3.3 功能模块设计  25-30
  3.4 数据库设计  30-36
  3.5 本章小结  36-37
4 分布式微博采集系统实现与测试  37-59
  4.1 功能模块实现  37-53
  4.2 系统测试  53-58
  4.3 本章小结  58-59
5 总结与展望  59-61
  5.1 论文工作总结  59
  5.2 未来工作展望  59-61
致谢  61-62
参考文献  62-64

相似论文

  1. 基于WinCE平台的故障分析仪应用程序设计与开发,TP311.52
  2. Ad-Hoc网络多信道MAC层协议的信道分配问题的研究,TN929.5
  3. 并行分布式网络模拟器PDNS容错技术的研究,TP302.8
  4. 风险视角下新浪微博融资行为研究,F49
  5. 节能与新能源汽车数据采集与高原适配技术探索研究,U469.7
  6. 当代广告舆论化现象研究,G206
  7. 基于移动Agent的分布式网络通信机制的研究,TP393.02
  8. 微博:草根话语权的假象,G206
  9. 基于微博构建的公共领域研究,G206
  10. RTAD-CMDMDES的总体设计和系统开发,U279.3
  11. 矿区地表形变野外数据采集系统的研究与实现,P208
  12. 水情自动监测系统的设计与实现,P335
  13. 论微博的公民话语权,G206
  14. 论微博客中的网络公众聚集现象,G206
  15. 无线局域网MAC层工作休假策略的研究,TN925.93
  16. 基于Map/Reduce框架的分布式日志分析系统的研究及应用,TP311.52
  17. 从都市报微博看都市报的数字化转型,G216.2
  18. 便携式气象数据采集系统的研究与实现,TP274.2
  19. 基于OPC规范的疏干水源分布式远程监控系统,TP277
  20. 分布式生物柴油生产工艺及装置的研究与开发,TE667
  21. 基于AT91SAM9263的CEMS数据采集与分析系统的研究与开发,TP274.2

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 计算机网络 > 一般性问题 > 计算机网络应用程序 > 网络浏览器
© 2012 www.xueweilunwen.com