学位论文 > 优秀研究生学位论文题录展示

针对微博数据的事件检测、跟踪及摘要生成

作 者: 龙睿
导 师: 俞勇
学 校: 上海交通大学
专 业: 计算机技术
关键词: 微博 事件检测 事件跟踪 事件摘要生成
分类号: TP393.092
类 型: 硕士论文
年 份: 2012年
下 载: 301次
引 用: 0次
阅 读: 论文下载
 

内容摘要


在最近几年里,微博已经成为了流行的社会化网络中的一个典型应用。在任何时间、任何地点发布短的消息(通常最大长度为140个中或英文字符),这种发布信息的方式降低了信息发布的壁垒,加快了信息传播的速度,从而使微博几乎成为了一种实时的发布应用。在这些每天由用户发布的微博中,大量的微博都和一些实时发生在现实生活中的事件有关联的。而微博站点也通常会在其主页面上列出一天或者一周甚至更长的时间里的热门关键词,作为微博主题词。但是这些微博主题词并不能让微博用户对这些微博主题(事件)有一个全面的理解,特别对于那些没有相关背景知识的微博用户。另外,微博用户为了弄明白这些微博主题(事件)的细节,就必须自己去阅读与该主题(事件)有关的很多微博,在这个信息过载的互联网时代,这必然会花费很多的时间。在这篇文章里,我们提出了一个完整的微博事件挖掘的工作流,它涵盖了从微博事件检测、跟踪到摘要生成的三个环节。具体来说,文中在仔细分析了微博数据本身的特点后,为微博主题词抽取和微博事件检测的具体工作,引入了新颖的特征,并带来了较好的效果。在微博事件跟踪环节,文中使用二分图这种数据结构去描述事件跟踪的工作,并把相邻时间内发生的相关事件关联起来连成事件链。最后在生成微博事件摘要的时候,受Web信息检索中检索结果的多样性观点的启发,不仅考虑到了摘要内容的相关性,还兼顾到了事件本身随时间发展和变化的特点,这是在微博事件摘要方面的第一份工作。而文中给出的实验评估结果,也表明本文提出的微博事件检测、跟踪和摘要生成算法是有效的。

全文目录


摘要  5-6
ABSTRACT  6-7
目录  7-10
表格索引  10-11
插图索引  11-12
主要符号对照表  12-13
第一章 引言  13-19
  1.1 社会化网络  13-15
  1.2 微博  15-16
  1.3 微博事件挖掘  16-17
  1.4 本章小结  17-19
第二章 相关工作和概念  19-23
  2.1 微博  19-20
  2.2 微博相关的研究  20
  2.3 事件检测和跟踪  20-21
  2.4 事件摘要生成  21-22
  2.5 中文自然语言处理  22
  2.6 本章小结  22-23
第三章 微博事件检测、跟踪及摘要生成的方案  23-39
  3.1 基于关键词共现图聚类的微博事件检测  23-27
    3.1.1 主题词抽取  24-26
    3.1.2 聚类算法  26-27
    3.1.3 微博事件检测  27
  3.2 基于二分图最大匹配的微博事件跟踪  27-32
    3.2.1 二分图  27-28
    3.2.2 二分图最大匹配  28-30
    3.2.3 微博事件跟踪  30-31
    3.2.4 评估事件链的正确性  31-32
  3.3 基于信息检索理论的微博事件摘要生成  32-37
    3.3.1 信息检索模型  32-35
    3.3.2 检索结果的内容多样性和覆盖度  35
    3.3.3 微博事件摘要生成  35-37
  3.4 本章小结  37-39
第四章 微博事件检测、跟踪及摘要生成的实验评估  39-49
  4.1 实验数据介绍  39
  4.2 实验数据收集和预处理  39-40
  4.3 事件检测评估  40-42
  4.4 事件跟踪评估  42-44
  4.5 事件摘要评估  44-45
    4.5.1 评估摘要内容和事件本身相关度  44
    4.5.2 评估摘要内容的覆盖度  44-45
  4.6 个案研究  45-46
  4.7 本章小结  46-49
第五章 总结与展望  49-51
参考文献  51-55
致谢  55-57
攻读学位期间发表的学术论文目录  57

相似论文

  1. 风险视角下新浪微博融资行为研究,F49
  2. 当代广告舆论化现象研究,G206
  3. 微博:草根话语权的假象,G206
  4. 基于微博构建的公共领域研究,G206
  5. 论微博的公民话语权,G206
  6. 论微博客中的网络公众聚集现象,G206
  7. 微博著作权保护问题初探,D923.41
  8. 压缩感知在无线通信网络异常事件检测中的应用研究,TN929.5
  9. 基于回放场景的足球视频精彩镜头检测,TP391.41
  10. 针对教育视频的虚拟学习社区设计与实现,G434
  11. 基于微博客的社区挖掘研究,TP393.092
  12. 微博在危机事件中的传播特点和效果研究,G206
  13. 使用层次聚类和N-gram模型的新闻热事件检测研究,TP311.13
  14. “围脖”:用什么温暖大众?,G206
  15. 微博客的虚拟社群及其“人际化”传播分析,G206
  16. 微博客的传播特征及社会影响分析,G206
  17. 微博在企业内部传播中的适用性研究,F272
  18. 中国微博客的发展困境和策略研究,G206
  19. 基于微内容的新闻开发研究,G206
  20. 微博客营销信息的在线评论与转发对消费者态度的影响,F274;F224

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 计算机网络 > 一般性问题 > 计算机网络应用程序 > 网络浏览器
© 2012 www.xueweilunwen.com