学位论文 > 优秀研究生学位论文题录展示

基于倒排索引的微博话题检测

作 者: 刘红雨
导 师: 陈清财
学 校: 哈尔滨工业大学
专 业: 计算机技术
关键词: 话题检测与跟踪 倒排索引 AP算法 动态窗口
分类号: TP393.092
类 型: 硕士论文
年 份: 2013年
下 载: 19次
引 用: 0次
阅 读: 论文下载
 

内容摘要


随着微博这种新兴的社交平台迅速发展,越来越多的用户使用,并且在上面发布事件信息,由于微博的传播速度非常迅速,对新闻传播的意义非常大,从微博数据中发现热点事件有着极大的需求。但是由于微博数据拥有规模大、噪声多、文本较短等特点,给话题检测与跟踪带来了巨大的挑战。本文在别人研究关于话题检测与跟踪的基础上,分析传统的话题检测与跟踪算法的缺点,提出一个基于倒排索引的方法来提高算法的处理速度,但不降低算法的精度。通过对微博数据分析,人工建立一些规则对微博数据进行噪声处理。然后对数据建立倒排索引,并进行话题检测与跟踪。对于每天获取的新的事件,根据事件的熵值和用户数量对事件进行排序,将列表前20的事件与之前的旧事件进行合并。在合并之前,利用基于衰老理论的方法来得到需要合并的旧事件集合。本文同时分析了AP聚类算法在微博数据集上的结果。为了验证算法效率的提升,本文通过在不同级别的数据集上对比传统的SINGLE-PASS算法和基于倒排索引的改进算法的处理时间,通过实验对比得知,基于倒排索引改进的算法能达到6-7倍的速度提升,性能远远高于传统的文本聚类算法。由于实验没有标准的语料集合,本文通过人工标注的方式获得了一个测试集合,测试集合包含26个事件,共计2817篇文档。通过在测试集合上面的实验分析,本文提出的算法能够获得较好的精度。本文还对比了不同的权重计算方式在微博数据上面的结果。同时还对比了AP聚类算法和SINGLE-PASS算法在微博数据集上的结果。由于微博数据量比较大,文本聚类算法会得出很多用户不感兴趣的事件,本文通过计算事件的熵值和参与事件的用户数量对事件进行排序。通过对比发现,这种方法能够将用户感兴趣的话题排在事件列表前面。结合本文提出的算法,设计了一个微博话题检测系统,用于发现微博数据中产生的重大事件。

全文目录


摘要  4-5
Abstract  5-8
第1章 绪论  8-15
  1.1 课题研究的目的和意义  8-10
  1.2 国内外相关技术及研究现状  10-13
    1.2.1 TDT概述及任务  10
    1.2.2 热点事件发现及跟踪相关研究  10-12
    1.2.3 关于微博的研究现状  12-13
  1.3 本文主要研究内容  13-15
第2章 相关技术介绍  15-27
  2.1 微博数据的预处理  15-17
    2.1.1 微博文档的表示方式  15
    2.1.2 文档相似度计算方法  15-16
    2.1.3 话题的表示和相似度计算  16
    2.1.4 噪声处理  16-17
  2.2 相关算法的介绍  17-25
    2.2.1 AP聚类算法  17-19
    2.2.2 倒排索引算法  19-22
    2.2.3 子话题合并  22-24
    2.2.4 话题结果的表示  24
    2.2.5 过滤话题无关的结果  24-25
  2.3 本章小结  25-27
第3章 微博话题检测与跟踪算法  27-42
  3.1 算法的处理流程  28-29
  3.2 噪声处理  29-32
  3.3 倒排索引的建立  32-37
  3.4 话题检测与跟踪算法  37-39
  3.5 AP聚类算法  39-41
  3.6 本章小结  41-42
第4章 系统实现  42-47
  4.1 微博数据的收集及整理  42-43
    4.1.1 数据收集  42-43
    4.1.2 数据整理  43
  4.2 热点事件发现  43-44
  4.3 数据存储及展示  44-46
  4.4 本章小结  46-47
第5章 实验结果分析  47-54
  5.1 实验环境和实验数据获取  47-49
    5.1.1 实验环境  47
    5.1.2 实验数据获得  47-49
    5.1.3 评测方法  49
  5.2 实验结果对比  49-53
    5.2.1 算法速度提升  49-51
    5.2.2 精度对比  51-53
  5.3 本章小结  53-54
结论  54-55
参考文献  55-62
致谢  62

相似论文

  1. 全文检索及相关技术研究,TP391.3
  2. 数据库中基于多索引段的全文索引研究,TP311.13
  3. 基于局部特征的图像拷贝检测研究,TP391.41
  4. 基于Hadoop的倒排索引技术的研究,TP391.3
  5. 基于接口匹配的语义Web服务发现方法研究,TP391.1
  6. 互联网新闻热点挖掘系统的研究与实现,TP393.09
  7. 网络热点事件挖掘及特征描述研究,TP393.09
  8. 基于倒排索引的压缩算法性能研究,TP391.3
  9. 基于Lucene的网页抓取与检索系统,TP393.092
  10. 移动垂直搜索系统的研究,TP391.3
  11. 基于内容的快速音频检索,TP391.3
  12. 基于话题检测与跟踪的话题搜索技术研究,TP391.3
  13. 基于Android的桌面搜索引擎的研究与实现,TP391.3
  14. 文本聚类在话题检测与人名消歧中的应用研究,TP391.1
  15. 基于GPU并行计算的重复文本检测系统,TP391.3
  16. 中文微博客热点话题检测与跟踪技术研究,TP391.1
  17. 话题检测与跟踪系统的构建,TP391.1
  18. 基于容错粗糙集的话题检测与跟踪方法研究,TP391.1
  19. 基于系统相似模型与持续时间的话题检测技术研究,TP391.1
  20. 面向新闻报道的话题检测技术研究,TP391.1
  21. 话题检测与跟踪算法的研究,TP391.1

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 计算机网络 > 一般性问题 > 计算机网络应用程序 > 网络浏览器
© 2012 www.xueweilunwen.com