学位论文 > 优秀研究生学位论文题录展示
基于倒排索引的微博话题检测
作 者: 刘红雨
导 师: 陈清财
学 校: 哈尔滨工业大学
专 业: 计算机技术
关键词: 话题检测与跟踪 倒排索引 AP算法 动态窗口
分类号: TP393.092
类 型: 硕士论文
年 份: 2013年
下 载: 19次
引 用: 0次
阅 读: 论文下载
内容摘要
随着微博这种新兴的社交平台迅速发展,越来越多的用户使用,并且在上面发布事件信息,由于微博的传播速度非常迅速,对新闻传播的意义非常大,从微博数据中发现热点事件有着极大的需求。但是由于微博数据拥有规模大、噪声多、文本较短等特点,给话题检测与跟踪带来了巨大的挑战。本文在别人研究关于话题检测与跟踪的基础上,分析传统的话题检测与跟踪算法的缺点,提出一个基于倒排索引的方法来提高算法的处理速度,但不降低算法的精度。通过对微博数据分析,人工建立一些规则对微博数据进行噪声处理。然后对数据建立倒排索引,并进行话题检测与跟踪。对于每天获取的新的事件,根据事件的熵值和用户数量对事件进行排序,将列表前20的事件与之前的旧事件进行合并。在合并之前,利用基于衰老理论的方法来得到需要合并的旧事件集合。本文同时分析了AP聚类算法在微博数据集上的结果。为了验证算法效率的提升,本文通过在不同级别的数据集上对比传统的SINGLE-PASS算法和基于倒排索引的改进算法的处理时间,通过实验对比得知,基于倒排索引改进的算法能达到6-7倍的速度提升,性能远远高于传统的文本聚类算法。由于实验没有标准的语料集合,本文通过人工标注的方式获得了一个测试集合,测试集合包含26个事件,共计2817篇文档。通过在测试集合上面的实验分析,本文提出的算法能够获得较好的精度。本文还对比了不同的权重计算方式在微博数据上面的结果。同时还对比了AP聚类算法和SINGLE-PASS算法在微博数据集上的结果。由于微博数据量比较大,文本聚类算法会得出很多用户不感兴趣的事件,本文通过计算事件的熵值和参与事件的用户数量对事件进行排序。通过对比发现,这种方法能够将用户感兴趣的话题排在事件列表前面。结合本文提出的算法,设计了一个微博话题检测系统,用于发现微博数据中产生的重大事件。
|
全文目录
摘要 4-5 Abstract 5-8 第1章 绪论 8-15 1.1 课题研究的目的和意义 8-10 1.2 国内外相关技术及研究现状 10-13 1.2.1 TDT概述及任务 10 1.2.2 热点事件发现及跟踪相关研究 10-12 1.2.3 关于微博的研究现状 12-13 1.3 本文主要研究内容 13-15 第2章 相关技术介绍 15-27 2.1 微博数据的预处理 15-17 2.1.1 微博文档的表示方式 15 2.1.2 文档相似度计算方法 15-16 2.1.3 话题的表示和相似度计算 16 2.1.4 噪声处理 16-17 2.2 相关算法的介绍 17-25 2.2.1 AP聚类算法 17-19 2.2.2 倒排索引算法 19-22 2.2.3 子话题合并 22-24 2.2.4 话题结果的表示 24 2.2.5 过滤话题无关的结果 24-25 2.3 本章小结 25-27 第3章 微博话题检测与跟踪算法 27-42 3.1 算法的处理流程 28-29 3.2 噪声处理 29-32 3.3 倒排索引的建立 32-37 3.4 话题检测与跟踪算法 37-39 3.5 AP聚类算法 39-41 3.6 本章小结 41-42 第4章 系统实现 42-47 4.1 微博数据的收集及整理 42-43 4.1.1 数据收集 42-43 4.1.2 数据整理 43 4.2 热点事件发现 43-44 4.3 数据存储及展示 44-46 4.4 本章小结 46-47 第5章 实验结果分析 47-54 5.1 实验环境和实验数据获取 47-49 5.1.1 实验环境 47 5.1.2 实验数据获得 47-49 5.1.3 评测方法 49 5.2 实验结果对比 49-53 5.2.1 算法速度提升 49-51 5.2.2 精度对比 51-53 5.3 本章小结 53-54 结论 54-55 参考文献 55-62 致谢 62
|
相似论文
- 全文检索及相关技术研究,TP391.3
- 数据库中基于多索引段的全文索引研究,TP311.13
- 基于局部特征的图像拷贝检测研究,TP391.41
- 基于Hadoop的倒排索引技术的研究,TP391.3
- 基于接口匹配的语义Web服务发现方法研究,TP391.1
- 互联网新闻热点挖掘系统的研究与实现,TP393.09
- 网络热点事件挖掘及特征描述研究,TP393.09
- 基于倒排索引的压缩算法性能研究,TP391.3
- 基于Lucene的网页抓取与检索系统,TP393.092
- 移动垂直搜索系统的研究,TP391.3
- 基于内容的快速音频检索,TP391.3
- 基于话题检测与跟踪的话题搜索技术研究,TP391.3
- 基于Android的桌面搜索引擎的研究与实现,TP391.3
- 文本聚类在话题检测与人名消歧中的应用研究,TP391.1
- 基于GPU并行计算的重复文本检测系统,TP391.3
- 中文微博客热点话题检测与跟踪技术研究,TP391.1
- 话题检测与跟踪系统的构建,TP391.1
- 基于容错粗糙集的话题检测与跟踪方法研究,TP391.1
- 基于系统相似模型与持续时间的话题检测技术研究,TP391.1
- 面向新闻报道的话题检测技术研究,TP391.1
- 话题检测与跟踪算法的研究,TP391.1
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 计算机网络 > 一般性问题 > 计算机网络应用程序 > 网络浏览器
© 2012 www.xueweilunwen.com
|