学位论文 > 优秀研究生学位论文题录展示

基于时间发展的微博自适应话题追踪研究

作 者: 薛素芝
导 师: 鲁燃
学 校: 山东师范大学
专 业: 计算机应用技术
关键词: 话题检测 自适应话题追踪 特征词扩展 权重衰减 话题模型更新
分类号: TP393.092
类 型: 硕士论文
年 份: 2014年
下 载: 15次
引 用: 0次
阅 读: 论文下载
 

内容摘要


随着互联网的快速发展,社交网络由于其交互性、自由性和开放性受到越来越多的人的青睐。自从2006年,世界首款微博客(以下简称微博)服务网站—Twitter由美国的埃文-威廉姆斯公司Obvious推出以来,微博服务蒸蒸日上,堪称蓬勃发展。微博不同于传统的新闻、博客,其内容简短,限制在140字以内。但是,用户除了可以在自己的微博内容里加入简短的文本以外,还可以加入图片、视频、音频和其他链接等。这种自由、开放的传播方式,受到了广大用户的欢迎和关注,同时,微博服务也在全球各地快速传播,掀起了一股微博服务的热潮。由于微博的自由性、交互性和开放性,人们可以随时随地分享自己的所见所闻或发表自己的情感态度。随着微博用户的急剧增长,微博信息量日益剧增,一些突发事件往往也容易在微博平台显现出来。因此,现阶段微博话题检测研究正受到研究学者的关注,正逐渐成为研究热点。但是,人们有时更关注某一事件的发展状况,因此微博话题追踪显得尤为重要。为了充分利用微博的时间敏感特性,及时检测和追踪微博热点话题,本文进行了如下研究:1.针对微博信息量大而时间敏感性强的特点,提出基于速度增长的微博话题发现方法本文提出了基于速度增长的微博热点话题发现方法。首先把经过预处理的微博按等数量窗口划分,统计每个窗口内各词语的词频,并表示成时间二元组序列;然后通过计算每相邻两个窗口的个词语的增长斜率来发现增长速度快的词语;然后通过计算与该词语有关的用户的增长速度和微博条数的增长速度来确定该词语是否是热点主题词;最后通过热点主题词聚类产生热点话题。结果表明,该方法对新话题有很强的的挖掘能力。2.针对话题追踪中的话题漂移问题,提出了基于时间发展的微博自适应话题追踪方法该方法首先针对微博追踪中的数据稀疏问题,利用基于相关性检索的特征词扩展方法来扩展特征词;然后针对特征词权重不变容易导致召回率低的问题,利用基于时间衰减的特征词权重调整策略对特征词权重进行适当的衰减;最后针对话题模板静态不变问题,提出了基于双重过滤技术的话题模板调整方法,把相关报道且重要性得分高的报道用来更新话题模板。实验表明该方法在一定程度上提高了追踪效率。3.设计并实现了基于时间发展的微博自适应话题追踪算法的网络舆情监测系统将本文提出的自适应话题追踪方法应用于网络舆情监测系统中的话题追踪模块的话题模板调整,利用重要性得分高的微博条目更新话题模板,使系统有更高的召回率和准确率,满足用户的需求。

全文目录


摘要  6-7
Abstract  7-9
第一章 绪论  9-15
  1.1 论文的研究背景与意义  9-10
  1.2 研究现状  10-12
    1.2.1 国外研究现状  10-11
    1.2.2 国内研究现状  11-12
    1.2.3 现有的工作存在的问题  12
  1.3 本文研究内容  12-13
  1.4 本文的组织结构安排  13-15
第二章 相关技术  15-21
  2.1 微博相关知识介绍  15-16
    2.1.1 微博概述  15-16
    2.1.2 微博客影响分析  16
  2.2 信息采集  16-17
  2.3 话题追踪  17-20
    2.3.1 自适应话题追踪及其常见方法简介  17-18
    2.3.2 常见的自适应调整策略  18-19
    2.3.3 时间信息在话题追踪中的应用  19-20
  2.4 本章小结  20-21
第三章 基于速度增长的微博话题发现方法  21-29
  3.1 问题描述  21
  3.2 基于时间序列的热点主题词检测  21-23
    3.2.1 时间序列  21-22
    3.2.2 斜率计算  22-23
  3.3 话题抽取  23-24
    3.3.1 主题词抽取  23
    3.3.2 主题词聚类  23-24
  3.4 实验结果及分析  24-28
    3.4.1 实验数据  24-25
    3.4.2 实验结果分析  25-28
  3.5 本章小结  28-29
第四章 基于时间发展的微博自适应话题追踪方法  29-43
  4.1 话题模型和报道模型表示  29-30
    4.1.1 特征词抽取方法  29
    4.1.2 特征词权重计算  29-30
    4.1.3 话题模型表示方法  30
  4.2 基于相关性检索的特征词扩展方法  30-33
    4.2.1 问题描述  30-31
    4.2.2 相关工作  31
    4.2.3 基于域加权评分的报道抽取  31-32
    4.2.4 基于域加权评分的扩展特征词抽取  32-33
  4.3 基于时间衰减的特征词权重调整方法  33-34
    4.3.1 问题描述  33
    4.3.2 相关工作  33
    4.3.3 基于时间衰减的特征词权重调整方法  33-34
  4.4 自适应话题追踪方法描述  34-38
    4.4.1 传统话题追踪的实现方法  34-35
    4.4.2 自适应话题追踪的特点  35
    4.4.3 基于双重过滤技术的话题模板调整方法  35-37
    4.4.4 自适应话题追踪实现方法  37-38
  4.5 实验及结果分析  38-41
    4.5.1 实验数据  38
    4.5.2 实验评测指标  38-39
    4.5.3 实验及设计结果说明  39-41
  4.6 本章小结  41-43
第五章 网络舆情监测系统设计与实现  43-49
  5.1 系统的总体设计  43-44
    5.1.1 系统的设计目标  43-44
    5.1.2 系统的整体架构  44
  5.2 系统模块设计与实现  44-47
    5.2.1 数据采集与处理模块的实现  44-45
    5.2.2 话题检测模块的实现  45
    5.2.3 话题追踪模块的实现  45-46
    5.2.4 热点话题发现模块的设计  46-47
    5.2.5 倾向性分析模块的实现  47
    5.2.6 舆情呈现模块的实现  47
  5.3 舆情监测系统的应用  47-48
  5.4 本章小结  48-49
第六章 总结与展望  49-51
  6.1 本文总结  49
  6.2 展望  49-51
参考文献  51-53
攻读硕士期间发表的论文  53-54
致谢  54

相似论文

  1. 基于概率主题模型的中文话题检测与追踪研究,TP391.1
  2. 网络舆情数据获取与话题分析技术研究,TP393.09
  3. 互联网新闻热点挖掘系统的研究与实现,TP393.09
  4. 基于话题检测与跟踪的话题搜索技术研究,TP391.3
  5. 基于语义结构和时序特征的话题检测与跟踪技术研究,TP391.1
  6. 新闻数据中突发话题检测研究,TP391.1
  7. 基于微博的热点话题发现,TP393.092
  8. 基于增量学习的自适应话题追踪技术研究,TP391.1
  9. Web新闻热点信息的自动发现及展示,TP391.1
  10. 基于倒排索引的微博话题检测,TP393.092
  11. 基于时间信息的舆情话题发现技术研究,TP391.1
  12. 论坛话题检测与追踪技术研究,TP391.1
  13. 基于桶的二次聚类新闻热点话题挖掘及应用,TP391.1
  14. 基于时序关系的金融领域热点话题检测,TP391.1
  15. 多视图微博话题检测方法研究,TP393.092
  16. 基于增量聚类的微博话题检测系统的设计与实现,TP393.092
  17. 博客舆情热点发现与分析,TP393.092
  18. 中文微博的话题检测及微博预警,TP393.092
  19. 微博数据提取及话题检测方法研究,TP393.092
  20. 基于语义框架的话题检测与跟踪技术研究,TP391.1

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 计算机网络 > 一般性问题 > 计算机网络应用程序 > 网络浏览器
© 2012 www.xueweilunwen.com