学位论文 > 优秀研究生学位论文题录展示

微博客话题追踪及实时检索的相关研究

作 者: 史存会
导 师: 林鸿飞
学 校: 大连理工大学
专 业: 计算机应用技术
关键词: 微博客 话题追踪 实时检索 动态话题模型 相关反馈
分类号: TP393.092
类 型: 硕士论文
年 份: 2011年
下 载: 292次
引 用: 0次
阅 读: 论文下载
 

内容摘要


伴随社交网络的诞生,越来越多的互联网应用具有极强的交互性和社会性。互联网的发展由此变的更加多样化。从2006年开始,Twitter网站开始提供一种兼具社交网络和即时通讯功能的微博客服务,微博客的概念第一次出现在互联网。微博客作为一种新媒介,区别于传统的博客,其内容更加的短小精悍,通常只允许用户输入140个字符。用户在所编辑的内容里可以包含简短的文本,图片及视频的链接,以及其他网页的链接。这种新颖的信息传播模式,由于其良好的实时性和开放性的特性,很快得到用户的青睐,这种微博客服务也快速的在全球传播,引发了一场互联网的微博客革命。由于微博服务商提供了开放的API,用户可以随时随地通过Web、WAP以及各种客户端发表微博,告诉他人你在干什么。在微博客的社交网络中,用户可以自由关注自己感兴趣的人,并能够实时接受他所发表的微博。有研究表明,用户在微博客上的行为主要包括四个方面:更新状态,与朋友聊天,分享信息以及报道新闻。基于微博客的这种实时性和社交性的特征,用户对于实时性的检索需求日益增长。这种需求主要包括两个方面:对于热点话题持续关注以及了解话题的实时动态。基于此,本文主要进行了如下的研究:一方面,由于微博的实时响应特征,人们喜欢利用微博关注和报道发生在身边和世界的话题(新闻),尤其是头条新闻。随着大量新鲜话题在类Twitter网站上创建,要求系统追踪话题进展的需求日渐增长。由此本文定义了微博客上的话题追踪问题。为了解决微博中存在的话题漂移和大量噪声,本文提出基于动态话题模型和微博信息熵相结合的流的动态话题模型。该模型能够克服话题漂移问题,并进一步降低结果中的噪声。尤其是微博信息熵能够衡量一条微博对于话题报道的重要性,并较好的区分新闻类和中间类微博。本文在超过17万用户的1千2百万条微博上进行了话题追踪,实验表明,本文算法较之传统的动态话题模型更有效,追踪结果包含更少噪声。另一方面,微博客能够在短时间内产生海量的信息,用户产生了实时性的检索需求。区别于传统的信息检索,实时检索要求结果的实时性更强。基于此,本文提出了考虑时间因素的查询扩展算法,考虑时间对于文档与查询的先验概率的影响,并引入相关反馈。此外本文还提出了考虑质量因素的排序调整策略,通过微博的信息熵以及短链接等特征对排序结果进行调整。在Twitter数据集上的实验表明,本章提出的算法有效的提高了检索性能,检索结果更能满足用户的实时性需求。

全文目录


摘要  4-5
Abstract  5-9
1 绪论  9-14
  1.1 研究背景  9-10
  1.2 研究现状  10-12
  1.3 本文工作  12-13
  1.4 本文结构  13-14
2 微博客热点话题追踪  14-31
  2.1 问题描述  14-15
  2.2 相关工作  15-16
  2.3 MEntropy  16-18
  2.4 话题追踪模型  18-21
    2.4.1 特征权重  18-19
    2.4.2 构造话题及报道模型  19
    2.4.3 相似度计算模块  19-20
    2.4.4 追踪决策及MEntropy过滤  20
    2.4.5 学习模块  20-21
  2.6 实验及结果分析  21-29
    2.6.1 微博语料集  21
    2.6.2 数据格式  21
    2.6.3 MEntropy实验  21-24
    2.6.4 话题追踪实验  24-29
  2.7 本章小结  29-31
3 检索模型及相关反馈  31-40
  3.1 问题描述  31
  3.2 检索模型  31-36
    3.2.1 向量空间模型  31-34
    3.2.2 语言模型  34-36
  3.3 相关反馈  36-38
    3.3.1 Rocchio相关反馈模型  37
    3.3.2 基于语言模型的相关反馈模型  37-38
  3.4 推理网络  38-39
  3.5 本章小结  39-40
4 微博客实时检索  40-53
  4.1 问题描述  40-41
  4.2 相关工作  41-42
  4.3 关键技术  42-47
    4.3.1 考虑时间因素的查询扩展  42-46
    4.3.2 考虑质量因素的排序调整  46-47
  4.4 系统框架  47-49
    4.4.1 预处理模块  48
    4.4.2 索引模块  48
    4.4.3 查询模块  48-49
    4.4.4 检索模块  49
    4.4.5 排序调整模块  49
  4.5 相关实验  49-52
    4.5.1 语料集  49
    4.5.2 语料格式  49-50
    4.5.3 评价指标  50
    4.5.4 对比实验  50-51
    4.5.5 实验结果  51-52
  4.6 本章小结  52-53
结论  53-54
参考文献  54-59
附录A 新浪微博数据集文档示例  59-60
附录B Microblog Track数据集查询示例  60-61
附录C Microblog Track数据集文档示例  61-62
攻读硕士学位期间发表学术论文情况  62-63
致谢  63-64

相似论文

  1. Q学习在基于内容图像检索技术中的应用,TP391.41
  2. 直推式支持向量机研究及其在图像检索中的应用,TP391.41
  3. 生物医学领域检索系统查询扩展技术研究,TP391.3
  4. 论微博客中的网络公众聚集现象,G206
  5. 基于微博客的社区挖掘研究,TP393.092
  6. 微博客的虚拟社群及其“人际化”传播分析,G206
  7. 微博客的传播特征及社会影响分析,G206
  8. 中国微博客的发展困境和策略研究,G206
  9. 基于微内容的新闻开发研究,G206
  10. 微博客营销信息的在线评论与转发对消费者态度的影响,F274;F224
  11. 初探Web2.0技术下类推特平台在大学课外英语学习中的应用,H319
  12. 我国体育微博客现状和发展趋势研究,G206
  13. 强化学习和相关反馈在口腔正畸图像检索中的应用,TP391.41
  14. 微博客新闻传播功能研究,G206
  15. 微博客的信息自组织研究,G206
  16. 粒子群算法在查询优化中的应用,TP391.3
  17. 基于ROI的网格商空间多粒度图像检索,TP391.41
  18. 综合多特征和SVM相关反馈的藻类图像检索技术研究,TP391.41
  19. 基于点击数据分析的个性化搜索引擎研究,TP391.3
  20. 基于人工免疫系统的遥感图像检索算法研究,TP751

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 计算机网络 > 一般性问题 > 计算机网络应用程序 > 网络浏览器
© 2012 www.xueweilunwen.com