学位论文 > 优秀研究生学位论文题录展示

博客热点实时发现与跟踪

作 者: 翁家才
导 师: 陈清财
学 校: 哈尔滨工业大学
专 业: 计算机科学与技术
关键词: 事件发现与跟踪 文本挖掘 主题聚类 博客
分类号: TP393.092
类 型: 硕士论文
年 份: 2010年
下 载: 173次
引 用: 1次
阅 读: 论文下载
 

内容摘要


主题发现与跟踪(TDT)一直是国内外网络信息处理研究的一个热点,具有广泛的应用前景。本课题的研究目标是通过博客实时发现并跟踪国内外热点事件,以实时地反馈给用户。由于传统文本聚类算法很少专门面向主题进行聚类,因而不能很好解决热点事件发现与跟踪问题,使得热点事件发现与跟踪大多数都仅限于研究阶段,难以具有实用价值。本文针对博客热点实时发现与跟踪这一任务提出了一种准确高效的新算法。该算法主要包括三个步骤:首先,我们提出了一种新的相似度计算方法,以根据所有文章的标题的关键词聚类,这既能提高算法的实时性,又能充分突出博客文章标题的重要价值。其次,对于第一步中产生的所有标题簇,我们识别出那些含有热点主题的标题簇以对它做进一步的事件挖掘,并将该标题簇中与该主题无关的文章给删除掉。如果一个标题簇中没有任何事件占主导地位,我们可以识别并删除它。最后,针对事件模板中的噪音,在删除某个标题簇中所有与主题事件不相关的文章后,更新事件模板,并用这个干净的事件模板去数据集中挖掘所有与该事件主题相关的文章或追踪该事件。为了对本文的算法进行评测,我们根据新浪专题事件构造了两种数据集,数据集一包含13252篇各种类型的网页,包含28个事件;数据集二是只包含博客的1589篇网页,包含40个事件。实验表明,本算法针对数据集一的召回率和精度分别为87.73%和95.04%,针对数据集二的召回率和精度分别为82.37%和92.18%。通过与传统聚类算法的实验对比显示,本文的方法大大优于其他传统聚类算法,能够满足实际应用需求。基于上述算法,本文实现了一个针对博客热点实时发现与跟踪的系统并提供了热点事件的自动编辑、整理与推荐功能,该系统目前已经持续运行了近120天,收集整理了超过1000个热点事件及相关的文章7万多篇,通过对人工进行相关性标注的648个事件的近两万篇文章的统计结果表明,该系统的精度达到了84%,从而为将来替代人工编辑,节省人力资源并保持热点事件的及时、全面、准确报道打下了坚实基础。

全文目录


摘要  4-5
Abstract  5-8
第1章 绪论  8-16
  1.1 课题背景、目的和意义  8-9
  1.2 热点事件发现与跟踪国内外发展概况  9-14
    1.2.1 主题发现与跟踪(TDT)任务概述  9-12
    1.2.2 热点事件发现与跟踪相关研究  12-14
  1.3 本文主要研究内容与组织  14-16
    1.3.1 本文内容  14-15
    1.3.2 本文的组织  15-16
第2章 经典TDT 算法介绍  16-20
  2.1 引言  16
  2.2 Single-Pass 算法  16-18
  2.3 GAC 算法  18-19
  2.4 本章小结  19-20
第3章 热点事件发现与跟踪的算法分析与研究  20-31
  3.1 引言  20
  3.2 热点事件发现与跟踪的算法设计  20-24
    3.2.1 基本思想  20-22
    3.2.2 算法流程  22-24
  3.3 算法各模块分析  24-30
    3.3.1 事件模板  24-26
    3.3.2 相似度函数  26-27
    3.3.3 识别并去除垃圾事件  27-28
    3.3.4 识别并去除重复事件  28-30
    3.3.5 事件跟踪  30
  3.4 本章小结  30-31
第4章 系统实现  31-40
  4.1 引言  31
  4.2 实时数据的采集与组织  31-33
  4.3 反作弊  33
  4.4 识别并去除“伪热点”事件  33-34
  4.5 热点事件的跟踪  34
  4.6 系统演示  34-39
  4.7 本章小结  39-40
第5章 实验及结果分析  40-46
  5.1 引言  40
  5.2 实验方法  40-42
    5.2.1 实验环境与工具  40
    5.2.2 实验数据集的建立  40-41
    5.2.3 评测标准介绍  41-42
  5.3 实验结果及分析  42-45
  5.4 本章小结  45-46
结论  46-47
参考文献  47-51
攻读硕士学位期间发表的论文及其他成果  51-53
致谢  53

相似论文

  1. 博客应用于中职英语阅读教学的研究,G633.41
  2. 基于Web搜索和网页结构分析的IT相关主题新闻抓取研究,TP393.092
  3. 联合聚类算法研究及应用,TP311.13
  4. 美国影评人视野中的中国电影,J905
  5. 微博客新闻传播功能研究,G206
  6. 基于Nutch的图情博客搜索引擎的设计与实现,G250.73
  7. 博客广告的现状及发展对策,G206
  8. 面向专业领域的文本特征提取技术研究,TP391.1
  9. 基于潜语义与遗传算法的中文文本特征获取方法研究,TP391.1
  10. 基于语义网的博客搜索系统研究,TP391.3
  11. 博客现象的传播学探析,G206
  12. 论三维博客的视觉界面设计与审美,G206.2
  13. 论网络文学发展的趋势,I206.7
  14. 中国作家博客——作家身份转换的分析,I206.7
  15. 评价理论视角下博客时评的对话潜势研究,H0
  16. 博客篇章中汉英语码转换研究,H313
  17. 我国博客广告研究,G206
  18. 班级博客促进中小学家校合作的策略研究,G626
  19. 基于机器学习的蛋白质相互作用关系抽取的研究,Q51-3
  20. 基于社会化媒体的自适应信息推荐机制研究,TP391.3
  21. 竞争对手网站商业情报挖掘,TP311.13

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 计算机网络 > 一般性问题 > 计算机网络应用程序 > 网络浏览器
© 2012 www.xueweilunwen.com