学位论文 > 优秀研究生学位论文题录展示

博客热点话题挖掘方法

作 者: 刘旭
导 师: 陈清财
学 校: 哈尔滨工业大学
专 业: 计算机科学与技术
关键词: 话题挖掘 文本挖掘 文本聚类
分类号: TP393.092
类 型: 硕士论文
年 份: 2010年
下 载: 244次
引 用: 0次
阅 读: 论文下载
 

内容摘要


随着互联网的高速发展,网络信息成爆炸式增长。如何快速、准确的从这些海量数据中获得有用的信息成为了人们关注的焦点。话题检测与跟踪(TDT)一直是国内外网络信息处理研究的一个热点,具有广泛的应用前景。本课题的研究目标是通过对博客文章的内容进行挖掘,检测出当下网民正在讨论的热点话题,实时地反馈给用户。传统文本聚类算法对于热点话题挖掘问题不能给予很好的解决办法,使得热点话题挖掘大多数都仅限于研究阶段,难以具有实用价值。本文设计了一种新的热点话题挖掘算法,类似分组聚类的方法,但是分组不是以指定大小来分组,而是根据是否含有某一标题关键词来分组,组的大小也不是固定的。分别对组内的文档集进行Single-Pass聚类得到分组内部的事件,然后将不同组挖掘到的事件进行层次聚类获得话题。并通过引入事件模板,种子文档,时间窗口,增加重要特征(比如地点名词,出现在标题中的名词等)的权重以及改进相似度计算函数,来提高算法的性能。为了对本文的算法进行评测,我们根据新浪专题事件构造了三种数据集,数据集一包含13252篇各种类型的网页,包含28个事件;数据集二是只包含博客文章的1589篇网页,包含40个事件。数据集三是TDT4评测语料。实验表明,本算法针对数据集一的召回率和准确率分别为91.73%和93.04%,针对数据集二的召回率和准确率分别为82.37%和92.18%,针对数据集三的代价值为0.48。通过与传统聚类算法的实验对比显示,本文的方法优于其他传统聚类算法,能够满足实际应用需求。基于上述算法,本文实现了一个针对博客热点话题挖掘系统。该系统目前已经持续运行了近15个月,收集整理了超过3000个热点话题及相关的博客文章226,373篇,随机选取系统挖掘到的100个话题,并对话题的相关文档进行手工标注,发现系统的精确度达到83%,为热点话题的自动挖掘提供了可行性。

全文目录


相似论文

  1. 隐式用户兴趣挖掘的研究与实现,TP311.13
  2. 演化聚类算法及其应用研究,TP311.13
  3. 基于本体的食品投诉文档文本聚类研究,TP391.1
  4. 面向短消息文本的聚类技术研究与应用,TP391.1
  5. 教育新闻热点话题发现系统的设计与实现,TP391.1
  6. Web新闻热点发现系统的设计与实现,TP393.09
  7. 面向海量数据的云存储系统实现与应用研究,TP333
  8. 面向学科的文献资源聚类系统研究及应用,TP391.1
  9. SOM算法的改进及其在中文文本聚类的应用,TP391.1
  10. 面向企业竞争情报的Web文本挖掘关键技术的研究与实现,TP391.1
  11. 面向金融领域BBS的话题发现和热度评价,TP393.094
  12. 基于SVM的多类文本分类研究,TP391.1
  13. Web文本挖掘关键技术的研究与实现,TP391.1
  14. 基于遗传算法的文本聚类研究,TP391.1
  15. 机器学习算法在文本分析中的研究,TP181
  16. 基于机器学习的蛋白质相互作用关系抽取的研究,Q51-3
  17. 本体自动构建技术研究及其在教学中的应用,G420
  18. 基于Web文本挖掘的网络口碑监测系统研究,TP391.1
  19. 基于博客搜索的博文情感倾向性分析技术的研究,TP391.1
  20. 文献聚类分析及其在金属矿开采技术发展趋势发掘中的应用研究,TD851
  21. 关于互联网文本数据挖掘的一些关键技术研究,TP311.13

中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 计算机网络 > 一般性问题 > 计算机网络应用程序 > 网络浏览器
© 2012 www.xueweilunwen.com