学位论文 > 优秀研究生学位论文题录展示
博客热点话题挖掘方法
作 者: 刘旭
导 师: 陈清财
学 校: 哈尔滨工业大学
专 业: 计算机科学与技术
关键词: 话题挖掘 文本挖掘 文本聚类
分类号: TP393.092
类 型: 硕士论文
年 份: 2010年
下 载: 244次
引 用: 0次
阅 读: 论文下载
内容摘要
随着互联网的高速发展,网络信息成爆炸式增长。如何快速、准确的从这些海量数据中获得有用的信息成为了人们关注的焦点。话题检测与跟踪(TDT)一直是国内外网络信息处理研究的一个热点,具有广泛的应用前景。本课题的研究目标是通过对博客文章的内容进行挖掘,检测出当下网民正在讨论的热点话题,实时地反馈给用户。传统文本聚类算法对于热点话题挖掘问题不能给予很好的解决办法,使得热点话题挖掘大多数都仅限于研究阶段,难以具有实用价值。本文设计了一种新的热点话题挖掘算法,类似分组聚类的方法,但是分组不是以指定大小来分组,而是根据是否含有某一标题关键词来分组,组的大小也不是固定的。分别对组内的文档集进行Single-Pass聚类得到分组内部的事件,然后将不同组挖掘到的事件进行层次聚类获得话题。并通过引入事件模板,种子文档,时间窗口,增加重要特征(比如地点名词,出现在标题中的名词等)的权重以及改进相似度计算函数,来提高算法的性能。为了对本文的算法进行评测,我们根据新浪专题事件构造了三种数据集,数据集一包含13252篇各种类型的网页,包含28个事件;数据集二是只包含博客文章的1589篇网页,包含40个事件。数据集三是TDT4评测语料。实验表明,本算法针对数据集一的召回率和准确率分别为91.73%和93.04%,针对数据集二的召回率和准确率分别为82.37%和92.18%,针对数据集三的代价值为0.48。通过与传统聚类算法的实验对比显示,本文的方法优于其他传统聚类算法,能够满足实际应用需求。基于上述算法,本文实现了一个针对博客热点话题挖掘系统。该系统目前已经持续运行了近15个月,收集整理了超过3000个热点话题及相关的博客文章226,373篇,随机选取系统挖掘到的100个话题,并对话题的相关文档进行手工标注,发现系统的精确度达到83%,为热点话题的自动挖掘提供了可行性。
|
全文目录
相似论文
- 隐式用户兴趣挖掘的研究与实现,TP311.13
- 演化聚类算法及其应用研究,TP311.13
- 基于本体的食品投诉文档文本聚类研究,TP391.1
- 面向短消息文本的聚类技术研究与应用,TP391.1
- 教育新闻热点话题发现系统的设计与实现,TP391.1
- Web新闻热点发现系统的设计与实现,TP393.09
- 面向海量数据的云存储系统实现与应用研究,TP333
- 面向学科的文献资源聚类系统研究及应用,TP391.1
- SOM算法的改进及其在中文文本聚类的应用,TP391.1
- 面向企业竞争情报的Web文本挖掘关键技术的研究与实现,TP391.1
- 面向金融领域BBS的话题发现和热度评价,TP393.094
- 基于SVM的多类文本分类研究,TP391.1
- Web文本挖掘关键技术的研究与实现,TP391.1
- 基于遗传算法的文本聚类研究,TP391.1
- 机器学习算法在文本分析中的研究,TP181
- 基于机器学习的蛋白质相互作用关系抽取的研究,Q51-3
- 本体自动构建技术研究及其在教学中的应用,G420
- 基于Web文本挖掘的网络口碑监测系统研究,TP391.1
- 基于博客搜索的博文情感倾向性分析技术的研究,TP391.1
- 文献聚类分析及其在金属矿开采技术发展趋势发掘中的应用研究,TD851
- 关于互联网文本数据挖掘的一些关键技术研究,TP311.13
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 计算机网络 > 一般性问题 > 计算机网络应用程序 > 网络浏览器
© 2012 www.xueweilunwen.com
|