学位论文 > 优秀研究生学位论文题录展示
论坛话题检测与追踪技术研究
作 者: 席耀一
导 师: 李弼程
学 校: 解放军信息工程大学
专 业: 信号与信息处理
关键词: 论坛 热点话题检测 重点话题追踪 向量空间模型 热点话题特征 话题热度评分 关键词表 语义相似度
分类号: TP391.1
类 型: 硕士论文
年 份: 2011年
下 载: 153次
引 用: 0次
阅 读: 论文下载
内容摘要
随着互联网的飞速发展与普及,论坛正日益成为网络舆情的重要数据来源。论坛话题检测与追踪技术能够对海量、无序、分散的论坛数据进行有效组织,可以及时检测论坛中的热点话题并追踪重点话题的发展动态,为相关部门及时了解网络舆情并采取相应措施提供了必要的手段。本文借鉴传统新闻话题检测与追踪技术的理论和方法,针对论坛数据的自身特点,研究了论坛话题检测与追踪的关键技术,包括:论坛数据形式化表示,论坛热点话题检测和论坛重点话题追踪,取得了如下三个方面的研究成果:(1)分析了现有文本表示模型应用于论坛数据表示的局限性,根据论坛数据的特点,采用向量空间模型表示论坛数据,并提出了一种基于多因子加权策略的特征权重计算方法。该方法不仅考虑了特征的词频和逆文档频率,而且采用了实体信息加权和位置信息加权。实验结果表明,该方法能够有效表示论坛数据。(2)研究了论坛热点话题检测技术,提出了一种基于多策略的论坛热点话题检测方法。该方法首先提取候选热点话题特征集,并采用静态过滤和动态过滤相结合的方法对该集合进行过滤得到热点话题特征集;其次,对热点话题特征集中的每一特征,通过查找帖子线索进行聚类得到伪热点话题;然后,对伪热点话题内的数据进行层次聚类得到热点话题,并对热点话题之间的交集重新进行判断;最后,对热点话题的热度进行了定量计算。实验结果证明,该方法能够在保证话题检测准确率的前提下,降低传统话题检测方法的时间和空间复杂度,并能有效地检测论坛热点话题。(3)研究了论坛重点话题追踪技术,针对论坛数据存在“描述语义相近,形式截然不同”的问题,提出了一种基于语义相似度的论坛话题追踪方法。该方法首先利用《知网》实现词语语义相似度的计算;其次,分别采用针对话题和帖子线索的关键特征权重计算方法构建话题关键词表和帖子线索关键词表,得到话题模型和帖子线索模型;最后,计算两个关键词表之间的语义相似度,并以此作为帖子线索与话题之间的相关程度,从而完成论坛话题追踪。实验结果证明,该方法能够有效追踪与话题相关的论坛帖子线索。
|
全文目录
相似论文
- 基于停用词处理的汉语语音检索方法,TP391.1
- 新中国对非洲的文化外交研究,D822
- 基于SVM分类算法的主题爬虫研究,TP391.3
- 中国区域性网上社区的舆情研究,G206
- 传统媒体议程与网络议程的对比研究,G206
- 基于网络论坛的社会公共事件传播研究,G206
- 一种基于领域本体的语义Web服务匹配和组合方法,TP393.09
- 企事业单位论坛的设计与实现,TP311.52
- 网络课程论坛中“长尾”现象的应对策略,G434
- Web环境下基于语义模式匹配的实体关系提取方法的研究,TP391.1
- 网络论坛舆情监控系统的研究及设计,G206
- 应用于搜索引擎的人物分类系统设计与实现,TP391.3
- 面向汽车行业的主题爬虫研究与实现,TP391.3
- 面向短消息文本的聚类技术研究与应用,TP391.1
- 基于树型条件随场的特定域事件提取方法研究,TP391.1
- 面向元搜索引擎的Web页面排序优化技术研究与实现,TP393.09
- 网络舆论中的政府与公民互动机制研究,G206
- 动词框架库的构建技术的研究,TP391.1
- Web数据挖掘技术在网络教育论坛中的应用研究,G434
- 短文本情感分析技术研究,TP391.1
- 网络教育新闻文本分类系统的设计与实现,TP391.1
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com
|