学位论文 > 优秀研究生学位论文题录展示
基于多数据源的热点话题自动发现技术研究
作 者: 张朕
导 师: 尉永清
学 校: 山东师范大学
专 业: 通信与信息系统
关键词: 热点话题发现 热度计算 关键词 聚类方法
分类号: TP391.1
类 型: 硕士论文
年 份: 2014年
下 载: 10次
引 用: 0次
阅 读: 论文下载
内容摘要
随着互联网和网络技术的飞速发展,网络成为一种人们获取信息的新兴媒体和渠道。面对互联网上呈指数式增长的信息数据,怎样从这浩瀚的信息海洋中获取需要的以及感兴趣的信息,也成为信息时代人们普遍关注的问题。热点话题发现技术是话题检测与追踪技术在实际中的应用,它能够从网络信息流中发现热点话题,帮助人们更加全面的了解和认识一个事件,在政府、金融、信息安全等诸多领域有很大的实际应用前景。本文首先概括介绍了话题检测与追踪技术国内外的发展与研究现状,接着介绍了热点话题发现技术国内外的研究概况,分析和总结热点话题发现存在和面临的问题。针对这些问题,本文做了重点研究和改进,所做主要工作如下:第一,本文综合考虑媒体和用户两方面因素,通过融合两方面的特征,提出一种基于新闻报道和微博的热点话题热度计算公式,对话题进行热度评估。利用热度计算公式对话题热度进行评定得到热度值,然后按照热度值对话题进行排序,最后得到任意一段时间内的话题热度排序。方便人们及时了解最新、最热话题,同时利于政府部门监控和引导网络舆论。第二,对话题发现算法做了改进,提出了一种基于关键词的网络热点话题发现算法。定义了关键词,并用关键词的集合对话题进行表示。在改进的话题发现算法中,采用两层聚类策略,首先对新闻的标题向量进行第一次聚类,找出新出现的话题,设定初始阈值,对于满足条件的报道合并到其对应的话题集。接着对话题里存放的新闻报道进行第二次聚类,利用本文中提出的热度计算公式进行热度分析,最后发现某时间段内的热点话题。第三,将热点话题的热度值计算方法和改进的热点话题发现算法应用到网络舆情分析与监测系统中,对应用系统进行了整体介绍,详细的说明了系统各模块的功能以及实现过程,最后结合具体的实际案例验证本文所做工作的可行性和实际应用性。
|
全文目录
目录 4-6 摘要 6-7 Abstract 7-8 第一章 绪论 8-13 1.1 课题的研究背景和研究意义 8-9 1.1.1 研究背景 8-9 1.1.2 研究意义 9 1.2 研究现状 9-11 1.2.1 话题检测与追踪研究现状 9-10 1.2.2 热点话题发现的研究现状 10-11 1.3 本文主要内容及创新点 11-12 1.4 论文的组织和安排 12-13 第二章 热点话题发现相关技术 13-22 2.1 热点话题发现概述 13-14 2.1.1 话题数据源基本概念 13 2.1.2 热点话题发现技术基本概念 13-14 2.2 话题表示模型 14-17 2.2.1 布尔模型 14 2.2.2 语言模型 14-15 2.2.3 向量空间模型 15-17 2.3 相似度计算方法 17-19 2.3.1 文档相似度计算 17-18 2.3.2 类簇相似度计算 18-19 2.4 文本聚类 19-21 2.5 小结 21-22 第三章 基于新闻和微博的热点话题热度评估方法 22-27 3.1 话题热度影响因素的分析 22-23 3.2 基于新闻和微博的话题热度计算公式 23-24 3.3 话题的热度指数 24 3.4 实验与结果分析 24-26 3.4.1 实验数据源 24 3.4.2 实验结果分析 24-26 3.5 本章小结 26-27 第四章 基于关键词的热点话题发现 27-34 4.1 热点话题发现相关概述 27 4.2 基于关键词的热点话题发现方法 27-31 4.2.1 热点话题发现基本流程 27-28 4.2.2 新闻报道和微博模型构建 28-29 4.2.3 关键词 29-30 4.2.4 相似度计算 30 4.2.5 基于关键词的热点话题发现算法 30-31 4.3 实验结果与分析 31-33 4.3.1 实验语料 31 4.3.2 实验评价指标 31-32 4.3.3 实验设计与实验结果分析 32-33 4.4 小结 33-34 第五章 网络舆情分析与监测系统实现 34-41 5.1 系统总体设计方案 34-35 5.1.1 舆情系统整体流程 34 5.1.2 舆情系统功能简介 34-35 5.2 舆情系统实现步骤及子模块介绍 35-39 5.3 系统应用实例 39-40 5.3.1 应用背景 39 5.3.2 应用实例结果分析 39-40 5.4 本章小结 40-41 第六章 总结与展望 41-42 6.1 总结 41 6.2 展望 41-42 参考文献 42-45 已发表学术论文 45 参加科研项目 45-46 致谢 46
|
相似论文
- 基于论文关键词聚类的用户兴趣模型细化方法研究,TP391.3
- 基于查询扩展的信息抽取技术研究及应用,TP391.1
- 基于词跨度的中文文本关键词提取及在文本分类中的应用,TP391.1
- 基于校园网的用户行为分析系统的设计与实现,TP393.18
- 关键词广告商标侵权问题研究,D922.294
- 外包数据库模式下中文文档密文检索研究,TP391.3
- 基于分类模型监测电子商务违禁信息的研究与实现,TP393.09
- 竞价排名绩效及其影响因素的实证分析,F49
- 论法官判后答疑,D926.2
- 面向学科相关性分析的文本关联规则挖掘技术研究,TP311.13
- 基于语义距离的Web页面关键词获取研究,TP391.1
- 肾精气阴阳理论及临床应用研究,R256.5
- 基于web的无线电监测站远程故障诊断系统分析与设计,TN98
- 基于语言信息的聚类方法研究,O159
- 高校校园网论坛热点话题发现系统的研究与实现,TP393.18
- 数据仓库与数据挖掘技术对于软件项目管理的应用,TP311.13
- 基于改进的庄家法则和聚类方法的多目标遗传算法的研究与应用,TP18
- 不同认知任务与判断形式对元理解监测准确性的影响,B842
- 电力系统负荷特性分析与负荷预测研究,TM715
- 译著《作为话语的音乐:浪漫主义音乐的符号学探索》及书评,J60-05
- 基于语料库的《愤怒的葡萄》关键词分析,I712
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com
|