学位论文 > 优秀研究生学位论文题录展示
基于时间信息的舆情话题发现技术研究
作 者: 刘立群
导 师: 郑德权
学 校: 哈尔滨工业大学
专 业: 计算机科学与技术
关键词: 舆情监控 中文时间表达式识别 话题检测 突发事件识别 舆情告警
分类号: TP391.1
类 型: 硕士论文
年 份: 2013年
下 载: 1次
引 用: 0次
阅 读: 论文下载
内容摘要
随着互联网信息的继续指数级增长,以及互联网在全球范围内的日益普及,互联网已经成为全球最大最具潜力的社会舆论集中地。在这样的形势下,对舆情信息的监控和分析就显得越来越重要。互联网每天都会产生大量的信息,如何高效准确的挖掘出每天的热点话题和突发事件成为舆情监控的研究重点。中文时间表达式识别是近年来研究的热点,中文时间表达式识别多使用机器学习方法识别范围,使用规则的方法规范化,但是特征的选择和规则的制定都很不健全,本文提出一种特征选择算法,并人工制定了规范化规则。传统热点话题发现的研究对时间信息的考虑过于单一,本文针对这种情况,将时间粒度精确到分钟,并通过新闻的文本表示和聚类的相似度计算两方面将时间信息融入到了话题发现算法中。在突发事件识别方面,加入时间信息,考虑时间相近因素。本文以规范化的时间表达式为基础,研究舆情热点话题和突发事件识别技术,主要工作如下:1.提出一种中文时间表达式范围识别的特征选择算法。针对传统的特征选择算法难免会丢失最佳特征组合的缺陷,本文提出一种增减特征交集的特征选择方法,对这些特征进行了进一步的筛选,并用穷举实验结果对这种特征选择方法进行了验证。分别利用条件随机场、SVM、最大熵模型在TempEval-2中文语料上的实验结果进行了比较分析,并分析了标注错误的可能原因。利用本文的方法,最后识别的结果F1值比其他研究者的结果都要高。2.加入规则方法对中文时间表达式类型识别。本文在SVM方法的基础上,加入了规则的方法对中文时间表达式的类型进行了识别,通过在TempEval-2中文语料上的实验证明了方法的有效性,其正确率达到了96.88%,明显高于其他研究者的方法。3.提出中文时间表达式规范化格式和算法。本文以UTC时间为标准时间,将不同来源的新闻文本按照时区进行统一的映射。在参考时间概念里,为了对大规模的数据进行实时分析,加入了新闻获取时间的概念。人工定义了一些模糊时间词的范围,设计了中文时间DATE和TIME类型的规范化格式。在上述基础上设计了中文时间表达式的规范化算法。4.在舆情热点话题发现技术中融入时间信息。本文将时间信息以新闻表示模型和聚类相似度计算因子两种形式加入到Single-Pass算法中。本文用tfidf作为向量空间模型的权重表示新闻文本,并对其中的人名、地名、机构名、时间词、标题词、正文第一段词提高其权重,来更加准确全面有重点的表示新闻文本。这里的时间词是规范化后的时间表达式。在计算相似度的时候,本文除了利用传统的余弦相似度计算公式,还加入了时间距离的因素,并定义了时间距离的函数,将时间粒度缩小到分钟,比其他研究者的方法更加细致的反映了聚类中心的时间。利用上述改进,本文在真实网络环境下手工标注的10类话题的语料上进行了实验,验证了加入时间信息对于舆情热点话题发现的有效性。5.提出基于时间相近的突发事件识别算法。为了更加准确、及时的对突发事件进行告警,提出了基于时间相近的突发事件识别算法,并设计和实现了突发事件告警系统。
|
全文目录
摘要 4-6 Abstract 6-10 第1章 绪论 10-16 1.1 本文研究的目的和意义 10-11 1.2 国内外研究现状 11-14 1.3 本文的主要研究内容 14-15 1.4 论文的组织结构 15-16 第2章 中文时间表达式范围识别 16-36 2.1 引言 16 2.2 语料及标注规范 16-21 2.2.1 TempEval-2 中文语料 16-18 2.2.2 TIMEX3 标注规范 18-20 2.2.3 中文 TIMEX3 标注规范 20-21 2.3 相关机器学习模型介绍 21-25 2.3.1 条件随机场 21-23 2.3.2 支持向量机 23-24 2.3.3 最大熵模型 24-25 2.4 基于统计的中文时间表达式范围识别 25-35 2.4.1 特征选取 26-28 2.4.2 特征选择 28-32 2.4.3 实验结果比较 32-34 2.4.4 实验结果分析 34-35 2.5 本章小结 35-36 第3章 中文时间表达式类型识别及规范化 36-45 3.1 引言 36 3.2 中文时间表达式类型识别 36-40 3.2.1 语料说明 36-37 3.2.2 特征选取 37-38 3.2.3 实验结果及分析 38-40 3.3 新闻文本中时间表达式规范化 40-44 3.3.1 规范化准备 40-42 3.3.2 规范化流程 42-44 3.4 本章小结 44-45 第4章 网络舆情热点话题发现技术研究 45-58 4.1 引言 45 4.2 话题发现介绍 45-47 4.2.1 话题概念及发现流程 45-46 4.2.2 话题发现技术 46-47 4.3 基于时间信息的话题发现技术 47-57 4.3.1 改进的增量聚类算法 47-49 4.3.2 新闻文本表示模型 49-50 4.3.3 加入时间信息的新闻相似度计算 50-52 4.3.4 改进的 Single-Pass 算法流程 52 4.3.5 实验及结果分析 52-57 4.4 本章小结 57-58 第5章 基于时间信息的突发事件识别和告警 58-64 5.1 引言 58 5.2 基于时间相近的突发事件识别 58-61 5.2.1 突发事件示例 58-60 5.2.2 基于时间相近的突发时间识别 60-61 5.3 突发事件告警设计和实现 61-63 5.3.1 告警系统设计 61-62 5.3.2 告警系统展示 62-63 5.4 本章小结 63-64 结论 64-65 参考文献 65-70 攻读硕士学位期间发表的论文 70-72 致谢 72
|
相似论文
- 增量文本聚类在舆情监控中的研究与实现,TP391.1
- 基于查询扩展的油田网络舆情监控系统,TP393.09
- 互联网舆情监控分析系统的研究与实现,TP393.09
- 网络舆情监控系统的研究与实现,TP393.09
- 质检总局舆情监控系统中信息抽取的研究,TP393.09
- 互联网舆情监控系统中聚焦爬虫的设计与实现,TP393.09
- 基于社会网络的网络舆情挖掘技术与研究,G206
- 基于搜索引擎索引分析的互联网舆情监控研究,TP393.09
- 互联网舆情监控系统设计与实现,TP311.52
- 基于趋势分析的网络舆情监控系统(TANCMS)的研究与实现,TP311.52
- 突发事件中网络舆情监控预警研究,G206
- 舆情监控系统的设计与实现,TP311.52
- 基于Heritrix的信息获取系统的研究及实现,G206
- 警用WEB舆情信息分析与预警原型系统设计与实现,TP393.09
- 互联网舆情监控系统的设计与实现,TP391.1
- 微博信息传播技术研究,TP393.092
- 高校网络舆情监控项目中的风险管理研究,G206
- 基于概率主题模型的中文话题检测与追踪研究,TP391.1
- 博客舆情热点发现与分析,TP393.092
- 英、汉跨语言话题检测与跟踪技术研究,H15
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com
|