学位论文 > 优秀研究生学位论文题录展示
新闻数据中突发话题检测研究
作 者: 杜刚
导 师: 郭军
学 校: 北京邮电大学
专 业: 信号与信息处理
关键词: 突发话题检测 突发特征检测 主题模型 话题演进
分类号: TP391.1
类 型: 博士论文
年 份: 2012年
下 载: 311次
引 用: 0次
阅 读: 论文下载
内容摘要
突发话题检测是指从海量文本数据中提取随时间发展迅速的话题。该问题涉及到突发特征检测,话题模型构建和话题演进分析等多个方面。针对不同的数据,分析方法各异。本文重点对英文新闻标题数据进行分析。新闻标题词汇量大,长度小,变化性强,在特征空间中分布稀疏。这些特征给突发话题检测带来巨大挑战。本文主要对新闻标题流中的突发话题检测进行了如下研究:(1)突发特征置信度优化研究。Kleinberg的二状态自动机方法是应用最广的突发特征检测方法。其可以使用不同的解析度参数对不同强度的突发特征进行检测。本文对其进行深入研究,提出了一个解析度参数估算方法,能够使检测出的突发特征置信度最大。通过自动调整解析度参数,能够使模型自适应于不同的主题词,从而避免了手动调整参数的麻烦。实验证明,该方法能够快速为不同突发词估计最佳的解析度,并使突发特征置信度和突发时间段逼近最优值。(2)突发特征鲁棒性改进研究。在新闻标题流中,突发事件和平凡事件的分布是不均匀的。众多平凡事件会对突发特征检测产生影响,形成噪声特征。另一方面,大多数突发特征检测算法对平凡事件的鲁棒性不高。为了去除噪声,本文提出了一个几乎可应用于所有突发特征检测算法的噪声去除算法。该算法借鉴了最大熵思想,并对最大熵的鲁棒性进行了改进,使得在突发事件和平凡事件分布不均的条件下,依然可以很好的去除噪声特征。实验证明,该算法能够在保留突发特征的前提下有效去除噪声特征,进而提高突发特征的鲁棒性。(3)突发话题的静态结构研究。本文针对新闻标题长度短、词频低的特点,提出了一个层次聚类算法,来找到标题集中有意义的词语共现信息,并将其归纳为一个词语共现树。通过分析发现,突发话题在词语共现树中会有明显的特征,本文称之为省略引述特征。通过寻找词语共现树中的省略引述特征,可以发现其中存在的突发话题。整个过程全部是基于对新闻标题的静态分析,而没有考虑标题的发布时间。为了实现如上分析,本文首先提出了一个词语权重度量方法,从而对词语描述标题含义的能力进行评价。然后依据这种描述能力将标题聚类成簇。进而对簇中标题集采用相同方法进行聚类,如此迭代形成一颗词语共现树。该树中的省略引述特征就是描述文本集中突发话题的特征。实验证明,本文提出的聚类算法可以有效降低新闻标题分布的稀疏性和表示维度,所得到的聚类中心可以很好的表示数据集中的新闻话题。最后,通过与维基百科中真实事件作对比,本文基于省略引述特征的突发话题检测方法可以覆盖大部分维基百科中的事件,所检测出的词语共现特征可以较好的描述现实中的突发话题。(4)突发话题动态结构研究。传统的突发特征检测方法大都对词频随时间的变化进行建模,而没有对词语共现信息随时间的变化进行建模。本文发现,描述突发话题的词语共现信息通常在时间上有相似的部分,通过对其进行建模,可以找到在时间上具有承上启下现象的词语共现特征,也即突发话题。具体地,本文对每个标题进行随机游走排序。提出了一个基于半随机游走的动态主题模型,通过对模型中起到承上启下作用的词语共现信息进行推理,可以获得一条随时间变化的话题演进序列,进而找到突发话题。实验证明,本文算法能够灵敏的捕捉到词语共现模式随时间的变化规律,相比于基于词频的方法,本文算法可以检测出更多突发话题,并且能够更加精确的定位突发话题真实的发生时间。
|
全文目录
摘要 6-8 ABSTRACT 8-11 目录 11-14 第一章 绪论 14-25 1.1 课题的研究背景 14 1.2 新闻标题的定义 14 1.3 话题与突发话题 14-15 1.4 话题检测与跟踪的研究 15-17 1.5 突发话题检测的研究 17-18 1.6 本文的结构安排 18-20 参考文献 20-25 第二章 突发特征检测方法 25-35 2.1 问题定义 25 2.2 概率模型 25-28 2.2.1 二状态自动机模型 25 2.2.2 无参数突发特征检测 25-28 2.3 非概率模型 28-32 2.3.1 基于光谱分析的突发特征检测 28-29 2.3.2 基于列联表分析的突发特征检测 29-30 2.3.3 基于差异理论的突发特征检测 30-31 2.3.4 基于滑动窗口的突发特征检测 31-32 2.4 多方面突发特征的融合 32-33 2.5 小结 33-34 参考文献 34-35 第三章 突发特征置信度优化研究 35-51 3.1 引言 35-36 3.2 KLEINBERG的二状态自动机模型 36-38 3.3 动态规划过程剖析 38-40 3.4 解析度和状态转移代价的作用 40 3.5 突发特征的权重和置信度 40-41 3.6 最优解析度参数存在性证明 41-42 3.7 估计解析度参数 42-43 3.8 实验 43-48 3.8.1 实验数据描述 43-44 3.8.2 基线解析度和最佳解析度 44-45 3.8.3 解析度评估 45-48 3.9 总结 48-49 参考文献 49-51 第四章 突发特征鲁棒性优化研究 51-62 4.1 引言 51-52 4.2 问题定义 52-53 4.3 K-MEANS方法 53-54 4.4 最大熵方法 54-55 4.5 鲁棒最大熵方法 55-56 4.6 实验 56-60 4.6.1 数据描述 56-57 4.6.2 实验分析 57-60 4.7 总结 60-61 参考文献 61-62 第五章 突发话题的静态结构研究 62-86 5.1 话题静态结构研究 62-68 5.1.1 概述 62-63 5.1.2 PLSI模型简介 63-64 5.1.3 LDA模型简介 64-67 5.1.4 词集模型 67 5.1.5 小结 67-68 5.2 突发话题的静态结构 68-70 5.3 词语共现树 70-71 5.4 关键主题词提取 71-77 5.4.1 问题定义 71-72 5.4.2 词语权重度量 72-74 5.4.3 目标函数求解 74-77 5.5 省略引述特征提取 77-78 5.6 实验数据 78 5.7 聚类算法性能评价 78-82 5.7.1 降维能力分析 78-79 5.7.2 平衡性分析 79-80 5.7.3 簇中心质量评价 80-82 5.8 突发话题检测分析 82-83 5.9 总结 83-84 参考文献 84-86 第六章 突发话题的动态结构研究 86-106 6.1 话题动态结构研究 86-90 6.1.1 概述 86 6.1.2 DTM模型简介 86-88 6.1.3 TOT模型简介 88-89 6.1.4 小结 89-90 6.2 突发话题的动态结构 90-91 6.3 问题描述 91 6.4 基于弱话题树的标题排序 91-93 6.5 标题排序 93-94 6.5.1 基于动态规划的排序算法 93 6.5.2 基于弱话题树的排序 93-94 6.6 基于半随机游走模型的动态主题模型 94-97 6.7 实验 97-103 6.7.1 数据预处理 97-98 6.7.2 话题演进序列分析 98-99 6.7.3 话题演进与突发特征比较 99-103 6.8 总结 103-105 参考文献 105-106 第七章 结束语 106-110 7.1 本文的工作总结 106-108 7.2 未来的工作展望 108-110 攻读博士学位期间发表的学术论文 110-111 致谢 111
|
相似论文
- 税务数据仓库系统的设计与应用,TP311.13
- 基于概率主题模型的中文话题检测与追踪研究,TP391.1
- 基于注意力选择机制的图像分割与场景理解,TP391.41
- 微博舆情分析系统关键技术研究,TP391.1
- 中国典型管理期刊文献主题发现与演化分析,G353.1
- 互联网图像语义表达规律分析及主题发现,TP391.41
- 概率潜在语义分析及其应用,TP391.1
- 基于非对称先验的作者主题模型,TP391.1
- 基于隐语义的中医药文献搜索引擎,TP391.3
- 基于LDA的主题演化研究与实现,TP311.13
- 基于主题模型的专家检索及应用挖掘,TP391.3
- 面向专家检索的社区挖掘研究,TP311.13
- 基于主题模型的高分辨率遥感影像变化检测,TP751
- 基于快速置信传播算法的并行主题建模方法研究,TP181
- 基于多种无监督数据分析方法的心脑合病中医辨证分型研究,R259
- 基于主题模型的社区发现研究,O157.5
- 图像分类识别中特征及模型的若干问题研究,TP391.41
- 基于生成性概率模型的句法分析和多文档自动文摘研究,TP391.1
- 基于视觉皮层网络的物体整体特征分析与算法研究,TP391.41
- 主题模型及其在中医临床诊疗中的应用研究,R24
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com
|