学位论文 > 优秀研究生学位论文题录展示
基于概率主题模型的中文话题检测与追踪研究
作 者: 孙玉婷
导 师: 裴小兵
学 校: 华中科技大学
专 业: 软件工程
关键词: 话题检测与追踪 话题组织 概率主题模型 动态概率主题模型 有监督的主题模型
分类号: TP391.1
类 型: 硕士论文
年 份: 2010年
下 载: 195次
引 用: 1次
阅 读: 论文下载
内容摘要
针对网络新闻数据的泛滥,话题检测与追踪技术提供了一种处理新闻报道、事件的方法,从新闻数据中抽取话题,组织话题成为当前话题检测与追踪研究的热点。近年来,基于图理论和概率统计学的主题模型在机器学习领域得到越来越多的应用。概率主题模型基于主题的思想,非常适用于话题挖掘,即话题检测与追踪研究。利用概率主题模型(Latent Dirichlet Allocation,LDA)及其变形,进行话题检测、话题追踪、话题组织等一系列实验,通过评测验证了其效率。首先利用David等人提出的一种有监督的概率主题模型(Supervised Topic Model, STM),用于话题追踪任务。STM模型对给定的报道-话题对的数据集进行训练,得到了一种依赖于潜在主题的标签数据集生成模型。通过参数推导,可以得知一个测试报道的标签期望值,从而能够判断报道的话题属性,通过错误权衡代价图评测了话题追踪的实验结果。另外,针对新闻数据的动态增长的特性,报道数据之间是不可交换的这一事实,动态概率主题模型解放了LDA模型中对文档之间是可交换的这一假设。基于Online-LDA模型的话题检测试验,利用相邻时间片的话题分布的先验信息,来训练Online-LDA模型的参数。通过话题在单词上的分布来判断话题之间的相似性,通过报道在主题上的分布来判断报道的话题属性。最后,提出了话题组织这一概念,从直观上反应新闻事件的发展变化。利用动态概率主题模型,抽取主题,随时间的发展变化组织话题,从一个较抽象层次的角度提供了认识事物发展的视图。
|
全文目录
相似论文
- 基于概率主题模型的游记文本知识挖掘,TP391.1
- 网络舆情分析关键技术的研究与实现,TP393.09
- Web新闻话题检测与追踪技术研究,TP391.1
- 图像分类识别中特征及模型的若干问题研究,TP391.41
- 概率主题模型在文本分类中的应用研究,TP391.1
- 运动成像平台近景视频运动目标检测技术研究,TP391.41
- 用于检索的人脸特征提取与匹配算法研究,TP391.41
- 基于FPGA的高速图像预处理技术的研究,TP391.41
- 2D人脸模板保护算法研究,TP391.41
- 基于三维重建的焊点质量分类方法研究,TP391.41
- 统计机器翻译中结构转换技术的研究,TP391.2
- 基于句法特征的代词消解方法研究,TP391.1
- 空中目标与背景的红外图像仿真技术研究,TP391.41
- 基于智能学习的多传感器目标识别与跟踪系统研究,TP391.41
- 基于TMS320C6713的SPIHT图像压缩算法研究及实现,TP391.41
- 多邮件自动文摘的关键技术研究,TP391.1
- 胆囊炎和肾病综合症脉象信号的特征提取与分类研究,TP391.41
- Q学习在基于内容图像检索技术中的应用,TP391.41
- 图像的稀疏表示及编码模型研究,TP391.41
- 矢量CAD电子图纸保护系统研究,TP391.72
- RFID技术在汽车点火线圈生产中的应用研究,TP391.44
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com
|