学位论文 > 优秀研究生学位论文题录展示

监督主题模型的研究与应用

作　者: 杨杰
导　师: 裴小兵
学　校: 华中科技大学
专　业: 软件工程
关键词: 监督学习机器学习降维主题模型
分类号: TP391.1
类　型: 硕士论文
年　份: 2011年
下　载: 46次
引　用: 0次
阅　读: 论文下载

内容摘要

让计算机具备像人类一样智能去处理大量的文本、图像和多媒体等数据一直是科学家们面临的巨大挑战之一,毫无疑问,智能处理信息的关键是计算机能够理解自然语言。有别于建立各种逻辑规则的传统研究方法,部分研究人员以概率统计为基础,并认为可以通过训练计算机的方式能够达到这个目的。正是认同于这一理念,贝叶斯理论与图模型的结合产生了主题模型。主题模型作为一种新兴的模型,已被应用于文本聚类、信息检索和语音识别等领域。主题模型引入潜在语义变量表现语义关联并可取得降维的效果,本质上是一种无监督学习模型,无法直接应用于监督学习,因此如何将标签数据融入模型以应用于监督学习成为研究的地方。利用广义线性框架来描述潜在主题变量与标签之间关系,只需在主题模型假设过程中描述这个关系即可生成一个监督学习方法,基于平均场理论的变分法以及EM算法可以求解模型参数更新公式和预测公式,通过训练得到参数即可进行预测。分类实验证明,这种监督主题模型是可行并且有效的。与传统机器学习算法中分类准确率最高的支持向量机相比,准确率虽然略低,但是预测所需要的时间减少了。另外,监督主题模型在预测时间略高于主题模型与支持向量机结合情况上,所取得的准确度明显高于这两者的结合。

全文目录

摘要  3-4
Abstract  4-7
1 绪论  7-13
  1.1 课题背景  7-8
  1.2 国内外研究概况  8-12
  1.3 课题主要研究工作及结构安排  12-13
2 课题中的基础理论  13-21
  2.1 贝叶斯统计  13-15
  2.2 指数分布家族  15-17
  2.3 DE FINETTI 定理  17-18
  2.4 EM 算法  18-19
  2.5 图模型简介  19-20
  2.6 本章小结  20-21
3 主题模型  21-28
  3.1 模型概述  21-22
  3.2 符号约定  22
  3.3 概率潜在语义模型  22-24
  3.4 潜在狄利克雷分布模型  24-25
  3.5 逼近推断  25-27
  3.6 本章小结  27-28
4 监督主题模型  28-41
  4.1 模型定义  28-30
  4.2 模型计算  30-40
  4.3 本章小结  40-41
5 模型应用  41-49
  5.1 垃圾邮件过滤  41-43
  5.2 数据集描述  43-44
  5.3 分类算法与评价指标  44-45
  5.4 实验结果与分析  45-47
  5.5 本章小结  47-49
6 总结与展望  49-51
  6.1 全文总结  49
  6.2 展望  49-51
致谢  51-52
参考文献  52-55

监督主题模型的研究与应用

内容摘要

全文目录

相似论文