学位论文 > 优秀研究生学位论文题录展示
监督主题模型的研究与应用
作 者: 杨杰
导 师: 裴小兵
学 校: 华中科技大学
专 业: 软件工程
关键词: 监督学习 机器学习 降维 主题模型
分类号: TP391.1
类 型: 硕士论文
年 份: 2011年
下 载: 46次
引 用: 0次
阅 读: 论文下载
内容摘要
让计算机具备像人类一样智能去处理大量的文本、图像和多媒体等数据一直是科学家们面临的巨大挑战之一,毫无疑问,智能处理信息的关键是计算机能够理解自然语言。有别于建立各种逻辑规则的传统研究方法,部分研究人员以概率统计为基础,并认为可以通过训练计算机的方式能够达到这个目的。正是认同于这一理念,贝叶斯理论与图模型的结合产生了主题模型。主题模型作为一种新兴的模型,已被应用于文本聚类、信息检索和语音识别等领域。主题模型引入潜在语义变量表现语义关联并可取得降维的效果,本质上是一种无监督学习模型,无法直接应用于监督学习,因此如何将标签数据融入模型以应用于监督学习成为研究的地方。利用广义线性框架来描述潜在主题变量与标签之间关系,只需在主题模型假设过程中描述这个关系即可生成一个监督学习方法,基于平均场理论的变分法以及EM算法可以求解模型参数更新公式和预测公式,通过训练得到参数即可进行预测。分类实验证明,这种监督主题模型是可行并且有效的。与传统机器学习算法中分类准确率最高的支持向量机相比,准确率虽然略低,但是预测所需要的时间减少了。另外,监督主题模型在预测时间略高于主题模型与支持向量机结合情况上,所取得的准确度明显高于这两者的结合。
|
全文目录
摘要 3-4 Abstract 4-7 1 绪论 7-13 1.1 课题背景 7-8 1.2 国内外研究概况 8-12 1.3 课题主要研究工作及结构安排 12-13 2 课题中的基础理论 13-21 2.1 贝叶斯统计 13-15 2.2 指数分布家族 15-17 2.3 DE FINETTI 定理 17-18 2.4 EM 算法 18-19 2.5 图模型简介 19-20 2.6 本章小结 20-21 3 主题模型 21-28 3.1 模型概述 21-22 3.2 符号约定 22 3.3 概率潜在语义模型 22-24 3.4 潜在狄利克雷分布模型 24-25 3.5 逼近推断 25-27 3.6 本章小结 27-28 4 监督主题模型 28-41 4.1 模型定义 28-30 4.2 模型计算 30-40 4.3 本章小结 40-41 5 模型应用 41-49 5.1 垃圾邮件过滤 41-43 5.2 数据集描述 43-44 5.3 分类算法与评价指标 44-45 5.4 实验结果与分析 45-47 5.5 本章小结 47-49 6 总结与展望 49-51 6.1 全文总结 49 6.2 展望 49-51 致谢 51-52 参考文献 52-55
|
相似论文
- 基于流形学习的数据降维技术研究,TP311.13
- 基于数据分布特征的文本分类研究,TP391.1
- 基于条件随机场的中文分词技术的研究与实现,TP391.1
- 税务数据仓库系统的设计与应用,TP311.13
- 领域知识指导的半监督学习和主动学习倾向性分类研究,TP181
- 基于内容的网页恶意代码检测的研究与实现,TP393.092
- 学术主页信息抽取系统的研究,TP393.092
- 社会化网络中的推荐算法及其应用,TP391.3
- 长文本辅助短文本的知识迁移聚类方法,TP391.1
- 基于自学习的社会关系抽取的研究,TP391.1
- P2P流量识别方法研究,TP393.06
- 随机森林特征选择,TP311.13
- 基于丰富特征和多核学习的蛋白质关系抽取,Q51
- 蛋白质关系网络中的络合物发现算法的研究,Q51-3
- 弥散张量成像的脑连接模式分析,R445.2
- 模板独立的网页信息抽取研究,TP393.092
- 软件缺陷自动分派研究,TP311.52
- 数据挖掘在研究生调剂中的应用研究,TP311.13
- 半监督学习中协同训练与多视图方法的比较及改进,TP18
- 动态分布式网络入侵模式研究,TP393.08
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 文字信息处理
© 2012 www.xueweilunwen.com
|