学位论文 > 优秀研究生学位论文题录展示
基于半监督学习的音频实时检测方法的研究
作 者: 王红丽
导 师: 崔荣一
学 校: 延边大学
专 业: 计算机应用技术
关键词: 音频检测 半监督学习 小波分解 MFCC 频谱质心 谱熵
分类号: TN912.3
类 型: 硕士论文
年 份: 2011年
下 载: 10次
引 用: 0次
阅 读: 论文下载
内容摘要
随着现代信息技术,特别是网络技术和多媒体技术的迅速发展,多媒体数据已成为互联网上传送数据的主要部分。音频是多媒体中的一种重要媒体,由于音频数据量的快速增长,如何在大规模的音频数据中迅速、有效地检索出所需要的音频信息就变得越来越重要。传统的音频检索技术需要耗费大量的劳动力,而引入机器学习可以降低人工参与,也可以更智能地处理音频数据。机器学习能够根据用户的特定需求从海量数据中建立模型并发现有用的知识。本学位论文将半监督学习策略用于音频检索,提出了一种检测具体应用环境中声音元素的方法。首先,利用小波的多分辨率分析特性,提取3层小波分解后低频系数的MFCC特征、原始音频数据的频谱质心以及具有较好抗噪声性能的谱熵特征,并计算MFCC特征的均值、频谱质心和谱熵的方差,由此构造14维特征向量。其次,针对Tri-training算法学习时会引入噪声,而且对无标记样例的利用率不高的问题,提出了基于辅助学习策略的半监督协同训练学习算法(AR-Tri-training)。该算法在少量的已标记样例基础上,根据所提出的辅助学习策略设计音频学习器,再结合富信息策略,达到在学习过程中消除噪声的目的,从而提高了数据的利用能力。最后,将音频学习器用于特定场景中,提出了一种能够实时检测场景中声音元素的检测算法。以2s时长作为检测单位,提取实时录入音频数据的特征向量之后,将此特征向量输入经训练后的音频学习器,从而检测出声音元素以及时间分布,并分析了检测系统的性能。实验结果表明,本文提出的AR-Tri-training算法与Tri-training算法相比,不仅移除了每次学习过程中可能产生的噪声,而且能够充分利用无标记样例,提高了识别率。构造检测系统后的测试表明,本文算法构造的检测系统性能优于基于Tri-training的系统。
|
全文目录
摘要 7-8 Abstract 8-14 第1章 绪论 14-21 1.1 研究目的和意义 14-15 1.2 机器学习与音频检索研究现状 15-19 1.2.1 机器学习算法 15-18 1.2.2 音频检索技术 18-19 1.3 研究内容与主要工作 19-20 1.4 本文结构 20-21 第2章 半监督学习算法与音频检索基础 21-29 2.1 引言 21 2.2 半监督学习 21-24 2.2.1 基本思想与主要研究内容 21-22 2.2.2 未标记样例的利用 22 2.2.3 常用算法 22-24 2.3 音频检索基础 24-26 2.3.1 音频信号的特征提取与表达 24-26 2.3.2 音频分析的基本方法 26 2.4 音频特征提取 26-28 2.4.1 小波与美尔频率倒谱系数 26-27 2.4.2 质心 27 2.4.3 谱熵 27-28 2.5 本章小结 28-29 第3章 基于辅助学习策略的半监督协同训练算法的改进 29-40 3.1 引言 29 3.2 标准协同训练算法 29-30 3.3 Tri-training算法 30-33 3.3.1 算法描述 30-32 3.3.2 存在的问题 32-33 3.4 AR-Tri-training算法 33-39 3.4.1 基分类器的选取 33-35 3.4.2 算法描述与分析 35-39 3.5 本章小结 39-40 第4章 基于AR-Tri-training算法的音频检测 40-50 4.1 引言 40 4.2 音频检测系统及其工作流程 40-41 4.3 音频检测算法 41-42 4.4 实时检测系统性能的分析 42-49 4.4.1 音频特征提取实验 42-44 4.4.2 学习性能比较 44-47 4.4.3 检测性能分析 47-49 4.5 本章小结 49-50 结论 50-51 参考文献 51-55 攻读硕士学位期间发表的论文 55-56 致谢 56
|
相似论文
- 基于灰度共生矩阵和BP神经网络的织物组织结构识别,TP391.41
- 领域知识指导的半监督学习和主动学习倾向性分类研究,TP181
- 基于半监督哈希算法的图像检索方法研究,TP391.41
- 用于金属磨粒检测系统的噪声消除算法研究,TP391.41
- 基于小波分析的流体快速模拟方法,TP391.41
- 基于MIDI的乐器控制系统和音符的自动识别方法研究,TN912.34
- 基于半监督学习的时间序列分类研究与实现,TP181
- 燃油喷雾图像的匹配研究及应用,TP391.41
- 数据挖掘在研究生调剂中的应用研究,TP311.13
- 基于VC++6.0的说话人识别系统的研究,TN912.34
- 基于HMM-ANN混合模型的咳嗽音识别研究,TN912.34
- 基于外源负荷激励的EEG-EMG协同分析与相关性研究,R87
- 半监督学习中协同训练与多视图方法的比较及改进,TP18
- 基于半监督SVM的入侵检测研究,TP393.08
- 基于小波分解和颜色信息熵的浮游生物图像识别技术研究,TP391.41
- 面向金融问答的论坛观点挖掘,TP391.3
- 眼底OCT图像降噪及边缘检测算法研究,TP391.41
- 基于混合特征和高斯混合模型的说话人识别研究,TN912.34
- 语音端点检测算法研究及硬件实现,TN912.34
- 基于自适应的LVCSR系统半监督学习方法的研究,TN912.34
- 求解反应谱的小波方法及汶川地震反应谱分析,P315.3
中图分类: > 工业技术 > 无线电电子学、电信技术 > 通信 > 电声技术和语音信号处理 > 语音信号处理
© 2012 www.xueweilunwen.com
|