学位论文 > 优秀研究生学位论文题录展示

基于半监督学习的音频实时检测方法的研究

作　者: 王红丽
导　师: 崔荣一
学　校: 延边大学
专　业: 计算机应用技术
关键词: 音频检测半监督学习小波分解 MFCC 频谱质心谱熵
分类号: TN912.3
类　型: 硕士论文
年　份: 2011年
下　载: 10次
引　用: 0次
阅　读: 论文下载

内容摘要

随着现代信息技术,特别是网络技术和多媒体技术的迅速发展,多媒体数据已成为互联网上传送数据的主要部分。音频是多媒体中的一种重要媒体,由于音频数据量的快速增长,如何在大规模的音频数据中迅速、有效地检索出所需要的音频信息就变得越来越重要。传统的音频检索技术需要耗费大量的劳动力,而引入机器学习可以降低人工参与,也可以更智能地处理音频数据。机器学习能够根据用户的特定需求从海量数据中建立模型并发现有用的知识。本学位论文将半监督学习策略用于音频检索,提出了一种检测具体应用环境中声音元素的方法。首先,利用小波的多分辨率分析特性,提取3层小波分解后低频系数的MFCC特征、原始音频数据的频谱质心以及具有较好抗噪声性能的谱熵特征,并计算MFCC特征的均值、频谱质心和谱熵的方差,由此构造14维特征向量。其次,针对Tri-training算法学习时会引入噪声,而且对无标记样例的利用率不高的问题,提出了基于辅助学习策略的半监督协同训练学习算法(AR-Tri-training)。该算法在少量的已标记样例基础上,根据所提出的辅助学习策略设计音频学习器,再结合富信息策略,达到在学习过程中消除噪声的目的,从而提高了数据的利用能力。最后,将音频学习器用于特定场景中,提出了一种能够实时检测场景中声音元素的检测算法。以2s时长作为检测单位,提取实时录入音频数据的特征向量之后,将此特征向量输入经训练后的音频学习器,从而检测出声音元素以及时间分布,并分析了检测系统的性能。实验结果表明,本文提出的AR-Tri-training算法与Tri-training算法相比,不仅移除了每次学习过程中可能产生的噪声,而且能够充分利用无标记样例,提高了识别率。构造检测系统后的测试表明,本文算法构造的检测系统性能优于基于Tri-training的系统。

全文目录

摘要  7-8
Abstract  8-14
第1章绪论  14-21
  1.1 研究目的和意义  14-15
  1.2 机器学习与音频检索研究现状  15-19
    1.2.1 机器学习算法  15-18
    1.2.2 音频检索技术  18-19
  1.3 研究内容与主要工作  19-20
  1.4 本文结构  20-21
第2章半监督学习算法与音频检索基础  21-29
  2.1 引言  21
  2.2 半监督学习  21-24
    2.2.1 基本思想与主要研究内容  21-22
    2.2.2 未标记样例的利用  22
    2.2.3 常用算法  22-24
  2.3 音频检索基础  24-26
    2.3.1 音频信号的特征提取与表达  24-26
    2.3.2 音频分析的基本方法  26
  2.4 音频特征提取  26-28
    2.4.1 小波与美尔频率倒谱系数  26-27
    2.4.2 质心  27
    2.4.3 谱熵  27-28
  2.5 本章小结  28-29
第3章基于辅助学习策略的半监督协同训练算法的改进  29-40
  3.1 引言  29
  3.2 标准协同训练算法  29-30
  3.3 Tri-training算法  30-33
    3.3.1 算法描述  30-32
    3.3.2 存在的问题  32-33
  3.4 AR-Tri-training算法  33-39
    3.4.1 基分类器的选取  33-35
    3.4.2 算法描述与分析  35-39
  3.5 本章小结  39-40
第4章基于AR-Tri-training算法的音频检测  40-50
  4.1 引言  40
  4.2 音频检测系统及其工作流程  40-41
  4.3 音频检测算法  41-42
  4.4 实时检测系统性能的分析  42-49
    4.4.1 音频特征提取实验  42-44
    4.4.2 学习性能比较  44-47
    4.4.3 检测性能分析  47-49
  4.5 本章小结  49-50
结论  50-51
参考文献  51-55
攻读硕士学位期间发表的论文  55-56
致谢  56

基于半监督学习的音频实时检测方法的研究

内容摘要

全文目录

相似论文