学位论文 > 优秀研究生学位论文题录展示

音频结构化技术研究

作 者: 蔡彩
导 师: 李冬海
学 校: 解放军信息工程大学
专 业: 电子与通信工程
关键词: 音频分割与分类 全局背景模型 音色 VQ-GMM混合模型 粗分类精识别
分类号: TN912.3
类 型: 硕士论文
年 份: 2009年
下 载: 32次
引 用: 0次
阅 读: 论文下载
 

内容摘要


音频结构化是指将音频切分为一个个内容相对独立、稳定的结构单元,再通过对音频数据的分析获得不同音频结构单元所对应的场景类别。音频结构化不仅有利于音频的深入分析和处理,而且对基于内容的视频分析与检索也可起到重要的辅助作用。本文主要研究音频结构化的相关技术,包括音频特征提取、音频分割和音频分类。主要取得了如下研究成果:首先,在音频特征提取方面,介绍了基于全局背景模型(Universal Background Model, UBM)映射的MFCC段级特征以及帧内和帧间标准方差均值两种音色段级特征。实验结果验证了新特征的有效性。采用正交实验设计法对原始特征集进行特征选择,为不同音频类别下节目类型的识别构造了各自的识别特征集。其次,在音频分割方面,介绍了一种基于可信度变化趋势检测的音频分割算法。新算法采用定长滑动窗检测结构,以减少累积错误;窗内计算各音频点的可信度,再根据可信度的变化趋势检测跳变点,以避免阈值选择和硬门限判决造成的误检。实验结果表明,新算法的分割性能优于现有的几种有代表性的音频分割算法。最后,在音频分类方面,结合矢量量化(Vector Quantization, VQ)对数据区分能力强和高斯混合模型(Gaussian Mixture Model, GMM)对数据表征能力强的优点,介绍了基于VQ-GMM混合模型的音频分类算法。针对音频的结构特点,采用先粗分类后精识别的策略,先用VQ将音频粗分类为语音、音乐、语音音乐混合音和环境背景音,再用GMM精识别不同音频类别下的音频场景。实验结果表明,新算法的平均分类精度优于层次分类法、最近特征线法和VQ分类法。

全文目录


图目录  5-6
表目录  6-7
摘要  7-8
ABSTRACT  8-9
第一章 绪论  9-18
  1.1 研究背景与意义  9-10
  1.2 国内外研究现状  10-15
    1.2.1 音频特征提取的研究现状  10-11
    1.2.2 音频分割的研究现状  11-12
    1.2.3 音频分类的研究现状  12-15
  1.3 音频结构化总体流程  15-18
    1.3.1 预处理  15-16
    1.3.2 特征提取  16
    1.3.3 音频分割  16-17
    1.3.4 音频分类  17
    1.3.5 平滑后处理  17-18
第二章 段级特征提取与选择  18-25
  2.1 全极点模型及导出参数  18-21
  2.2 频谱导出参数  21-22
  2.3 小波变换导出参数  22-25
第三章 音频分割  25-37
  3.1 有代表性的音频分割方法  25-29
    3.1.1 基于KL2 距离的音频分割算法  25-26
    3.1.2 基于隐马尔可夫模型的音频分割算法  26
    3.1.3 基于贝叶斯信息准则的音频分割算法  26-28
    3.1.4 基于熵变化趋势检测的音频分割算法  28-29
  3.2 基于可信度变化趋势检测的音频分割算法  29-33
    3.2.1 可信度检测跳变点原理  29-31
    3.2.2 定长滑动窗检测结构  31
    3.2.3 基于可信度变化趋势检测的音频分割算法流程  31-33
  3.3 实验结果和性能分析  33-36
  3.4 小结  36-37
第四章 基于VQ-GMM 模型的音频分类  37-44
  4.1 常用音频分类方法  37-38
    4.1.1 层次分类法  37
    4.1.2 最近特征线法  37-38
  4.2 GMM 模型描述  38-39
  4.3 模型参数的训练  39-42
    4.3.1 GMM 识别算法  40
    4.3.2 GMM 确认算法  40-42
  4.4 VQ-GMM 模型  42-43
  4.5 小结  43-44
结束语  44-45
  论文工作总结  44-45
参考文献  45-49
作者简历和在学期间取得的学术成果  49-50
致谢  50

相似论文

  1. 贝里奥的新人声主义创作相关分析研究,J622.1
  2. 浅谈长号重奏在学习中的重要性,J624.1
  3. 民族唱法与通俗唱法音色差异成因初探,J616
  4. 上世纪六七十年代中国钢琴音乐作品研究,J624.1
  5. 本意、本源、本质—透析音乐作品中的音色差异,J624.1
  6. 浅析民族声乐演唱中的艺术处理,J616
  7. 论古筝音乐中的非乐音技法,J632.32
  8. 孙燕姿歌曲的编曲研究,J614
  9. 广播新闻音频结构化技术研究,TN912.3
  10. 浅析吹打乐《龙腾虎跃》,J607
  11. 勃拉姆斯《F大调钢琴与大提琴奏鸣曲.作品99》之创作背景与演奏技巧探讨,J624.1
  12. 低音提琴在作品中的运用,J622.4
  13. 频谱音乐中的音色、时值与结构,J619
  14. 绘其形,探其韵,J624.1
  15. 《自鸣系列Ⅱ》的演奏分析,J624.1
  16. 卢托斯拉夫斯基《乐队协奏曲》分析研究,J605
  17. 辨析民族声乐之音色,J616
  18. 穆索尔斯基和他的钢琴组曲《图画展览会》,J624.1
  19. 于尔根·刚泽尔的手风琴作品《意想曲》分析研究,J624.3
  20. 音高材料与音色布局的结构特征,J614

中图分类: > 工业技术 > 无线电电子学、电信技术 > 通信 > 电声技术和语音信号处理 > 语音信号处理
© 2012 www.xueweilunwen.com