学位论文 > 优秀研究生学位论文题录展示
音频结构化技术研究
作 者: 蔡彩
导 师: 李冬海
学 校: 解放军信息工程大学
专 业: 电子与通信工程
关键词: 音频分割与分类 全局背景模型 音色 VQ-GMM混合模型 粗分类精识别
分类号: TN912.3
类 型: 硕士论文
年 份: 2009年
下 载: 32次
引 用: 0次
阅 读: 论文下载
内容摘要
音频结构化是指将音频切分为一个个内容相对独立、稳定的结构单元,再通过对音频数据的分析获得不同音频结构单元所对应的场景类别。音频结构化不仅有利于音频的深入分析和处理,而且对基于内容的视频分析与检索也可起到重要的辅助作用。本文主要研究音频结构化的相关技术,包括音频特征提取、音频分割和音频分类。主要取得了如下研究成果:首先,在音频特征提取方面,介绍了基于全局背景模型(Universal Background Model, UBM)映射的MFCC段级特征以及帧内和帧间标准方差均值两种音色段级特征。实验结果验证了新特征的有效性。采用正交实验设计法对原始特征集进行特征选择,为不同音频类别下节目类型的识别构造了各自的识别特征集。其次,在音频分割方面,介绍了一种基于可信度变化趋势检测的音频分割算法。新算法采用定长滑动窗检测结构,以减少累积错误;窗内计算各音频点的可信度,再根据可信度的变化趋势检测跳变点,以避免阈值选择和硬门限判决造成的误检。实验结果表明,新算法的分割性能优于现有的几种有代表性的音频分割算法。最后,在音频分类方面,结合矢量量化(Vector Quantization, VQ)对数据区分能力强和高斯混合模型(Gaussian Mixture Model, GMM)对数据表征能力强的优点,介绍了基于VQ-GMM混合模型的音频分类算法。针对音频的结构特点,采用先粗分类后精识别的策略,先用VQ将音频粗分类为语音、音乐、语音音乐混合音和环境背景音,再用GMM精识别不同音频类别下的音频场景。实验结果表明,新算法的平均分类精度优于层次分类法、最近特征线法和VQ分类法。
|
全文目录
图目录 5-6 表目录 6-7 摘要 7-8 ABSTRACT 8-9 第一章 绪论 9-18 1.1 研究背景与意义 9-10 1.2 国内外研究现状 10-15 1.2.1 音频特征提取的研究现状 10-11 1.2.2 音频分割的研究现状 11-12 1.2.3 音频分类的研究现状 12-15 1.3 音频结构化总体流程 15-18 1.3.1 预处理 15-16 1.3.2 特征提取 16 1.3.3 音频分割 16-17 1.3.4 音频分类 17 1.3.5 平滑后处理 17-18 第二章 段级特征提取与选择 18-25 2.1 全极点模型及导出参数 18-21 2.2 频谱导出参数 21-22 2.3 小波变换导出参数 22-25 第三章 音频分割 25-37 3.1 有代表性的音频分割方法 25-29 3.1.1 基于KL2 距离的音频分割算法 25-26 3.1.2 基于隐马尔可夫模型的音频分割算法 26 3.1.3 基于贝叶斯信息准则的音频分割算法 26-28 3.1.4 基于熵变化趋势检测的音频分割算法 28-29 3.2 基于可信度变化趋势检测的音频分割算法 29-33 3.2.1 可信度检测跳变点原理 29-31 3.2.2 定长滑动窗检测结构 31 3.2.3 基于可信度变化趋势检测的音频分割算法流程 31-33 3.3 实验结果和性能分析 33-36 3.4 小结 36-37 第四章 基于VQ-GMM 模型的音频分类 37-44 4.1 常用音频分类方法 37-38 4.1.1 层次分类法 37 4.1.2 最近特征线法 37-38 4.2 GMM 模型描述 38-39 4.3 模型参数的训练 39-42 4.3.1 GMM 识别算法 40 4.3.2 GMM 确认算法 40-42 4.4 VQ-GMM 模型 42-43 4.5 小结 43-44 结束语 44-45 论文工作总结 44-45 参考文献 45-49 作者简历和在学期间取得的学术成果 49-50 致谢 50
|
相似论文
- 贝里奥的新人声主义创作相关分析研究,J622.1
- 浅谈长号重奏在学习中的重要性,J624.1
- 民族唱法与通俗唱法音色差异成因初探,J616
- 上世纪六七十年代中国钢琴音乐作品研究,J624.1
- 本意、本源、本质—透析音乐作品中的音色差异,J624.1
- 浅析民族声乐演唱中的艺术处理,J616
- 论古筝音乐中的非乐音技法,J632.32
- 孙燕姿歌曲的编曲研究,J614
- 广播新闻音频结构化技术研究,TN912.3
- 浅析吹打乐《龙腾虎跃》,J607
- 勃拉姆斯《F大调钢琴与大提琴奏鸣曲.作品99》之创作背景与演奏技巧探讨,J624.1
- 低音提琴在作品中的运用,J622.4
- 频谱音乐中的音色、时值与结构,J619
- 绘其形,探其韵,J624.1
- 《自鸣系列Ⅱ》的演奏分析,J624.1
- 卢托斯拉夫斯基《乐队协奏曲》分析研究,J605
- 辨析民族声乐之音色,J616
- 穆索尔斯基和他的钢琴组曲《图画展览会》,J624.1
- 于尔根·刚泽尔的手风琴作品《意想曲》分析研究,J624.3
- 音高材料与音色布局的结构特征,J614
中图分类: > 工业技术 > 无线电电子学、电信技术 > 通信 > 电声技术和语音信号处理 > 语音信号处理
© 2012 www.xueweilunwen.com
|