学位论文 > 优秀研究生学位论文题录展示

音频分类技术研究

作 者: 吴顺妹
导 师: 许洪光
学 校: 哈尔滨工业大学
专 业: 信息与通信工程
关键词: 音频分类 音调分布特性 联合语音/音频编码 心理声学模型 线性预测编码(LPC)
分类号: TN912.3
类 型: 硕士论文
年 份: 2009年
下 载: 82次
引 用: 0次
阅 读: 论文下载
 

内容摘要


语音和音乐是最重要的两类音频信息,音频信息处理在多媒体信息处理中占有重要地位。由于音频信息本身的特点,音频分类技术对于音频结构化有至关重要的作用,直接关系到对音频信息分析的深入程度和准确程度,以及音频内容语义的提取。本文的主要工作和研究成果包括以下几个方面:(1)介绍了联合语音/音频编码的思想和实现框图,详细分析了一种音频clip和音频帧结合的音频特征分析与抽取方法,介绍了各种分类器与分类算法的设计,并简单介绍了两种典型的语音、音频编码器:码激励线性预测(CELP)和先进音频编码(AAC)。(2)详细分析了现有的两种音频分类算法:基于LPC的音频分类算法和基于基音强度的音频分类算法,并通过实验对比其计算复杂度及分类准确率。(3)在分析心理声学模型的基础上,利用心理声学模型1分析和抽取音频信号的音调特性(音调个数、低音调帧比例或子带音调个数比),并分析音频信号的时域特征参数(过零率或频谱倾斜度),提出了一种基于音调特性的音频实时分类算法。设计并对比多种实现方案的分类性能,得到最佳方案:利用子带音调个数比和频谱倾斜度对语音和音乐进行分类,并对分类结果进行平滑处理。(4)通过实验对比分析了本文提出的音频分类算法与现有算法的分类性能。实验结果显示,本文提出的音频分类算法较现有的分类方法有很大改进,有效地降低了计算复杂度,提高了分类精度,并实现了实时分类。因此,实用性较强。

全文目录


摘要  3-4
Abstract  4-8
第1章 绪论  8-13
  1.1 课题背景  8-9
  1.2 本课题研究的目的及意义  9-10
  1.3 国内外相关技术发展现状  10-12
    1.3.1 音频特征分析与抽取发展现状  10-11
    1.3.2 音频分类器的设计发展现状  11-12
  1.4 本文主要研究内容  12-13
第2章 联合语音/音频编码  13-25
  2.1 引言  13
  2.2 音频分类技术  13-18
    2.2.1 特征抽取的相关技术  14
    2.2.2 特征分析与抽取描述  14-17
    2.2.3 音频分类算法的设计  17-18
  2.3 语音编码方式  18-19
    2.3.1 CELP编码器  18-19
    2.3.2 线性预测滤波器  19
  2.4 音频编码方式  19-24
    2.4.1 AAC-LC编码器  20-21
    2.4.2 心理声学模型  21-24
  2.5 小结  24-25
第3章 基于LPC的音频分类算法  25-36
  3.1 引言  25
  3.2 LPC基本原理  25-27
  3.3 利用LPC的残差进行音频分类算法  27-30
    3.3.1 音频分类算法设计  27
    3.3.2 实现步骤  27-30
  3.4 利用LPC的均方差进行音频分类算法  30-32
    3.4.1 音频分类算法设计  30
    3.4.2 实现步骤  30-32
  3.5 实验结果  32-35
  3.6 本章小结  35-36
第4章 基于基音强度的音频分类算法  36-44
  4.1 音频分类算法设计  36
  4.2 帧能量  36-38
  4.3 基音强度  38-39
  4.4 语音/音乐分类判决  39-41
  4.5 实验结果  41-43
  4.6 本章小结  43-44
第5章 基于音调的音频分类算法  44-70
  5.1 引言  44
  5.2 基于音调的音频特征分析与抽取  44-51
    5.2.1 音调个数  44-48
    5.2.2 低音调帧比例  48-50
    5.2.3 子带音调个数比  50-51
  5.3 音频时域特征分析与抽取  51-58
    5.3.1 频谱倾斜度  51-55
    5.3.2 过零率  55-58
  5.4 音频分类算法的设计  58-64
    5.4.1 实现方案  58-62
    5.4.2 平滑  62-64
  5.5 实验过程与结果分析  64-69
    5.5.1 实验音频数据  64
    5.5.2 分类结果及分析  64-69
  5.6 本章小结  69-70
结论  70-72
参考文献  72-75
攻读硕士学位期间发表的论文及其它成果  75-77
致谢  77

相似论文

  1. 语音库自动构建技术的研究,TN912.33
  2. 自适应音频水印算法研究,TP309.7
  3. 基于韵律序列特征和非时序特征的音频场景识别,TP391.41
  4. 音频和语音统一编解码算法研究,TN912.3
  5. 基于心理声学模型的AVS音频水印算法研究,TP309.7
  6. 基于音频的视频内容检索,TP391.3
  7. 极小化标注的音频分类和句子切分的研究,TN912.33
  8. 视频语义提取分析研究,TP391.41
  9. 基于音频的电视内容提取与分析,TP391.41
  10. 西洋乐器的音色特征值提取与研究,TN912.3
  11. 基于内容的音频检索研究,TP391.3
  12. 基于小波和支持向量机模型的音频分类研究,TN912.3
  13. PEAQ音频质量评价算法研究与实现,TN912.3
  14. 音频信号分类算法研究,TN912.3
  15. 小波域自适应音频水印算法研究,TP309.7
  16. JPEG压缩域图像水印及抗同步攻击音频水印算法研究,TP309.7
  17. 数字音频水印技术在内容认证中的应用,TP309.7
  18. 面向新闻视频检索的音频分类算法,TP391.42
  19. 基于支持向量机的新闻音频分类,TP391.42
  20. 基于内容的音频分类方法研究,TP391.42

中图分类: > 工业技术 > 无线电电子学、电信技术 > 通信 > 电声技术和语音信号处理 > 语音信号处理
© 2012 www.xueweilunwen.com