学位论文 > 优秀研究生学位论文题录展示

基于音频和视觉特征的语音端点检测

作　者: 陈庆利
导　师: 李坚石
学　校: 贵州大学
专　业: 计算机应用技术
关键词: 语音识别音/视语音识别端点检测音频特征视觉特征人脸检测特征融合人脸运动参数
分类号: TN912.3
类　型: 硕士论文
年　份: 2007年
下　载: 226次
引　用: 1次
阅　读: 论文下载

内容摘要

随着语音识别技术越来越广泛的应用，语音识别技术也受到越来越多的重视。语音识别技术在50年来取得了很大进展，识别的正确率得到了很大的提高，使得语音识别技术在教育、电子商务、电话语音拨号、各种语音门户、语音玩具等领域的应用越来越广泛，并逐渐覆盖各个应用领域。语音端点检测技术是利用数字处理技术检测出语音信号中的各种段落的起始点和终点位置，其目的就是在复杂的带噪声环境下的声音信号中分辨出语音信号和非语音信号，它是语音识别中最关键的技术之一，其性能的优劣将直接影响到语音识别系统的正确率。传统的基于音频的语音识别技术是单一地关注声音信号的研究，这种只将音频信号作为研究对象的的最大缺点就是系统的噪声鲁棒性差，特别是在强噪声环境下，这些语音系统的识别率会显著地降低，使得语音识别的应用受到很大的限制。同时，人类的语音过程不仅仅是声音信号的产生，它还伴随着与之相关的发声器官的视觉体现，其中又以唇形的变化最为重要。由于语音信号的这种特殊性，语音的音频信号和视觉信号之间必然存在内在的联系，语音信号的声学特征和视觉特征具有很好互补性和冗余性。因此将和语音信号相伴的语音视觉信息引入到语音端点检测将有助于语音识别率的提高，这也正是本文最大的贡献。第一章是绪论部分，介绍了语音端点检测的概念、基于音频的传统语音端点检测的弊病以及引入语音视觉特征的意义。第二章阐述了基于听觉特征的语音端点检测的过程以及语音端点检测的常用技术，并给出了一种时频和频域方差的语音端点检测算法，它能检测出语音端点的4种状态：无语音状态、过渡状态、语音状态和结束状态，并给出了这4种状态之间的转换关系。第三章介绍了引入语音视觉特征原因，并对人脸检测的算法作了一个概要性的描述，给出了现在常用的几种方法：特征组分析法、ASM法以及线性子空间法。考虑了2个对视觉信息有影响的主要的因素：光线和人的头部的运动，并给出了相应的解决办法。给出了嘴唇定位和提取的过程：ROI定位、PCA、LDA提取，通过这些方法我们能从图像中检测到人脸，并定位到我们最需要的嘴唇信息。最后介绍了一种将前面的特征法和线性子空间法结合在一起的分段人脸特征检测算法——分和法，并给出了详细的描述。第四章提出了基于视觉特征的3种语音端点检测技术：基于图像的比较方法(将图片中的嘴唇部分提取出来和无语音状态下的嘴唇图像进行比较，如果该图像和无语音状态的图像之间的不同像素点数在一个门限值以上，则认为这2幅图片不一样，即说明该图像是处于语音状态)、基于FAP的方法(检测出嘴唇的FAP点，判断这些点与MPEG-4中定义的FAP Silence点是否相同，若相同，则表示是非语音状态，否则表示为语音状态和FAP点距离的判断进行判断是否处于语音状态)以及基于唇动函数的方法(给出一个内外嘴唇函数，通过这个函数描述，判断嘴唇是否处于运动状态，若是则为语音状态，否则为无语音状态)，并给出了这些方法的具体实现。第五提出了基于音频和视频融合的端点检测技术，讨论了基于音频和视频在不同噪声状态下各种技术的适用情况：当语音信号很强时，则以音频识别为主，辅助视觉检测；当噪声很强时，以视觉识别为主，辅助音频检测；当2者相差不多时，同时结合2者进行识别；详细讨论了各种可能出现的状态下的语音端点检测。做了以上分组实验，给出了具体的实验结果，实验表明基于音频和视频的联合语音端点检测技术有助于语音识别率的提高。第六章是全文的总结，给出了基于音频和视频的语音端点检测技术存在和问题和今后研究方向的探讨。

全文目录

摘要  2-3
Summary  3-5
目录  5-7
第一章绪论  7-11
  1.1 语音端点检测  7-8
  1.2 传统语音识别的缺点  8
  1.3 视觉语音  8-9
  1.4 引入视觉信息的意义  9
  1.5 本文贡献  9-10
  1.6 本文的结构安排  10
  1.7 本章总结  10-11
第二章基于听觉特征的语音端点检测  11-26
  2.1 语音信号的时域分析  11-15
    2.1.1 语音信号短时能量  12-13
    2.1.2 Window以及窗口的长度  13-14
    2.1.3 短时平均跨零数  14-15
  2.2 基于音频的语音端点检测常用方法  15-22
    2.2.1 基于能量的端点检测  15-16
    2.2.2 基于LPC-10声码器的端点检测  16
    2.2.3 基于信息熵的语音端点检测  16-17
    2.2.4 基于频带方差的端点检测  17-20
    2.2.5 基于HMM的端点检测方法  20-21
    2.2.6 基于分形技术的端点检测  21-22
  2.3 带噪声语音端点检测方法  22-25
    2.3.1 时频方差  22-23
    2.3.2 频域方差  23-24
    2.3.3 端点检测和状态转换  24-25
  2.4 本章小结  25-26
第三章语音视觉特征提取  26-48
  3.1 引入视觉特征的原因  26-27
  3.2 人脸检测技术  27-33
    3.2.1 人脸检测技术概述  28-29
    3.2.2 特征组分析  29-30
    3.2.3 ASM(Active Shape Models)方法  30
    3.2.4 线性子空间法  30-33
  3.3 预处理  33-35
    3.3.1 滤波  34
    3.3.2 姿态校正  34-35
  3.4 嘴唇定位和特征提取  35-39
    3.4.1 ROI提取  35-36
    3.4.2 PCA特征提取  36-38
    3.4.3 LDA特征提取  38-39
  3.5 特征提取的分合算法  39-47
    3.5.1 图像灰度二值化  39-40
    3.5.2 人脸定位中的图像分割  40
    3.5.3 分合算法描述  40-42
    3.5.4 分割  42
    3.5.5 合并  42-43
    3.5.6 相邻归并  43
    3.5.7 成组算法  43
    3.5.8 形状属性的计算  43-47
  3.6 本章小结  47-48
第四章基于视觉特征的语音端点检测  48-56
  4.1 基于图像比较的方法  48-49
  4.2 基于FAP的方法  49-53
    4.2.1 FAP介绍  49-51
    4.2.2 FAP的计算  51-52
    4.2.3 基于FAP语音端点检测  52-53
  4.3 基于函数的检测方法  53-55
    4.3.1 嘴唇的数学描述  53-54
    4.3.2 端点的检测  54-55
  4.4 本章小结  55-56
第五章音频和视频融合的端点检测技术  56-61
  5.1 音视频信息融合  56-57
  5.2 音视频结合的端点检测  57-58
  5.3 实验结果  58-61
第六章总结和展望  61-62
致谢  62-63
参考文献  63-67
附录1  67-68

基于音频和视觉特征的语音端点检测

内容摘要

全文目录

相似论文