学位论文 > 优秀研究生学位论文题录展示

基于计算听觉场景分析的单通道语音分离研究

作　者: 王雨
导　师: 林家骏
学　校: 华东理工大学
专　业: 控制科学与工程
关键词: 计算听觉场景分析语音分离能量提取基音跟踪清音分离掩码平滑
分类号: TN912.34
类　型: 博士论文
年　份: 2013年
下　载: 30次
引　用: 0次
阅　读: 论文下载

内容摘要

单通道语音分离系统能够在单一信道内将目标语音从嘈杂的背景干扰中提取并分离出来,常作为语音识别与说话人识别的前端模块。而基于计算听觉场景分析(Computational Auditory Scene Analysis,简称CASA)的语音分离系统能够通过计算机模拟人耳对目标语音的感知和跟踪现象,完成单通道语音分离的任务。由于其语音分离过程更接近于人耳对混合语音的感知分离过程,因此近年来该课题逐渐成为语音分离领域的研究热点。本文对计算听觉场景分析课题进行深入研究,详细介绍了基于CASA原理的单通道语音分离系统的结构和发展背景,并且在传统CASA系统的基础上提出了一套改进的语音分离系统。本文主要创新点如下：(1)基于改进阂值的有效能量特征提取。在对自然语音的浊音信号进行提取分离时,能量是重要的信号特征。传统CASA系统在计算有效能量特征时采取同一阂值,但由于噪音信号的不确定性与多样化,当混合语音中所含的噪音数据分布规律未知时,背景噪声对各频率信道有效能量特征的干扰将具有差异性,而传统恒定阈值无法有效地剔除干扰噪声单元。因此,本文采取基于平均信道能量的改进阂值方法对每个信道的时频域响应能量进行提取,提高了有效能量特征提取的精确性。(2)基于目标源单元的迭代基音估计算法。传统基音估计算法在进行基音估计时没有剔除干扰源单元,而是直接基于信道中的所有单元的自相关响应进行基音频率计算,导致基音计算结果具有一定的误差。本文提出的改进基音算法仅针对于已标记的目标源单元进行基音计算,首先将标记为干扰源的单元剔除,仅从估计的目标源单元中提取基音,之后再根据估计的基音轨迹进行新一轮的目标源单元标记。该算法对目标源单元标记和基音估计两个步骤进行迭代计算,直到每个浊音段的各帧基频达到稳定为止。实验证明,该算法能够提高基音估计的鲁棒性,改进了含噪环境下的传统基音提取算法。(3)基于谱减的改进清音分离方法。在提取了具有基音周期特征的浊音信号之后,需要将清音信号从残余干扰噪声中进一步提取出来。根据噪声信号分布的不确定性和不稳定性,本文提出了基于谱减的改进清音分离方法,通过距离加权的残余噪声估计算法得到每个清音单元中所包含的噪声能量,之后对每个清音单元进行谱减算法并标记,剔除残余噪声单元,提取出清音信号。该方法对具有时变性的残余噪声估计结果更加精确,能够提高清音分离的有效性。(4)基于形态学图像处理的掩码平滑。聚类后的二值掩码图被用于最终的语音重构。由于含噪情况下基音提取与目标源标记存在着不可避免的误差,导致二值掩码图中经常包含零星的残余噪声点与破损的语音段,这将会大大影响重构语音的质量与可懂度。为了降低和消除该问题对重构语音造成的影响,本文提出了基于形态学图像后处理的掩码平滑方法,该方法对聚类后的二值掩码图进行平滑处理,通过膨胀,腐蚀等形态学图像处理算法的有效结合处理,能够在不破坏图像细节信息的情况下对二值掩码图进行有效地去噪修补,从而进一步提高了分离语音的质量。

全文目录

摘要  5-7
Abstract  7-12
第1章绪论  12-27
  1.1 人耳系统的听觉场景分析  12-14
    1.1.1 人耳的听觉感知系统  12-13
    1.1.2 听觉场景分析的发展  13-14
  1.2 浊音信号与清音信号  14-15
  1.3 计算听觉场景分析的发展  15-23
    1.3.1 CASA模型发展  15-18
    1.3.2 听觉掩蔽效应  18-19
    1.3.3 单通道CASA系统发展  19-23
  1.4 CASA系统的应用前景  23-24
  1.5 单通道CASA语音分离系统的课题难点  24-25
  1.6 本文的主要内容和章节安排  25-27
第2章听觉外围处理和特征提取  27-37
  2.1 引言  27
  2.2 听觉外围处理  27-32
  2.3 响应包络提取  32-33
  2.4 特征提取  33-35
  2.5 本章小结  35-37
第3章基于改进阈值的语音分块方法  37-51
  3.1 引言  37
  3.2 语音分块概述  37-38
  3.3 清音分块  38-41
    3.3.1 平滑  38-39
    3.3.2 起始/结束语音时间匹配  39-40
    3.3.3 语音块整合  40-41
  3.4 基于改进阈值的浊音分块  41-50
    3.4.1 基于改进阈值的能量提取  41-45
    3.4.2 阈值改进算法评估  45-50
  3.5 本章小结  50-51
第4章基于目标源的迭代基音跟踪算法  51-66
  4.1 引言  51
  4.2 传统基音提取算法  51-54
    4.2.1 基于自相关的基音提取算法  51-52
    4.2.2 基于AMDF的基音提取算法  52-53
    4.2.3 基于倒谱的基音提取算法  53-54
  4.3 HuWang06基音跟踪算法  54-56
  4.4 基于目标源的迭代基音跟踪算法  56-59
    4.4.1 初始基音估计  57
    4.4.2 根据基音标记目标源  57-58
    4.4.3 根据目标源计算基音  58-59
  4.5 改进算法评估  59-64
    4.5.1 算法实现  59-61
    4.5.2 算法比较  61-64
  4.6 本章小结  64-66
第5章基于改进清音分离方法的目标源聚类  66-77
  5.1 引言  66
  5.2 浊音分离  66-68
  5.3 传统清音分离方法  68-71
    5.3.1 基于特征分类的清音分离方法  68-69
    5.3.2 基于CASA和谱减的清音分离方法  69-71
  5.4 基于CASA和谱减的改进清音分离方法  71-76
    5.4.1 改进算法原理  71-73
    5.4.2 改进算法评估  73-76
  5.5 本章小结  76-77
第6章基于形态学图像处理的掩码平滑  77-89
  6.1 引言  77
  6.2 形态学图像处理  77-79
    6.2.1 膨胀  77-78
    6.2.2 腐蚀  78-79
  6.3 基于形态学图像处理的改进掩码平滑方法  79-82
    6.3.1 基于形态学的去噪  80-81
    6.3.2 基于形态学的修补  81-82
  6.4 改进算法评估  82-87
    6.4.1 算法实现  82-84
    6.4.2 算法比较  84-87
  6.5 本章小结  87-89
第7章基于浊音目标源的双语音分离  89-98
  7.1 引言  89
  7.2 基于浊音目标源的双语音分离  89-90
  7.3 系统评估  90-97
  7.4 本章小结  97-98
第8章结论与展望  98-101
  8.1 全文总结  98-99
  8.2 研究展望  99-101
参考文献  101-110
致谢  110-111
附录一发表及在审稿论文  111

基于计算听觉场景分析的单通道语音分离研究

内容摘要

全文目录

相似论文