学位论文 > 优秀研究生学位论文题录展示

说话人转换方法的研究

作　者: 吕声
导　师: 尹俊勋
学　校: 华南理工大学
专　业: 电路与系统
关键词: 说话人转换高斯混合模型音素跨语种说话人转换
分类号: TN912.3
类　型: 博士论文
年　份: 2004年
下　载: 311次
引　用: 13次
阅　读: 论文下载

内容摘要

说话人转换就是要将一个说话人(源说话人)的语音信号进行转换,使得听起来像另一个说话人(目标说话人)的语音信号的技术。说话人转换是语音信号处理领域的一个较新的分支,它的研究对语音分析,语音编码,语音合成,语音增强,语音识别等语音信号处理的其它各个领域有重要的促进作用。本文分别对同语种的说话人转换和跨语种的说话人转换进行了研究,主要内容包括: 1.提出了一种改进的谱包络转换方法,作为说话人转换系统的重要组成部分,也是与其它说话人转换系统进行性能比较的一个基本标准。该方法利用一个基于高斯混合模型的转换函数,通过转换线性预测模型的线谱频率参数,实现谱包络的转换。语音信号的分析合成采用线性预测模型,线性预测模型是一种在技术上比较成熟的语音模型,大部分的语音编码器如CELP、MELP 等都是基于此模型,所以在需要减小语音库的存贮空间时有较大的优势。考虑了说话人的语音都很自然的情况,对说话人的发音没有任何限制,训练和转换都是用语调等韵律特征都很自然的语音。由于在训练过程中,去除了时间对齐不准确的训练数据,提高了高斯混合模型训练的效果,并且在转换过程中对谱包络进行平滑,保证了转换的有效性。非正式的听觉测试表明转换后的语音能明显地听出来是目标说话人,并且可懂度和自然度都比较高。客观评价标准的测试表明经过改进后,性能比以往的系统要好。2.提出一种改进的残差预测的方法,并由此构成一个高质量的说话人转换系统。残差预测是基于一个GMM 的分类器和目标说话人的残差码本,系统必须利用目标说话人的残差信号进行训练。在完成目标说话人的残差预测系统后,与谱包络转换系统共同构成最终的说话人转换系统。非正式的听觉测试表明转换后的语音很明显地听出是目标说话人,但保留了源说话人的韵律特征。转换语音的质量也比较高,只有一些LPC 处理中典型的嗡嗡声。3.提出一种基于音素的说话人转换方法。在该方法中,将说话人的参数空间比较明确地按照音素来划分,再用GMM 模型来为每个音素建立更细致的模型。这样不仅可以避免DTW 时间对齐的不准确对转换函数训练的影响,而且可以使用源说话人和目标说话人的不同语音来进行训练。通过进行客观评价标准的测试,基于音素的说话人转换频谱失真的性能指标要优于基于GMM 模型的方法。4.对跨语种的说话人转换进行了初步的研究。首先比较了汉语和英语音素,可以发现还是有一部分英语和汉语的音素是基本相同的,也有一部分是不相同的。

全文目录

摘要  5-7
ABSTRACT  7-15
第一章绪论  15-27
  1.1 语音技术的发展  15-16
  1.2 问题的描述  16-18
  1.3 说话人转换研究的历史  18-21
  1.4 说话人转换的研究意义和应用  21-25
    1.4.1 研究意义  21-22
    1.4.2 应用  22-25
  1.5 论文研究课题的来源及主要内容  25-27
第二章说话人转换的基本原理与方法  27-49
  2.1 语音信号的基本特性  27-32
    2.1.1 语音信号的产生模型  27-30
    2.1.2 语音信号的说话人特征  30-32
    2.1.3 说话人识别的研究  32
  2.2 说话人转换系统的构成  32-37
    2.2.1 语音参数  34-35
    2.2.2 转换函数  35-36
    2.2.3 语音库  36-37
  2.3 说话人转换的评价标准  37-38
    2.3.1 客观评价标准  37-38
    2.3.2 主观评价标准  38
  2.4 说话人转换的基本方法  38-47
    2.4.1 声道模型  39-41
    2.4.2 激励源模型  41-42
    2.4.3 时域基音同步叠加(TD-PSOLA)算法  42-45
    2.4.4 频域基音同步叠加(FD-PSOLA)算法  45-47
  2.5 本章小结  47-49
第三章基于高斯混合模型的谱包络转换方法  49-67
  3.1 信号幅度的转换  49-50
  3.1 谱包络的分析  50-53
  3.2 转换函数的训练  53-58
    3.2.1 语音信号的时间对齐  53-54
    3.2.2 GMM模型的训练  54-57
    3.2.3 转换函数  57-58
  3.3 谱包络的转换  58-59
  3.4 合成语音  59-60
  3.5 实验与结果讨论  60-65
    3.5.1 实验的语音库  60
    3.5.2 性能指标  60-61
    3.5.3 实验结果  61-64
    3.5.4 非正式听觉测试  64-65
    3.5.5 结果讨论  65
  3.6 本章小结  65-67
第四章基于残差预测的激励信号转换方法  67-77
  4.1 引言  67-68
  4.2 残差信号的分析  68-69
  4.3 残差预测的训练  69-71
    4.3.1 基于GMM的分类器  70
    4.3.2 残差码本  70-71
  4.4 残差预测的实现  71-72
  4.5 基于残差预测的说话人转换  72-73
  4.6 实验与结果讨论  73-76
    4.6.1 残差码本的有效性测试  73
    4.6.2 信噪比测试  73-76
    4.6.3 结果讨论  76
  4.7 本章小结  76-77
第五章基于音素的说话人转换方法  77-91
  5.1 引言  77
  5.2 音素的标注  77-82
    5.2.1 Mel倒谱系数MFCC  78-81
    5.2.2 Viterbi算法  81-82
  5.3 基于音素的高斯混合模型  82-83
  5.4 基于音素的转换方法  83-85
    5.4.1 基于音素的谱包络转换  83-84
    5.4.2 基于音素的残差预测  84-85
  5.5 实验与结果讨论  85-90
    5.5.1 语音库的音素标注  85-88
    5.5.2 实验结果  88-90
  5.6 本章小结  90-91
第六章跨语种说话人转换的初步研究  91-104
  6.1 引言  91-94
  6.2 汉语与英语的比较  94-96
    6.2.1 汉语音素  94-96
    6.2.2 汉语和英语音素的比较  96
  6.3 音节分类算法  96-99
    6.3.1 自动音节分类  96-98
    6.3.2 音节分类的映射  98-99
  6.4 声道长度归一化  99-100
    6.4.1 参数训练  99-100
    6.4.2 说话人转换  100
  6.5 实验结果  100-103
    6.5.1 自动音节分类实验  101-102
    6.5.2 分类映射实验  102-103
  6.6 本章小结  103-104
结论  104-106
参考文献  106-114
攻读学位期间发表的与学位论文内容相关的学术论文  114-115
致谢  115

说话人转换方法的研究

内容摘要

全文目录

相似论文