学位论文 > 优秀研究生学位论文题录展示

说话人转换方法的研究

作 者: 吕声
导 师: 尹俊勋
学 校: 华南理工大学
专 业: 电路与系统
关键词: 说话人转换 高斯混合模型 音素 跨语种说话人转换
分类号: TN912.3
类 型: 博士论文
年 份: 2004年
下 载: 311次
引 用: 13次
阅 读: 论文下载
 

内容摘要


说话人转换就是要将一个说话人(源说话人)的语音信号进行转换,使得听起来像另一个说话人(目标说话人)的语音信号的技术。说话人转换是语音信号处理领域的一个较新的分支,它的研究对语音分析,语音编码,语音合成,语音增强,语音识别等语音信号处理的其它各个领域有重要的促进作用。本文分别对同语种的说话人转换和跨语种的说话人转换进行了研究,主要内容包括: 1.提出了一种改进的谱包络转换方法,作为说话人转换系统的重要组成部分,也是与其它说话人转换系统进行性能比较的一个基本标准。该方法利用一个基于高斯混合模型的转换函数,通过转换线性预测模型的线谱频率参数,实现谱包络的转换。语音信号的分析合成采用线性预测模型,线性预测模型是一种在技术上比较成熟的语音模型,大部分的语音编码器如CELP、MELP 等都是基于此模型,所以在需要减小语音库的存贮空间时有较大的优势。考虑了说话人的语音都很自然的情况,对说话人的发音没有任何限制,训练和转换都是用语调等韵律特征都很自然的语音。由于在训练过程中,去除了时间对齐不准确的训练数据,提高了高斯混合模型训练的效果,并且在转换过程中对谱包络进行平滑,保证了转换的有效性。非正式的听觉测试表明转换后的语音能明显地听出来是目标说话人,并且可懂度和自然度都比较高。客观评价标准的测试表明经过改进后,性能比以往的系统要好。2.提出一种改进的残差预测的方法,并由此构成一个高质量的说话人转换系统。残差预测是基于一个GMM 的分类器和目标说话人的残差码本,系统必须利用目标说话人的残差信号进行训练。在完成目标说话人的残差预测系统后,与谱包络转换系统共同构成最终的说话人转换系统。非正式的听觉测试表明转换后的语音很明显地听出是目标说话人,但保留了源说话人的韵律特征。转换语音的质量也比较高,只有一些LPC 处理中典型的嗡嗡声。3.提出一种基于音素的说话人转换方法。在该方法中,将说话人的参数空间比较明确地按照音素来划分,再用GMM 模型来为每个音素建立更细致的模型。这样不仅可以避免DTW 时间对齐的不准确对转换函数训练的影响,而且可以使用源说话人和目标说话人的不同语音来进行训练。通过进行客观评价标准的测试,基于音素的说话人转换频谱失真的性能指标要优于基于GMM 模型的方法。4.对跨语种的说话人转换进行了初步的研究。首先比较了汉语和英语音素,可以发现还是有一部分英语和汉语的音素是基本相同的,也有一部分是不相同的。

全文目录


摘要  5-7
ABSTRACT  7-15
第一章 绪论  15-27
  1.1 语音技术的发展  15-16
  1.2 问题的描述  16-18
  1.3 说话人转换研究的历史  18-21
  1.4 说话人转换的研究意义和应用  21-25
    1.4.1 研究意义  21-22
    1.4.2 应用  22-25
  1.5 论文研究课题的来源及主要内容  25-27
第二章 说话人转换的基本原理与方法  27-49
  2.1 语音信号的基本特性  27-32
    2.1.1 语音信号的产生模型  27-30
    2.1.2 语音信号的说话人特征  30-32
    2.1.3 说话人识别的研究  32
  2.2 说话人转换系统的构成  32-37
    2.2.1 语音参数  34-35
    2.2.2 转换函数  35-36
    2.2.3 语音库  36-37
  2.3 说话人转换的评价标准  37-38
    2.3.1 客观评价标准  37-38
    2.3.2 主观评价标准  38
  2.4 说话人转换的基本方法  38-47
    2.4.1 声道模型  39-41
    2.4.2 激励源模型  41-42
    2.4.3 时域基音同步叠加(TD-PSOLA)算法  42-45
    2.4.4 频域基音同步叠加(FD-PSOLA)算法  45-47
  2.5 本章小结  47-49
第三章 基于高斯混合模型的谱包络转换方法  49-67
  3.1 信号幅度的转换  49-50
  3.1 谱包络的分析  50-53
  3.2 转换函数的训练  53-58
    3.2.1 语音信号的时间对齐  53-54
    3.2.2 GMM模型的训练  54-57
    3.2.3 转换函数  57-58
  3.3 谱包络的转换  58-59
  3.4 合成语音  59-60
  3.5 实验与结果讨论  60-65
    3.5.1 实验的语音库  60
    3.5.2 性能指标  60-61
    3.5.3 实验结果  61-64
    3.5.4 非正式听觉测试  64-65
    3.5.5 结果讨论  65
  3.6 本章小结  65-67
第四章 基于残差预测的激励信号转换方法  67-77
  4.1 引言  67-68
  4.2 残差信号的分析  68-69
  4.3 残差预测的训练  69-71
    4.3.1 基于GMM的分类器  70
    4.3.2 残差码本  70-71
  4.4 残差预测的实现  71-72
  4.5 基于残差预测的说话人转换  72-73
  4.6 实验与结果讨论  73-76
    4.6.1 残差码本的有效性测试  73
    4.6.2 信噪比测试  73-76
    4.6.3 结果讨论  76
  4.7 本章小结  76-77
第五章 基于音素的说话人转换方法  77-91
  5.1 引言  77
  5.2 音素的标注  77-82
    5.2.1 Mel倒谱系数MFCC  78-81
    5.2.2 Viterbi算法  81-82
  5.3 基于音素的高斯混合模型  82-83
  5.4 基于音素的转换方法  83-85
    5.4.1 基于音素的谱包络转换  83-84
    5.4.2 基于音素的残差预测  84-85
  5.5 实验与结果讨论  85-90
    5.5.1 语音库的音素标注  85-88
    5.5.2 实验结果  88-90
  5.6 本章小结  90-91
第六章 跨语种说话人转换的初步研究  91-104
  6.1 引言  91-94
  6.2 汉语与英语的比较  94-96
    6.2.1 汉语音素  94-96
    6.2.2 汉语和英语音素的比较  96
  6.3 音节分类算法  96-99
    6.3.1 自动音节分类  96-98
    6.3.2 音节分类的映射  98-99
  6.4 声道长度归一化  99-100
    6.4.1 参数训练  99-100
    6.4.2 说话人转换  100
  6.5 实验结果  100-103
    6.5.1 自动音节分类实验  101-102
    6.5.2 分类映射实验  102-103
  6.6 本章小结  103-104
结论  104-106
参考文献  106-114
攻读学位期间发表的与学位论文内容相关的学术论文  114-115
致谢  115

相似论文

  1. 高质量语音转换系统中关键技术的研究,TN912.3
  2. 基于组合及统计的图像型垃圾邮件检测研究,TP391.41
  3. 基于DIVA模型的语音生成与获取若干问题的研究,TN912.3
  4. 多特征融合的视觉跟踪算法研究,TP391.41
  5. 无线传感器网络中的追击者—逃跑者跟踪问题研究,TP212.9
  6. 语音教学在农村高中英语听力教学中的应用,G633.41
  7. 高斯混合模型及在探测网络社区结构中的应用,TP393.094
  8. 面向智能视频监控的事件检测建模及优化,TP391.41
  9. 关于若干回归模型的研究,O212.1
  10. 基于隐马尔科夫模型的股价走势预测,F830.91
  11. 基于语音信号的情绪识别研究,TN912.34
  12. 基于区域聚类的SAR图像分割方法研究,TN957.52
  13. EM算法研究及其遥感分类应用,TP751
  14. 静态图像中的人体检测技术,TP391.41
  15. 基于隐马尔可夫模型的说话人转换研究,TN912.3
  16. 基于HMM和GMM天然地震与人工爆破识别算法研究,TN911.7
  17. 基于视频的集装箱检测与跟踪技术研究,TP391.41
  18. 图像分割技术研究及头发分割应用,TP391.41
  19. 基于GMM和IFS的单幅图像树木建模方法研究,TP391.41
  20. 基于说话人识别的公安语音筛选系统设计与实现,TN912.34
  21. 基于支持相量机的稳键说话人识别,TN912.34

中图分类: > 工业技术 > 无线电电子学、电信技术 > 通信 > 电声技术和语音信号处理 > 语音信号处理
© 2012 www.xueweilunwen.com