学位论文 > 优秀研究生学位论文题录展示
说话人转换方法的研究
作 者: 吕声
导 师: 尹俊勋
学 校: 华南理工大学
专 业: 电路与系统
关键词: 说话人转换 高斯混合模型 音素 跨语种说话人转换
分类号: TN912.3
类 型: 博士论文
年 份: 2004年
下 载: 311次
引 用: 13次
阅 读: 论文下载
内容摘要
说话人转换就是要将一个说话人(源说话人)的语音信号进行转换,使得听起来像另一个说话人(目标说话人)的语音信号的技术。说话人转换是语音信号处理领域的一个较新的分支,它的研究对语音分析,语音编码,语音合成,语音增强,语音识别等语音信号处理的其它各个领域有重要的促进作用。本文分别对同语种的说话人转换和跨语种的说话人转换进行了研究,主要内容包括: 1.提出了一种改进的谱包络转换方法,作为说话人转换系统的重要组成部分,也是与其它说话人转换系统进行性能比较的一个基本标准。该方法利用一个基于高斯混合模型的转换函数,通过转换线性预测模型的线谱频率参数,实现谱包络的转换。语音信号的分析合成采用线性预测模型,线性预测模型是一种在技术上比较成熟的语音模型,大部分的语音编码器如CELP、MELP 等都是基于此模型,所以在需要减小语音库的存贮空间时有较大的优势。考虑了说话人的语音都很自然的情况,对说话人的发音没有任何限制,训练和转换都是用语调等韵律特征都很自然的语音。由于在训练过程中,去除了时间对齐不准确的训练数据,提高了高斯混合模型训练的效果,并且在转换过程中对谱包络进行平滑,保证了转换的有效性。非正式的听觉测试表明转换后的语音能明显地听出来是目标说话人,并且可懂度和自然度都比较高。客观评价标准的测试表明经过改进后,性能比以往的系统要好。2.提出一种改进的残差预测的方法,并由此构成一个高质量的说话人转换系统。残差预测是基于一个GMM 的分类器和目标说话人的残差码本,系统必须利用目标说话人的残差信号进行训练。在完成目标说话人的残差预测系统后,与谱包络转换系统共同构成最终的说话人转换系统。非正式的听觉测试表明转换后的语音很明显地听出是目标说话人,但保留了源说话人的韵律特征。转换语音的质量也比较高,只有一些LPC 处理中典型的嗡嗡声。3.提出一种基于音素的说话人转换方法。在该方法中,将说话人的参数空间比较明确地按照音素来划分,再用GMM 模型来为每个音素建立更细致的模型。这样不仅可以避免DTW 时间对齐的不准确对转换函数训练的影响,而且可以使用源说话人和目标说话人的不同语音来进行训练。通过进行客观评价标准的测试,基于音素的说话人转换频谱失真的性能指标要优于基于GMM 模型的方法。4.对跨语种的说话人转换进行了初步的研究。首先比较了汉语和英语音素,可以发现还是有一部分英语和汉语的音素是基本相同的,也有一部分是不相同的。
|
全文目录
摘要 5-7 ABSTRACT 7-15 第一章 绪论 15-27 1.1 语音技术的发展 15-16 1.2 问题的描述 16-18 1.3 说话人转换研究的历史 18-21 1.4 说话人转换的研究意义和应用 21-25 1.4.1 研究意义 21-22 1.4.2 应用 22-25 1.5 论文研究课题的来源及主要内容 25-27 第二章 说话人转换的基本原理与方法 27-49 2.1 语音信号的基本特性 27-32 2.1.1 语音信号的产生模型 27-30 2.1.2 语音信号的说话人特征 30-32 2.1.3 说话人识别的研究 32 2.2 说话人转换系统的构成 32-37 2.2.1 语音参数 34-35 2.2.2 转换函数 35-36 2.2.3 语音库 36-37 2.3 说话人转换的评价标准 37-38 2.3.1 客观评价标准 37-38 2.3.2 主观评价标准 38 2.4 说话人转换的基本方法 38-47 2.4.1 声道模型 39-41 2.4.2 激励源模型 41-42 2.4.3 时域基音同步叠加(TD-PSOLA)算法 42-45 2.4.4 频域基音同步叠加(FD-PSOLA)算法 45-47 2.5 本章小结 47-49 第三章 基于高斯混合模型的谱包络转换方法 49-67 3.1 信号幅度的转换 49-50 3.1 谱包络的分析 50-53 3.2 转换函数的训练 53-58 3.2.1 语音信号的时间对齐 53-54 3.2.2 GMM模型的训练 54-57 3.2.3 转换函数 57-58 3.3 谱包络的转换 58-59 3.4 合成语音 59-60 3.5 实验与结果讨论 60-65 3.5.1 实验的语音库 60 3.5.2 性能指标 60-61 3.5.3 实验结果 61-64 3.5.4 非正式听觉测试 64-65 3.5.5 结果讨论 65 3.6 本章小结 65-67 第四章 基于残差预测的激励信号转换方法 67-77 4.1 引言 67-68 4.2 残差信号的分析 68-69 4.3 残差预测的训练 69-71 4.3.1 基于GMM的分类器 70 4.3.2 残差码本 70-71 4.4 残差预测的实现 71-72 4.5 基于残差预测的说话人转换 72-73 4.6 实验与结果讨论 73-76 4.6.1 残差码本的有效性测试 73 4.6.2 信噪比测试 73-76 4.6.3 结果讨论 76 4.7 本章小结 76-77 第五章 基于音素的说话人转换方法 77-91 5.1 引言 77 5.2 音素的标注 77-82 5.2.1 Mel倒谱系数MFCC 78-81 5.2.2 Viterbi算法 81-82 5.3 基于音素的高斯混合模型 82-83 5.4 基于音素的转换方法 83-85 5.4.1 基于音素的谱包络转换 83-84 5.4.2 基于音素的残差预测 84-85 5.5 实验与结果讨论 85-90 5.5.1 语音库的音素标注 85-88 5.5.2 实验结果 88-90 5.6 本章小结 90-91 第六章 跨语种说话人转换的初步研究 91-104 6.1 引言 91-94 6.2 汉语与英语的比较 94-96 6.2.1 汉语音素 94-96 6.2.2 汉语和英语音素的比较 96 6.3 音节分类算法 96-99 6.3.1 自动音节分类 96-98 6.3.2 音节分类的映射 98-99 6.4 声道长度归一化 99-100 6.4.1 参数训练 99-100 6.4.2 说话人转换 100 6.5 实验结果 100-103 6.5.1 自动音节分类实验 101-102 6.5.2 分类映射实验 102-103 6.6 本章小结 103-104 结论 104-106 参考文献 106-114 攻读学位期间发表的与学位论文内容相关的学术论文 114-115 致谢 115
|
相似论文
- 高质量语音转换系统中关键技术的研究,TN912.3
- 基于组合及统计的图像型垃圾邮件检测研究,TP391.41
- 基于DIVA模型的语音生成与获取若干问题的研究,TN912.3
- 多特征融合的视觉跟踪算法研究,TP391.41
- 无线传感器网络中的追击者—逃跑者跟踪问题研究,TP212.9
- 语音教学在农村高中英语听力教学中的应用,G633.41
- 高斯混合模型及在探测网络社区结构中的应用,TP393.094
- 面向智能视频监控的事件检测建模及优化,TP391.41
- 关于若干回归模型的研究,O212.1
- 基于隐马尔科夫模型的股价走势预测,F830.91
- 基于语音信号的情绪识别研究,TN912.34
- 基于区域聚类的SAR图像分割方法研究,TN957.52
- EM算法研究及其遥感分类应用,TP751
- 静态图像中的人体检测技术,TP391.41
- 基于隐马尔可夫模型的说话人转换研究,TN912.3
- 基于HMM和GMM天然地震与人工爆破识别算法研究,TN911.7
- 基于视频的集装箱检测与跟踪技术研究,TP391.41
- 图像分割技术研究及头发分割应用,TP391.41
- 基于GMM和IFS的单幅图像树木建模方法研究,TP391.41
- 基于说话人识别的公安语音筛选系统设计与实现,TN912.34
- 基于支持相量机的稳键说话人识别,TN912.34
中图分类: > 工业技术 > 无线电电子学、电信技术 > 通信 > 电声技术和语音信号处理 > 语音信号处理
© 2012 www.xueweilunwen.com
|