学位论文 > 优秀研究生学位论文题录展示

语音转换的关键技术研究

作 者: 李波
导 师: 张尔扬;刘云辉
学 校: 国防科学技术大学
专 业: 信息与通信工程
关键词: 语音转换 基音周期变换 频谱倾斜 频谱包络转换 MFCC
分类号: TN912.3
类 型: 博士论文
年 份: 2005年
下 载: 1163次
引 用: 23次
阅 读: 论文下载
 

内容摘要


语音转换是要改变一个说话人的语音,使之听起来象是另外一个人的语音。语音转换是语音信号处理领域的一个较新的分支,具有很重要的理论价值和实用价值。语音转换用于文-语转换系统中,可以容易地合成出不同说话人个性特征的语音;它也可以用于电影配音、极低速率语音编码、语音通信的说话人加密、语音的说话人模拟等。语音转换的研究对语音分析、语音编码、语音合成、语音增强、语音识别、说话人识别等语音信号处理的其它各个领域有重要的促进作用。本文主要围绕语音转换中的基音周期变换和谱包络转换两项关键技术进行研究,研究了基于小语料库训练的语音转换系统。 对基音周期变换方法的研究:在基于宽带TD-PSOLA基音周期变换方法的研究中,发现分析窗长取源语音和目标语音两者较小基音周期两倍的效果优于取两者较大基音周期两倍的效果,对其原因进行了分析研究。FD-PSOLA中的压缩-扩展法在进行基音周期变换时,会引起相位谱压缩或扩展现象,从而使相位变化率发生变化,这会引起基音周期变换后语音的失真,为克服相位变化率的变化,我们提出分段线性相位建模方法,基于该相位模型在频域通过压缩-扩展法进行基音周期变换时,可以保证各谐波处的相位变化率近似不变;对每一帧进行处理后的语音信号帧中心不会发生漂移,而且与原语音波形更加接近,从而提高基音周期变换语音质量。FD-PSOLA中压缩-扩展法在进行基音周期变换时,不仅会引起相位的变化率发生变化,也会引起基频谐波的压缩-扩展现象,这同样是不合理的,会引起基音周期变换后语音质量的下降;为此,我们提出伪谐波语音分析-合成模型;基于该语音模型在进行基频变换时可以保证各基频谐波结构不发生压缩-扩展现象,从而高质量的实现基音周期变换,基于该模型也可以很方便的实现时长和能量的变换。 对频谱包络表示相关问题的研究:基于时域信号求解自相关方程是计算LPC系数的传统方法,当LPC阶数较低时得到的LPC谱包络平滑但不够准确,而当LPC阶数较高时,女声语音的LPC谱包络易受基频谐波影响且常比较尖锐,而基于语音信号的幅度谱包络求解得到的LPC系数能比较好的克服这一缺点。对LPC参数与LSF参数相互转换进行研究,推导出几种不同的由LPC参数求解LSF参数的方法。基于幅度谱包络求得的倒谱谱包络较基于幅度谱求得的谱包络更加准确,在此基础上,提出基于Mel尺度拉伸阶梯谱包络求解MFCC参数的方法,该方法求解简单,性能稳定,得到的MFCC-线性谱包络能非常准确的表示低频处的谱包络。 对谱包络转换方法的研究:研究了目前报道的各种谱包络转换实现方法,着重研究基于双线性函数来进行谱包络转换。基于双线性函数进行谱包络转换,具有转换参数少(只有一个)、易保持系统稳定等优良特性,特别适合小词汇量训练的语音转换系统;研究了基于求解频谱搬移系统单位冲击响应的方法;提出两种求解频谱搬移后LPC系数的方法;提出基于DFT分析和LPCC谱包络进行谱包络变换方法,并提出三种求解频谱搬移后LPCC谱包络的算法;提出基于DFT分析和DCT倒谱包络进行谱包络变换方法,并提出三种求解频谱搬移后DCT倒谱包络的算法;提出通过训练得到转换参数的方法。 对频谱倾斜补偿的研究:频谱倾斜也是语音信号的一个重要个性特征,研究利用临界倾斜滤波器的两个函数进行频谱倾斜补偿,并研究了通过训练自动提取频谱倾斜补偿参数的方法。频谱倾斜补偿可以比较有效的弥补双线性函数不能改变频谱幅度的缺点,使得到的转换谱包络更加准确。

全文目录


图目录  8-11
表目录  11-12
摘要  12-14
ABSTRACT  14-16
第一章 绪论  16-22
  1.1 语音转换定义  16
  1.2 语音转换的意义  16-17
  1.3 语音转换研究的历史和现状  17-19
  1.4 目前语音转换达到的性能状况及存在问题  19
  1.5 本文的研究目标及主要工作  19-20
  1.6 论文内容安排  20-22
第二章 语音转换的相关问题介绍  22-34
  2.1 引言  22
  2.2 语音产生机理  22-23
  2.3 人的发生器官的差异及声学参数的差异  23-26
    2.3.1 不同人喉部生理结构差异及与声源有关的声学参数  23-25
    2.3.2 不同人声道生理结构差异及与声道有关的声学参数  25-26
  2.4 语音个性特征参数  26-28
    2.4.1 语音个性特征的声学参数的区别及分类  26-28
    2.4.2 声学参数对语音个性特征的贡献比较  28
    2.4.3 不同音素对语音个性特征的贡献比较  28
  2.5 语音转换系统  28-31
    2.5.1 语音转换的目的和分类  28-29
    2.5.2 语音转换系统结构和组成  29-31
  2.6 语音转换性能测试方法  31-33
    2.6.1 客观测试方法  31-32
    2.6.2 主观测试方法  32-33
  2.7 本章小结  33-34
第三章 韵律值建模及转换方法  34-37
  3.1 引言  34
  3.2 基音周期值的建模和转换  34-35
    3.2.1 以平均基音周期比值为变化率转换法  34
    3.2.2 高斯模型转换法  34-35
    3.2.3 句子码书模型转换方法  35
    3.2.4 Fujisaki模型转换方法  35
  3.3 时长值的建模和转换  35-36
  3.4 能量变换  36
  3.5 本章小结  36-37
第四章 韵律转换实现方法  37-71
  4.1 引言  37-39
  4.2 TD-PSOLA韵律变换法  39-45
    4.2.1 TD-PSOLA韵律变换实现方法  39-40
    4.2.2 窗长的选择  40-45
    4.2.3 TD-PSOLA韵律变换法的优点和缺点  45
  4.3 基于分段线性相位模型的FD-PSOLA韵律变换法  45-59
    4.3.1 压缩-扩展法(compression-expansion)  46-50
    4.3.2 删除-复制法(elimination-repetition)  50-51
    4.3.3 分段线性相位建模  51-59
  4.4 伪谐波基音周期变换法研究  59-70
    4.4.1 语音分析及伪谐波语音模型的提出  59-60
    4.4.2 伪谐波语音模型的分析和参数提取  60-62
    4.4.3 基于伪谐波语音模型的语音合成  62-63
    4.4.4 伪谐波语音模型的时长变换法  63-65
    4.4.5 基于伪谐波语音模型谐波平移基音周期变换法  65-69
    4.4.6 基于伪谐波语音模型的删除-复制基音周期变换法  69-70
  4.5 本章小结  70-71
第五章 频谱包络表示的相关问题  71-90
  5.1 引言  71-72
  5.2 线性预测分析法  72-73
  5.3 基于幅度谱包络求LPC系数及LPC谱包络  73-75
  5.4 反射系数  75
  5.5 对数面积比系数  75-76
  5.6 由LPC系数求解LPC倒谱(LPCC)  76-77
  5.7 由LPC系数求解 PLAR  77-78
  5.8 LPC系数与LSF相互转换  78-84
    5.8.1 由LPC系数向LSF参数转换  80-82
    5.8.2 由LSF系数向LPC参数转换  82-84
  5.9 基于幅度谱包络求 CEP倒谱及 CEP倒谱包络  84-86
  5.10 基于幅度谱包络求 MFCC及 MFCC-线性谱包络  86-88
  5.11 基于MFCC-线性谱包络和 CEP谱包络的混合谱包络  88-89
  5.12 本章小结  89-90
第六章 频谱包络转换方法  90-96
  6.1 引言  90
  6.2 矢量量化法  90
  6.3 说话人插值法  90-91
  6.4 线性多变量回归法  91
  6.5 动态频率规整(DFW)  91-92
  6.6 神经网络法  92
  6.7 高斯混合模型法(GMM)  92-93
  6.8 基于重采样法  93
  6.9 HMM法  93-94
  6.10 用全通函数进行频谱弯折  94
  6.11 本章小结  94-96
第七章 用双线性转换函数进行非线性频谱搬移  96-136
  7.1 引言  96-97
  7.2 双线性转换函数  97-99
  7.3 基于系统单位冲激响应进行频谱搬移  99-115
    7.3.1 语音的 LPC分析  99
    7.3.2 系统单位冲激响应数的两种求解方法  99-100
    7.3.3 频谱搬移后的系统单位冲激响应求解  100-103
    7.3.4 基于系统单位冲激响应进行频谱搬移  103-104
    7.3.5 不同音的系统单位冲激响应收敛情况分析  104-107
    7.3.6 系统单位冲激响应收敛情况对谱包络的影响  107
    7.3.7 系统单位冲激响应收敛情况对语音分析合成的影响  107-108
    7.3.8 分析帧长不同对系统单位冲激响应收敛情况的影响  108-110
    7.3.9 LPC阶数不同对系统单位冲激响应收敛情况的影响  110-111
    7.3.10 频谱搬移对系统单位冲激响应收敛情况的影响  111-113
    7.3.11 语音信号采样频率不同频谱搬移的影响  113
    7.3.12 频谱搬移实验  113-115
  7.4 由频谱搬移后的系统单位冲激响应求解频谱搬移后 LPC系数的方法  115-117
  7.5 基于DFT变换求频谱搬移后 LPC系数的方法  117-121
  7.6 基于 LPC谱包络和 DFT分析的频谱弯折  121-123
  7.7 基于LPCC谱包络和 DFT分析的频谱弯折  123-126
    7.7.1 基于LPC系数求 LPCC谱包络  124
    7.7.2 插值法求弯折 LPCC谱包络  124-125
    7.7.3 递推法求弯折 LPCC系数  125-126
  7.8 基于 DCT倒谱包络和 DFT分析进行谱包络弯折  126-131
    7.8.1 基于弯折后的 DFT变换求弯折后倒谱谱包络  127
    7.8.2 基于弯折函数插值求弯折后倒谱谱包络  127-128
    7.8.3 基于递推法求弯折后倒谱谱包络  128-129
    7.8.4 频谱弯折实验  129-131
  7.9 不同的 LPC系数求解方法对频谱搬移性能的影响  131-132
  7.10 频谱弯折参数值自动获取方法  132-134
  7.11 本章小结  134-136
第八章 对频谱倾斜进行校正处理  136-146
  8.1 引言  136
  8.2 临界倾斜滤波器  136-138
  8.3 运用临界倾斜滤波器来进行频谱倾斜补偿  138-142
  8.4 频谱倾斜补偿参数自动提取  142-144
  8.5 本章小结  144-146
第九章 基于小语料库训练的语音转换系统  146-153
  9.1 引言  146-147
  9.2 基于小语料库训练的语音转换系统  147-151
  9.3 语音转换效果评估  151-152
  9.4 本章小结  152-153
第十章 结束语  153-155
  10.1 本文所作的主要工作  153-154
  10.2 后继的研究工作  154-155
致谢  155-156
参考文献表  156-165
附录  165-176
  附录1  165-169
  附录2  169-175
  附录3  175-176
攻读博士学位期间发表的论文  176-177

相似论文

  1. 高质量语音转换系统中关键技术的研究,TN912.3
  2. 基于MIDI的乐器控制系统和音符的自动识别方法研究,TN912.34
  3. 基于VC++6.0的说话人识别系统的研究,TN912.34
  4. 语音转换中音段特征的建模与转换的研究,TN912.3
  5. 基于高斯混合模型的语音转换技术研究,TN912.3
  6. 基于分类映射的非并行语料语音转换,TN912.3
  7. 基于LPAC-PSOLA合成算法语音转换系统,TN912.3
  8. 一种智能变换语音技术的研究,TN912.3
  9. 基于特征参数的语音情感识别,TN912.34
  10. 基于VQ模型和BP网络的高自然度语音转换,TN912.3
  11. 基于RBF神经网络的汉语耳语音转换为正常语音的研究,TN912.3
  12. 基于音频信号的轴承故障DHMM诊断方法研究及DSP实现,TH133.3
  13. 特定对象汉语语音转换系统的研究,TN912.32
  14. 语音信号处理技术研究,TN912.3
  15. 基于DSP的汉语数码语音识别系统的研究,TN912.3
  16. 基于组件技术的多媒体应用系统开发技术研究,TP311.52
  17. UMS中的TTS/ASR技术研究,TP311.52
  18. 基于语音的应用程序的开发,TN912.3
  19. 基于DSP的语音转换系统研究,TN912.3
  20. 基于ARM9的语音转换技术研究与实现,TN912.3
  21. 基于H.323的流媒体IP语音实时转换算法的研究与系统实现,TN916.2

中图分类: > 工业技术 > 无线电电子学、电信技术 > 通信 > 电声技术和语音信号处理 > 语音信号处理
© 2012 www.xueweilunwen.com