学位论文 > 优秀研究生学位论文题录展示

语音变调算法研究及其在语音合成中的应用

作 者: 张晓蕊
导 师: 田岚
学 校: 山东大学
专 业: 信号与信息处理
关键词: 语音变调 SOLA-FS 语音合成 TD-PSOLA 时频分步
分类号: TN912.33
类 型: 硕士论文
年 份: 2011年
下 载: 91次
引 用: 0次
阅 读: 论文下载
 

内容摘要


随着信息技术和多媒体技术的发展,普通的音视频素材已经不能满足人们生产活动和娱乐生活的需求。应运而生的语音变调技术,是在保持音频文件播放速度不变的前提下,按照某种算法对说话人的音调进行调整,从而实现音调的升高或降低,而语音音调的不同主要是由基音频率和共振峰频率来决定,因此音调的改变可以通过改变原始语音信号的基音频率和共振峰频率来实现。目前存在的语音变调方法都还不是很完善,还存在着各种各样的缺点。语音合成技术是随着人们对人机交互提出要求而发展起来的一种语音信号处理技术,是将计算机输出的或人为输入的一些非语音信息如文字、数字、标点符号等转换为清晰自然可懂的语音输出,这种技术又称为文语转换技术(Text to Speech,简称TTS)。较早的文语转换系统在合成模块一般采用参数合成法,其中共振峰合成法和LPC合成法应用较多。对参数合成法的研究起步比较早,所以参数合成法已具有相对成熟的理论基础,而且实现起来较简单,但实际合成的连续语音不自然,有明显的机器腔。二十世纪九十年代初,基音同步叠加技术的研究开始兴起,并成功运用到了TTS系统中。基音同步叠加(PSOLA, pitch synchronous overlap add)技术不同于简单的波形拼接技术,它在对语音基元拼接的时候,首先对音频文件分析得到基音标注,然后以基音周期为单位对拼接单元的基频、音长和音强等韵律特征做出适合的调整,在不改变原始语音基元音质的基础上,灵活地改变语音的韵律特征。本文通过分析研究现有语音合成方法存在的优缺点,在PSOLA算法的基础上,提出了一种时长和基频分步处理的语音合成方法,并通过实验证实了其有效性。本文主要工作如下:1、对现有变调方法作了分类分析,主要分析了3种典型方法的变调原理和特点,即时域同步叠加固定合成法(synchronized overlap-add fixed synthesis, SOLA-FS)、频域插值法和相位声码器法,并通过分析研究指出了它们的优缺点。然后在SOLA-FS算法的基础上,提出了一种改进的基于SOLA-FS的变调方法,仿真实验发现该变调方法不仅能在保持音频播放时间不变的前提下改变音调,而且降低了算法复杂度,并在一定程度上减少了噪音,并给出了改进前后运行时间的比较,以及改进前后对应的语谱图。实验发现改进的SOLA-FS方法在自然度上的优势明显优于其他变调方法,然后给出了三种不同变调算法下变调结果的主观测听对比。结果表明:不论对语音音调的升高还是降低,在相同变调系数下,改进的SOLA-FS方法均具有最好的变调效果。2、将改进的SOLA-FS变调方法与波形拼接技术相结合,提出了一种音高、时长分步处理的语音韵律拼接合成方法,既保持了语音拼接单元的清晰度和自然度,也在一定程度上提高了合成语音的韵律修改能力。文中给出了在不同的音高调整参数下,传统的TD-PSOLA方法与时频分步合成法在基频修改时所对应的合成语音的时域图和基频轨迹图,并在最后给出了算法复杂度的比较。实验证明,传统的TD-PSLOA方法在音高修改时,其合成语音对应的基频轨迹的包络与语音样本的基频包络有较大出入,尤其是当基频修改幅度较大时,会造成叠加单元的混叠或遗漏,从而影响合成语音的效果。而时频分步法在音高修改时,其合成语音对应的基频包络相对语音样本基本不变,而且当音高变化幅度较大时仍能达到较好的语音合成效果。但是,本文提出的合成方法在时间复杂度上会增加,但随着计算机技术和数据存储技术的发展,算法的复杂度将不会是一个大问题。论文最后对所做的全部工作进行了总结,并给出了论文中存在的不足和下一步要研究的方向。

全文目录


摘要  8-10
ABSTRACT  10-12
符号说明  12-14
第一章 绪论  14-21
  1.1 研究背景  14-16
  1.2 语音变调  16-17
    1.2.1 语音变调基本原理  16
    1.2.2 语音变调的应用  16-17
  1.3 语音合成  17-19
    1.3.1 语音合成的基本原理  17-18
    1.3.2 语音合成的基本应用  18-19
  1.4 本文主要工作以及章节安排  19-21
第二章 语音变调主要方法概述  21-29
  2.1 时域法  21-24
    2.1.1 时域调制法  21
    2.1.2 基于SOLA-FS的变调方法  21-24
      2.1.2.1 变调变时间处理  21-22
      2.1.2.2 基于SOLA-FS的时长规整方法以保持播放时间不变  22-24
  2.2 频域方法  24-29
    2.2.1 基于频域插值的变调方法  24-25
    2.2.2 基于相位声码器技术的变调方法  25-29
      2.2.2.1 相位展开  26-27
      2.2.2.2 即时频率估计与合成相位计算  27-29
第三章 主要语音合成技术概述  29-41
  3.1 参数合成方法  30-35
    3.1.1 线性预测合成方法  30-31
    3.1.2 共振峰合成方法  31-35
  3.2 波形拼接合成技术  35-41
    3.2.1 TD-PSOLA算法  36-39
    3.2.2 FD-PSOLA算法  39-41
第四章 改进的SOLA-FS变调方法及其仿真实现  41-50
  4.1 参数S_s和_a的选取  41-42
  4.2 SOLA-FS变调方法的改进  42-45
  4.3 三种变调方法的仿真实现及音效评估  45-50
    4.3.1 MATLAB仿真实现  45-48
    4.3.2 变调效果主观评价  48-50
第五章 基于PSOLA的时频分步语音合成法及其仿真实现  50-68
  5.1 同态滤波技术及其应用  50-58
    5.1.1 同态滤波原理  50-52
    5.1.2 语音信号两个卷积分量的分离  52-56
      5.1.2.1 声门激励的复倒谱  52-54
      5.1.2.2 声道冲激序列的复倒谱  54-55
      5.1.2.3 短时语音信号两个卷积分量的分离  55-56
    5.1.3 时频分步语音合成  56-58
  5.2 时频分步语音合成法的仿真实现及与TD-PSOLA方法的比较  58-68
结束语  68-70
参考文献  70-75
致谢  75-76
攻读学位期间发表的学术论文  76-77
学位论文评阅及答辩情况表  77

相似论文

  1. 声道频响合成方法在军队姓名语音库的应用,TN912.3
  2. 基于GSM网络具有语音合成功能系统的设计与实现,TN912.33
  3. 语音合成算法研究与FPGA实现,TN912.33
  4. 基于动词词干词缀的蒙古语语音合成系统的研究,TN912.33
  5. 汉语TTS中的韵律建模与合成方法研究,TN912.3
  6. 基于LOG-PCM技术的语音合成芯片的研究与实现,TN912.33
  7. 无锡方言声调实验研究,H172.4
  8. 物流车辆监控调度终端的设计与实现,TP273
  9. 一种激励声道频响的汉语语音合成方法,TN912.33
  10. 智能机器人的语音技术研究,TP242
  11. 基于DSP的语音转换系统研究,TN912.3
  12. 基于HMM的可训练越南语语音合成系统,TN912.33
  13. 基于多层架构模型设计的呼叫中心设计及实现,TN99
  14. 语音库自动构建技术的研究,TN912.33
  15. Ant在IVR系统测试的应用,TP311.52
  16. 基于激励源及其韵律特征的源—目标说话人声音转换研究,TN912.3
  17. 基于统计声学建模的语音合成技术研究,TN912.33
  18. 韵律文本驱动的三维口型动画研究,TP391.41
  19. 个性化语音合成的研究与实现,TN912.33
  20. 基于韵律联合短时谱的说话人变换,TN912.34

中图分类: > 工业技术 > 无线电电子学、电信技术 > 通信 > 电声技术和语音信号处理 > 语音信号处理 > 语音合成
© 2012 www.xueweilunwen.com