学位论文 > 优秀研究生学位论文题录展示

基于FDA的语音基频建模的研究

作 者: 王红丽
导 师: 杨鸿武
学 校: 西北师范大学
专 业: 电路与系统
关键词: 泛函数据分析(FDA) 基频曲线 基频建模 B-样条函数 兰州方言
分类号: TN912.3
类 型: 硕士论文
年 份: 2013年
下 载: 2次
引 用: 0次
阅 读: 论文下载
 

内容摘要


语音是人类交流最为方便快捷的方式。随着人机对话技术的发展,人们对合成语音的质量要求越来越高。语音基频曲线对合成语音的自然度有决定性的作用,对语音基频包络的建模成为人机交互领域的一个重要研究课题。本文提出了一种利用FDA(Functional DataAnalysis,泛函数据分析)对语音基频包络建模的新方法,建立了汉语普通话和兰州方言单音节的四种不同声调的基频曲线的FDA模型,并利用建立的基频模型实现了普通话到兰州方言的转换。论文工作对于实现普通话和兰州方言的韵律建模、揭示普通话和兰州方言之间的联系与区别有重要的理论意义和应用价值。论文的主要工作如下:1.提出了一种利用泛函数据分析FDA(functional data analysis)对语音基频包络建模的新方法。用B-样条函数对语音的单字基频进行数据平滑处理,得到平滑后的基频曲线,将平滑后的基频曲线再进行两次时间校准处理,最后通过主成分和主微分分析,最终得到拟合后的基频曲线。将原始基频与拟合后的基频曲线进行对比分析,实验结果表明,本文提出的建立基频模型的方法,具有一定的可行性,可应用于语音合成等语音信息处理研究中。2.建立了普通话和兰州话的FDA基频曲线模型。标注了普通话和兰州方言的4种声调的160个单音节的基频包络,用FDA方法对普通话和兰州话的四种声调的单字基频曲线建立了基频包络模型。论文对普通话和兰州方言的FDA基频模型拟合得到的基频曲线分别进行了误差分析,得到原始普通话基频与拟合后的普通话基频曲线间的均方根误差为6.47Hz,相应的兰州方言的FDA基频模型其均方根误差为3.88Hz。论文采用STRAIGHT算法,利用模型产生的基频包络重新合成普通话语音和方言语音,主观评测结果表明,普通话的MOS得分为4.17,兰州话的MOS得分为4.19分。实验验证了FDA基频模型的在基频建模上的适用性。3.实现了普通话到兰州方言的转换。首先,通过输入的文本得到兰州方言的声调信息,同时利用输入的普通话语音文件用STRAIGHT方法得到四种声调对应的谱参数和基频包络,然后,利用已建立的兰州方言的FDA模型产生不同声调的兰州方言基频包络F0值,最后利用模型得到的兰州方言F0值和普通话的谱参数用STRAIGHT方法合成兰州方言。转换的语音的DMOS得分为3.88,表明基于FDA的基频建模方法能够应用于方言的语音转换中。

全文目录


摘要  6-7
Abstract  7-9
目录  9-11
第1章 绪论  11-23
  1.1 研究背景  11-12
  1.2 语音基频模型分析  12-19
    1.2.1 语音基频特征  12
    1.2.2 语音的基频模型回顾  12-19
  1.3 语音基频模型研究现状  19-20
  1.4 研究意义  20-21
  1.5 论文的结构  21-22
  1.6 本章小结  22-23
第2章 FDA 的基本概念和方法  23-30
  2.1 FDA 基本概念  23
  2.2 FDA 技术发展历史及现状  23-24
  2.3 FDA 泛函数据的性能  24-27
    2.3.1 FDA 泛函离散数据的产生  24-25
    2.3.2 FDA 泛函数据采样  25
    2.3.3 平滑和噪声变化间的相互作用  25-26
    2.3.4 误差和边界的标准模型  26-27
  2.4 基函数的产生  27-28
  2.5 B-样条基函数(B-spline basis)  28-29
  2.6 粗糙度惩罚  29
  2.7 本章小结  29-30
第3章 基于 FDA 的基频建模  30-38
  3.1 FDA 方法的基本原理  30
  3.2 用 FDA 方法对基频曲线建模  30-36
    3.2.1 FDA 泛函数据平滑  30-31
    3.2.2 FDA 时间校准  31-32
    3.2.3 主成分分析  32-35
    3.2.4 主微分分析  35-36
  3.3 用 FDA 方法进行基频建模优点  36-37
  3.4 本章小结  37-38
第4章 不同声调单音节的基频建模  38-44
  4.1 单音节数据处理  38-39
    4.1.1 音节切分  38-39
    4.1.2 基频标注  39
    4.1.3 标注工具 Visual Speech  39
  4.2 不同声调单字音节基频模型的实现  39-43
    4.2.1 四种不同声调基频模型的实现  40-41
    4.2.2 四种声调基频模型结果对比  41-43
  4.3 本章小结  43-44
第5章 基于 FDA 的兰州方言的基频曲线建模  44-53
  5.1 兰州方言的特点  44-46
    5.1.1 声母特点  44
    5.1.2 韵母特点  44-46
    5.1.3 声调特点  46
  5.2 关键点对基频曲线的影响  46-51
    5.2.1 基频曲线关键点的选取  46-49
    5.2.2 FDA 基频模型中关键点对普通话基频曲线的影响  49-50
    5.2.3 关键点对兰州方言基频曲线的影响  50-51
  5.3 FDA 基频模型对两种语言的对比  51-52
  5.4 本章小结  52-53
第6章 基于 FDA 基频建模的应用  53-57
  6.1 语音合成技术  53
  6.2 实验设计  53-54
  6.3 Straight 修改方法  54-55
  6.4 基频曲线参数提取  55
  6.5 模型结果的主观评测  55-56
  6.6 本章小结  56-57
第7章 总结与展望  57-58
参考文献  58-62
攻读学位期间所发表的论文与主要成果  62-63
致谢  63

相似论文

  1. 线偏振脉冲激光场中里德堡锂原子布居跃迁,O562
  2. 变系数模型函数系数的B样条两阶段最小二乘估计,O212.1
  3. 几何计算中基于混合多项式的插值与逼近研究,O174.41
  4. 一维抛物型方程的非多项式三次样条方法,O241.82
  5. 两个Hilbert空间中再生核函数的构造及数值逼近,O177.1
  6. 兰州方言对大学生英语发音的影响,H319
  7. 基于四次样条函数求解二维线性双曲方程的两个数值方法,O241.82
  8. 加Rife-Vincent(Ⅲ)窗插值FFT算法的改进和快速相位差校正法的研究,TM711
  9. 高表现力语音声学建模的研究,TN912.3
  10. 金融时间序列的半参数分析及风险度量,F832.51
  11. 样条权函数神经网络算法研究及其应用,TP183
  12. 基于PHTSpline的双三次曲面间过渡曲面的构造,TP391.72
  13. 静态利率期限结构的数学模型与算法的研究,F820
  14. 外弹道测量数据的节省建模技术,V557
  15. 基于Second Life虚拟环境的三维人脸自动生成算法的研究与实现,TP391.41
  16. 基于矩阵样条函数的二阶矩阵微分方程数值解法研究,O241.81
  17. 窗函数特性及加窗插值FFT算法的研究,TM711
  18. 公路三维数学模型的建立与仿真实现,TP391.41
  19. 兰州方言的声学特征分析和语音合成的研究,TN912.3
  20. 基于单幅照片的三维人脸重建,TP391.41
  21. 实轴上的Sobolev函数类的逼近问题,O174.41

中图分类: > 工业技术 > 无线电电子学、电信技术 > 通信 > 电声技术和语音信号处理 > 语音信号处理
© 2012 www.xueweilunwen.com