学位论文 > 优秀研究生学位论文题录展示

基于HMM的中文语音合成研究

作 者: 徐思昊
导 师: 任福继
学 校: 北京邮电大学
专 业: 信号与信息处理
关键词: 语音合成 HMM 决策树 上下文相关模型
分类号: TN912.33
类 型: 硕士论文
年 份: 2007年
下 载: 300次
引 用: 4次
阅 读: 论文下载
 

内容摘要


语音合成是实现人机和谐交互的关键问题之一。本文对汉语语音合成中的声学建模技术和参数共享策略进行了研究,并以日文galatea-Talk文语转换系统为基础,针对汉语的特点进行改造,完成了一个汉语文语转换的原型系统CN-galatea-Talk。具体工作包括:1.对HTK平台和HTS进行了研究和分析,实现了基于HTK平台的声学模型训练方法。2.以扩展声韵母集作为合成基元的集合,并引入了合成基元的环境信息,进行了上下文相关的声学建模。对声学建模中基于决策树HMM状态共享策略进行了研究,分析了决策树的构造方法,讨论了问题集的设计。通过基于决策树的HMM状态共享,降低了模型的规模,状态数为状态共享前的2.84%。通过对状态时长HMM和基音周期HMM进行基于决策树的状态共享,并在问题集中引入合成基元的环境信息,从而使训练出的HMM带有韵律的信息。3.对日文galatea-Talk系统的语音合成部分进行了研究和分析,保留其中的参数生成模块和基于MLSA的合成器模块,针对中文的特性修改了HMM模型读取模块和HMM模型搜索模块。重新设计了galatea-Talk系统中的文本处理模块。利用《知网》来计算多音字的概念相似度,进行多音字处理,避开了现有实验条件下缺少拼音标注语料的问题。将上述工作组合起来,最终设计并完成了一个汉语的文语转换的原型系统CN-galatea-Talk。在语义不可预测句子(SUS)听写的测试中,平均词正确率达到89.5%;在对不同体裁短文朗读的测试中,主观评测中自然度MOS得分达到3.15;同时,合成部分的模型文件仅有2.2M。与另一款大小接近、应用双音素(Diphone)和PSOLA技术的文语转换系统相比,自然度明显提高。由于CN-galatea-Talk系统所需存储量很小,所以它很适用于移动终端或嵌入式应用。4

全文目录


摘要  4-5
ABSTRACT  5-9
第一章 绪论  9-14
  1.1 背景  9-12
    1.1.1 语音合成技术简介  9-10
    1.1.2 语音合成技术的发展历史  10-11
    1.1.3 语音合成系统的分类  11-12
      1.1.3.1 波形拼接  11-12
      1.1.3.2 参数合成  12
  1.2 课题研究内容  12-13
  1.3 论文安排  13-14
第二章 语音合成中声学建模技术的研究  14-24
  2.1 HMM模型框架  14-19
    2.1.1 HMM的定义  14-15
    2.1.2 HMM的基本问题及解决  15-17
    2.1.3 HMM的分类  17-19
      2.1.3.1 离散 HMM(DHMM)  17
      2.1.3.2 连续 HMM(CHMM)  17-18
      2.1.3.3 半连续HMM(SCHMM)  18-19
  2.2 MSD-HMM(Multi-Space Probability Distribution HMM)  19-22
    2.2.1 多空间概率分布  19-21
    2.2.2 MSD-HMM  21-22
  2.3 上下文相关的声学建模技术  22
  2.4 本章小节  22-24
第三章 CN-galatea-Talk系统的关键技术  24-44
  3.1 上下文相关的声韵母建模  24-36
    3.1.1 合成基元的选择  24-25
    3.1.2 上下文无关基元的HMM训练  25-27
      3.1.2.1 基元 HMM模型的选择  25-27
      3.1.2.2 HMM的训练  27
    3.1.3 基于决策树的状态共享  27-32
      3.1.3.1 决策树划分特征的确定  28-29
      3.1.3.2 决策树问题集的定义  29-30
      3.1.3.3 决策树的构建  30-32
    3.1.4 状态时长模型  32-35
    3.1.5 基音周期模型  35-36
  3.2 语音合成模块的构建  36-40
    3.2.1 模型搜索  36
    3.2.2 确定状态时长  36-37
    3.2.3 参数生成  37
    3.2.4 基于 MLSA滤波器的合成器  37-40
  3.3 基于《知网》的多音字处理  40-43
    3.3.1 义元相似度计算  41
    3.3.2 虚词概念的相似度计算  41
    3.3.3 实词概念的相似度计算  41-42
    3.3.4 基于概念相似度计算的读音判断  42
    3.3.5 音字转换的流程  42-43
    3.3.6 优点与局限  43
  3.4 本章小结  43-44
第四章 实验和测试  44-50
  4.1 系统构建和主要流程  44-47
    4.1.1 系统总体结构  44
    4.1.2 语音库的建立  44-45
    4.1.3 模型训练流程  45
    4.1.4 语音合成流程  45-47
  4.2 系统测试  47-50
    4.2.1 测试语料  47
    4.2.2 评测标准  47
    4.2.3 评测步骤  47-48
    4.2.4 评测结果  48-49
    4.2.5 结果讨论  49-50
第五章 结束语  50-51
  5.1 全文总结  50
  5.2 工作展望  50-51
参考文献  51-53
致谢  53-54
攻读学位期间发表的学术论文  54

相似论文

  1. 多重ANN/HMM混合模型在语音识别中的应用,TN912.34
  2. 基于支持向量机的故障诊断方法研究,TP18
  3. 大鼠皮层神经细胞膜离子通道电流测量与重构,Q42
  4. 教学质量评估数据挖掘系统设计与开发,TP311.13
  5. 声道频响合成方法在军队姓名语音库的应用,TN912.3
  6. 基于学生评教数据挖掘与教学质量分析系统的研究,TP311.13
  7. 基于粗糙集理论的决策树分类算法与应用研究,TP18
  8. 基于核心示例集的属性约简方法研究,O159
  9. 基于广义信息熵的决策树模型及其在绩效评价中的应用,TP18
  10. 基于改进的ID3算法的蛋白质纯化方法研究,Q51
  11. 五种决策树算法的比较研究,TP311.13
  12. 汉语语音合成系统的改进与实现,TN912.33
  13. 复杂环境下语音增强方法研究,TN912.35
  14. 基于HMM的机器人语音识别系统的研究,TN912.34
  15. 数据挖掘在研究生调剂中的应用研究,TP311.13
  16. 基于决策树分类算法的Web文本分类研究,TP391.1
  17. 基于HMM-ANN混合模型的咳嗽音识别研究,TN912.34
  18. SVM在决策树归纳中的应用,TP18
  19. 模糊粗糙集属性约简及多模糊决策树分类器融合,TP18
  20. 数据挖掘中决策树分类算法的研究与改进,TP311.13
  21. 中文文本倾向性分类系统研究,TP391.1

中图分类: > 工业技术 > 无线电电子学、电信技术 > 通信 > 电声技术和语音信号处理 > 语音信号处理 > 语音合成
© 2012 www.xueweilunwen.com