学位论文 > 优秀研究生学位论文题录展示
基于HMM的中文语音合成研究
作 者: 徐思昊
导 师: 任福继
学 校: 北京邮电大学
专 业: 信号与信息处理
关键词: 语音合成 HMM 决策树 上下文相关模型
分类号: TN912.33
类 型: 硕士论文
年 份: 2007年
下 载: 300次
引 用: 4次
阅 读: 论文下载
内容摘要
语音合成是实现人机和谐交互的关键问题之一。本文对汉语语音合成中的声学建模技术和参数共享策略进行了研究,并以日文galatea-Talk文语转换系统为基础,针对汉语的特点进行改造,完成了一个汉语文语转换的原型系统CN-galatea-Talk。具体工作包括:1.对HTK平台和HTS进行了研究和分析,实现了基于HTK平台的声学模型训练方法。2.以扩展声韵母集作为合成基元的集合,并引入了合成基元的环境信息,进行了上下文相关的声学建模。对声学建模中基于决策树的HMM状态共享策略进行了研究,分析了决策树的构造方法,讨论了问题集的设计。通过基于决策树的HMM状态共享,降低了模型的规模,状态数为状态共享前的2.84%。通过对状态时长HMM和基音周期HMM进行基于决策树的状态共享,并在问题集中引入合成基元的环境信息,从而使训练出的HMM带有韵律的信息。3.对日文galatea-Talk系统的语音合成部分进行了研究和分析,保留其中的参数生成模块和基于MLSA的合成器模块,针对中文的特性修改了HMM模型读取模块和HMM模型搜索模块。重新设计了galatea-Talk系统中的文本处理模块。利用《知网》来计算多音字的概念相似度,进行多音字处理,避开了现有实验条件下缺少拼音标注语料的问题。将上述工作组合起来,最终设计并完成了一个汉语的文语转换的原型系统CN-galatea-Talk。在语义不可预测句子(SUS)听写的测试中,平均词正确率达到89.5%;在对不同体裁短文朗读的测试中,主观评测中自然度MOS得分达到3.15;同时,合成部分的模型文件仅有2.2M。与另一款大小接近、应用双音素(Diphone)和PSOLA技术的文语转换系统相比,自然度明显提高。由于CN-galatea-Talk系统所需存储量很小,所以它很适用于移动终端或嵌入式应用。4
|
全文目录
摘要 4-5 ABSTRACT 5-9 第一章 绪论 9-14 1.1 背景 9-12 1.1.1 语音合成技术简介 9-10 1.1.2 语音合成技术的发展历史 10-11 1.1.3 语音合成系统的分类 11-12 1.1.3.1 波形拼接 11-12 1.1.3.2 参数合成 12 1.2 课题研究内容 12-13 1.3 论文安排 13-14 第二章 语音合成中声学建模技术的研究 14-24 2.1 HMM模型框架 14-19 2.1.1 HMM的定义 14-15 2.1.2 HMM的基本问题及解决 15-17 2.1.3 HMM的分类 17-19 2.1.3.1 离散 HMM(DHMM) 17 2.1.3.2 连续 HMM(CHMM) 17-18 2.1.3.3 半连续HMM(SCHMM) 18-19 2.2 MSD-HMM(Multi-Space Probability Distribution HMM) 19-22 2.2.1 多空间概率分布 19-21 2.2.2 MSD-HMM 21-22 2.3 上下文相关的声学建模技术 22 2.4 本章小节 22-24 第三章 CN-galatea-Talk系统的关键技术 24-44 3.1 上下文相关的声韵母建模 24-36 3.1.1 合成基元的选择 24-25 3.1.2 上下文无关基元的HMM训练 25-27 3.1.2.1 基元 HMM模型的选择 25-27 3.1.2.2 HMM的训练 27 3.1.3 基于决策树的状态共享 27-32 3.1.3.1 决策树划分特征的确定 28-29 3.1.3.2 决策树问题集的定义 29-30 3.1.3.3 决策树的构建 30-32 3.1.4 状态时长模型 32-35 3.1.5 基音周期模型 35-36 3.2 语音合成模块的构建 36-40 3.2.1 模型搜索 36 3.2.2 确定状态时长 36-37 3.2.3 参数生成 37 3.2.4 基于 MLSA滤波器的合成器 37-40 3.3 基于《知网》的多音字处理 40-43 3.3.1 义元相似度计算 41 3.3.2 虚词概念的相似度计算 41 3.3.3 实词概念的相似度计算 41-42 3.3.4 基于概念相似度计算的读音判断 42 3.3.5 音字转换的流程 42-43 3.3.6 优点与局限 43 3.4 本章小结 43-44 第四章 实验和测试 44-50 4.1 系统构建和主要流程 44-47 4.1.1 系统总体结构 44 4.1.2 语音库的建立 44-45 4.1.3 模型训练流程 45 4.1.4 语音合成流程 45-47 4.2 系统测试 47-50 4.2.1 测试语料 47 4.2.2 评测标准 47 4.2.3 评测步骤 47-48 4.2.4 评测结果 48-49 4.2.5 结果讨论 49-50 第五章 结束语 50-51 5.1 全文总结 50 5.2 工作展望 50-51 参考文献 51-53 致谢 53-54 攻读学位期间发表的学术论文 54
|
相似论文
- 多重ANN/HMM混合模型在语音识别中的应用,TN912.34
- 基于支持向量机的故障诊断方法研究,TP18
- 大鼠皮层神经细胞膜离子通道电流测量与重构,Q42
- 教学质量评估数据挖掘系统设计与开发,TP311.13
- 声道频响合成方法在军队姓名语音库的应用,TN912.3
- 基于学生评教数据挖掘与教学质量分析系统的研究,TP311.13
- 基于粗糙集理论的决策树分类算法与应用研究,TP18
- 基于核心示例集的属性约简方法研究,O159
- 基于广义信息熵的决策树模型及其在绩效评价中的应用,TP18
- 基于改进的ID3算法的蛋白质纯化方法研究,Q51
- 五种决策树算法的比较研究,TP311.13
- 汉语语音合成系统的改进与实现,TN912.33
- 复杂环境下语音增强方法研究,TN912.35
- 基于HMM的机器人语音识别系统的研究,TN912.34
- 数据挖掘在研究生调剂中的应用研究,TP311.13
- 基于决策树分类算法的Web文本分类研究,TP391.1
- 基于HMM-ANN混合模型的咳嗽音识别研究,TN912.34
- SVM在决策树归纳中的应用,TP18
- 模糊粗糙集属性约简及多模糊决策树分类器融合,TP18
- 数据挖掘中决策树分类算法的研究与改进,TP311.13
- 中文文本倾向性分类系统研究,TP391.1
中图分类: > 工业技术 > 无线电电子学、电信技术 > 通信 > 电声技术和语音信号处理 > 语音信号处理 > 语音合成
© 2012 www.xueweilunwen.com
|