学位论文 > 优秀研究生学位论文题录展示
基于隐马尔可夫模型的跨语种语音合成方法研究
作 者: 刘航
导 师: 戴礼荣
学 校: 中国科学技术大学
专 业: 信号与信息处理
关键词: 隐马尔可夫模型 语音合成 决策树聚类 跨语种模型自适应
分类号: TN912.33
类 型: 硕士论文
年 份: 2011年
下 载: 86次
引 用: 0次
阅 读: 论文下载
内容摘要
语言合成是用人工的方式产生人类语音从而赋予计算机如人一般自如说话的能力,目前的语音合成研究大多集中在文语转换(Text-To-Speech, TTS)这一阶段,即将一般语言的文字转换为语音。这些年来,随着语音技术的飞速发展,语音合成技术越加趋于成熟,合成的语音在音质和自然度上都有了明显的提高。然而,如何进一步提高语音合成系统的性能,使计算机合成出的声音更加的清晰与自然一直是语音合成研究领域的焦点问题。此外,随着国际交流的日益频繁,在国际交往中只用单一语种进行沟通往往已经不能满足人们的需求,有着对跨语种语音合成系统的迫切需要。在缺乏目标语种数据的情况下如何完成跨语种的说话人自适应,进而实现跨语种的语音合成系统以方便人们的国际交流与沟通,正是本文研究工作的重心所在。以下是论文的结构组织顺序:论文第一章简略地叙述了本文的研究背景。首先介绍了跨语种语音合成技术的技术需求与应用背景,接着介绍了现有的几种主流语音合成方法,最后对本文的主要研究方向——基于HMM模型的跨语种语音合成技术相关的概念与方法进行了大致的说明。论文第二章的前半部分主要是在介绍目前最为常用的基于HMM模型的可训练语音合成技术(Trainable TTS)的基本框架流程和关键技术点,后半部分则详细描述了这种语音合成系统基础上的同语种说话人模型自适应技术框架及相关算法。这两方面内容是本文研究工作的基础所在,也是后续章节研究内容的基本出发点。论文第三章介绍了对第二章中系统的改进工作。这里从参数语音合成系统中与语种最为相关的模块——基于决策树的模型聚类入手,着力研究如何改善现有基线系统的合成效果。研究中分别考查了决策树构建中挑选分裂问题的不同指导准则、判断分裂停止的不同条件准则及它们的不同组合对最终聚类效果和合成语音的影响。论文第四章主要从音素映射的思路出发来实现中英文跨语种的语音合成模型自适应。在跨语种的说话人模型自适应中,针对简单的音素映射效果不佳的问题,结合自适应数据的挑选,修正并改进了中英文音素映射表,同时通过中英文间的调型映射和韵律映射等方法以充分利用中英文语种间的相通韵律信息,取得了较好的自适应效果。论文第五章在前面研究工作的基础上,实现了一个中英文跨语种的语音合成系统,系统可以同时模拟任一中文说话人的中文发音和英文发音效果,即使在此中文说话人并不会说英文的前提下,也能很好地合成出具有其音色特征的英文发音语句。
|
全文目录
摘要 4-6 ABSTRACT 6-10 第1章 绪论 10-15 1.1 语音技术的发展 10-12 1.2 现阶段主流语音合成技术简介 12-13 1.2.1 单元拼接语音合成 12 1.2.2 统计参数语音合成 12-13 1.3 基于HMM的跨语种语音合成 13-14 1.4 论文研究内容与组织结构 14-15 第2章 基于HMM的参数语音合成方法 15-23 2.1 基本技术框架 15-19 2.1.1 隐马尔可夫模型 16 2.1.2 系统流程框架 16-19 2.2 同语种语音合成模型自适应技术 19-22 2.2.1 流程框架 19-20 2.2.2 MLLR算法 20-22 2.3 本章小结 22-23 第3章 基于决策树的模型聚类算法研究 23-40 3.1 基于决策树的模型聚类 23-24 3.2 聚类的相关算法准则 24-31 3.2.1 最大似然准则与最小生成误差准则 25-29 3.2.2 最小描述长度准则与交叉验证方法 29-31 3.3 不同算法准则的效果对比 31-38 3.3.1 ML与MGE 32-33 3.3.2 MDL与CV 33-37 3.3.3 准则间的优化组合 37-38 3.4 本章小结 38-40 第4章 跨语种语音合成模型自适应方法 40-51 4.1 传统的跨语种模型自适应 41-43 4.1.1 音素映射与IPA 41-42 4.1.2 系统实现 42-43 4.2 改进的跨语种模型自适应 43-46 4.2.1 结合数据挑选的音素映射 43-44 4.2.2 韵律信息映射 44-45 4.2.3 改进后的系统流程 45-46 4.3 实验与结果分析 46-49 4.3.1 实验配置 46-47 4.3.2 实验结果 47-49 4.4 本章小结 49-51 第5章 中英文跨语种语音合成系统构建 51-57 5.1 中英文跨语种语音合成系统框架 51-52 5.1.1 数据准备 51 5.1.2 系统框架 51-52 5.2 实验评测 52-53 5.3 系统应用展望 53-56 5.4 本章小结 56-57 第6章 总结与展望 57-59 参考文献 59-62 致谢 62-63 在读期间发表的学术论文与取得的研究成果 63 待发表论文 63 硕士期间研究经历 63
|
相似论文
- 声道频响合成方法在军队姓名语音库的应用,TN912.3
- 移动音视频交互业务执行平台的研究,TN915.09
- 仿真机器人控制系统,TP242
- 基于自动切分的PSOLA语音合成在大坝监控系统中的应用研究,TP277
- Ant在IVR系统测试的应用,TP311.52
- 基于VoiceXML的语音智能交互平台的研究与实现,TP311.52
- 语音库自动构建技术的研究,TN912.33
- 数据挖掘在电子政务办公系统中的应用,TP311.13
- 基于多层架构模型设计的呼叫中心设计及实现,TN99
- 基于HMM的可训练越南语语音合成系统,TN912.33
- 语音变调算法研究及其在语音合成中的应用,TN912.33
- 基于嵌入式技术的射频识别信息终端研究开发,TP368.12
- 基于GSM网络具有语音合成功能系统的设计与实现,TN912.33
- 基于G.729标准的拼音合成算法及其DSP实现,TN912.3
- 基于移动终端的旅游信息推送服务系统关键技术研究,TN929.53
- 语言文字数据挖掘在高校学生信息管理中的应用,TP315
- 数据挖掘与网站运营管理,TP311.13
- 跨文化的情感语音分析,TP391.42
- 基于情感基音模板的情感语音合成,TN912.33
- 面向气象语音呼叫中心的语音合成软件设计与实现,TN912.33
- 基于数据挖掘技术的济南移动经营分析系统的设计与实现,TN929.5
中图分类: > 工业技术 > 无线电电子学、电信技术 > 通信 > 电声技术和语音信号处理 > 语音信号处理 > 语音合成
© 2012 www.xueweilunwen.com
|