学位论文 > 优秀研究生学位论文题录展示

情感语音合成的研究

作　者: 鲁小勇
导　师: 杨鸿武
学　校: 西北师范大学
专　业: 电路与系统
关键词: 情感语音 PAD 五度字调模型韵律转换隐马尔科夫模型说话人自适应训练
分类号: TN912.33
类　型: 硕士论文
年　份: 2013年
下　载: 7次
引　用: 0次
阅　读: 论文下载

内容摘要

随着近些年人机交互系统的广泛应用，语音合成技术受到了众人的日益关注。虽然语音合成已经在清晰度、可懂度和自然度方面取得了较好的效果，但是目前的人机交互系统还是以中性化语音为主，缺乏情感的表达。而人的语音交流不仅包含着基本的文字内容，还承载着大量丰富的情感信息。因此，情感语音合成是目前国际上的研究热点。本文引入PAD（Pleasure-Arousal-Dominance）三维情绪模型，建立了一个具有11种情感的情感语料库，并标注了情感语音的PAD值。在此基础上，利用五度字调模型建立情感语音的基频模型，并利用GRNN（Generalized Regression Neural Network）实现了情感语音的韵律转换。进一步，本文利用说话人自适应训练方法实现了情感语音的统计参数语音合成。论文的主要工作和创新如下：1.建立了一个情感语音语料库。该语料库录制了一个女性说话人的中性、放松、惊奇、温顺、喜悦、愤怒、焦虑、厌恶、轻蔑、恐惧、悲伤等11种典型情感，并引入PAD三维情绪模型，对语音语料标注了情感的PAD值，对文本语料标注了其韵律结构。2.提出了一种基于PAD三维情绪模型的情感语音韵律转换方法。利用五度字调模型建立了情感语音的基频包络模型，并利用GRNN实现了情感语音的韵律转换。实验结果表明，五度字调模型建立的情感语音基频包络，其最大RMSE误差不超过6.9Hz，满足对基频曲线建模的要求。利用GRNN模型转换获得的情感语音在95%置信区间下的平均EMOS（Emotion Mean Opinion Score）得分为3.6分，能够表达出情感信息。3.提出了一种基于说话人自适应训练（Speaker Adaptive Training, SAT）的情感语音统计参数合成方法。设计了文本的上下文相关标注格式，建立了一个情感语音的问题集。通过混合多个说话人的普通话大语料库和一个说话人的情感语音的小语料库，采用说话人自适应训练得到一个平均音模型。然后通过说话人自适应变换，利用特定说话人的情感训练语音，从平均音模型获得说话人相关（Speaker Dependent,SD）的情感语音模型，从而合成出情感语音。实验结果表明，本文提出的方法其合成的情感语音平均EMOS得分2.7，优于只利用情感语音训练的模型的EMOS得分。

全文目录

摘要  6-7
Abstract  7-11
第1章前言  11-18
  1.1 情感语音合成概述  11-12
  1.2 情感语音合成的方法  12-15
    1.2.1 波形拼接合成  12-13
    1.2.2 韵律特征合成  13-14
    1.2.3 统计参数合成  14-15
  1.3 论文的研究内容和结构安排  15-18
第2章情感语料库的建立  18-33
  2.1 情感语音的定义  18
  2.2 情感语料库的构建  18-22
    2.2.1 情感分类方法  19-21
    2.2.2 情感获取方式  21
    2.2.3 文本语料设计  21-22
  2.3 PAD 三维情绪模型  22-24
  2.4 PAD 值评定  24-27
  2.5 语音信号处理工具  27-32
    2.5.1 语音采集  27-28
    2.5.2 语音分析  28-30
    2.5.3 语音修改  30-32
  2.6 本章小结  32-33
第3章基于韵律修改的情感语音转换  33-46
  3.1 系统框架  33-35
  3.2 实验语料  35-36
    3.2.1 文本语料  35-36
    3.2.2 语音语料  36
  3.3 基于五度字调模型的基频建模  36-37
  3.4 基于 GRNN 的预测模型  37-38
  3.5 实验结果  38-45
    3.5.1 五度字调基频模型的性能评测  38-41
    3.5.2 GRNN 预测模型的性能评测  41-44
    3.5.3 转换结果的主观评测  44-45
  3.6 本章小结  45-46
第4章基于说话人自适应训练的情感语音合成  46-58
  4.1 系统框架  46-47
  4.2 HMM 简介  47-48
  4.3 HTS 的基本流程  48-49
  4.4 说话人自适应训练原理  49-51
  4.5 实验语料  51
  4.6 标注格式与问题集的设计  51-55
    4.6.1 上下文相关的标注设计  51-54
    4.6.2 问题集的设计  54-55
  4.7 实验结果  55-57
    4.7.1 语音质量评估  55-56
    4.7.2 情感相似度评估  56-57
  4.8 本章小结  57-58
第5章总结与展望  58-60
  5.1 论文总结  58
  5.2 未来工作展望  58-60
参考文献  60-65
攻读学位期间的研究成果  65-66
致谢  66

相似论文

无对比剂的二维时间飞跃法磁共振血管成像与多排CT血管成像在诊断下肢动脉疾病的对比研究,R816.2
权函数神经网络的MATLAB实现,TP319
双模态汉语情感语音合成的研究,TN912.33
普通话语音情感信息的分析与研究,TN912.34
高表现力语音声学建模的研究,TN912.3
普通话的情感语音韵律分析,H116
抛物线方程在电磁散射分析中的应用,O441.4
一维Burgers方程的一类具有局部性质的人工边界条件,O241.82
求解微分方程的微分变换法,O241.8
Adomian分解方法和同伦分析方法,O175.29
基于随机图的情感产生模型的研究,TP391.41
跨文化的情感语音分析,TP391.42
基于情感基音模板的情感语音合成,TN912.33
多元函数值Padé逼近的研究,O174.41
非线性偏微分方程及其数值计算,O175.29
Study of Wear in a Novel Cu-Based Sintered Alloy for Train Brakes (Influence of Sintered Temperature),U270.35
兰州方言的声学特征分析和语音合成的研究,TN912.3
情感语音发音机理的研究,TP391.41
基于特征参数的语音情感识别,TN912.34
基于HMM的情感语音识别,TN912.34
汽车普适计算中情感计算模型的初步研究,U462