学位论文 > 优秀研究生学位论文题录展示

基于DIVA模型的语音生成与获取若干问题的研究

作 者: 刘燕燕
导 师: 张少白
学 校: 南京邮电大学
专 业: 计算机应用技术
关键词: DIVDIVA模型 语音生成 语速 发音方式 音素
分类号: TN912.3
类 型: 硕士论文
年 份: 2012年
下 载: 12次
引 用: 0次
阅 读: 论文下载
 

内容摘要


为了研究人类认知的发展过程,需一个与婴儿的生理能力和生态背景相类似的模拟系统,DIVA模型(Directions Into of Articulators)就是这样的系统。DIVA模型是一种关于语音生成与获取后描述相关处理过程的数学模型,主要被用来仿真和描述有关大脑中涉及语音生成和语音理解区域的相关功能。它是一种用来控制模拟声道运动的自适应神经网络模型。从1995年至今,出现了不同版本的DIVA模型,但它们都或多或少的存在一些缺陷,其中的两个缺陷如下:首先是语速及发音方式对语音生成的影响问题。其次就是DIVA模型中音素的初始化问题。本文针对以上两个问题进行了讨论和研究,在第三部分基于DIVA模型提出了一个共振峰曲线模型来研究语速及发音方式对语音生成的影响。实验结果表明,在元音发音的开始处共振峰的斜率依赖于发音方式,而在某些元音发音的结束处共振峰的斜率既依赖于发音方式也依赖于语速。本文在第四部分针对DIVA模型中音素的初始化问题提出了一个自动地获取语音表示的方法来对模型进行改进。实验结果表明通过在模型中应用此方法,能够使得DIVA模型更具有自然特性,能够更好地研究语言获取的过程。本文在最后一章对研究内容进行了总结,并指出了以后的研究方向,为进一步的研究开拓了思路。

全文目录


摘要  4-5
ABSTRACT  5-6
目录  6-8
第一章 绪论  8-13
  1.1 语音生成计算模型的发展  8-10
    1.1.1 早期的语音生成计算模型  8-9
    1.1.2 DIVA 模型的提出  9-10
  1.2 国内外研究现状  10-11
  1.3 课题研究意义  11
  1.4 本文研究内容及论文结构  11-13
    1.4.1 本文研究内容  11
    1.4.2 论文结构  11-13
第二章 DIVA 模型的相关理论  13-24
  2.1 DIVA 模型的概况  13-18
    2.1.1 模型仿真的呀呀学语阶段  15-16
    2.1.2 模型仿真的执行阶段  16-18
  2.2 DIVA 模型各个组件的介绍  18-23
    2.2.1 语音识别系统(Speech Recognition System)  18-19
    2.2.2 语音映射(Speech Sound Map)  19-20
    2.2.3 体觉方向向量(Orosensory Direction Vector)  20-22
    2.2.4 发音速度向量(Articulator Velocity Vector)  22-23
    2.2.5 Go 信号(GO Signal)  23
  2.3 本章小结  23-24
第三章 语速及发音方式对语音生成的影响的研究  24-35
  3.1 共振峰  24
  3.2 协同发音  24
  3.3 语速及发音方式  24-25
  3.4 共振峰曲线模型的提出  25-27
  3.5 仿真实验  27-34
    3.5.1 拟合优度的仿真实验  27-30
    3.5.2 根据发音方式和语速来描述共振峰曲线  30-34
  3.6 本章小结  34-35
第四章 基于DIVA 模型研究自动地获取语音表示的方法  35-48
  4.1 引言  35-38
    4.1.1 语言获取的相关知识  35
    4.1.2 认知模型的建立  35-36
    4.1.3 发音模型的发展  36
    4.1.4 DIVA 模型存在的问题  36-38
  4.2 方法的实现  38-43
  4.3 仿真实验  43-47
  4.4 本章小结  47-48
第五章 总结与展望  48-49
  5.1 总结  48
  5.2 展望  48-49
致谢  49-50
参考文献  50-56
攻读硕士学位期间发表学术论文情况  56

相似论文

  1. 语音教学在农村高中英语听力教学中的应用,G633.41
  2. 激发学习动机的对韩汉语语音教学策略,H195
  3. 基于元音长度调整的中文语音识别,TN912.34
  4. 网络环境下实时音频解码与鲁棒说话人识别系统研究,TN912.34
  5. 基于混合高斯模型的说话人识别,TN912.34
  6. 大学英语专业学生听音辨析问题分析,H319
  7. 不同语速下维吾尔语无声停顿的形式和功能,H215
  8. 英汉同声传译中译语语速与信息量的关系,H315.9
  9. 个性化语音生成研究,TN912.3
  10. 说话人转换方法的研究,TN912.3
  11. 基于双层分类模型的实时语音情感与音素识别,TP391.42
  12. The English Phoneme Acquisition Order by Chinese L2 Learners and the Teaching Order of the English Phonemes,H319
  13. 汉语教师课堂语言输入特点分析,H195.3
  14. 山东东区方言对英语辅音音素习得的影响及其对策,H319
  15. 语音识别中区分性训练算法研究,TN912.34
  16. 拉丁化新文字及其运动研究,H109.4
  17. 基于广义音素的文本无关说话人认证的研究,TN912.34
  18. 小词汇量连续语音识别系统的研究,TN912.34
  19. 教师语速、学生工作记忆对课堂学习的影响,B842.3
  20. 东干语词式书写及其正词法研究,H179

中图分类: > 工业技术 > 无线电电子学、电信技术 > 通信 > 电声技术和语音信号处理 > 语音信号处理
© 2012 www.xueweilunwen.com