学位论文 > 优秀研究生学位论文题录展示
基于语音生成和获取中声音分类学习的神经模型研究
作 者: 王莉莉
导 师: 张少白
学 校: 南京邮电大学
专 业: 计算机应用技术
关键词: 自组织神经网络 声音分类学习 知觉磁效应 DIVA模型
分类号: TN912.3
类 型: 硕士论文
年 份: 2012年
下 载: 18次
引 用: 0次
阅 读: 论文下载
内容摘要
在人类的各种运动控制任务中,语音生成任务恐怕是最为复杂的。在当前真正具有生物学意义的语音生成和获取神经网络模型中,DIVA模型的定义和测试相对而言是最彻底的,并且是一种唯一应用伪逆控制方案的模型。这种控制方案对于人类发音器官的运动学数据提供了十分精确的解释。在呀呀学语期间,每当婴儿产生一个其母语的语音时,DIVA的语音识别系统便对婴儿的语音信号进行解释,并激活语音映射中的对应细胞。但由于这个语音识别的过程过于复杂,所以在当前DIVA模型中该系统是作为一个专家系统来实现的。本文首先回顾了语音生成与获取模型的发展历程,介绍了语音识别技术的发展和现状。然后对DIVA语音生成与获取模型进行了介绍,包括DIVA模型的基本概念,结构框架以及模型的现状和不足之处。研究讨论了进行语音识别前的语音预处理和特征提取的主要方法和过程。提出了一种能对知觉磁效应现象进行解释的基于自组织特征映射体系结构的神经模型,并对模型的可行性和正确性进行分析,用计算机仿真方法进行了验证。针对当前DIVA模型的语音识别系统仅仅是一个专家系统的问题,对前面提出的神经模型进一步进行算法改进并应用到DIVA模型中,从而实现对DIVA模型的语音识别系统进行改进,仿真实验结果说明我们基本上实现了的对DIVA模型的预期改进目标。最后,对研究内容进行了总结,指出当前研究存在的不足之处,并指出了后续的研究方向,为进一步的研究开拓了思路。
|
全文目录
摘要 4-5 ABSTRACT 5-9 第一章 绪论 9-14 1.1 前言 9 1.2 语音生成与获取模型 9-11 1.2.1 语音生成与获取模型的发展 9-10 1.2.2 DIVA 模型的提出 10-11 1.3 语音识别技术的发展和现状 11-12 1.4 本文研究内容及论文结构 12-14 1.4.1 本文研究内容 12-13 1.4.2 论文结构 13-14 第二章 DIVA 语音生成与获取模型 14-21 2.1 DIVA 模型的基本概念 14 2.2 DIVA 模型的基本框架 14-15 2.3 反馈控制子系统 15-18 2.3.1 预测感官事件的前向模型 15-16 2.3.2 听觉和体觉表示 16-17 2.3.3 运动皮层的反馈控制信号 17-18 2.4 前馈控制子系统 18-19 2.4.1 运动皮层的前馈控制信号 18 2.4.2 运动皮层的前馈和反馈控制信号的结合 18-19 2.4.3 发音和听觉状态 19 2.5 DIVA 模型的现状 19-21 第三章 语音预处理和特征提取 21-28 3.1 语音信号采集 21 3.2 语音预处理 21-23 3.2.1 预加重 21-22 3.2.2 加窗分帧 22-23 3.3 端点检测(Endpoint Detection) 23-24 3.3.1 短时能量法 23 3.3.2 短时平均过零率法 23-24 3.4 特征提取 24-28 3.4.1 线性预测分析(LPC) 24-25 3.4.2 线性预测倒谱系数(LPCC) 25-26 3.4.3 Mel 频率倒谱系数(MFCC) 26-28 第四章 基于语音分类的神经模型 28-38 4.1 语音识别的主要识别算法 28-30 4.1.1 隐马尔可夫模型(HMM) 28-29 4.1.2 神经网络模型(ANN) 29-30 4.2 知觉磁效应现象 30-31 4.3 基于声音分类学习的神经模型 31-34 4.3.1 神经模型的基本思想 31 4.3.2 网络模型的结构 31-33 4.3.3 自组织特征映射学习算法 33-34 4.4 仿真实验 34-38 第五章 DIVA 模型的改进 38-47 5.1 DIVA 的语音识别系统 38 5.2 语音识别系统的组成 38-40 5.3 改进的SOM 神经网络识别模型 40-42 5.3.1 网络拓扑结构 40-41 5.3.2 改进的学习算法 41-42 5.4 仿真实验 42-47 第六章 总结与展望 47-49 6.1 总结 47 6.2 展望 47-49 致谢 49-50 参考文献 50-53 攻读硕士期间的研究成果 53
|
相似论文
- 基于DIVA模型语音生成与获取的扰动研究,TN912.3
- 一种基于GWRN模型的自组织神经网络算法的研究及应用,TP393.05
- 公共场所运动目标检测与行为分析,TP391.41
- 城郊土地利用变化的关键数据处理,P237
- 高速公路安全服务水平分级方法研究,U492.8
- 计算机辅助设计极光激酶抑制剂的研究,R914.2
- 碳酸酐酶抑制剂的构效关系研究,R914
- 基于HVS的图像隐写技术研究,TP391.41
- 脑—机接口中运动想象脑电信号的特征提取和分类方法研究,TP334.7
- 融合多重模糊矩阵_SOFM的Web日志挖掘研究,TP393.09
- 基于粗糙集与神经网络的调制信号识别研究,TN911.3
- 基于支持向量机的模糊系统结构辨识与算法研究,TP13
- 林业采摘图像识别算法的研究,TP391.41
- 第三方物流企业回程配货网点选址研究,F253
- 基于HMM和ANN的语音识别算法研究,TN912.34
- 基于人工神经网络模型的遥感图像分类方法研究,TP751.1
- 基于自组织神经网络的入侵检测研究,TP393.08
- 基于小波变换的三维编织件表面纹理分析,TP391.4
- 区域控制误差在扰动负荷及联络线控制中的策略研究,TM76
- 隐伏矿定位预测数字模型评价系统,P612
中图分类: > 工业技术 > 无线电电子学、电信技术 > 通信 > 电声技术和语音信号处理 > 语音信号处理
© 2012 www.xueweilunwen.com
|