学位论文 > 优秀研究生学位论文题录展示
多重ANN/HMM混合模型在语音识别中的应用
作 者: 刘明宇
导 师: 李海峰
学 校: 哈尔滨工业大学
专 业: 计算机科学与技术
关键词: 语音识别 ANN/HMM 模型状态数优化 多重混合模型 自适应特征重组方法
分类号: TN912.34
类 型: 硕士论文
年 份: 2008年
下 载: 166次
引 用: 0次
阅 读: 论文下载
内容摘要
语音是人类最自然、最熟悉的交互方式,现今语音识别、语音合成等的研究方兴未艾。孤立词识别领域已经取得了非常可喜的成绩,但是,在某些情况下,样本间的差异过大使得训练出的模型很难有好的建模精度,要想获得可以接受的识别率就要对模型做进一步的改进。本文在原有人工神经网络与隐马尔可夫模型(ANN/HMM)相结合的模型基础上研究一种多重混合识别模式作为语音的识别方法,以期可以使用多重模型对差异样本互补的进行建模,取得较好的识别率。人工神经网络(ANN)具有抗噪声、抗变异、自适应、学习能力强、识别速度快等特点,因此将其作为状态级的模型,也就是待识别对象基本单元的模型;隐马尔可夫模型(HMM)具有较强的处理时间序列的能力,故作为时序模式的整体模型。在本方法中,ANN与HMM是帧层面的结合,用ANN输出误差来估计HMM某一状态的输出概率。首先,提出了一种自动增减状态来确定模型状态数的方法。这种方法可以根据训练样本的具体情况自动在适当的位置增加或者减少状态,对建模精度不够的状态进行拆分,对包含数据帧数比较少的状态进行删除,最终达到一个合适的数量。在上述模型的基础上,我们提出了一种多重ANN/HMM混合模型,通过竞争学习机制划分样本,通过自适应特征重组方法来降低系统的存储与计算开销。自适应特征重组方法还可以利用ANN的自适应学习能力来保证系统的性能。以语音识别为实验对象,我们将上述方法与传统方法做了比较。结果表明,这种方法的模型精度和识别率的提高,并不是建立在大量消耗系统资源的基础上的。为了将研究成果实用化,利用上述识别模型及方法,我们开发了一个简单的智能人机交互系统,人们可以利用语音输入向计算机发布命令,交互方式简单自然。从对该系统的使用情况来看,它具有响应速度快,识别率高的特点。
|
全文目录
摘要 4-5 Abstract 5-9 第1章 绪论 9-13 1.1 引言 9 1.2 课题来源及研究的目的和意义 9-11 1.3 国内外研究现状 11-12 1.4 本文的研究内容 12-13 第2章 ANN/HMM混合模型 13-30 2.1 ANN模型简介 13-16 2.1.1 人工神经网络的特点和基本原理 13-15 2.1.2 ANN的学习 15-16 2.2 HMM模型简介 16-19 2.2.1 基本概念 16-17 2.2.2 HMM的结构 17-18 2.2.3 HMM训练与识别算法 18-19 2.3 ANN/HMM 混合模型 19-28 2.3.1 模型结构 19-22 2.3.2 基本算法 22-25 2.3.3 混合模型的训练方法 25-28 2.4 本章小结 28-30 第3章 ANN/HMM混合模型状态数目自动优化方法 30-40 3.1 模型的调整 30-31 3.2 自动增加状态的方法 31-34 3.2.1 原理 31 3.2.2 实例 31-33 3.2.3 具体算法 33-34 3.3 自动删除状态的方法 34-36 3.3.1 原理 34-35 3.3.2 具体算法 35 3.3.3 ANN/HMM 混合模型的总体算法流程 35-36 3.4 固定状态数法与自动增减状态数法的实验分析 36-39 3.4.1 固定状态数ANN/HMM 的建模效果 36-38 3.4.2 自动增减状态数法的建模效果 38-39 3.5 本章小结 39-40 第4章 多重ANN/HMM模型研究 40-54 4.1 多重ANN/HMM的结构 40-41 4.2 竞争学习机制 41-42 4.2.1 原理 41-42 4.2.2 竞争学习算法 42 4.3 自适应特征重组方法 42-45 4.3.1 原理 43-44 4.3.2 自适应特征重组的算法 44-45 4.4 实验分析 45-52 4.4.1 语音信号的预处理与特征提取 45-49 4.4.2 多重ANN/HMM混合模型的建模效果 49-51 4.4.3 自适应特征重组方法的实验结果 51-52 4.5 本章小结 52-54 第5章 应用示例-语音控制车载导航系统 54-59 5.1 系统设计 54-56 5.1.1 系统结构 54 5.1.2 交互技术 54-56 5.2 系统界面 56-58 5.2.1 主界面 56-57 5.2.2 语音识别模块界面 57-58 5.2.3 语音训练模块界面 58 5.3 本章小结 58-59 结论 59-60 参考文献 60-65 致谢 65
|
相似论文
- 基于DSP的机器人语音命令识别系统研制,TN912.34
- 在智能手机环境下健康管理功能设计与研究,TN929.53
- 移动音视频交互业务执行平台的研究,TN915.09
- 呼叫中心IVR系统的设计与实现,TN99
- 基于HMM的机器人语音识别系统的研究,TN912.34
- 基于改进MFCC的语音识别系统研究及设计,TN912.34
- 仿真机器人控制系统,TP242
- 基于VoiceXML的语音智能交互平台的研究与实现,TP311.52
- 基于词片网格的语音文档主题分类,TN912.3
- 基于HMM和PNN的混合语音识别模型研究,TN912.34
- 移动机器人语音识别控制仿真系统的设计与实现,TN912.34
- 基于动态贝叶斯网络的连续语音识别研究,TN912.34
- 基于STRAIGHT谱的语音识别算法研究,TN912.34
- 面向机器人对话的语音识别关键技术的研究,TN912.34
- 基于自适应的LVCSR系统半监督学习方法的研究,TN912.34
- 汉语语音识别中语言模型的并行优化,TN912.34
- 基于双自由度自适应轮系多功能代步车,U489
- 基于切分的汉语连续语音识别技术研究,TN912.34
- 基于支持向量机的民族语语种识别研究,TN912.34
- 基于音素的错误发音自动检测方法研究与应用,TN912.34
中图分类: > 工业技术 > 无线电电子学、电信技术 > 通信 > 电声技术和语音信号处理 > 语音信号处理 > 语音识别与设备
© 2012 www.xueweilunwen.com
|