学位论文 > 优秀研究生学位论文题录展示
噪声环境下基于MFCC的鲁棒语音识别研究
作 者: 张林
导 师: 赵欢
学 校: 湖南大学
专 业: 计算机应用
关键词: 语音识别 鲁棒性 特征提取 梅尔频率倒谱系数 子带频谱质心
分类号: TP391.42
类 型: 硕士论文
年 份: 2009年
下 载: 224次
引 用: 2次
阅 读: 论文下载
内容摘要
语音识别系统在噪声环境下的鲁棒性是关系到语音识别能否走向完全实用化的关键,也是当前语音识别技术研究的热点和难点。噪声鲁棒性问题的根源为语音识别训练和测试环境之间的不匹配,噪声鲁棒语音识别的目的就是消除噪声引起的训练环境和测试环境之间的不匹配,其方法分为4种:鲁棒性特征提取、语音增强、模型补偿、麦克风阵列。本文重点研究了其中的鲁棒特征提取方法,利用听觉特征机理,借助已有的加窗以及子带技术,尝试构建鲁棒性比较强的特征向量,从而提高噪声环境下的语音识别性能,使其能够很好地应用在实际环境中。本文主要针对基于Mel频率倒谱频率(Mel Frequency Cepstrum Coeficients,MFCC)特征提取,将常规的MFCC特征提取过程进行改进。主要工作如下:首先对窗函数进行改进,在MFCC提取过程中加入混合窗函数代替汉明窗,在确定主瓣的宽度没有很大变化的情况下,采用更能抑制旁瓣的函数,使之在噪声环境下比传统的汉明窗更有优势。然后,提出将子带频谱质心(Sub-band frequency Spectrum Centriod,SSC)应用于特征提取过程,主要在传统MFCC特征提取的基础上,将受噪声干扰较小的频谱峰值位置信息加入提取过程,计算各个子带受噪声污染程度较小的频谱质心,根据计算得出的频谱质心序列得到新的特征参数。其主要任务是研究将整个频带分成多少个子带,以及各个子带的边界位置如何确定。最后,结合加窗以及子带频谱质心,将描述频谱峰值位置信息的子带质心应用到提取过程,建立基于HMM模型的识别系统。本文采用英国剑桥大学的HTK语音识别工具进行仿真实验,实验结果表明,改进后的特征提取算法跟基准系统相比,识别性能及鲁棒性有一定程度的提高。
|
全文目录
摘要 5-6 ABSTRACT 6-12 第1章 绪论 12-18 1.1 语音识别的发展历史及现状 12-13 1.2 语音识别面对的困难 13-15 1.3 语音识别的指标 15-16 1.4 论文的主要工作与结构安排 16-18 1.4.1 论文的主要工作 16-17 1.4.2 论文结构安排 17-18 第2章 鲁棒语音识别研究概述 18-32 2.1 鲁棒语音识别基础 18-21 2.1.1 语音信号的特点与产生模型 18-19 2.1.1.1 特点 18-19 2.1.1.2 产生模型 19 2.1.2 语音识别系统的基本原理 19-20 2.1.3 噪声对识别系统的影响 20-21 2.2 鲁棒语音识别的研究内容 21-22 2.3 噪声鲁棒性问题的主要解决方法 22-26 2.3.1 鲁棒性特征提取 22-23 2.3.2 语音增强 23-24 2.3.2.1 倒谱域特征参数补偿 23-24 2.3.2.2 非完整特征法 24 2.3.3 模型补偿 24-25 2.3.4 方法的总结以及鲁棒语音识别的展望 25-26 2.4 HMM 的基本理论 26-31 2.4.1 HMM 模型基本结构 26-28 2.4.2 HMM 模型的三个基本问题 28-31 2.5 小结 31-32 第3章 基于MFCC 的鲁棒语音识别 32-46 3.1 MEL 频率简介 32-33 3.1.1 临界带宽 32-33 3.1.2 Mel 频率 33 3.2 MFCC 特征提取 33-37 3.3 各种窗函数性能的研究 37-42 3.3.1 各种基本窗函数的性能比较 37-40 3.3.2 混合窗函数的研究 40-42 3.4 子带频谱质心的研究 42-44 3.5 性能评价方法 44-45 3.6 小结 45-46 第4章 仿真实验及结果分析 46-59 4.1 HTK 工具 46-49 4.1.1 数据处理工具 47 4.1.2 训练工具 47-49 4.1.3 识别工具 49 4.1.4 分析工具 49 4.2 HTK 实验 49-53 4.2.1 数据准备 49-51 4.2.2 创建单音素HMM 模型 51-52 4.2.3 创建绑定状态的三音素HMM 模型 52-53 4.2.4 识别 53 4.3 实验描述 53-55 4.4 基于权重的参数规整 55-58 4.5 小结 58-59 结论 59-61 参考文献 61-65 致谢 65-66 附录 A 攻读学位期间所发表的学术论文 66-67 附录 B 攻读学位期间所参与的科研项目 67
|
相似论文
- 基于SVM的高速公路路面浅层病害的自动检测算法研究,U418.6
- 多重ANN/HMM混合模型在语音识别中的应用,TN912.34
- 基于DSP的机器人语音命令识别系统研制,TN912.34
- 空间目标ISAR成像仿真及基于ISAR像的目标识别,TN957.52
- 胆囊炎和肾病综合症脉象信号的特征提取与分类研究,TP391.41
- Q学习在基于内容图像检索技术中的应用,TP391.41
- 直推式支持向量机研究及其在图像检索中的应用,TP391.41
- 中医舌诊中舌形与齿痕的特征提取及分类研究,TP391.41
- 空间交会接近视觉测量方法研究,TP391.41
- 图像实时采集、存储与处理方法研究,TP391.41
- 唇读中的特征提取、选择与融合,TP391.41
- 多币种纸币处理技术的研究与实现,TP391.41
- 基于类Harr特征和最小包含球的纸币识别方法的研究,TP391.41
- 基于图像的路面破损识别,TP391.41
- 移动机器人视觉检测和跟踪研究,TP242.62
- 高光谱与高空间分辨率遥感图像融合算法研究,TP751
- 在智能手机环境下健康管理功能设计与研究,TN929.53
- 基于随机森林的植物抗性基因识别方法研究,Q943
- 基于图像处理技术的烟叶病害自动识别研究,S435.72
- 基于视觉的番木瓜外观品质检测技术研究,S667.9
- 羊绒与羊毛纤维鉴别系统的研究,TS101.921
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 模式识别与装置 > 声音识别及其装置
© 2012 www.xueweilunwen.com
|