学位论文 > 优秀研究生学位论文题录展示

基于语音结构化模型的连续数字语音识别

作 者: 姜莹
导 师: 俞一彪
学 校: 苏州大学
专 业: 信号与信息处理
关键词: 汉语连续数字语音识别 全局声学结构 直方图均衡化 特征分类
分类号: TN912.34
类 型: 硕士论文
年 份: 2011年
下 载: 29次
引 用: 0次
阅 读: 论文下载
 

内容摘要


汉语连续数字语音识别在现实中具有非常广泛的应用前景,在电话与电信系统的自动语音拨号、身份证号码证实、智能家电中用于电视频道和空调温度的遥控等多方面都有着重要的应用价值。汉语连续数字语音识别是语音识别中的一个重要分支,其主要难点在于,首先不确定数字串的长度,很难准确判别连续数字串中的字间边界;其次连续数字串中的数字是任意组合的,没有可以借鉴的语法知识;再有汉语数字自身的发音特点导致识别困难,如:数字语音间的混淆程度高,汉语连续数字串中各个数字的协同发音现象较严重等。此外,语音通信中不可避免地会受到说话人差异、线路干扰、环境噪声等的影响,引起信号失真,导致识别系统的鲁棒性相当脆弱。本课题研究主要包括两个方面:(1)采用全局声学结构描述的连续数字语音识别。依据描述语音内在关系的、对传输和处理过程中的线路噪声和说话人变化具有鲁棒性的全局声学结构AUS,提出适合于连续数字语音识别的双层结构化语音模型匹配策略,在没有可以借鉴的语法知识情况下,不需要大量的训练模板,只要使用较少的单个数字语音训练数据就可以实现任意长度的连续数字语音识别,且不需要充分的训练语料和通用的信道归一化技术,解决目前语音识别和连续数字语音识别中存在的说话人差异性等的鲁棒性问题。(2)采用直方图均衡的语音识别鲁棒性研究。在语音识别中,加性噪声也是导致系统性能下降的重要原因。直方图均衡化方法是一种非线性补偿变换技术,较传统的基于线性变换技术的抗噪声方法进一步提高了系统的鲁棒性。但实际识别系统中,除了噪声引起语音特征的非线性失真外,还存在训练和测试数据的语音特征类分布不一致问题,从而难以保证传统的直方图均衡化方法发挥其优势。本文提出一种基于特征分类的直方图均衡化方法,实验结果表明,低信噪比时无论在平稳噪声还是非平稳噪声环境下,与传统的直方图均衡化方法相比都进一步增强了识别系统的鲁棒性。

全文目录


摘要  4-5
Abstract  5-9
第一章 引言  9-15
  1.1 语音识别概述  9-12
  1.2 连续数字语音识别  12-14
    1.2.1 连续数字语音识别意义及难点  12-13
    1.2.2 连续数字语音识别研究现状  13-14
  1.3 本课题的主要研究内容  14-15
第二章 语音识别基本理论  15-27
  2.1 语音识别的基本原理  15-16
  2.2 语音信号预处理  16-17
  2.3 特征提取  17-18
  2.4 隐马尔可夫模型(HMM)  18-27
    2.4.1 语音的HMM 描述  18-21
    2.4.2 基于HMM 的语音识别算法  21-27
第三章 基于语音结构化模型的连续数字语音识别  27-42
  3.1 全局声学结构的描述  27-28
  3.2 语音失真因素  28-30
  3.3 全局声学结构的不变性  30-31
  3.4 基于AUS 的连续数字语音识别  31-36
  3.5 实验与分析  36-41
    3.5.1 孤立数字语音识别  36-39
    3.5.2 连续数字语音识别  39-41
  3.6 小结  41-42
第四章 鲁棒性语音识别的HEQ 方法及其改进  42-56
  4.1 鲁棒性语音识别  42-44
  4.2 直方图均衡化原理  44-45
  4.3 直方图均衡化去噪方法  45-49
    4.3.1 基于自适应分段统计的直方图均衡化方法  45-47
    4.3.2 基于统计顺序的直方图均衡化方法  47-48
    4.3.3 其它均衡化方法  48
    4.3.4 传统的直方图均衡化存在的问题  48-49
  4.4 采用特征分类的直方图均衡化  49-50
  4.5 噪声环境下实验与分析  50-55
    4.5.1 实验环境与条件  50-51
    4.5.2 实验与分析  51-55
  4.6 小结  55-56
第五章 总结与展望  56-58
参考文献  58-62
攻读学位期间发表的学术论文  62-63
致谢  63-64

相似论文

  1. 基于FPGA的高速图像预处理技术的研究,TP391.41
  2. 广西民俗体育的养生价值研究,G852.9
  3. 基于多特征分类比较法的城市遥感信息动态监测,TP873
  4. 智能教室手势识别算法研究及交互原型系统设计,TP391.41
  5. 基于水下图像增强滤波方法的研究,TP391.41
  6. 人脸图像光照预处理算法研究,TP391.41
  7. 基于不平衡数据集的文本分类技术,TP391.1
  8. 采用支持向量机的纹理图像分类,TP391.41
  9. 基于纹理分析的煤与非煤物的图像识别算法研究,TP391.41
  10. 人脸图像特征提取和分类算法研究,TP391.41
  11. 稀疏表示和鉴别分析技术在人脸识别中的应用研究,TP391.41
  12. EPID图像增强方法研究,TP391.41
  13. 基于纹理特征与高性能分类器的计算机辅助检测,TP391.41
  14. 基于多示例学习的超声乳腺肿瘤良恶性分类,TP391.7
  15. 现代蒙古语祈使句研究,H212
  16. 信号细微特征提取及识别技术研究,TN97
  17. 基于PDE的新图像扩散模型及分类扩散,TP391.41
  18. 基于DM642的嵌入式雾天实时处理算法研究与实现,TP391.41
  19. MODIS数据在全国1:100万土地覆盖制图中的应用研究,P285
  20. 小城镇道路交通系统规划标准研究,U491.12

中图分类: > 工业技术 > 无线电电子学、电信技术 > 通信 > 电声技术和语音信号处理 > 语音信号处理 > 语音识别与设备
© 2012 www.xueweilunwen.com