学位论文 > 优秀研究生学位论文题录展示

基于切分的汉语连续语音识别技术研究

作 者: 张宝奇
导 师: 张连海
学 校: 解放军信息工程大学
专 业: 军事情报学
关键词: 语音识别 隐马尔可夫模型 共振峰 听觉事件 声韵切分 句法网络 词图搜索算法
分类号: TN912.34
类 型: 硕士论文
年 份: 2010年
下 载: 58次
引 用: 0次
阅 读: 论文下载
 

内容摘要


连续语音识别作为人机交互的关键技术之一,已取得长足进步。如何将声学、语音学和语言学知识融入到基于统计的连续语音识别系统中,进一步提高其性能,是当前连续语音识别研究的热点。由于端点检测不够精确,连续语音识别中会出现较多的删除错误和插入错误,本文针对此问题,研究了语音的切分技术和搜索算法,实现了一个基于切分知识的汉语连续语音识别系统。主要成果如下:研究了连续语流中男声共振峰的特点,对10名男性8个元音的前4个共振峰进行统计分析,结果显示男性的第二共振峰F2和第三共振峰F3,以及其比值F3/F2更适合作男声单元音的细节辨识。构建了基于隐马尔可夫模型的连续语音识别基线系统,在此基础上,研究了共振峰、LPC、LPCC、MFCC、PLP等特征参数的连续语音识别性能。实验结果表明,考虑人耳听觉特性的倒谱特征更适用于连续语音识别。对识别错误进一步分析发现,切分不准确是造成系统性能下降的主要原因之一。提出了一种基于听觉事件检测的汉语语音声韵母切分方法。首先使用耳蜗滤波器组对语音进行滤波,然后在每个频带上检测对应于能量突变的听觉事件,并分别在不同频率范围对听觉事件进行融合以确定候选边界,最后按照二叉树判决,顺序检测清辅音声母、浊辅音声母、零声母音节和普通韵母。实验结果表明,对8KHz采样的干净语音切分准确率可达到88.9%;对信噪比10dB的语音切分准确率可达到82.9%以上。提出了一种声学层和语言层独立解码的连续语音识别搜索策略。该策略针对切分语段特点,首先在声学层分别构建单音节词法网络和双音节词法网络,进行声学层解码;然后分别采用A*和令牌传递搜索算法进行语言层解码。实验结果表明,声学层采用双音节句法网络,语言层采用令牌传递搜索算法,系统的插入错误和删除错误大幅降低,准确率有较大提高。

全文目录


摘要  10-11
ABSTRACT  11-12
第一章 绪论  12-20
  1.1 语音识别技术的发展历程  12-13
    1.1.1 国外研究史  12-13
    1.1.2 国内研究史  13
  1.2 语音识别技术研究现状  13-16
    1.2.1 特征提取与变换  13-14
    1.2.2 声学模型与模式匹配  14-15
    1.2.3 语言模型与语言处理  15-16
  1.3 连续语音识别面临的问题  16-17
  1.4 本文的工作和主要创新点  17-18
  1.5 本课题的研究意义  18-19
  1.6 本文内容安排  19-20
第二章 基于HMM 的连续语音识别关键技术及系统实现  20-37
  2.1 连续语音识别的统计模型描述  20
  2.2 隐马尔可夫模型(HMM)  20-25
    2.2.1 HMM 的定义  20-21
    2.2.2 HMM 的三个基本问题及其解决方案  21-24
    2.2.3 HMM 的类型  24-25
  2.3 嵌入式HMM 模型参数重估算法  25-28
    2.3.1 基本算法和流程  25-26
    2.3.2 前向后向变量的计算  26-27
    2.3.3 嵌入式算法中的参数估计  27-28
  2.4 特征提取  28-33
    2.4.1 共振峰参数  28-31
    2.4.2 LPCC 参数  31
    2.4.3 MFCC 参数  31-32
    2.4.4 PLP 参数  32-33
  2.5 HTK Toolkit 简介  33-34
  2.6 性能评估  34-36
    2.6.1 实验语料  34
    2.6.2 评估指标  34
    2.6.3 特征组合  34-35
    2.6.4 模型基元与模型结构  35
    2.6.5 模型训练  35
    2.6.6 实验结果  35-36
  2.7 结论  36-37
第三章 基于听觉事件检测的汉语语音声韵切分  37-50
  3.1 引言  37-38
  3.2 听觉事件检测  38-41
    3.2.1 基于耳蜗滤波的听觉事件检测  38-40
    3.2.2 基于语谱图的听觉事件检测  40-41
  3.3 候选边界检测  41-42
  3.4 声韵切分  42-46
    3.4.1 清音声母检测  43-44
    3.4.2 浊辅音声母检测  44-45
    3.4.3 零声母音节和普通韵母检测  45-46
  3.5 测试评估  46-49
    3.5.1 实验语料  47
    3.5.2 评估指标  47
    3.5.3 实验结果  47-49
  3.6 结论  49-50
第四章 基于切分的帧异步搜索  50-61
  4.1 引言  50-51
  4.2 帧同步Viterbi 搜索  51-54
    4.2.1 Viterbi 算法  52-53
    4.2.2 Viterbi-Beam 算法  53-54
    4.2.3 Viterbi-Level Building 算法  54
  4.3 声学层和语言层解码  54-59
    4.3.1 声学层解码  55-57
    4.3.2 语言层解码  57-59
  4.4 测试评估  59-60
    4.4.1 实验准备  59
    4.4.2 识别器构建  59
    4.4.3 实验结果  59-60
  4.5 结论  60-61
结束语  61-63
  论文工作总结  61
  进一步研究方向  61-63
参考文献  63-68
作者简历 攻读硕士学位期间完成的主要工作  68-69
致谢  69

相似论文

  1. 多重ANN/HMM混合模型在语音识别中的应用,TN912.34
  2. 基于DSP的机器人语音命令识别系统研制,TN912.34
  3. 在智能手机环境下健康管理功能设计与研究,TN929.53
  4. 移动音视频交互业务执行平台的研究,TN915.09
  5. 呼叫中心IVR系统的设计与实现,TN99
  6. 基于HMM的机器人语音识别系统的研究,TN912.34
  7. 基于改进MFCC的语音识别系统研究及设计,TN912.34
  8. 基于听觉注意的认知脑—机接口研究,R318.0
  9. 仿真机器人控制系统,TP242
  10. 基于VoiceXML的语音智能交互平台的研究与实现,TP311.52
  11. 基于词片网格的语音文档主题分类,TN912.3
  12. 基于HMM和PNN的混合语音识别模型研究,TN912.34
  13. 移动机器人语音识别控制仿真系统的设计与实现,TN912.34
  14. 基于动态贝叶斯网络的连续语音识别研究,TN912.34
  15. 基于STRAIGHT谱的语音识别算法研究,TN912.34
  16. 面向机器人对话的语音识别关键技术的研究,TN912.34
  17. 基于自适应的LVCSR系统半监督学习方法的研究,TN912.34
  18. 汉语语音识别中语言模型的并行优化,TN912.34
  19. 基于双自由度自适应轮系多功能代步车,U489
  20. 庆阳市西峰区方言声调实验研究,H17

中图分类: > 工业技术 > 无线电电子学、电信技术 > 通信 > 电声技术和语音信号处理 > 语音信号处理 > 语音识别与设备
© 2012 www.xueweilunwen.com