学位论文 > 优秀研究生学位论文题录展示
基于切分的汉语连续语音识别技术研究
作 者: 张宝奇
导 师: 张连海
学 校: 解放军信息工程大学
专 业: 军事情报学
关键词: 语音识别 隐马尔可夫模型 共振峰 听觉事件 声韵切分 句法网络 词图搜索算法
分类号: TN912.34
类 型: 硕士论文
年 份: 2010年
下 载: 58次
引 用: 0次
阅 读: 论文下载
内容摘要
连续语音识别作为人机交互的关键技术之一,已取得长足进步。如何将声学、语音学和语言学知识融入到基于统计的连续语音识别系统中,进一步提高其性能,是当前连续语音识别研究的热点。由于端点检测不够精确,连续语音识别中会出现较多的删除错误和插入错误,本文针对此问题,研究了语音的切分技术和搜索算法,实现了一个基于切分知识的汉语连续语音识别系统。主要成果如下:研究了连续语流中男声共振峰的特点,对10名男性8个元音的前4个共振峰进行统计分析,结果显示男性的第二共振峰F2和第三共振峰F3,以及其比值F3/F2更适合作男声单元音的细节辨识。构建了基于隐马尔可夫模型的连续语音识别基线系统,在此基础上,研究了共振峰、LPC、LPCC、MFCC、PLP等特征参数的连续语音识别性能。实验结果表明,考虑人耳听觉特性的倒谱特征更适用于连续语音识别。对识别错误进一步分析发现,切分不准确是造成系统性能下降的主要原因之一。提出了一种基于听觉事件检测的汉语语音声韵母切分方法。首先使用耳蜗滤波器组对语音进行滤波,然后在每个频带上检测对应于能量突变的听觉事件,并分别在不同频率范围对听觉事件进行融合以确定候选边界,最后按照二叉树判决,顺序检测清辅音声母、浊辅音声母、零声母音节和普通韵母。实验结果表明,对8KHz采样的干净语音切分准确率可达到88.9%;对信噪比10dB的语音切分准确率可达到82.9%以上。提出了一种声学层和语言层独立解码的连续语音识别搜索策略。该策略针对切分语段特点,首先在声学层分别构建单音节词法网络和双音节词法网络,进行声学层解码;然后分别采用A*和令牌传递搜索算法进行语言层解码。实验结果表明,声学层采用双音节句法网络,语言层采用令牌传递搜索算法,系统的插入错误和删除错误大幅降低,准确率有较大提高。
|
全文目录
摘要 10-11 ABSTRACT 11-12 第一章 绪论 12-20 1.1 语音识别技术的发展历程 12-13 1.1.1 国外研究史 12-13 1.1.2 国内研究史 13 1.2 语音识别技术研究现状 13-16 1.2.1 特征提取与变换 13-14 1.2.2 声学模型与模式匹配 14-15 1.2.3 语言模型与语言处理 15-16 1.3 连续语音识别面临的问题 16-17 1.4 本文的工作和主要创新点 17-18 1.5 本课题的研究意义 18-19 1.6 本文内容安排 19-20 第二章 基于HMM 的连续语音识别关键技术及系统实现 20-37 2.1 连续语音识别的统计模型描述 20 2.2 隐马尔可夫模型(HMM) 20-25 2.2.1 HMM 的定义 20-21 2.2.2 HMM 的三个基本问题及其解决方案 21-24 2.2.3 HMM 的类型 24-25 2.3 嵌入式HMM 模型参数重估算法 25-28 2.3.1 基本算法和流程 25-26 2.3.2 前向后向变量的计算 26-27 2.3.3 嵌入式算法中的参数估计 27-28 2.4 特征提取 28-33 2.4.1 共振峰参数 28-31 2.4.2 LPCC 参数 31 2.4.3 MFCC 参数 31-32 2.4.4 PLP 参数 32-33 2.5 HTK Toolkit 简介 33-34 2.6 性能评估 34-36 2.6.1 实验语料 34 2.6.2 评估指标 34 2.6.3 特征组合 34-35 2.6.4 模型基元与模型结构 35 2.6.5 模型训练 35 2.6.6 实验结果 35-36 2.7 结论 36-37 第三章 基于听觉事件检测的汉语语音声韵切分 37-50 3.1 引言 37-38 3.2 听觉事件检测 38-41 3.2.1 基于耳蜗滤波的听觉事件检测 38-40 3.2.2 基于语谱图的听觉事件检测 40-41 3.3 候选边界检测 41-42 3.4 声韵切分 42-46 3.4.1 清音声母检测 43-44 3.4.2 浊辅音声母检测 44-45 3.4.3 零声母音节和普通韵母检测 45-46 3.5 测试评估 46-49 3.5.1 实验语料 47 3.5.2 评估指标 47 3.5.3 实验结果 47-49 3.6 结论 49-50 第四章 基于切分的帧异步搜索 50-61 4.1 引言 50-51 4.2 帧同步Viterbi 搜索 51-54 4.2.1 Viterbi 算法 52-53 4.2.2 Viterbi-Beam 算法 53-54 4.2.3 Viterbi-Level Building 算法 54 4.3 声学层和语言层解码 54-59 4.3.1 声学层解码 55-57 4.3.2 语言层解码 57-59 4.4 测试评估 59-60 4.4.1 实验准备 59 4.4.2 识别器构建 59 4.4.3 实验结果 59-60 4.5 结论 60-61 结束语 61-63 论文工作总结 61 进一步研究方向 61-63 参考文献 63-68 作者简历 攻读硕士学位期间完成的主要工作 68-69 致谢 69
|
相似论文
- 多重ANN/HMM混合模型在语音识别中的应用,TN912.34
- 基于DSP的机器人语音命令识别系统研制,TN912.34
- 在智能手机环境下健康管理功能设计与研究,TN929.53
- 移动音视频交互业务执行平台的研究,TN915.09
- 呼叫中心IVR系统的设计与实现,TN99
- 基于HMM的机器人语音识别系统的研究,TN912.34
- 基于改进MFCC的语音识别系统研究及设计,TN912.34
- 基于听觉注意的认知脑—机接口研究,R318.0
- 仿真机器人控制系统,TP242
- 基于VoiceXML的语音智能交互平台的研究与实现,TP311.52
- 基于词片网格的语音文档主题分类,TN912.3
- 基于HMM和PNN的混合语音识别模型研究,TN912.34
- 移动机器人语音识别控制仿真系统的设计与实现,TN912.34
- 基于动态贝叶斯网络的连续语音识别研究,TN912.34
- 基于STRAIGHT谱的语音识别算法研究,TN912.34
- 面向机器人对话的语音识别关键技术的研究,TN912.34
- 基于自适应的LVCSR系统半监督学习方法的研究,TN912.34
- 汉语语音识别中语言模型的并行优化,TN912.34
- 基于双自由度自适应轮系多功能代步车,U489
- 庆阳市西峰区方言声调实验研究,H17
中图分类: > 工业技术 > 无线电电子学、电信技术 > 通信 > 电声技术和语音信号处理 > 语音信号处理 > 语音识别与设备
© 2012 www.xueweilunwen.com
|