学位论文 > 优秀研究生学位论文题录展示

连续语音识别搜索算法的研究与应用

作 者: 陈荔龙
导 师: 赵荣椿
学 校: 西北工业大学
专 业: 计算机应用技术
关键词: 连续语音识别 搜索算法 Mel倒谱系数 隐马尔可夫模型 Viterbi beam搜索算法 高斯混合概率密度 Baum-Welch算法 前向-后向算法 状态捆绑 上下文无关文法 说话人自适应 极大似然线性回归 解码 令牌传递模型 裁剪 最大模型数裁剪 自适应裁剪门限 自适应Viterbi beam搜索算法 最近邻估算
分类号: TN912.3
类 型: 硕士论文
年 份: 2002年
下 载: 459次
引 用: 11次
阅 读: 论文下载
 

内容摘要


二十世纪九十年代以来,连续语音识别技术取得了突破性的进展,推动了多种应用的发展。如今,我们正在步入移动互联和电子商务时代。嵌入式系统和移动通信领域的新应用迫切需要更高效、更快速和价格更加低廉的语音识别系统,因此,语音识别系统的实时性成为当前的研究热点,而语音识别系统实时性能取决于搜索算法的效率。本文主要研究了连续语音识别搜索算法的基本原理,对搜索算法的综合应用进行了实践,并且对现有算法进行了改进优化。 连续语音识别实质上是在语音学、语言学等多层知识定义的状态空间内搜索最符合语音输入的词序列。为了有效地组织各种知识源,约束搜索空间,基于动态规划思想的Viterbi beam搜索算法成为目前连续语音识别主要采用的方法。本文深入分析讨论了Viterbi beam搜索算法的原理、特点和实现技术,详细讨论了状态层、词层的搜索空间裁剪策略和最大模型数裁剪策略。为了验证Viterbi beam搜索算法的有效性,本文设计了可行的Viterbi beam搜索策略,构建了小型英文连续语音识别系统ATW(Ask The Way)。实验表明,ATW系统在低配置计算机上运行,基本实现了实时连续语音识别,识别率在97%以上。 本文进一步通过实验分析了Viterbi beam搜索算法的缺陷。Viterbi beam搜索算法使用固定的裁剪门限,没有考虑搜索过程中不同阶段的不同特性和模型匹配不同语音输入的差异性,只能从最保守的角度去设置裁剪门限,浪费了很多计算资源。另外,在Viterbi beam搜索过程中,计算高斯混合概率密度时很费时。本文从两方面对Viterbi beam搜索算法进行了改进。一方面,使用自适应的裁剪门限代替固定不变的裁剪门限,分析了现有自适应Viterbi beam搜索算法的局限性,提出了基于活动模型数变化的自适应Viterbi beam搜索算法。该算法根据搜索初期阶段模型最少驻留帧数和活动模型数变化的关系自适应的增大裁剪门限。与标准Viterbi beam搜索算法相比,基于活动模型数变化的自适应Viterbi beam搜索算法的搜索速度提高了35.56%。另一方面,使用高斯混合概率密度的最近邻快速估算方法,使标准Viterbi beam搜索算法的搜索速度提高了6.67%。本文对最近邻快速估算方法进行改进,在搜索过程中根据已处理过的数据统计出各个高斯混合分量产生最高对数概率的概率,并依此预测随后的计算中最有可能产生最高对数概率的高斯混合分量,优先计算更有可能产生最高对数概率的高斯混合分量,使标准Viterbi beam搜索算法的搜索速度提高了15.56%。 最后总结了本文的研究成果与创新,并对今后的研究方向提出了自己的建议。

全文目录


第一章 绪论  10-15
  1.1 课题来源及研究意义  10
  1.2 语音识别技术的研究与应用  10-12
  1.3 语音识别搜索算法的研究与应用  12-13
  1.4 本文主要工作及创新  13-14
  1.5 论文内容安排  14-15
第二章 基HMM的连续语音识别系统框架  15-34
  2.1 引言  15
  2.2 系统结构  15-17
  2.3 前端参数化  17-19
  2.4 声学建模  19-27
    2.4.1 音子模型与HMM基本概念  19-21
    2.4.2 HMM观测概率  21-22
    2.4.3 HMM训练算法  22-24
    2.4.4 上下文相关的音子模型  24-27
  2.5 语言建模  27-28
  2.6 解码  28-30
  2.7 说话人自适应  30
  2.8 Ask The Way连续语音识别系统  30-33
    2.8.1 HTK简介  31
    2.8.2 系统构建  31-32
    2.8.3 实验结果与评价  32-33
  2.9 小结  33-34
第三章 Viterbi beam搜索算法  34-47
  3.1 引言  34-35
  3.2 Viterbi全搜索算法原理  35-37
  3.3 Viterbi beam搜索算法原理  37-38
  3.4 Viterbi beam搜索算法的实现  38-41
  3.5 实验与分析  41-45
  3.6 小结  45-47
第四章 Viterbi beam搜索算法的改进  47-56
  4.1 引言  47
  4.2 基于活动模型数变化的自适应Viterbi beam搜索算法  47-51
    4.2.1 算法原理  48-50
    4.2.2 实验结果与分析  50-51
  4.3 连续高斯混合概率密度的快速估算方法  51-55
    4.3.1 算法原理  52-54
    4.3.2 实验结果与分析  54-55
  4.4 小结  55-56
第五章 结论  56-58
  5.1 本文的研究成果及创新  56-57
  5.2 进一步的工作  57-58
附录  58-64
参考文献  64-68
致谢  68

相似论文

  1. AVS视频解码器在PC平台上的优化及场解码的改善,TN919.81
  2. 面向统计机器翻译的解码算法的研究,TP391.2
  3. 风光互补并网发电系统及最大功率点追踪,TM61
  4. 基于量子搜索的Ad Hoc网络路由协议研究,TN929.5
  5. 基于LDPCA的分布式视频编码中的非均衡编码,TN919.81
  6. 多功能火灾报警楼层显示器的设计与实现,TN873
  7. 基于ARM920t的RFID阅读器基带部分的设计实现,TP391.44
  8. 变邻域搜索算法研究及在组合优化中的应用,TP301.6
  9. 文化智能优化算法及其在约束优化问题中的应用研究,O224
  10. 自适应OFDM数字基带接收器的低功耗研究,TN851
  11. 网络视频监控系统设计与实现,TP277
  12. 基于DM6467的视频服务器设计与实现,TP393.05
  13. 无线传感网中协作方式的研究,TP212.9
  14. 面向ARM嵌入式系统的H.264解码研究,TP368.1
  15. 嵌入式视频解码器运动补偿过程的数据布局优化,TN919.81
  16. 基于Cortex-A8平台的H.264解码器优化,TN919.81
  17. 基于Web架构的视频监控系统设计与实现,TP391.41
  18. 多协议即时通讯软件中间件的设计与实现,TP311.52
  19. 大规模三维场景实时呈现方法的研究,TP391.41
  20. 面向视频解码应用的可重构架构的模板设计与建模,TN919.81
  21. 基于条件随机场的RNA二级结构预测算法,R346

中图分类: > 工业技术 > 无线电电子学、电信技术 > 通信 > 电声技术和语音信号处理 > 语音信号处理
© 2012 www.xueweilunwen.com