学位论文 > 优秀研究生学位论文题录展示

汉语语音识别中语言模型的并行优化

作 者: 金玮
导 师: 孙甲松
学 校: 清华大学
专 业: 信息与通信工程
关键词: 语音识别 N元有调拼音文法模型 并行优化 吞吐量
分类号: TN912.34
类 型: 硕士论文
年 份: 2010年
下 载: 87次
引 用: 0次
阅 读: 论文下载
 

内容摘要


语言模型是语音识别系统的一个重要组成部分,随着所处理语音的复杂性增加和语料库体积的变大,作为识别系统后端的语言模型在系统中的地位已经是不可或缺的。选择适合的语言模型,能够很大的提高系统的性能,处理更自然的语音,使识别结果更接近说话人想要表达的真实意思。而随着我们研究的进行,我们发现除了以上指标以外,语音识别系统作为一个对话系统,更应该提供给用户一个友好的人机界面,提供给用户更高的识别速度。因此对系统的吞吐量的需求逐渐显现出来。与此同时,多核技术和并行技术已经兴起,这使得我们看到了提高系统性能的新的空间。利用好并行技术,将其应用到系统合适的地方,能够成倍的提升系统的性能。在这个背景下,我们利用这些技术来优化已有汉语音识别系统的语言模型,提出了一个新的数据模型来实现Trigram模型中的快速查找,并在此基础上缓存优化N元语言模型。新提出的改进方法能够将吞吐量提高近3倍,较好的改善了系统的性能。除此之外,我们为了适应配置较低的环境配置,还提出了对内存和CPU依赖不高的方法来优化语言模型中的计算,例如内嵌函数,利用查表的方法优化程序中消耗较高的计算(如log计算),去除程序中的冗余计算等。这些方法也能够小幅度提升系统的性能。之后,我们利用并行优化技术将语言模型中前向后向算法并行,使数据在较短的时间内能够被充分的处理改善了人机交互的等待时间,提高了实时率。论文介绍了对不同长度候选序列的并行系统的原理,并给出了的实现。最后给出了在120句语音的时长644.3秒测试数据上的实验结果:实时率仅为0.2375,检索速度得到了很大的提高。加速比达3.3以上,说明了本系统的优越性。

全文目录


摘要  3-4
Abstract  4-8
第1章 引言  8-15
  1.1 语音识别技术概述  8-12
    1.1.1 语音识别技术发展历史回顾  8-9
    1.1.2 语音识别技术的关键问题  9-12
  1.2 语音识别中的语言模型  12-13
    1.2.1 研究语言模型的背景与意义  12
    1.2.2 研究语言模型优化处理的必要性  12-13
    1.2.3 优化语言模型存在的困难和挑战  13
  1.3 论文章节安排  13-15
第2章 语音识别的分层策略  15-21
  2.1 语音识别的分层识别策略  15-20
    2.1.1 语音识别系统框架  15-16
    2.1.2 实验所用语音识别系统框架  16-18
    2.1.3 语音识别系统分层策略  18-20
  2.2 本章小节  20-21
第3章 语言模型和其中的计算优化  21-31
  3.1 N 元语言模型  21-22
    3.1.1 经典N-gram 模型简介  21-22
  3.2 现存N 元语言模型的改进方法  22-24
  3.3 N 元语言模型的计算优化  24-28
    3.3.1 N 元语言模型中的数据稀疏问题和线性插值方法  24-25
    3.3.2 Trigram 快速查找的数据模型  25-26
    3.3.3 缓存优化N 元语言模型  26-28
  3.4 实验结果  28
    3.4.1 实验设置  28
    3.4.2 实验结果  28
  3.5 其他计算优化  28-31
第4章 语言模型中的并行优化  31-40
  4.1 本章引论  31
  4.2 实验中所用到的评价参数  31-32
    4.2.1 语言模型处理所用时间  31
    4.2.2 语言模型的实时率  31-32
    4.2.3 正确率  32
  4.3 N 元拼音文法的候选选择算法  32-35
    4.3.1 N 元拼音文法的候选选择算法简介  32-35
  4.4 语音模型中前向和后向算法并行优化  35-37
    4.4.1 前向和后向算法并行  35-36
    4.4.2 实验设置  36
    4.4.3 实验结果  36-37
  4.5 在多核平台上的数据并行优化  37-39
    4.5.1 将不同长度的候选序列处理过程并行  37-38
    4.5.2 并行处理中内存和CPU 的分配  38-39
    4.5.3 实验设置  39
    4.5.4 实验结果  39
  4.6 本章小节  39-40
第5章 结论和展望  40-42
  5.1 论文结论  40-41
  5.2 可进一步开展的工作  41-42
参考文献  42-44
致谢  44-45
个人简历、在学期间发表的学术论文与研究成果  45

相似论文

  1. 多重ANN/HMM混合模型在语音识别中的应用,TN912.34
  2. 基于DSP的机器人语音命令识别系统研制,TN912.34
  3. 在智能手机环境下健康管理功能设计与研究,TN929.53
  4. 遥感数据处理网格平台的设计与初步实现,TP79
  5. 多跳Ad Hoc网络的TCP性能改进,TN929.5
  6. IEEE802.11速率自适应算法的实现与性能分析,TN929.5
  7. 异构无线网络中TCP性能的研究与改进,TN929.5
  8. TD-LTE系统中的动态资源分配技术的研究,TN929.5
  9. 应用于MIMO-OFDM系统的FFT处理器的研究与设计,TN919.3
  10. 移动音视频交互业务执行平台的研究,TN915.09
  11. 深圳电信CDMA无线网络规划研究与建议,TN929.533
  12. 无线网络中基于网络编码的机会路由研究,TN929.5
  13. 呼叫中心IVR系统的设计与实现,TN99
  14. 无线环境下基于网络规模的最佳侦听范围的研究,TN92
  15. 新建支线机场通航可行性论证方法研究,F562
  16. 基于HMM的机器人语音识别系统的研究,TN912.34
  17. 基于改进MFCC的语音识别系统研究及设计,TN912.34
  18. 仿真机器人控制系统,TP242
  19. 基于VoiceXML的语音智能交互平台的研究与实现,TP311.52
  20. 并行Apriori算法的性能优化技术研究,TP311.13
  21. 基于词片网格的语音文档主题分类,TN912.3

中图分类: > 工业技术 > 无线电电子学、电信技术 > 通信 > 电声技术和语音信号处理 > 语音信号处理 > 语音识别与设备
© 2012 www.xueweilunwen.com