学位论文 > 优秀研究生学位论文题录展示

基于GMM-UBM模型的语种识别

作 者: 徐永华
导 师: 杨鉴
学 校: 云南大学
专 业: 信号与信息处理
关键词: 语种识别 高斯混合模型 背景模型 语言模型 判决层融合 非监督的自适应 得分规整
分类号: TN912.34
类 型: 硕士论文
年 份: 2010年
下 载: 108次
引 用: 2次
阅 读: 论文下载
 

内容摘要


语种识别(Language Identification)是计算机通过分析处理一段语音以判别其所属语种的过程,该技术是近年来语音识别领域的一个新的研究热点,它在多语种信息检索和查询,机器翻译和多语种语音识别的前端处理,以及军事领域中扮演着很重要的角色。并行音素识别结合语言模型(PPR-LM)是最经典的语种识别方法。然而,训练音素识别器时,需要大量人工标注好的音素语料,因而PPR-LM系统的移植性较差。基于GMM的语种识别系统,不需要人工标注语料,具有良好的移植性,特别适合于中国少数民族语的语种识别。论文主要研究与文本无关的语种识别方法,利用通用背景高斯混合模型(GMM-UBM)、语言模型、非监督模型和得分自适应方法建立语种识别系统,以探索提高识别率的途径。论文的主要工作包括:(1)构建一个面向少数民族语种识别的电话语音数据库,该数据库包括8种少数民族语和汉语普通话,每个发音人将有一段谈话录音和20句时间不等的自动问答录音;除汉语发音人外,每个民族语发音人分别用本民族语和汉语普通话完成谈话录音和自动问答录音。(2)利用PPR-LM语种识别原理,构建了一个新的GMM-UBM-LM语种识别系统。该系统充分利用了语言底层的声学信息和音位结构分布信息。以5种语言的电话语音为实验数据,分别设计并实现了三种实验:(a)基本GMM-UBM语种识别实验;(b)采用声学得分和语言模型得分直接相加的GMM-UBM-LM语种识别实验; (c)利用LDA技术实现后端分类的GMM-UBM-LM语种识别实验。(3)在基本的GMM-UBM语种识别系统的基础上,引入非监督得分规整自适应技术,构建新的语种识别系统,以减小同一语种的不一致性,扩大不同语种识别之间的不一致性。设计并完成该语种识别系统的实验,给出详细的实验对比以及讨论。实验结果表明:论文设计的基于GMM-UBM、语言模型(LM)和非监督得分规整的语种识别系统具有较好的扩展性和应用性。利用LDA技术实现后端分类的GMM-UBM-LM语种识别实验,识别率提高10%,但系统的语言模型(LM)训练时间较长和实时性较差;非监督得分规整的语种识识别率提高11%,系统的实时性较好。如果有足够的测试语料,该方案将会获得更好的识别效果。

全文目录


摘要  3-5
Abstract  5-10
第1章 绪论  10-16
  1.1 引言  10-11
  1.2 语种识别的进展  11-14
    1.2.1 基于声学特征的方法  11
    1.2.2 基于韵律特征的方法  11-12
    1.2.3 基于音素识别的方法  12
    1.2.4 基于高层语言信息的方法  12-13
    1.2.5 LID 系统评测  13-14
  1.3 论文的研究思路  14
  1.4 作者的工作  14-15
  1.5 论文的结构  15-16
第2章 面向语种识别的电话语音数据库的构建  16-23
  2.1 引言  16-17
  2.2 语音数据库的设计  17-20
    2.2.1 发音人的选择方案  17-18
    2.2.2 固定提问语句集  18-19
    2.2.3 汉语借词的语料  19
    2.2.4 录音流程  19-20
  2.3 录音软件设计与硬件需求  20-22
    2.3.1 录音系统的硬件和软件开发平台  20
    2.3.2 录音软件的工作流程  20-21
    2.3.3 录音软件的系统构成  21-22
  2.4 数据的后期处理  22-23
第3章 基于GMM-UBM 的语种识别  23-38
  3.1 引言  23
  3.2 语音信号的预处理  23-24
  3.3 RASTA 滤波器  24-25
    3.3.1 RASTA 基本原理  24-25
    3.3.2 RASTA 滤波与MFCC 的结合  25
  3.4 MFCC 特征参数  25-26
  3.5 高斯混合模型  26-30
    3.5.1 高斯混合模型基本原理  26-28
    3.5.2 高斯混合模型的训练  28-29
    3.5.3 基于高斯混合模型的语种识别  29-30
  3.6 基于GMM 的PPR-LM 模型  30-31
  3.7 GMM-UBM 模型  31-35
    3.7.1 MAP 自适应算法  33-35
    3.7.2 对数似然比的计算  35
  3.8 语言模型  35-37
  3.9 本章小结  37-38
第4章 GMM-UBM-LM 语种识别系统  38-45
  4.1 引言  38-42
    4.1.1 基于GMM-UBM 改进模型的实验  38-39
    4.1.2 GMM-UBM 语料选择方案  39
    4.1.3 语种模型训练  39-40
    4.1.4 语言模型的训练  40
    4.1.5 后端得分处理  40-42
  4.2 实验数据库  42-43
  4.3 实验方案  43
  4.4 实验结果与讨论  43-45
    4.4.1 讨论  44-45
第5章 采用非监督得分规整自适应GMM-UBM 语种识别  45-53
  5.1 引言  45-46
  5.2 非监督得分规整自适应算法  46-50
    5.2.1 得分规整  46-47
    5.2.2 置信度  47-48
    5.2.3 得分模型更新  48-50
  5.3 实验方案  50-51
    5.3.1 实验数据库  50
    5.3.2 非监督得分规整语种识别系统  50-51
  5.4 实验结果与讨论  51-53
    5.4.1 实验结果  51
    5.4.2 讨论  51-53
第6章 总结和展望  53-55
  6.1 总结  53
  6.2 展望  53-55
参考文献  55-59
致谢  59-60
参加的项目和发表的论文  60

相似论文

  1. 统计机器翻译中结构转换技术的研究,TP391.2
  2. 词义消歧语料库自动获取方法研究,TP391.1
  3. 基于车载3D加速传感器的路况监测研究,TP274
  4. 高质量语音转换系统中关键技术的研究,TN912.3
  5. 基于组合及统计的图像型垃圾邮件检测研究,TP391.41
  6. 多特征融合的视觉跟踪算法研究,TP391.41
  7. 面向PTZ摄像机的运动目标检测技术研究,TP391.41
  8. 基于信息依存语言模型的英汉被动结构对比研究,H314.3
  9. 基于词典和概率统计的中文分词算法研究,TP391.1
  10. 复杂信道下的说话人识别技术,TN912.34
  11. 无线传感器网络中的追击者—逃跑者跟踪问题研究,TP212.9
  12. 基于MDA的UML模型转换研究,TP311.52
  13. 基于信息几何的高阶纯相关模型及其应用,TP391.1
  14. 语句级联机手写汉字识别方法,TP391.43
  15. UML在空调嵌入式系统开发中的应用研究,TP368.12
  16. 音频结构化技术研究,TN912.3
  17. 高斯混合模型及在探测网络社区结构中的应用,TP393.094
  18. 基于模型驱动的动态Web服务组合方法,TP393.09
  19. 运动人体检测与异常行为识别技术研究与实现,TP391.41
  20. 面向智能视频监控的事件检测建模及优化,TP391.41
  21. 层析芯片阳性信号的信息提取和定量分析研究,TP391.41

中图分类: > 工业技术 > 无线电电子学、电信技术 > 通信 > 电声技术和语音信号处理 > 语音信号处理 > 语音识别与设备
© 2012 www.xueweilunwen.com