学位论文 > 优秀研究生学位论文题录展示

基于GMM-UBM的快速说话人识别方法

作 者: 王秋雯
导 师: 韩纪庆
学 校: 哈尔滨工业大学
专 业: 计算机科学与技术
关键词: 说话人识别 GMM-UBM 核心挑选算法 置信分 概率阈值
分类号: TN912.34
类 型: 硕士论文
年 份: 2011年
下 载: 42次
引 用: 0次
阅 读: 论文下载
 

内容摘要


文本无关的说话人识别,由于其实际应用下的灵活性,而成为语音识别领域的研究重点。自从1999年美国国家标准技术研究所(National Institute of Standards and Technology,NIST)举办的评测中,高斯混合模型——通用背景模型(Gaussian Mixture Model - Universal Background Model,GMM-UBM)作为基准系统获得优异识别率后,该方向的研究都以其为基准模型,并对其进行改进。尽管说话人识别系统已经取得了比较令人满意的效果,但进行匹配前需大量的似然分计算,由于该因素的影响使得系统识别速度明显下降,因此实用性不佳。本文的主要目的是在尽量不降低识别率的前提下,减少计算量以实现快速说话人识别。针对说话人识别中计算量大、运行速度慢的情况,本文在基于树形结构的核心挑选算法基础上进行改进,自顶向下搜索UBM中输出测试语音特征矢量似然分最高的分布,此后与目标说话人模型匹配时,只需计算核心分布的似然分进行识别。改进算法应用到基准系统后,核心挑选速度提高了14.7倍。鉴于特征序列对最终的识别结果无影响,因此系统结合矢量序列重排的剪枝算法后,整个系统速度提高到21.7倍,识别率略有降低。为了提高识别率,论文中将支持向量机(Support Vector Machine,SVM)中径向基核函数引入到说话人识别中,识别率提高到与基准系统一致。本文针对女性声音在开集识别时识别率下降明显的情况提出了概率阈值的思想,应用于基准系统后速度有所下降,识别率提高了0.7%。同时对分段置信分改进来解决部分匹配情况对最终识别结果的影响,本文中采用不同的参数来进行实验比较,最终选择每一小段的平均值作为该段的置信分,然后通过三层前馈网络形成最后的置信分,实验证明与使用似然比的基准系统比较,集内正确率提高了2.6%,集外错误率下降了2%。

全文目录


摘要  4-5
Abstract  5-9
第1章 绪论  9-13
  1.1 课题背景及研究的目的和意义  9-10
  1.2 国内外在该方向上的发展历程和研究现状  10-11
  1.3 本文的主要研究内容  11-13
第2章 GMM-UBM 基准说话人识别系统  13-22
  2.1 引言  13-14
  2.2 GMM-UBM 基准系统的建立  14-20
    2.2.1 前端处理  15-17
    2.2.2 目标人模型的建立  17-19
    2.2.3 似然分计算  19-20
  2.3 本文实验使用的语料库  20
  2.4 基准系统实验  20-21
  2.5 本章小结  21-22
第3章 基于树的挑选和特征序列重排的快速识别  22-43
  3.1 引言  22-24
  3.2 树形结构的挑选算法  24-31
    3.2.1 树形结构  24-25
    3.2.2 树形结构的构建  25-31
  3.3 特征序列重排的剪枝算法  31-33
    3.3.1 剪枝算法的基本思想  31
    3.3.2 特征序列重排的剪枝算法  31-33
  3.4 基于径向基函数的识别性能改进  33-34
  3.5 实验与分析  34-41
    3.5.1 基于树形结构挑选的实验  35-38
    3.5.2 基于特征序列重排的实验  38-40
    3.5.3 树形结构挑选和特征序列重排相结合的实验  40
    3.5.4 基于径向基函数的实验  40-41
  3.6 本章小结  41-43
第4章 说话人系统快速识别的后处理  43-56
  4.1 引言  43-44
  4.2 GMM-UBM 说话人识别的确认环节  44-46
    4.2.1 确认环节的背景模型  44-45
    4.2.2 确认环节的判定过程  45-46
  4.3 基于分段置信分的确认  46-49
    4.3.1 多种统计参数  46-48
    4.3.2 分段置信的基本思想  48-49
    4.3.3 标量分数的转换  49
  4.4 基于概率阈值的确认  49-51
  4.5 实验与分析  51-55
    4.5.1 基于分段置信分确认的实验  51-54
    4.5.2 基于概率阈值确认的实验  54-55
  4.6 本章小结  55-56
结论  56-57
参考文献  57-61
致谢  61

相似论文

  1. 基于不确定数据的轮廓查询处理技术研究,TP311.13
  2. 基于电话信道的声纹识别算法研究,TN912.34
  3. 复杂信道下的说话人识别技术,TN912.34
  4. 基于VC++6.0的说话人识别系统的研究,TN912.34
  5. 基于混合特征和高斯混合模型的说话人识别研究,TN912.34
  6. 基于Windows CE的说话人识别系统的设计与实现,TN912.34
  7. 说话人识别中特征参数的提取及优化研究,TN912.34
  8. 基于文本无关的说话人识别研究,TN912.34
  9. 多路并行实时说话人识别算法研究与实现,TN912.34
  10. 基于支持向量机的说话人识别系统的开发,TN912.34
  11. 基于电话语音的少数民族语种识别研究,TN912.34
  12. 与文本无关的开集说话人识别技术研究,TN912.34
  13. 噪声环境下的说话人识别研究,TN912.34
  14. 基于EMD的说话人识别研究,TN912.34
  15. 网络环境下实时音频解码与鲁棒说话人识别系统研究,TN912.34
  16. 文本相关说话人识别嵌入式系统及其关键技术研究,TN912.34
  17. 基于语音信号时变特性的说话人识别,TN912.34
  18. 基于JFA的汉语耳语音说话人识别,TN912.34
  19. 基于韵律特征的SVM说话人识别,TN912.34
  20. 基于混合高斯模型的说话人识别,TN912.34

中图分类: > 工业技术 > 无线电电子学、电信技术 > 通信 > 电声技术和语音信号处理 > 语音信号处理 > 语音识别与设备
© 2012 www.xueweilunwen.com