学位论文 > 优秀研究生学位论文题录展示

利用矢量量化(VQ)和混合高斯模型(GMM)的说话人识别的研究

作 者: 王吉林
导 师: 赵力
学 校: 东南大学
专 业: 信号与信息处理
关键词: 说话人识别 矢量量化 混合高斯模型 LPC倒谱系数 指数归一化变换
分类号: TN912.3
类 型: 硕士论文
年 份: 2004年
下 载: 495次
引 用: 13次
阅 读: 论文下载
 

内容摘要


说话人识别始于20世纪30年代,从20世纪60年代开始日益成为当今的一个研究热点。说话人识别具有广泛的应用前景,如保安、公安司法、军事、财经和信息服务等领域。正因为说话人识别具有如此广阔的应用前景,国内外许许多多的工作者投身于这一领域的研究中,使得说话人识别方面出现巨大发展。但它还远远没有成熟。本课题以语音信号的LPC倒谱系数,差值倒谱系数,基音周期和差值基音周期的混合特征参数作为识别的特征矢量集,运用矢量量化(VQ)技术实现与文本有关的说话人识别。在一个10人,1800个的语音库上进行了系统的识别实验,单音节语音的平均识别率达到了92%,双音节语音的平均识别率达到了96.67%,四音节语音的识别率达到了97.67%,说话人识别的实时识别率达到了90%以上,达到了较为满意的识别效果。在矢量量化中引入模糊聚类算法,实现了对硬聚类算法的有效扩展,提高了码本的量化精度。混合高斯模型(GMM)是最优的与文本无关说话人识别的模型,而环境与个性特征的变化是影响采用GMM识别率的重要因素。本文从帧似然概率的统计特性出发,提出了一种非线性变换方法——指数归一化变换。理论推导和实验结果表明,该变换能够提高识别率。本篇论文从常用语音特征参量的提取、基于矢量量化和混合高斯模型的说话人识别、识别方法的优化及系统实现与实验结果这几个方面讨论了说话人识别的应用技术,并对实验结果进行了讨论。

全文目录


摘要   4-5
Abstract  5-6
目录  6-8
第一章 绪论  8-14
  1.1 说话人识别的基本概念  8-11
  1.2 说话人识别技术的分类  11-12
  1.3 说话人识别的研究进展  12-13
    1.3.1 说话人识别的发展  12
    1.3.2 说话人识别技术的研究现状  12-13
  1.4 本论文的内容安排  13-14
第二章 语音特征参数分析  14-27
  2.1 特征参量评价方法  15-16
  2.2 语音信号产生模型及信号加窗  16-18
  2.3 常用的特征语音参数  18-27
    2.3.1 LPC倒谱参数  18-23
    2.3.2 MEL倒谱参数  23-24
    2.3.3 基音周期的估计  24-26
    2.3.4 参数讨论  26-27
第三章 矢量量化(VQ)识别方法及其优化  27-42
  3.1 概述  27-28
  3.2 矢量量化的基本原理  28-31
  3.3 矢量量化的失真测度  31-32
  3.4 矢量量化的最佳码本设计  32-38
    3.4.1 LBG算法  33-34
    3.4.2 初始码本的设置方法  34-38
  3.5 矢量量化识别方法的优化  38-42
    3.5.1 矢量量化说话人识别方法的局限性  38
    3.5.2 近邻划分算法  38-40
    3.5.3 模糊矢量量化(Fuzzy VQ)  40-42
第四章 HMM模型在说话人识别中的应用  42-51
  4.1 HMM模型  42-43
  4.2 GMM模型  43-48
    4.2.1 GMM的基本概念  43-44
    4.2.2 最大似然(ML)和最大期望算法(EM)  44-46
    4.2.3 GMM的参数估计  46-47
    4.2.4 训练数据不充分的问题  47
    4.2.5 GMM模型的识别问题  47-48
  4.3 GMM识别方法的优化  48-51
第五章 系统实现与实验结果  51-61
  5.1 概述  51
  5.2 语音库的建立及语音信号的预处理  51-52
  5.3 应用矢量量化(VQ)的说话人识别  52-55
    5.3.1 应用VQ的说话人识别过程  53-54
    5.3.2 模糊矢量量化(Fuzzy VQ)的识别  54-55
  5.4 GMM模型的识别  55-61
    5.4.1 基于GMM模型的与文本无关说话人识别方法  55-56
    5.4.2 线性变换与误识率  56-57
    5.4.3 指数归一化变换  57-59
    5.4.4 实验结果与分析  59-61
结论  61-62
致谢  62-63
参考文献  63-64

相似论文

  1. 基于重叠变换与矢量量化的图像压缩算法及应用研究,TN919.81
  2. 复杂场景中运动目标的检测与跟踪,TP391.41
  3. 运动目标检测与跟踪的研究,TP391.41
  4. 量子粒子群算法研究及其在图像矢量量化码书设计中的应用,TP301.6
  5. 压缩感知算法及其在矢量量化中的应用,TN911.7
  6. 视频监控系统中的运动目标检测算法研究,TP391.41
  7. Pre~2VOD:一种VCR操作支持的VOD/P2P系统,TN948.64
  8. 嵌入式目标检测与跟踪系统设计及算法实现,TP391.41
  9. 语音人工带宽扩展算法研究,TN912.3
  10. 基于粒子滤波与Mean Shift平滑运动跟踪的研究与实现,TP391.41
  11. 复杂信道下的说话人识别技术,TN912.34
  12. 分布式声源定位与跟踪算法研究,TN912.3
  13. 基于VC++6.0的说话人识别系统的研究,TN912.34
  14. 基于矢量量化的高光谱图像无损压缩算法研究,TP751.1
  15. 智能交通视频监控系统中关键技术研究,TP391.41
  16. 边界防御系统中移动目标跟踪技术研究与实现,TP391.41
  17. 基于粒子滤波与Mean Shift平滑运动跟踪的研究与实现,TP391.41
  18. 基于移动网络的智能视频监控系统的设计,TP391.41
  19. 基于混合特征和高斯混合模型的说话人识别研究,TN912.34
  20. 甚低速率语音编码器算法研究,TN912.3
  21. 端到端保密通信中的类语音调制解调研究,TN918

中图分类: > 工业技术 > 无线电电子学、电信技术 > 通信 > 电声技术和语音信号处理 > 语音信号处理
© 2012 www.xueweilunwen.com