学位论文 > 优秀研究生学位论文题录展示

基于连续隐马尔可夫模型的说话人识别

作 者: 王红睿
导 师: 赵黎明
学 校: 吉林大学
专 业: 控制理论与控制工程
关键词: 说话人辨认 端点检测 语音活动检测 K均值聚类法 隐马尔可夫模型初值 连续隐马尔可夫模型 区别性训练法 最大互信息训练法
分类号: TN912.34
类 型: 硕士论文
年 份: 2006年
下 载: 279次
引 用: 5次
阅 读: 论文下载
 

内容摘要


说话人识别是生物特征识别领域的一个重要分支。它采用语音数据自动地鉴定测试者身份。说话人识别以其经济性和易用性,在保安、金融、司法等领域有着广阔的应用前景。“与文本相关的说话人识别”由于识别率高更是受到众多研究者的关注。本文针对“与文本相关的说话人识别”目前存在的问题着重进行了研究。 笔者设计的说话人识别系统包括以下几个部分,前端处理、端点检测、特征矢量计算、连续隐马尔可夫模型训练或测试者身份辨认。 为了解决端点检测环境变化适应能力差的问题,本文提出了语音起点判据、语音终点判据和仿人智能端点检测方法。孤立词端点检测实验表明仿人智能端点检测法性能远远超过了双门限端点检测法。孤立词和连续数字串端点检测实验表明仿人智能端点检测法具有较强的环境变化适应能力和抗噪声干扰能力。 在待训练特征矢量样本数少且要求聚类算法运行效率的前提下,为获得更为可靠的初始连续隐马尔可夫模型,本文提出了均衡化改进K均值聚类法。初始模型提取实验表明均衡化改进K均值聚类法克服了标准K均值聚类法分类不均匀的缺点,更为可靠地估计了各高斯概率密度函数的参数。 考虑到训练语音数据有限且分散、语音模型和实际语音分布有差距,本文采用区别性训练法来估计连续隐马尔可夫模型的参数。孤立词实验表明,区别性训练法和Baum-Welch参数重估算法相比,将识别正确率提高了15.33%。以15维的Mel频率倒谱系数作为特征,用区别性训练法估计连续隐马尔可夫模型的参数,说话人辨认的识别正确率从Baum-Welch训练法的96.88%上升到99.22%。

全文目录


第一章 引言  7-15
  1.1 身份验证  7-8
  1.2 说话人识别的基本概念  8-9
  1.3 说话人识别的应用  9
  1.4 说话人识别的研究历史和现状  9-12
  1.5 说话人识别原理  12-13
  1.6 主要研究内容和论文结构  13-14
  1.7 本章小节  14-15
第二章 语音信号的前端处理  15-21
  2.1 语音信号的数字化  15
  2.2 语音信号的数字模型  15-16
  2.3 语音信号的预加重  16-18
  2.4 短时分帧  18-20
  2.5 本章小结  20-21
第三章 仿人智能语音端点检测方法  21-45
  3.1 端点检测概述  21-22
  3.2 短时幅度和短时过零率  22-25
    3.2.1 短时幅度  23
    3.2.2 短时过零率  23-25
  3.3 几种阈值依赖的端点检测算法简介  25-29
    3.3.1 双门限端点检测法  25-27
    3.3.2 快速端点检测算法  27-29
    3.3.3 倒谱特征端点检测算法  29
  3.4 仿人智能端点检测法  29-36
    3.4.1 语音起点判据和语音终点判据  30-33
    3.4.2 仿人智能端点检测算法  33-36
  3.5 端点检测实验  36-44
    3.5.1 孤立词端点检测实验  36-41
    3.5.2 连续数字串端点检测实验  41-44
  3.6 本章小结  44-45
第四章 特征矢量提取  45-53
  4.1 倒谱处理  46-47
  4.2 线性预测倒谱系数  47-48
  4.3 Mel频率倒谱系数  48-52
    4.3.1 Mel频率倒谱系数计算  49-52
    4.3.2 特征矢量的均值归一化  52
  4.4 本章小结  52-53
第五章 隐马尔可夫模型  53-75
  5.1 隐马尔可夫模型基本理论  53-54
  5.2 隐马尔可夫模型应用于语音识别的3个问题  54-59
    5.2.1 计算输出序列的产生概率  54-56
    5.2.2 最优状态序列搜索-Viterbi算法  56-57
    5.2.3 CHMM参数的Baum-Welch重估算法  57-59
      5.2.3.1 A和a的重新估计  58
      5.2.3.2 观察矢量输出概率密度函数的重新估计  58-59
  5.3 CHMM的初始模型估计及其参数训练  59-66
    5.3.1 CHMM模型参数分段 K均值训练算法  60-61
    5.3.2 均衡化改进 K均值聚类法  61-66
      5.3.2.1 EMKC算法描述  62-63
      5.3.2.2 CHMM初始模型提取实验  63-66
  5.4 CHMM的区别性训练法  66-70
    5.4.1 近似 MMI算法  67-68
    5.4.2 使用不完全数据的模型最优化过程  68-69
    5.4.3 CHMM的区别性参数重估法  69-70
  5.5 CHMM参数训练实验  70-74
    5.5.1 应用 Baum-Welch参数重估法的实验  71-72
    5.5.2 应用区别性训练法的实验  72-74
  5.6 本章小结  74-75
第六章 说话人识别  75-81
  6.1 说话人识别的方法  75-77
  6.2 采用 CHMM进行说话人识别的原理  77-78
  6.3 说话人识别实验  78-80
    6.3.1 语音库描述  78
    6.3.2 说话人辨认实验  78-80
  6.4 本章小结  80-81
第七章 全文总结和研究展望  81-83
  7.1 全文总结  81-82
  7.2 研究展望  82-83
参考文献  83-87
摘要  87-89
Abstract  89-92
致谢  92

相似论文

  1. 说话人识别中不同语音编码影响的补偿方法,TN912.34
  2. 数字助听器中语音增强技术的研究,TN912.35
  3. 基于经验模态分解的语音端点检测算法研究,TN912.3
  4. 说话人识别中特征参数的提取及优化研究,TN912.34
  5. 自适应低速率语音编解码研究与实现,TN912.3
  6. 基于DSP的语音识别技术的研究,TN912.34
  7. 基于小波变换的汽车语音特征指令逼近与端点检测方法,TN912.3
  8. 噪声环境下说话人特征参数提取研究,TN912.3
  9. 说话人识别系统的研究及DSP实现,TN912.34
  10. 特定人孤立词语音识别系统的ASIC设计,TN912.34
  11. 与文本无关的说话人识别关键技术研究及系统设计,TN912.34
  12. 连续语音流中咳嗽信号的识别,TN912.34
  13. 三维人脸唇形动画的语音驱动研究,TN912.34
  14. 基于特定人小词汇量藏语语音特征值提取的研究,H214
  15. 语音识别关键技术研究及系统实现,TN912.34
  16. 噪声环境下基于特征的语音端点检测研究,TN912.3
  17. 报告厅环境下语音增强方法研究,TN912.35
  18. 伪装迷彩的背景主色提取算法研究,TP391.41
  19. TD-SCDMA网络测试软件中语音识别模块的设计与实现,TN912.34
  20. 基于车载嵌入式的语音端点检测算法研究,TN912.3
  21. 声纹密码识别的关键问题研究,TN918.2

中图分类: > 工业技术 > 无线电电子学、电信技术 > 通信 > 电声技术和语音信号处理 > 语音信号处理 > 语音识别与设备
© 2012 www.xueweilunwen.com