学位论文 > 优秀研究生学位论文题录展示

基于特征变换和分类的文本无关电话语音说话人识别研究

作 者: 解焱陆
导 师: 戴蓓蒨
学 校: 中国科学技术大学
专 业: 信号与信息处理
关键词: 说话人识别 概率分布 说话人辨认 说话人确认 中国科学技术大学 混合度 语音参数 维纳滤波 文本无关 语音识别
分类号: TN912.34
类 型: 博士论文
年 份: 2007年
下 载: 581次
引 用: 16次
阅 读: 论文下载
 

内容摘要


文本无关电话语音的说话人身份识别的研究,由于其实用性,成为当今语音识别领域中的热门课题。目前,在这种复杂背景(多环境、多传输通道)下的说话人识别中,以GMM为代表的概率统计模型将话者识别问题转换成对话者语音数据分布的估计问题,取得了较好的识别效果,是当今的主流技术。然而,概率统计模型对数据有较强的依赖性,在有限训练集下,过多的模型参数将不能保证可靠估计;在训练和测试集失配的情况下,根据训练集估计的模型参数将不适用于测试集。这就限制了模型在复杂的实际环境中的性能。为了进一步提高文本无关说话人识别系统的性能及鲁棒性,本文从特征参数变换和特征空间分类的角度进行了深入研究。首先,本文针对语音信号测试和训练失配时,难以建立精确的高斯混合模型的问题,提出了一种语音参数的分段概率分布规整方法和一种基于峭度的参数规整方法。两种方法分别在概率分布和峭度的意义上将训练和测试参数都映射到一个较接近于高斯分布的情况,从而更有利于用混合度更低的模型来模拟信号在统计意义上的分布,更为准确的估计GMM的参数,在一定程度上解决了模型过学习的问题,提高了话者确认系统对电话语音长度以及使用环境的鲁棒性。其中,峭度规整方法的变换函数可以针对数据灵活调整,不会因为规整浪费语音数据,因此对短语音的说话人识别取得了更好的效果,对说话人识别技术的实用化有着重要的现实意义。其次,本文针对电话、手机语音的文本无关说话人确认,语音参数较短的问题,根据语音信号倒谱特征空间中特征矢量分布的非均匀性,以及不同的部分对说话人确认系统所具有不同的贡献和影响,提出了基于特征分类和多子系统SVM融合的CGMM-UBM结构说话人确认系统。实验表明,CGMM-UBM结构能够更为充分的利用训练数据,模型混合度可以较低,并且具有较高的模型训练效率,同时系统也获得了较好的识别性能与噪声鲁棒性,适于短语音情况下的说话人确认。SVM融合器用两类数据进行训练,因此具有良好的区分性,可以细致的反映各个子系统之间的关系,充分发挥了CGMM-UBM结构各个子系统的潜力。SVM融合还对输出评分进行规整,在一定程度上降低了确认系统对确认阈值的依赖性。以上各方法的实验都取得了良好的效果,证明了方法的有效性。最后,本文针对说话人识别中背景加性噪声的问题,研究了业界在鲁棒性语音识别方面有着较高水准的ETSI DSR AFE标准的两级维纳滤波降噪方法。并提出了一种基于无监督分割的静音检测算法用以替代ETSI DSR AFE标准中维纳滤波的噪声谱估计VAD模块,大大提高了说话人辨认系统对背景加性噪声的鲁棒性。

全文目录


摘要  3-5
ABSTRACT  5-7
目录  7-10
第1章 绪论  10-28
  1.1 说话人识别概述  10-13
    1.1.1 简介  10
    1.1.2 发展简史  10-13
  1.2 说话人识别  13-25
    1.2.1 说话人识别的分类和基本组成  13-15
    1.2.2 说话人识别系统的评估手段  15-19
    1.2.3 说话人识别研究的发展趋势  19-22
    1.2.4 说话人识别实用化所面临的问题  22-25
  1.3 论文的主要研究内容  25-28
第2章 基于统计模型的复杂背景下说话人识别  28-54
  2.1 引言  28-29
  2.2 说话人识别的特征参数  29-34
    2.2.1 语音信号的倒谱(Cepstrum)分析  30-31
    2.2.2 Mel频率倒谱参数:MFCC  31-34
  2.3 高斯混合模型(GMM)  34-40
    2.3.1 GMM的基本结构  34-36
    2.3.2 GMM模型的参数估计  36-38
    2.3.3 UBM-MAP结构的说话人识别模型  38-40
  2.4 统计模型在复杂背景下进行说话人识别的问题  40-44
    2.4.1 训练和测试语音集长度对统计模型性能的影响  40-42
    2.4.2 环境和通道失配对统计模型性能的影响  42-44
  2.5 改善复杂条件下识别性能的方法  44-53
    2.5.1 统计模型在复杂条件下的不足和问题  45-46
    2.5.2 改善复杂条件下系统识别性能的常用方法  46-50
    2.5.3 本文针对复杂条件下说话人识别所提出的方法  50-53
  2.6 本章小结  53-54
第3章 基于概率分布的参数规整方法  54-74
  3.1 引言  54-57
  3.2 多维高斯化变换(Gaussianization)的基本原理  57-58
  3.3 语音参数的分段概率分布参数规整  58-64
    3.3.1 一维数据的高斯化变换  58-60
    3.3.2 语音参数的分段概率分布规整  60-62
    3.3.3 分段概率分布规整前后的MFCC比较  62-63
    3.3.4 UBM在参数规整中的作用和意义  63-64
  3.4 实验结果与比较  64-72
    3.4.1 分段概率分布规整对说话人辨认的性能影响  64-65
    3.4.2 不同窗长对说话人识别性能的影响  65-66
    3.4.3 概率分布规整中UBM对系统性能的影响  66-67
    3.4.4 分段概率分布规整对复杂噪声环境下说话人确认性能的影响  67-71
    3.4.5 分段概率分布规整对干净数据库的效果  71-72
  3.5 本章小结  72-74
第4章 基于峭度的参数规整方法  74-94
  4.1 引言  74-75
  4.2 峭度的物理意义  75-76
  4.3 针对超高斯分布的语音参数的峭度规整  76-87
    4.3.1 基于Sigmoid函数变换的降低峭度方法  76-79
    4.3.2 峭度规整方法的理论证明  79-80
    4.3.3 峭度规整对说话人识别性能的影响  80-87
    4.3.4 峭度规整方法的优点  87
  4.4 概率分布规整和峭度规整相结合方法的研究  87-92
    4.4.1 概率分布规整之后的峭度规整  88-91
    4.4.2 峭度规整之后的概率分布规整  91
    4.4.3 概率分布规整和峭度规整相结合方法对说话人识别性能的影响  91-92
  4.5 本章小结  92-94
第5章 基于特征分类子空间的说话人识别  94-124
  5.1 引言  94
  5.2 基于特征空间分类的说话人识别方法  94-100
    5.2.1 MFCC参数的分布  94-96
    5.2.2 特征子空间的划分方法  96-97
    5.2.3 分类高斯混合模型(CGMM-UBM)基本结构  97-99
    5.2.4 CGMM-UBM结构的运算效率  99
    5.2.5 CGMM-UBM结构的优点和需要解决的问题  99-100
  5.3 分类子系统的实验结果及分析  100-108
    5.3.1 数据库描述  100-101
    5.3.2 语音长度对系统确认性能的影响  101-102
    5.3.3 分类子系统的性能实验  102-105
    5.3.4 分类空间个数的选择  105-106
    5.3.5 分类子系统相加融合后系统性能的改进  106-108
  5.4 多个子系统评分所带来的问题  108-110
  5.5 基于SVM的话者确认多子系统融合方法  110-119
    5.5.1 SVM训练的核心思想——分类间隔最大  112-113
    5.5.2 SVM对线性不可分数据的优点  113-115
    5.5.3 SVM核函数的选择  115
    5.5.4 SVM融合方法的优点  115-117
    5.5.5 SVM进行子系统融合的过程  117-119
  5.6 分类子系统融合实验结果及分析  119-123
    5.6.1 数据库描述  119
    5.6.2 SVM融合和相加融合性能对比  119-121
    5.6.3 SVM核函数对融合性能的影响  121
    5.6.4 SVM融合和相加融合DET性能对比  121-123
  5.7 本章小结  123-124
第6章 基于两级维纳滤波的鲁棒性说话人识别  124-144
  6.1 引言  124-125
  6.2 维纳滤波的基本原理  125-128
    6.2.1 谱减(Spectral Subtraction)  125-126
    6.2.2 维纳滤波(Wiener Filtering)  126-128
  6.3 基于维纳滤波的ETSI DSR前端标准  128-133
    6.3.1 ETSI DSR标准的简介  128-129
    6.3.2 ETSI DSR AFE标准的概况  129-130
    6.3.3 ETSI DSR AFE标准中的维纳滤波降噪  130-131
    6.3.4 维纳滤波中的VAD(Voice Activity Detection)模块  131-133
  6.4 基于无监督分割方法的静音检测  133-140
    6.4.1 ETSI DSR AFE标准中VAD的问题  133-134
    6.4.2 基于无监督分割方法的VAD  134-137
    6.4.3 无监督分割VAD的性能  137-140
  6.5 实验结果及分析  140-143
  6.6 本章小结  143-144
第7章 总结与展望  144-148
参考文献  148-156
致谢  156-158
攻读学位期间的主要研究工作和论文发表情况  158-159

相似论文

  1. 多重ANN/HMM混合模型在语音识别中的应用,TN912.34
  2. 基于DSP的机器人语音命令识别系统研制,TN912.34
  3. 在智能手机环境下健康管理功能设计与研究,TN929.53
  4. 移动音视频交互业务执行平台的研究,TN915.09
  5. 呼叫中心IVR系统的设计与实现,TN99
  6. 基于HMM的机器人语音识别系统的研究,TN912.34
  7. 基于改进MFCC的语音识别系统研究及设计,TN912.34
  8. 基于VoiceXML的语音智能交互平台的研究与实现,TP311.52
  9. 基于词片网格的语音文档主题分类,TN912.3
  10. 基于HMM和PNN的混合语音识别模型研究,TN912.34
  11. 基于动态贝叶斯网络的连续语音识别研究,TN912.34
  12. 分布式语音识别以及voice xml语言在声动炫铃中的应用,TN912.34
  13. 语音识别在电磁阀测试系统中的应用,TN912.34
  14. 基于稳健性PLPC的抗噪语音识别方法的研究,TN912.34
  15. 语音识别协处理器研究与设计,TN912.34
  16. 智能办公通信系统的设计和实现,TP311.52
  17. 面向服务的语音远程控制系统的研究与实现,TP273
  18. 面向连续语音识别的半监督学习方法的研究,TN912.34
  19. 汉语连续语音的音节自动标注算法研究及实现,TN912.34
  20. 一种基于子带最大似然线性回归的鲁棒语音识别方法,TN912.34
  21. 嵌入式语音识别系统软硬件平台的构建,TN912.34

中图分类: > 工业技术 > 无线电电子学、电信技术 > 通信 > 电声技术和语音信号处理 > 语音信号处理 > 语音识别与设备
© 2012 www.xueweilunwen.com