学位论文 > 优秀研究生学位论文题录展示
说话人识别中的信道补偿
作 者: 李轶杰
导 师: 戴礼荣;郭武
学 校: 中国科学技术大学
专 业: 信号与信息处理
关键词: 本征信道 联合因子分析 说话人识别 信道补偿 高斯混合-通用背景模型
分类号: TN912.3
类 型: 硕士论文
年 份: 2009年
下 载: 158次
引 用: 3次
阅 读: 论文下载
内容摘要
自动说话人识别属于多维模式识别和智能计算机接口的范畴,其研究的根本目的是使机器能够自动辨认出说话人。当前在实验室环境下说话人识别系统取得了长足的进步,有着很好的性能。但是在实际环境中,由于存在复杂多变的噪声和信道干扰,系统性能急剧下降。因此如何有效地抑制或消除信道干扰,提升说话人识别系统的鲁棒性成为一个重要课题。信道鲁棒性问题的根源可以归结为说话人识别训练环境和测试环境之间的不匹配。一般来说,信道补偿算法可以粗略归为三方面:特征域,模型域和得分域。特征域方法主要着眼于对特征参数本身的处理和特征参数提取过程中方法的改进,使得随着环境变化特征参数变化尽可能小。模型域方法则根据信道问题来相应地调整模型,使得模型和实际环境相匹配。得分域方法主要通过各类得分规整算法来消除因信道所带来的得分差异。本文前两章首先介绍说话人识别任务,特别是文本无关的说话人确认,然后详细讨论了高斯混合–通用背景模型的基线系统。本文第三章简化了联合因子分析模型,提出了一种可同时用于特征域和模型域的信道补偿算法–本征信道,它简化了联合因子分析模型,大大降低了复杂度和运算量,使实时应用成为可能。特征域算法映射得到的特征可用于所有其他说话人系统,大大增强了算法的通用性和推广性。在NIST2006说话人评测的核心测试集上,模型域系统的等错误率相对于基线系统下降了48.4%,在某些场合可取得和联合因子分析系统相近的性能。针对NIST 2008说话人评测核心测试集需要,本文第四章实现了联合因子分析模型,并针对其对说话人空间和信道空间建模的不足,提出了一种串行估计说话人空间模型参数,并行估计信道空间模型参数的训练方法,此方法在降低原有模型训练运算量和复杂度的同时,还可以取得更优的性能。该系统的等错误率相对于基线系统下降了69.5%,在NIST 2008说话人评测中,改进的联合因子分析系统为最好的单系统。
|
全文目录
摘要 4-5 Abstract 5-12 第1章 绪论 12-24 1.1 背景 12-13 1.2 说话人识别概述 13 1.3 说话人识别的应用 13-15 1.4 说话人识别的研究进展 15-16 1.5 影响系统性能的因素 16-18 1.6 数据库 18-21 1.6.1 NIST SRE数据库综述 18 1.6.2 主要数据库介绍 18-20 1.6.3 NIST 2004,2005,2006 SRE 20 1.6.4 NIST 2008 SRE 20-21 1.7 系统性能评价指标 21-23 1.8 本文内容安排 23-24 第2章 基于混合高斯模型的说话人识别 24-42 2.1 系统框架 24-25 2.2 特征提取 25-29 2.2.1 特征参数概述 25-26 2.2.2 MFCC 26-28 2.2.3 前段特征处理 28-29 2.3 UBM训练 29-35 2.3.1 LBG算法 30-32 2.3.2 EM算法 32-35 2.4 MAP注册 35-37 2.5 测试 37 2.6 得分规整 37-41 2.6.1 ZNORM 39 2.6.2 TNORM 39 2.6.3 HNORM 39-40 2.6.4 ZTNORM 40 2.6.5 其它 40-41 2.7 小结 41-42 第3章 复杂电话信道的信道补偿 42-61 3.1 复杂电话信道 42-43 3.2 说话人识别中的信道补偿 43-47 3.2.1 特征映射 44-45 3.2.2 说话人模型合成 45-46 3.2.3 扰动属性投影 46-47 3.3 因子分析 47-56 3.3.1 因子分析基本概念 47-49 3.3.2 因子分析在说话人识别中 49-50 3.3.3 Eigenchannel信道空间训练算法 50-52 3.3.4 Eigenchannel在模型域的应用 52-55 3.3.5 Eigenchannel在特征域的应用 55-56 3.4 实验 56-60 3.4.1 测试数据库描述 56 3.4.2 开发集的选择 56 3.4.3 声学特征参数 56 3.4.4 系统描述 56-57 3.4.5 实验结果 57-60 3.5 小结 60-61 第4章 联合因子分析算法 61-77 4.1 概述 61-62 4.2 联合因子分析模型 62-65 4.2.1 Classical MAP 64 4.2.2 Eigenvoice MAP 64-65 4.2.3 Eigenchannel MAP 65 4.3 说话人无关模型训练 65-71 4.3.1 原有算法的缺陷和改进 67-68 4.3.2 Eigenvoice Modeling 68-69 4.3.3 Daigonal Modeling 69-70 4.3.4 Eigenchannel Modeling 70 4.3.5 总流程 70-71 4.4 注册和测试 71-72 4.5 实验 72-76 4.5.1 测试数据库描述 72-73 4.5.2 开发集的选择 73 4.5.3 系统描述 73-74 4.5.4 实验结果 74-76 4.6 小结 76-77 第5章 结束语 77-79 5.1 本论文工作总结 77-78 5.2 进一步研究工作 78-79 插图索引 79-80 表格索引 80-81 参考文献 81-84 在读期间发表的学术论文和研究经历 84-86 致谢 86
|
相似论文
- 复杂信道下的说话人识别技术,TN912.34
- 基于VC++6.0的说话人识别系统的研究,TN912.34
- 基于混合特征和高斯混合模型的说话人识别研究,TN912.34
- 基于Windows CE的说话人识别系统的设计与实现,TN912.34
- 说话人识别中特征参数的提取及优化研究,TN912.34
- 基于文本无关的说话人识别研究,TN912.34
- 多路并行实时说话人识别算法研究与实现,TN912.34
- 基于因子分析的说话人确认,TN912.34
- 基于支持向量机的说话人识别系统的开发,TN912.34
- 与文本无关的开集说话人识别技术研究,TN912.34
- 噪声环境下的说话人识别研究,TN912.34
- 基于EMD的说话人识别研究,TN912.34
- 基于GMM-UBM的快速说话人识别方法,TN912.34
- 网络环境下实时音频解码与鲁棒说话人识别系统研究,TN912.34
- 文本相关说话人识别嵌入式系统及其关键技术研究,TN912.34
- 基于语音信号时变特性的说话人识别,TN912.34
- 基于JFA的汉语耳语音说话人识别,TN912.34
- 基于韵律特征的SVM说话人识别,TN912.34
- 基于混合高斯模型的说话人识别,TN912.34
- 说话人识别中集外话者的拒识方法研究,TN912.34
- 噪声环境下说话人特征参数提取研究,TN912.3
中图分类: > 工业技术 > 无线电电子学、电信技术 > 通信 > 电声技术和语音信号处理 > 语音信号处理
© 2012 www.xueweilunwen.com
|