学位论文 > 优秀研究生学位论文题录展示

基于无关变量标准化的大词汇量语音识别技术研究

作　者: 张羽
导　师: 张丽清
学　校: 上海交通大学
专　业: 计算机软件与理论
关键词: 大词汇连续语音识别无关变量标准化声学环境检测 i-vector 说话人识别
分类号: TN912.34
类　型: 硕士论文
年　份: 2012年
下　载: 14次
引　用: 0次
阅　读: 论文下载

内容摘要

在信息高度膨胀的今天，语音识别数据的获取已经不仅仅局限于传统的录音设备。电话，手机，乃至于互联网语音搜索的兴起，都为语音识别的研究者提供了大量研究素材。在这样的背景下，大数据集下的大词汇量连续语音识别技术已经成为自动语音识别技术的核心问题。相较于传统的大词汇量连续语音识别技术，当代研究人员更容易获取丰富的语音数据。但是如何处理大规模数据，如何解决大量数据所包含的丰富的信道、噪声、说话人信息等等对于模型鲁棒性的影响，也对传统大词汇量语音识别技术提出了新的挑战。传统模型训练方法可以在单一环境下取得良好的效果（如单个说话人），但在真实世界复杂的声学环境中，往往生成一组与音素识别无关的散乱模型。无关变量标准化框架正是针对这一问题，希望通过训练一组线性变化，排除对于模型训练的干扰信息，使得达到在单一环境下类似的识别性能。目前无关变量标准化方法已经在小规模数据集上得到了验证，并且在大规模语音识别进行了初步的实验。在本课题中，我们将针对目前大规模语音识别技术存在的问题，结合当前无关变量标准化技术提出改进方案。通过大规模数据高效降维、环境条件聚类、无关变量标准化、隐马尔可夫模型训练以及无监督在线适应方法建立一整套大词汇量语音识别系统。并在300小时的电话对话录音库以及7500小时的语音搜索数据库上进行验证。与传统方法相比，本文采用判别式训练准则，从而充分利用了数据中可以挖掘的信息。同时，通过借鉴并改进说话人识别领域最新的研究成果，提出了新的声学环境检测方法，其因子分解模型可以更加有效捕捉语音数据中的声学环境信息。从实验结果来看，基于本文提出新的训练准则及声学检测方法下的无关变量标准化训练，其识别率相比传统模型在300小时电话数据集上词错误率相对降低了20%左右。此外，新的声学环境聚类方法成功运行在7500小时数据，而传统基于GMM的声学环境聚类的方法是完全无法处理如此规模的数据的。

全文目录

摘要  3-5
ABSTRACT  5-11
表格索引  11-12
插图索引  12-13
主要符号对照表  13-14
第一章绪论  14-22
  1.1 课题研究背景  14-16
    1.1.1 语音识别研究的发展历史  14-16
  1.2 当前的大词汇语音识别技术的研究热点  16-19
  1.3 课题研究内容  19
  1.4 本文组织结构  19-22
第二章基于无关变量标准化的大词汇连续语音识别  22-28
  2.1 隐马尔可夫模型(Hidden Markov Model,HMM)及其最大似然估计  22-24
    2.1.1 定义  22-23
    2.1.2 Viterbi算法  23-24
    2.1.3 Baum-Welch算法  24
  2.2 基于无关变量标准化的大词汇连续语音识别  24-25
  2.3 特征的线性变换  25-26
  2.4 声学环境特征分类(acoustic sniffing)  26-27
    2.4.1 基于滑动窗口的特征分类  26-27
  2.5 基于极大似然的IVN训练  27
  2.6 无监督在线适应  27-28
第三章基于无关变量标准化的判别式训练  28-42
  3.1 基于说话人信息的声学环境检测(Acoustic Sniffing)  28-29
  3.2 判别式训练  29-31
    3.2.1 最大互信息估计(MMIE)准则  30-31
    3.2.2 基于EB的模型参数优化算法  31
  3.3 基于无关变量标准化的判别式训练  31-37
  3.4 无监督自适应学习  37-38
  3.5 实验  38-40
    3.5.1 实验环境  38
    3.5.2 基于无关变量消除的判别式训练的效果  38-39
    3.5.3 无监督自适应学习的效果  39-40
  3.6 本章小结  40-42
第四章基于i-vector方法的语音数据聚类  42-54
  4.1 i-vector方法  42-45
    4.1.1 数据模型  42-43
    4.1.2 i-vector提取  43-44
    4.1.3 超参数(hyperparameter)估计  44-45
  4.2 基于i-vector的数据聚类  45-47
    4.2.1 利用LBG算法对i-vector进行聚类  45
    4.2.2 训练多组声学模型  45-46
    4.2.3 利用多组声学模型于语音识别  46-47
  4.3 实验  47-49
    4.3.1 实验环境  47-48
    4.3.2 实验结果  48-49
  4.4 本章小结  49-54
第五章基于i-vector方法的无关变量标准化训练  54-58
  5.1 基于i-vector方法的声学环境检测  54-55
  5.2 实验  55-57
    5.2.1 实验环境  55
    5.2.2 基于i-Vector与GMM方法的声学环境特征检测的对比  55
    5.2.3 增加线性变换数目的效果  55-56
    5.2.4 选取不同长度语音片段的效果  56-57
  5.3 本章小结  57-58
第六章新的i-vector提取方法  58-70
  6.1 新的i-Vector方法  58-65
    6.1.1 数据模型  58
    6.1.2 i-Vector提取  58-60
    6.1.3 超参数(hyperparameter)估计  60-64
    6.1.4 利用线性判别分析提取特征(Linear Discriminative Anal-ysis,LDA)  64-65
    6.1.5 基于i-vector的声学环境特征检测  65
  6.2 实验  65-68
    6.2.1 实验环境  65
    6.2.2 对比新旧i-vector方法的说话人聚类纯度  65-67
    6.2.3 对比不同i-vector方法应用于无关变量标准化训练的识别结果  67-68
  6.3 本章小结  68-70
全文总结  70-72
参考文献  72-80
致谢  80-82
攻读学位期间发表的学术论文目录  82-86
附件  86

相似论文

基于特征选择及其融合方法的说话人识别,TN912.34
数字波导网格模型及语音网格参数估计,TN912.3
双馈风力发电机低电压穿越的系统研究,TM315
Vector治疗仪在慢性牙周炎基础治疗中的临床研究,R781.4
基于VC++6.0的说话人识别系统的研究,TN912.34
基于混合高斯模型的说话人识别,TN912.34
说话人识别中集外话者的拒识方法研究,TN912.34
说话人识别技术的研究,TN912.34
基于GMM-UBM/SVM的维吾尔语电话信道说话人识别系统的研究,TN912.34
基于时间序列分析方法的说话者识别,TN912.34
说话人特征提取和识别算法的研究,TP391.41
说话人识别中的模式匹配方法研究,TN912.34
基于线谱对系数和高斯混合模型的说话人识别技术研究,TN912.34
说话人识别方法的研究,TN912.34
说话人识别中的信道补偿,TN912.3
与文本无关的说话人识别系统研究,TP391.41
说话人识别技术研究与改进,TN912.34
基于EM算法的模型聚类的研究及应用,TP18
文本无关的连续自然语音的说话人识别及基于DSP的实现,TP391.42
利用矢量量化（VQ）和混合高斯模型（GMM）的说话人识别的研究,TN912.3
基于支持向量机的多类分类问题的研究,TN912.3