学位论文 > 优秀研究生学位论文题录展示

声纹识别在声控系统中的研究与实现

作　者: 付浩楠
导　师: 吕成国
学　校: 黑龙江大学
专　业: 计算机系统结构
关键词: 语音控制声纹识别 GMM-UBM 区分性高斯混合模型特征类
分类号: TN912.34
类　型: 硕士论文
年　份: 2012年
下　载: 125次
引　用: 0次
阅　读: 论文下载

内容摘要

随着人类数字化生活需求的增加和多媒体时代的来临，人们越来越渴望打破过去传统的人机交互模式，寻找一种更加自然、友好、稳定的交互方式。近期iphone4s的Siri语音控制功能的推出再一次引领了语音识别的研究热潮。本文正是在这种背景之下，通过构建基于Windows的语音控制系统作为声纹识别的具体应用环境，将声纹识别和语音识别结合起来，实现一个具有声纹识别功能的分权限语音控制系统。同时将本文的研究重心放在声纹识别相关技术的研究中，以寻求一种具备声纹识别功能的人性化交互模式。本文的具体工作如下：本文首先介绍了基于GMM（Gaussian Mixture Model）的声纹识别和基于Speech SDK（Software Development Kit）的语音控制的关键技术。针对传统GMM和GMM-UBM（Universal Background Model）受训练样本量的制约和说话人被强制趋于统一分布的弱点，本文提出了基于区分性GMM的建模方法和区分性识别方法，以增加说话人之间的差异性为出发点，使模型能够更好的拟合说话人特征矢量的空间分布。同时将建模过程中衍生的两个具有区分性的子UBM作为特征空间性别分类器，来划分特征空间和模板库，从而提高系统的识别率和响应速度。其次本文针对传统的K-means聚类算法只具备局部寻优能力和对初始聚类中心及噪声点敏感的弱点，本文提出了基于密度和方差的加权距离聚类、基于模拟退火思想的全局优化聚类算法应用到声学特征类的形成。通过改进的聚类算法使呈现椭圆形分布的高维语音数据能够更精确的形成声学特征类，使各阶单高斯分量承担更精确的数据，进而提高系能性能，同时此算法也可被推广到其他领域中。最后本文基于区分性GMM和Speech SDK语音识别引擎及Windows API（Application Program Interface）函数和消息响应机制的基础之上，构建了具有声纹识别功能的分权限语音控制系统，完成了具备声纹识别功能的人机交互的目标。

全文目录

中文摘要  3-4
Abstract  4-9
第1章绪论  9-17
  1.1 选题背景及研究意义  9-10
  1.2 声纹识别与语音控制的发展历程和研究现状  10-12
  1.3 声纹识别技术概述  12-14
  1.4 本文工作概述  14-16
    1.4.1 本文的研究目的  14
    1.4.2 本文主要研究内容  14-16
  1.5 本文的组织结构  16-17
第2章声纹识别与语音控制的关键技术  17-23
  2.1 引言  17
  2.2 MFCC 的声学提取原理  17
  2.3 基于概率统计的 GMM 识别模型  17-18
  2.4 语音信号的 K-means 聚类技术  18-20
  2.5 语音控制的关键技术  20-22
    2.5.1 基于 Speech SDK 语音识别引擎  20-21
    2.5.2 基于 SQLite 的数据库技术  21-22
  2.6 本章小结  22-23
第3章基于区分性 GMM 的声纹识别系统  23-48
  3.1 系统结构  23
  3.2 声纹识别的前端预处理技术  23-25
    3.2.1 预加重技术  24-25
    3.2.2 分帧及加窗  25
  3.3 MFCC 特征参数的提取  25-27
  3.4 基于密度和方差加权距离的聚类算法  27-32
    3.4.1 问题的提出  27
    3.4.2 基于区域密度初始聚类中心的选择算法  27-30
    3.4.3 基于密度和方差加权距离的聚类算法  30-32
  3.5 基于模拟退火思想的聚类算法  32-35
    3.5.1 问题的提出  32-33
    3.5.2 模拟退火思想在聚类中的应用  33
    3.5.3 模拟退火算法参数的选择  33-34
    3.5.4 基于模拟退火的聚类算法  34-35
  3.6 基于 GMM 的声纹识别引擎  35-39
    3.6.1 模型描述  35-37
    3.6.2 参数估计  37-39
  3.7 基于区分性 GMM 的声纹识别引擎  39-47
    3.7.1 问题的提出  39-41
    3.7.2 基于区分性 GMM 声纹识别引擎的建模过程  41-42
    3.7.3 MAP 自适应算法  42-43
    3.7.4 模式识别  43-44
    3.7.5 衍生的特征空间性别分类器  44-46
    3.7.6 拒识策略在区分性识别中的应用  46-47
  3.8 本章小结  47-48
第4章具有声纹识别功能的语音控制系统  48-56
  4.1 系统结构  48
  4.2 基于 SAPI 的语音识别系统的设计与实现  48-50
    4.2.1 系统事件驱动流程设计  48-49
    4.2.2 语音识别引擎的实现  49-50
  4.3 基于 Windows API 函数完成控制处理的设计与实现  50-54
    4.3.1 控制处理系统的总体设计  51-52
    4.3.2 基于 API 实现进程间控制  52-53
    4.3.3 基于 SQLite 语音命令数据库的设计与实现  53-54
  4.4 系统的整体实现过程  54-55
  4.5 本章小结  55-56
第5章综合实验及结果分析  56-68
  5.1 实验平台  56
  5.2 实验方案的设计、结果及分析  56-66
    5.2.1 实验用的语音数据库  56-57
    5.2.2 GMM 基本性能的测试  57-60
    5.2.3 三种建模方法对系统性能的分析比较  60-61
    5.2.4 改进的聚类算法的分析  61-62
    5.2.5 聚类算法对不同识别模型的影响  62-64
    5.2.6 基于区分性识别的系统性能分析  64-66
  5.3 本章小结  66-68
结论  68-70
参考文献  70-76
致谢  76-77
攻读硕士学位期间发表的学术论文  77

声纹识别在声控系统中的研究与实现

内容摘要

全文目录

相似论文