学位论文 > 优秀研究生学位论文题录展示
声纹识别在声控系统中的研究与实现
作 者: 付浩楠
导 师: 吕成国
学 校: 黑龙江大学
专 业: 计算机系统结构
关键词: 语音控制 声纹识别 GMM-UBM 区分性高斯混合模型 特征类
分类号: TN912.34
类 型: 硕士论文
年 份: 2012年
下 载: 125次
引 用: 0次
阅 读: 论文下载
内容摘要
随着人类数字化生活需求的增加和多媒体时代的来临,人们越来越渴望打破过去传统的人机交互模式,寻找一种更加自然、友好、稳定的交互方式。近期iphone4s的Siri语音控制功能的推出再一次引领了语音识别的研究热潮。本文正是在这种背景之下,通过构建基于Windows的语音控制系统作为声纹识别的具体应用环境,将声纹识别和语音识别结合起来,实现一个具有声纹识别功能的分权限语音控制系统。同时将本文的研究重心放在声纹识别相关技术的研究中,以寻求一种具备声纹识别功能的人性化交互模式。本文的具体工作如下:本文首先介绍了基于GMM(Gaussian Mixture Model)的声纹识别和基于Speech SDK(Software Development Kit)的语音控制的关键技术。针对传统GMM和GMM-UBM(Universal Background Model)受训练样本量的制约和说话人被强制趋于统一分布的弱点,本文提出了基于区分性GMM的建模方法和区分性识别方法,以增加说话人之间的差异性为出发点,使模型能够更好的拟合说话人特征矢量的空间分布。同时将建模过程中衍生的两个具有区分性的子UBM作为特征空间性别分类器,来划分特征空间和模板库,从而提高系统的识别率和响应速度。其次本文针对传统的K-means聚类算法只具备局部寻优能力和对初始聚类中心及噪声点敏感的弱点,本文提出了基于密度和方差的加权距离聚类、基于模拟退火思想的全局优化聚类算法应用到声学特征类的形成。通过改进的聚类算法使呈现椭圆形分布的高维语音数据能够更精确的形成声学特征类,使各阶单高斯分量承担更精确的数据,进而提高系能性能,同时此算法也可被推广到其他领域中。最后本文基于区分性GMM和Speech SDK语音识别引擎及Windows API(Application Program Interface)函数和消息响应机制的基础之上,构建了具有声纹识别功能的分权限语音控制系统,完成了具备声纹识别功能的人机交互的目标。
|
全文目录
中文摘要 3-4 Abstract 4-9 第1章 绪论 9-17 1.1 选题背景及研究意义 9-10 1.2 声纹识别与语音控制的发展历程和研究现状 10-12 1.3 声纹识别技术概述 12-14 1.4 本文工作概述 14-16 1.4.1 本文的研究目的 14 1.4.2 本文主要研究内容 14-16 1.5 本文的组织结构 16-17 第2章 声纹识别与语音控制的关键技术 17-23 2.1 引言 17 2.2 MFCC 的声学提取原理 17 2.3 基于概率统计的 GMM 识别模型 17-18 2.4 语音信号的 K-means 聚类技术 18-20 2.5 语音控制的关键技术 20-22 2.5.1 基于 Speech SDK 语音识别引擎 20-21 2.5.2 基于 SQLite 的数据库技术 21-22 2.6 本章小结 22-23 第3章 基于区分性 GMM 的声纹识别系统 23-48 3.1 系统结构 23 3.2 声纹识别的前端预处理技术 23-25 3.2.1 预加重技术 24-25 3.2.2 分帧及加窗 25 3.3 MFCC 特征参数的提取 25-27 3.4 基于密度和方差加权距离的聚类算法 27-32 3.4.1 问题的提出 27 3.4.2 基于区域密度初始聚类中心的选择算法 27-30 3.4.3 基于密度和方差加权距离的聚类算法 30-32 3.5 基于模拟退火思想的聚类算法 32-35 3.5.1 问题的提出 32-33 3.5.2 模拟退火思想在聚类中的应用 33 3.5.3 模拟退火算法参数的选择 33-34 3.5.4 基于模拟退火的聚类算法 34-35 3.6 基于 GMM 的声纹识别引擎 35-39 3.6.1 模型描述 35-37 3.6.2 参数估计 37-39 3.7 基于区分性 GMM 的声纹识别引擎 39-47 3.7.1 问题的提出 39-41 3.7.2 基于区分性 GMM 声纹识别引擎的建模过程 41-42 3.7.3 MAP 自适应算法 42-43 3.7.4 模式识别 43-44 3.7.5 衍生的特征空间性别分类器 44-46 3.7.6 拒识策略在区分性识别中的应用 46-47 3.8 本章小结 47-48 第4章 具有声纹识别功能的语音控制系统 48-56 4.1 系统结构 48 4.2 基于 SAPI 的语音识别系统的设计与实现 48-50 4.2.1 系统事件驱动流程设计 48-49 4.2.2 语音识别引擎的实现 49-50 4.3 基于 Windows API 函数完成控制处理的设计与实现 50-54 4.3.1 控制处理系统的总体设计 51-52 4.3.2 基于 API 实现进程间控制 52-53 4.3.3 基于 SQLite 语音命令数据库的设计与实现 53-54 4.4 系统的整体实现过程 54-55 4.5 本章小结 55-56 第5章 综合实验及结果分析 56-68 5.1 实验平台 56 5.2 实验方案的设计、结果及分析 56-66 5.2.1 实验用的语音数据库 56-57 5.2.2 GMM 基本性能的测试 57-60 5.2.3 三种建模方法对系统性能的分析比较 60-61 5.2.4 改进的聚类算法的分析 61-62 5.2.5 聚类算法对不同识别模型的影响 62-64 5.2.6 基于区分性识别的系统性能分析 64-66 5.3 本章小结 66-68 结论 68-70 参考文献 70-76 致谢 76-77 攻读硕士学位期间发表的学术论文 77
|
相似论文
- 车载汉语语音控制命令识别算法的研究,U463.6
- 基于Android的车载娱乐信息系统,TP311.52
- 基于电话信道的声纹识别算法研究,TN912.34
- 遥感数字图像类特征的二阶统计纹理分析,TP751
- 基于声纹及射频识别的轨道车监控系统研究,U29-39
- 基于电话语音的少数民族语种识别研究,TN912.34
- 声纹识别技术在气体管道泄漏监测RTU中的应用,TQ050.7
- 基于语音的机器人控制应用研究,TN912.34
- 车载语音控制系统设计及DSP实现,TN912.34
- 不同类联结模式下“Develop*”搭配信息和特征的语料库研究,H314
- 语音控制动画技术在在线卡拉OK中的应用研究,TN912.34
- 基于单片机平台下的语音识别技术应用方式研究,TN912.34
- 基于语音控制的电动小车的设计,TP273
- 基于非特定人车载电器语音集成控制系统的设计与实现,TN912.3
- 工程机械行驶驱动系统半物理仿真平台设计,TP391.9
- 智能轮椅多模态控制系统研究,TP242
- 基于声控小车的语音识别算法研究,TP391.42
- 基于定点DSP的语音控制系统研究与设计,TN912.34
- 通用机器人单片机控制器,TP368.1
- 带有语音功能的仿人智能控制器的设计,TP273.5
- 语义特征造型的自动调整策略及约束求解机制的研究,TP391.72
中图分类: > 工业技术 > 无线电电子学、电信技术 > 通信 > 电声技术和语音信号处理 > 语音信号处理 > 语音识别与设备
© 2012 www.xueweilunwen.com
|