学位论文 > 优秀研究生学位论文题录展示

说话人识别算法研究与说话人辨认系统实现

作 者: 杨善茜
导 师: 黄汉明
学 校: 广西师范大学
专 业: 计算机应用技术
关键词: 说话人辨认 隐马尔可夫模型(HMM ) 希尔伯特黄变换(HHT ) 美尔倒谱系数(MFCC)
分类号: TN912.34
类 型: 硕士论文
年 份: 2010年
下 载: 203次
引 用: 0次
阅 读: 论文下载
 

内容摘要


说话人识别是最自然的生物特征身份鉴定方式,可分为说话人辨认和说话人确认。说话人识别根据包含在语音信号中的个性特征来自动识别说话人,其关键问题是特征参数选择与识别模型建立。目前,说话人识别的常用特征参数有线性预测编码(LPC)参数、LPC倒谱(LPCC)和美尔倒谱系数(MFCC)等,常用的识别模型有动态时间规整(DTW)、矢量量化(VQ)、隐马尔可夫模型(HMM)等。LPCC反映了说话人声道生理结构的差异,而MFCC则利用了听觉频率非线性特性,反映了人对语音的感知特性。希尔伯特-黄变换(HHT)自1998年提出,由于其处理时变、非稳态系统信号的较强的自适应能力,已得到了较广泛的关注和获得了许多成功的应用,目前也是语音信号处理的最新研究手段。这些特征参数各有其优势,但单独都不能充分描述说话人的个性特征,一般主要包含语义信息,也可能包含说话人的某些特征,综合利用方可使系统性能可靠。有鉴于此,在说话人识别系统中首先分别使用LPCC、MFCC和HHT提取出的参数作为特征参数,然后将MFCC与基于HHT提取出的特征参数有机地构成混合参数。本文采用Matlab工具试验比较了LPCC、MFCC、基于HHT提取出的特征参数、混合参数分别与DTW、DHMM(离散马尔可夫模型)、GMM(高斯混合模型)相结合的识别效果。接着,测试了GMM中高斯分量的选择对识别性能的影响。实验结果显示,对于说话人辨认,基于HHT提取出的特征参数有较好的识别率,基于混合参数和GMM相结合的识别率高于基于混合参数和DTW或DHMM相结合的识别率,并且混合参数明显优于单一的参数的性能。试验证明了基于HHT提取出的特征参数作为一种新的特征参数可以应用于说话人识别,将其与MFCC参数相结合构成混合参数,既利用MFCC能够较好地描述动态时间序列又利用HHT频率分辨能力强的特点,将该混合参数应用于说话人辨认系统,提高了系统的性能。对于说话人辨认系统,识别模型选择GMM,系统的识别性能是最优的,即识别率最好,训练时间较短。

全文目录


摘要  4-5
Abstract  5-8
第1章 绪论  8-13
  1.1 说话人识别概述  8-10
    1.1.1 说话人识别的基本概念及原理  8-9
    1.1.2 研究目的及意义  9-10
  1.2 说话人识别的历史及国内外研究现状  10-11
  1.3 说话人识别的主要应用及前景  11
  1.4 说话人识别的研究方法  11-12
  1.5 本文的主要工作  12-13
第2章 语音信号的Hilbert-Huang 变换  13-19
  2.1 Hilbert-Huang 变换的基本原理和方法  13-14
    2.1.1 经验模态分解(EMD)分解  13
    2.1.2 希尔伯特(Hilbert)变换  13-14
  2.2 语音信号的Hilbert-Huang 变换  14-17
  2.3 基于HHT 的语音特征参数的优缺点  17
  2.4 本章小结  17-19
第3章 语音信号的预处理与特征提取  19-32
  3.1 语音信号的预处理  19-23
    3.1.1 端点检测  19-21
    3.1.2 预加重  21-22
    3.1.3 分帧和加窗  22-23
  3.2 特征提取  23-30
    3.2.1 LPCC 系数及其差分参数提取  24-25
    3.2.2 MFCC 系数及其差分参数提取  25-28
    3.2.3 基于HHT 变换的特征系数提取  28-30
    3.2.4 特征参数的比较  30
  3.3 本章小节  30-32
第4章 说话人识别模型  32-53
  4.1 说话人识别的主要方法  32-33
  4.2 DTW 模型  33-36
    4.2.1 DTW 的基本概念  33-35
    4.2.2 DTW 模型的识别算法  35-36
    4.2.3 DTW 的优缺点  36
  4.3 HMM 模型  36-48
    4.3.1 HMM 的基本概念及原理  36-39
    4.3.2 HMM 模型的识别算法  39-47
    4.3.3 HMM 的优缺点  47-48
  4.4 GMM 模型  48-52
    4.4.1 GMM 的基本概念  48-49
    4.4.2 GMM 模型的识别算法  49-52
    4.4.3 GMM 的优缺点  52
  4.5 本章小结  52-53
第5章 说话人辨认系统设计与实现  53-59
  5.1 语音数据库  53
  5.2 说话人辨认系统的实现  53-57
  5.3 实验数据分析及性能评价  57-58
  5.4 本章小结  58-59
第6章 结论与展望  59-61
  6.1 结论  59-60
  6.2 课题展望  60-61
参考文献  61-64
攻读硕士期间发表的论文目录  64-65
致谢  65-66

相似论文

  1. 说话人识别中不同语音编码影响的补偿方法,TN912.34
  2. 面向智能视频监控的事件检测建模及优化,TP391.41
  3. 与文本无关的说话人识别关键技术研究及系统设计,TN912.34
  4. 时频方法分析长骨中的超声导波及其厚度的测量,R318
  5. 说话人辨认中的特征变换和鲁棒性技术研究,TN912.34
  6. 分布式说话人识别系统的研究与实现,TP391.42
  7. 非特定人连续数字语音识别研究,TP391.42
  8. 复杂性分析方法在语音及图像处理中的应用研究,R-39
  9. 实时视频中人脸跟踪和表情分析研究,TP391.41
  10. 噪声环境下语音识别系统研究,TN912.34
  11. CAI语言学习软件的研究与开发,TP391.7
  12. 连续数字语音识别系统的研究与实现,TN912.34
  13. 希尔伯特—黄变换及其在结构损伤识别中的应用,TU317
  14. 基于HMM建模的蒙古语连续语音识别系统的研究与实现,TP391.42
  15. 基于连续隐马尔可夫模型的说话人识别,TN912.34
  16. 基于语音识别的IPCC交互式语音应答系统的研究与实现,TN912.34
  17. 人脸识别技术的研究与应用,TP391.41
  18. 基于智能材料与结构的切削颤振在线控制,TG506
  19. 小波变换与希尔伯特—黄变换在结构抗震中的应用研究,TU311.3
  20. 超宽带LFM信号检测和参数估计方法研究,TN958

中图分类: > 工业技术 > 无线电电子学、电信技术 > 通信 > 电声技术和语音信号处理 > 语音信号处理 > 语音识别与设备
© 2012 www.xueweilunwen.com