学位论文 > 优秀研究生学位论文题录展示

说话人识别系统的研究与实现

作　者: 常志国
导　师: 殷业；李莉
学　校: 上海师范大学
专　业: 计算机应用
关键词: 语音识别说话人识别说话人辨认小波分析高斯混合模型搜索树
分类号: TN912.3
类　型: 硕士论文
年　份: 2004年
下　载: 312次
引　用: 4次
阅　读: 论文下载

内容摘要

语言是人类进行信息交流最自然、最方便、最有效的方式。语音是语言传播的一种重要载体。随着科技的发展，人机交互界面经历了手工操作、字符界面和图形界面三个不同阶段。新一代的智能型界面正处于研究阶段，在不久的将来，它将成为我们生活中不可或缺的部分。智能型人机界面的最基本特征是能进行人机的语音交互，因此语音识别成了当今研究的一大热门领域。为此各国都不惜投入大量的人力、物力和财力攻克语音识别这一具有极大应用前景的难题。本文主要研究的是说话人识别，它是语音识别的一个分支，可分为说话人辨认和说话人确认。论文首先就说话人识别的基本原理进行了阐述。鉴于目前说话人识别系统在信噪比(SNR)低时，识别效率显著降低这一事实，将小波分析引入说话人识别研究，对传统的语音分割方法和特征参数进行了改进。为了提高识别时的速度，从理论上提出了一种基于搜索树的识别模型，并对其可行性进行了一定的验证。最后实现了一个不依赖文本的说话人辨认系统，实践证明文中所提的理论和方法是有效的。

全文目录

绪论  7-9
第一部分语音信号基本知识  9-16
  1.1 语音信号的产生机理  9-10
  1.2 语音信号的感知机理  10-11
  1.3 语音信号的基本分类  11
  1.4 语音信号的数学模型  11-12
  1.5 语音信号的分析方法  12-16
    1.5.1 时域分析  12-14
      1.5.1.1 过零率分析  13
      1.5.1.2 短时能量及短时平均幅度分析  13
      1.5.1.3 短时自相关分析  13-14
      1.5.1.4 短时平均幅度差分析  14
    1.5.2 语音信号的频域分析  14
      1.5.2.1 傅立叶变换的短时谱  14
    1.5.3 语音信号的倒谱分析  14
    1.5.4 语音信号的时频域分析  14-16
第二部分说话人识别基本原理  16-35
  2.1 语音信号预处理  18-20
  2.2 特征参数  20-23
    2.2.1 基频  20-21
    2.2.2 线性预测系数LPC(Linear Predictor Coefficient，简写为LPC)  21
    2.2.3 倒谱系数CEPC(Cepstrum Coefficients，简写为CEPC)  21-22
    2.2.4 线性预测倒谱系数(Linear Predictor Cepstrum Coefficients，简写为LPCC)  22
    2.2.5 美尔倒谱系数(Mel Frequency Cepstrum Coefficients，简写为MFCC)  22
    2.2.6 感知线性预测系数(Perception Linear Predictor Coefficients，简写为PLPC)  22-23
    2.2.7 高层特征参数(Super Identity，简写为SuperID)  23
  2.3 特征参数选择准则  23-24
  2.4 特征矢量的常用压缩方法  24-26
  2.5 说话人识别训练模型  26-31
    2.5.1 K-NN  26-27
    2.5.2 矢量量化(Vector Quantization，简写为VQ)  27-28
    2.5.3 高斯混合模型(Gaussian Mixture Model，简称GMM)  28-29
    2.5.4 隐马尔可夫模型(Hidden Markov Model，简称为HMM)  29-30
    2.5.5 神经网络识别模型  30-31
  2.6 说话人识别系统的自适应性和鲁棒性  31-32
  2.7 测试用语音库和系统性能评价标准  32-35
    2.7.1 系统性能评价所涉及的因素  32-33
    2.7.2 常见说话人识别系统测试用语音数据库及产品提供者  33-35
第三部分小波分析基本理论  35-43
  3.1 小波变换的定义  35-37
  3.2 小波变换的特点  37-41
  3.3 小波包  41-43
第四部分基于离散小波变换的说话人识别系统  43-47
  4.1 预处理所采取的基于DWT的措施  43-44
    4.1.1 小波分析对语音信号的去噪功能  43
    4.1.2 基于DWT的语音分割算法  43-44
  4.2 基于小波变换的特征提取  44-46
    4.2.1 基于小波变换的基音确定  44-45
    4.2.2 基于小波变换的LPC  45
    4.2.3 基于小波包的MFCC  45-46
  4.3 系统所用训练模型对传统模型的改进  46-47
第五部分系统的仿真与性能分析  47-54
  5.1 系统开发环境介绍  47-48
    5.1.1 硬件环境  47
    5.1.2 软件环境  47
    5.1.3 开发平台MATLAB介绍  47-48
  5.2 系统的功能模块  48-49
  5.3 语音采样及预处理实验  49-50
  5.4 搜索树部分实验  50-51
  5.5 系统性能分析  51-54
第六部分研究总结与展望  54-55
参考文献  55-57
致谢  57-58
附录A 中英文对照表  58-59
附录B 图表对照表  59-62

说话人识别系统的研究与实现

内容摘要

全文目录

相似论文