学位论文 > 优秀研究生学位论文题录展示

说话人识别系统的研究与实现

作 者: 常志国
导 师: 殷业;李莉
学 校: 上海师范大学
专 业: 计算机应用
关键词: 语音识别 说话人识别 说话人辨认 小波分析 高斯混合模型 搜索树
分类号: TN912.3
类 型: 硕士论文
年 份: 2004年
下 载: 312次
引 用: 4次
阅 读: 论文下载
 

内容摘要


语言是人类进行信息交流最自然、最方便、最有效的方式。语音是语言传播的一种重要载体。随着科技的发展,人机交互界面经历了手工操作、字符界面和图形界面三个不同阶段。新一代的智能型界面正处于研究阶段,在不久的将来,它将成为我们生活中不可或缺的部分。智能型人机界面的最基本特征是能进行人机的语音交互,因此语音识别成了当今研究的一大热门领域。为此各国都不惜投入大量的人力、物力和财力攻克语音识别这一具有极大应用前景的难题。 本文主要研究的是说话人识别,它是语音识别的一个分支,可分为说话人辨认和说话人确认。论文首先就说话人识别的基本原理进行了阐述。鉴于目前说话人识别系统在信噪比(SNR)低时,识别效率显著降低这一事实,将小波分析引入说话人识别研究,对传统的语音分割方法和特征参数进行了改进。为了提高识别时的速度,从理论上提出了一种基于搜索树的识别模型,并对其可行性进行了一定的验证。最后实现了一个不依赖文本的说话人辨认系统,实践证明文中所提的理论和方法是有效的。

全文目录


绪论  7-9
第一部分 语音信号基本知识  9-16
  1.1 语音信号的产生机理  9-10
  1.2 语音信号的感知机理  10-11
  1.3 语音信号的基本分类  11
  1.4 语音信号的数学模型  11-12
  1.5 语音信号的分析方法  12-16
    1.5.1 时域分析  12-14
      1.5.1.1 过零率分析  13
      1.5.1.2 短时能量及短时平均幅度分析  13
      1.5.1.3 短时自相关分析  13-14
      1.5.1.4 短时平均幅度差分析  14
    1.5.2 语音信号的频域分析  14
      1.5.2.1 傅立叶变换的短时谱  14
    1.5.3 语音信号的倒谱分析  14
    1.5.4 语音信号的时频域分析  14-16
第二部分 说话人识别基本原理  16-35
  2.1 语音信号预处理  18-20
  2.2 特征参数  20-23
    2.2.1 基频  20-21
    2.2.2 线性预测系数LPC(Linear Predictor Coefficient,简写为LPC)  21
    2.2.3 倒谱系数CEPC(Cepstrum Coefficients,简写为CEPC)  21-22
    2.2.4 线性预测倒谱系数(Linear Predictor Cepstrum Coefficients,简写为LPCC)  22
    2.2.5 美尔倒谱系数(Mel Frequency Cepstrum Coefficients,简写为MFCC)  22
    2.2.6 感知线性预测系数(Perception Linear Predictor Coefficients,简写为PLPC)  22-23
    2.2.7 高层特征参数(Super Identity,简写为SuperID)  23
  2.3 特征参数选择准则  23-24
  2.4 特征矢量的常用压缩方法  24-26
  2.5 说话人识别训练模型  26-31
    2.5.1 K-NN  26-27
    2.5.2 矢量量化(Vector Quantization,简写为VQ)  27-28
    2.5.3 高斯混合模型(Gaussian Mixture Model,简称GMM)  28-29
    2.5.4 隐马尔可夫模型(Hidden Markov Model,简称为HMM)  29-30
    2.5.5 神经网络识别模型  30-31
  2.6 说话人识别系统的自适应性和鲁棒性  31-32
  2.7 测试用语音库和系统性能评价标准  32-35
    2.7.1 系统性能评价所涉及的因素  32-33
    2.7.2 常见说话人识别系统测试用语音数据库及产品提供者  33-35
第三部分 小波分析基本理论  35-43
  3.1 小波变换的定义  35-37
  3.2 小波变换的特点  37-41
  3.3 小波包  41-43
第四部分 基于离散小波变换的说话人识别系统  43-47
  4.1 预处理所采取的基于DWT的措施  43-44
    4.1.1 小波分析对语音信号的去噪功能  43
    4.1.2 基于DWT的语音分割算法  43-44
  4.2 基于小波变换的特征提取  44-46
    4.2.1 基于小波变换的基音确定  44-45
    4.2.2 基于小波变换的LPC  45
    4.2.3 基于小波包的MFCC  45-46
  4.3 系统所用训练模型对传统模型的改进  46-47
第五部分 系统的仿真与性能分析  47-54
  5.1 系统开发环境介绍  47-48
    5.1.1 硬件环境  47
    5.1.2 软件环境  47
    5.1.3 开发平台MATLAB介绍  47-48
  5.2 系统的功能模块  48-49
  5.3 语音采样及预处理实验  49-50
  5.4 搜索树部分实验  50-51
  5.5 系统性能分析  51-54
第六部分 研究总结与展望  54-55
参考文献  55-57
致谢  57-58
附录A 中英文对照表  58-59
附录B 图表对照表  59-62

相似论文

  1. 航天继电器时间参数测试分析技术的研究,TM58
  2. 说话人识别中不同语音编码影响的补偿方法,TN912.34
  3. 多重ANN/HMM混合模型在语音识别中的应用,TN912.34
  4. 基于DSP的机器人语音命令识别系统研制,TN912.34
  5. 基于汉语听觉认知的事件相关电位的研究,R318.0
  6. 在智能手机环境下健康管理功能设计与研究,TN929.53
  7. 基于声学特性的裂纹缺陷检测方法研究,TP274
  8. 基于小波分析的掌纹图像识别研究,TP391.41
  9. 基于小波和Kalman滤波的GPS数据去噪方法研究,P228.4
  10. 高质量语音转换系统中关键技术的研究,TN912.3
  11. 基于组合及统计的图像型垃圾邮件检测研究,TP391.41
  12. 面向大批量生产的刀具磨损在线识别技术研究,TG71
  13. 移动音视频交互业务执行平台的研究,TN915.09
  14. 多特征融合的视觉跟踪算法研究,TP391.41
  15. 高分辨率自然伽马测井仪器研制,TE927
  16. 漏电及故障电弧保护断路器的研究,TM561
  17. 基于形态分析的小电流系统接地故障辨识技术与工程应用,TM862
  18. 基于小波分析的流体快速模拟方法,TP391.41
  19. 基于FPGA的电力系统谐波检测系统的研究与设计,TM935
  20. 基于小波和神经网络理论的电力系统负荷预测研究,TM715
  21. 模拟电路故障诊断方法及其应用研究,TN710

中图分类: > 工业技术 > 无线电电子学、电信技术 > 通信 > 电声技术和语音信号处理 > 语音信号处理
© 2012 www.xueweilunwen.com