学位论文 > 优秀研究生学位论文题录展示

与文本无关的开集说话人识别技术研究

作 者: 陆春梅
导 师: 王建英
学 校: 西南交通大学
专 业: 信号与信息处理
关键词: 说话人识别 端点检测 主成分分析 MFCC 开集辨认 阈值确认
分类号: TN912.34
类 型: 硕士论文
年 份: 2011年
下 载: 43次
引 用: 0次
阅 读: 论文下载
 

内容摘要


随着信息技术的发展,身份识别在信息安全领域发挥着越来越重要的作用。生物识别以其特有的稳定性、唯一性和方便性,逐渐成为身份识别领域中的重要研究方向。说话人识别技术是生物识别技术的一种,此技术的重点是根据说话人之间个性特征的差异来区分说话人。目前与文本相关的闭集说话人识别技术已经取得了较高的识别率,但是对于开集识别而言,识别率较低。因为开集识别要涉及到说话人辨认和阈值确认,所以辨认和阈值确认是开集识别的难点和关键。本文针对与文本无关的开集说话人识别技术,详细分析了说话人识别系统的基本原理和结构,并且对语音端点检测、特征参数提取、开集辨认、闽值确认几个部分进行了深入的研究。所做的主要工作如下:(1)预处理和语音端点检测部分,首先分析预处理和语音端点检测的重要性。然后从理论上描述基于短时能量的端点检测算法、基于短时过零率的端点检测算法、基于短时能频值的端点检测算法、基于谱熵的端点检测算法和基于改进谱熵的端点检测算法。最后对预加重和上述五个端点检测算法进行实验仿真,并对上述五个端点检测算法进行优缺点的比较。针对实验室环境下录制的说话人发音较小的特点,采用改进谱熵的端点检测算法。(2)特征提取部分,从理论上分析了参数提取方法和PCA理论。研究将PCA理论应用于特征参数的提取。仿真实验证明该方法能够在一定程度上改善识别性能,同时减少码本训练的运算时间。(3)开集辨认部分,针对传统VQ的不足,研究将FCM算法与PCA理论相结合的开集说话人辨认系统。仿真实验证明FCM+PCA具有比FCM、VQ+PCA和VQ更高的识别率。(4)开集识别部分,详细描述经典阈值、动态阈值、RS阈值的估计方法。研究将FCM+PCA辨认和RS阈值确认相结合的开集说话人识别系统。仿真实验证明此系统的EER与基于上述三种阈值的识别系统的EER相比较在一定程度上有所降低。

全文目录


摘要  6-7
Abstract  7-11
第1章 绪论  11-15
  1.1 课题研究背景及意义  11-13
    1.1.1 说话人识别介绍  11
    1.1.2 说话人识别的优势与应用前景  11-12
    1.1.3 说话人识别的研究意义  12-13
  1.2 说话人识别的研究与发展现状  13
  1.3 本文主要工作与论文结构  13-15
第2章 说话人识别技术基础  15-20
  2.1 说话人识别系统的结构与原理  15-16
  2.2 说话人识别模型  16-18
    2.2.1 模板模型匹配  16-17
    2.2.2 概率模型匹配  17
    2.2.3 人工神经网络  17
    2.2.4 支持向量机  17-18
    2.2.5 融合方法  18
  2.3 识别性能的评价标准  18-19
  2.4 本章小结  19-20
第3章 语音信号的预处理与端点检测  20-30
  3.1 语音信号的数字化与预处理  20-22
    3.1.1 语音信号的数字化  20
    3.1.2 预加重  20-21
    3.1.3 语音信号的分帧和加窗  21-22
  3.2 语音端点检测  22-29
    3.2.1 语音端点检测的目的  22
    3.2.2 语音端点检测算法  22-29
  3.3 本章小结  29-30
第4章 说话人特征参数提取  30-39
  4.1 特征参数提取意义和原则  30
  4.2 特征参数提取  30-33
    4.2.1 美尔倒谱系数MFCC  30-33
    4.2.2 动态MFCC  33
  4.3 基于主成分分析的说话人特征变换  33-38
    4.3.1 特征参数的缺点  33-34
    4.3.2 PCA对特征参数去相关、降维的推导  34-36
    4.3.3 主成分分析转换步骤  36-37
    4.3.4 维数的选择  37-38
  4.4 本章小结  38-39
第5章 聚类量化的开集说话人识别系统  39-63
  5.1 基于矢量量化的开集说话人辨认  39-46
    5.1.1 矢量量化的基本原理  39-40
    5.1.2 失真测度  40-41
    5.1.3 最佳码本设计  41-43
    5.1.4 基于VQ的说话人辨认  43-44
    5.1.5 局部PCA特征转换与VQ结合的说话人辨认  44-46
  5.2 基于模糊矢量量化的开集说话人辨认  46-52
    5.2.1 矢量量化的局限性  46
    5.2.2 FCM对新特征参数聚类的算法推导  46-49
    5.2.3 FCM对新特征参数聚类的算法步骤  49-50
    5.2.4 基于FVQ的说话人辨认  50
    5.2.5 局部PCA特征转换与FVQ结合的说话人辨认  50-52
  5.3 开集说话人阈值确认  52-56
    5.3.1 经典阈值  52-53
    5.3.2 动态阈值  53
    5.3.3 RS(Robust-Threshold)阈值  53-56
  5.4 聚类量化的开集说话人识别  56-58
  5.5 实验仿真  58-62
    5.5.1 聚类量化的开集说话人辨认系统的仿真实验  58-60
    5.5.2 聚类量化的开集说话人识别系统的仿真实验  60-62
  5.6 本章小结  62-63
结论与展望  63-64
致谢  64-65
参考文献  65-70
攻读硕士学位期间发表的论文及科研成果  70

相似论文

  1. 基于质谱的雷公藤甲素肝脏毒性代谢组学研究,R285
  2. 改进的主成分分析方法在学科建设中的应用,G642.4
  3. 高分辨率SAR影像裸土信息提取及土壤含水量反演初探,S152.7
  4. 高光谱图像技术诊断黄瓜病害方法的研究,S436.421
  5. 旅游对芦芽山国家级自然保护区典型植被的影响,S759.9
  6. 太行山猕猴掌面花纹嵴数的形态学研究,Q954
  7. 赵官煤矿下组煤底板突水预测及防治技术研究,TD745
  8. 重庆文化产业竞争力研究,F224
  9. 基于神经树的人脸识别方法研究,TP391.41
  10. 学生数学建模能力评价体系及应用实例,O141.4-4
  11. 草原公路光环境对驾驶员生理指标的影响研究,U491.254
  12. 面向肺部CAD的特征提取、选择及分类方法研究,TP391.41
  13. 基于MMTD的人脸识别方法研究,TP391.41
  14. 数字助听器中语音增强技术的研究,TN912.35
  15. 黄冈市旅游产业的竞争力评价与发展战略,F592.7
  16. 农村信息化推动苏南区域城乡一体化快速发展对策研究,F127;F224
  17. 分子三次、分母二次有理样条权函数神经网络研究及应用,TP183
  18. 河南省文化遗产价值指标体系研究,G122
  19. 基于主成分分析法的临沂市电子政务系统绩效评价指标体系研究,G206
  20. 基于特征融合的人脸识别算法研究,TP391.41
  21. 水下目标的视觉检测与识别,TP391.41

中图分类: > 工业技术 > 无线电电子学、电信技术 > 通信 > 电声技术和语音信号处理 > 语音信号处理 > 语音识别与设备
© 2012 www.xueweilunwen.com