学位论文 > 优秀研究生学位论文题录展示
与文本无关的开集说话人识别技术研究
作 者: 陆春梅
导 师: 王建英
学 校: 西南交通大学
专 业: 信号与信息处理
关键词: 说话人识别 端点检测 主成分分析 MFCC 开集辨认 阈值确认
分类号: TN912.34
类 型: 硕士论文
年 份: 2011年
下 载: 43次
引 用: 0次
阅 读: 论文下载
内容摘要
随着信息技术的发展,身份识别在信息安全领域发挥着越来越重要的作用。生物识别以其特有的稳定性、唯一性和方便性,逐渐成为身份识别领域中的重要研究方向。说话人识别技术是生物识别技术的一种,此技术的重点是根据说话人之间个性特征的差异来区分说话人。目前与文本相关的闭集说话人识别技术已经取得了较高的识别率,但是对于开集识别而言,识别率较低。因为开集识别要涉及到说话人辨认和阈值确认,所以辨认和阈值确认是开集识别的难点和关键。本文针对与文本无关的开集说话人识别技术,详细分析了说话人识别系统的基本原理和结构,并且对语音端点检测、特征参数提取、开集辨认、闽值确认几个部分进行了深入的研究。所做的主要工作如下:(1)预处理和语音端点检测部分,首先分析预处理和语音端点检测的重要性。然后从理论上描述基于短时能量的端点检测算法、基于短时过零率的端点检测算法、基于短时能频值的端点检测算法、基于谱熵的端点检测算法和基于改进谱熵的端点检测算法。最后对预加重和上述五个端点检测算法进行实验仿真,并对上述五个端点检测算法进行优缺点的比较。针对实验室环境下录制的说话人发音较小的特点,采用改进谱熵的端点检测算法。(2)特征提取部分,从理论上分析了参数提取方法和PCA理论。研究将PCA理论应用于特征参数的提取。仿真实验证明该方法能够在一定程度上改善识别性能,同时减少码本训练的运算时间。(3)开集辨认部分,针对传统VQ的不足,研究将FCM算法与PCA理论相结合的开集说话人辨认系统。仿真实验证明FCM+PCA具有比FCM、VQ+PCA和VQ更高的识别率。(4)开集识别部分,详细描述经典阈值、动态阈值、RS阈值的估计方法。研究将FCM+PCA辨认和RS阈值确认相结合的开集说话人识别系统。仿真实验证明此系统的EER与基于上述三种阈值的识别系统的EER相比较在一定程度上有所降低。
|
全文目录
摘要 6-7 Abstract 7-11 第1章 绪论 11-15 1.1 课题研究背景及意义 11-13 1.1.1 说话人识别介绍 11 1.1.2 说话人识别的优势与应用前景 11-12 1.1.3 说话人识别的研究意义 12-13 1.2 说话人识别的研究与发展现状 13 1.3 本文主要工作与论文结构 13-15 第2章 说话人识别技术基础 15-20 2.1 说话人识别系统的结构与原理 15-16 2.2 说话人识别模型 16-18 2.2.1 模板模型匹配 16-17 2.2.2 概率模型匹配 17 2.2.3 人工神经网络 17 2.2.4 支持向量机 17-18 2.2.5 融合方法 18 2.3 识别性能的评价标准 18-19 2.4 本章小结 19-20 第3章 语音信号的预处理与端点检测 20-30 3.1 语音信号的数字化与预处理 20-22 3.1.1 语音信号的数字化 20 3.1.2 预加重 20-21 3.1.3 语音信号的分帧和加窗 21-22 3.2 语音端点检测 22-29 3.2.1 语音端点检测的目的 22 3.2.2 语音端点检测算法 22-29 3.3 本章小结 29-30 第4章 说话人特征参数提取 30-39 4.1 特征参数提取意义和原则 30 4.2 特征参数提取 30-33 4.2.1 美尔倒谱系数MFCC 30-33 4.2.2 动态MFCC 33 4.3 基于主成分分析的说话人特征变换 33-38 4.3.1 特征参数的缺点 33-34 4.3.2 PCA对特征参数去相关、降维的推导 34-36 4.3.3 主成分分析转换步骤 36-37 4.3.4 维数的选择 37-38 4.4 本章小结 38-39 第5章 聚类量化的开集说话人识别系统 39-63 5.1 基于矢量量化的开集说话人辨认 39-46 5.1.1 矢量量化的基本原理 39-40 5.1.2 失真测度 40-41 5.1.3 最佳码本设计 41-43 5.1.4 基于VQ的说话人辨认 43-44 5.1.5 局部PCA特征转换与VQ结合的说话人辨认 44-46 5.2 基于模糊矢量量化的开集说话人辨认 46-52 5.2.1 矢量量化的局限性 46 5.2.2 FCM对新特征参数聚类的算法推导 46-49 5.2.3 FCM对新特征参数聚类的算法步骤 49-50 5.2.4 基于FVQ的说话人辨认 50 5.2.5 局部PCA特征转换与FVQ结合的说话人辨认 50-52 5.3 开集说话人阈值确认 52-56 5.3.1 经典阈值 52-53 5.3.2 动态阈值 53 5.3.3 RS(Robust-Threshold)阈值 53-56 5.4 聚类量化的开集说话人识别 56-58 5.5 实验仿真 58-62 5.5.1 聚类量化的开集说话人辨认系统的仿真实验 58-60 5.5.2 聚类量化的开集说话人识别系统的仿真实验 60-62 5.6 本章小结 62-63 结论与展望 63-64 致谢 64-65 参考文献 65-70 攻读硕士学位期间发表的论文及科研成果 70
|
相似论文
- 基于质谱的雷公藤甲素肝脏毒性代谢组学研究,R285
- 改进的主成分分析方法在学科建设中的应用,G642.4
- 高分辨率SAR影像裸土信息提取及土壤含水量反演初探,S152.7
- 高光谱图像技术诊断黄瓜病害方法的研究,S436.421
- 旅游对芦芽山国家级自然保护区典型植被的影响,S759.9
- 太行山猕猴掌面花纹嵴数的形态学研究,Q954
- 赵官煤矿下组煤底板突水预测及防治技术研究,TD745
- 重庆文化产业竞争力研究,F224
- 基于神经树的人脸识别方法研究,TP391.41
- 学生数学建模能力评价体系及应用实例,O141.4-4
- 草原公路光环境对驾驶员生理指标的影响研究,U491.254
- 面向肺部CAD的特征提取、选择及分类方法研究,TP391.41
- 基于MMTD的人脸识别方法研究,TP391.41
- 数字助听器中语音增强技术的研究,TN912.35
- 黄冈市旅游产业的竞争力评价与发展战略,F592.7
- 农村信息化推动苏南区域城乡一体化快速发展对策研究,F127;F224
- 分子三次、分母二次有理样条权函数神经网络研究及应用,TP183
- 河南省文化遗产价值指标体系研究,G122
- 基于主成分分析法的临沂市电子政务系统绩效评价指标体系研究,G206
- 基于特征融合的人脸识别算法研究,TP391.41
- 水下目标的视觉检测与识别,TP391.41
中图分类: > 工业技术 > 无线电电子学、电信技术 > 通信 > 电声技术和语音信号处理 > 语音信号处理 > 语音识别与设备
© 2012 www.xueweilunwen.com
|