学位论文 > 优秀研究生学位论文题录展示

语音信号动力学特性递归分析

作　者: 闫润强
导　师: 朱贻盛
学　校: 上海交通大学
专　业: 生物医学工程
关键词: 语音信号非线性动力学非平稳时间序列分析递归图定量递归分析自动切分端点检测清浊音判决
分类号: R318
类　型: 博士论文
年　份: 2006年
下　载: 248次
引　用: 5次
阅　读: 论文下载

内容摘要

近年来,随着语音信号非线性动力学特性研究的深入以及非线性动力学理论的进一步发展,应用非线性方法分析和处理语音信号成为研究的热点。然而,在应用非线性方法分析语音信号过程中,特别是计算语音音素的非线性表征量(如相关维数和最大Lyapunov指数)精细定量描述语音特征时,语音信号的非平稳特性和音素采样点不足这两个因素制约了这些方法的应用,使得计算结果往往波动很大,造成了解释上的误差。因此,研究针对非平稳语音信号的新的时间序列分析技术和新的特征参数提取手段成为本文的目的。首先,论文介绍了利用非线性动力学方法对语音信号进行理论性的定性和定量分析。根据音素的发声机理,讨论了浊音的声门振荡模式、清音的湍流声源模式和交互作用模式这三种不同的非线性模式。在研究语音的状态空间重构中,采用邻接误差法和平均互信息法统计得到语音音素序列重构相空间嵌入维数和延迟时间,为非线性分析方法分析连续语音提供了必要条件。通过对语音音素信号相关维数和最大Lyapunov指数的计算,表明了语音信号的混沌动力学特性。同时,计算结果较大的波动性表明这两种非线性参数只能用作反映语音非线性特征的表征量,而不能用作精细特征分析。然后,论文综述了针对短时非平稳的时间序列分析技术的研究现状,讨论了递归图和定量递归分析技术的应用研究。在递归图分析中,详细介绍了递归图的宏观模式和微观模式及其所表达的潜在的动力学含义。讨论了定量递归分析中的各种不同参量所衡量的动力学递归特性。通过从非平稳的时间序列分析、两时间序列相关性分析和噪声对定量递归分析的影响三个领域进行的研究讨论,说明了递归图和定量递归分析技术分析短时非稳态时间序列的有效性。随后,将递归图和定量递归分析技术引入语音信号处理领域。通过二维递归图观察不同模式的语音信号内部动力学机理的递归现象,使用递归量化参数定量的揭示了语音信号的递归特性。在音素递归图分析中,将语音非线性特征的表现模式和递归图的宏观模式联系起来:浊音的声门振荡模式对应于周期模式递归图,清音的湍流声源模式对应于均态模式递归图。由于爆破音闭塞段和释放段动力学性能的剧

全文目录

第一章绪论  13-20
  1.1 课题的研究背景  13-15
  1.2 递归图和定量递归分析技术研究现状  15-16
  1.3 论文的目的、主要研究内容及贡献  16-17
  1.4 论文的结构安排  17-18
  1.5 论文的创新点  18-20
第二章语音信号的非线性动力学特性分析  20-42
  2.1 非线性动力学理论与非线性时间序列分析技术  20-30
    2.1.1 非线性动力系统  21-22
    2.1.2 重构相空间和时间延迟嵌入理论  22-23
    2.1.3 非线性时间序列的定量描述  23-26
    2.1.4 相关维数和Lyapunov 指数的数值计算方法  26-30
  2.2 语音信号的非线性动力学特性分析  30-41
    2.2.1 语音信号产生过程的非线性  30-31
    2.2.2 语音的相空间重构  31-37
    2.2.3 语音的相关维数  37-39
    2.2.4 语音的最大Lyapunov 指数  39-40
    2.2.5 非线性语音信号处理的应用研究  40-41
  2.3 本章结论  41-42
第三章递归图和定量递归分析技术  42-63
  3.1 递归图（RP）  42-47
    3.1.1 递归图中表现出的宏观模式  44-45
    3.1.2 递归图中表现出的微观模式  45-47
    3.1.3 构造递归图的参数选择  47
  3.2 定量递归分析（RQA）  47-49
  3.3 递归图和定量递归分析技术的应用研究  49-62
    3.3.1 非平稳时间序列分析  50-56
    3.3.2 两时间序列相关性分析  56-60
    3.3.3 噪声对定量递归分析的影响  60-62
  3.4 本章结论  62-63
第四章语音信号的递归特性分析  63-75
  4.1 构造递归图参数的确定  63-66
  4.2 音素的递归图  66-68
  4.3 音素的定量递归分析  68-70
  4.4 二音素的递归图分析  70-71
  4.5 噪声对语音递归图的影响  71-74
  4.6 本章结论  74-75
第五章递归趋势分析在语音自动切分中的应用  75-96
  5.1 语音自动切分技术的发展现状  75-81
    5.1.1 手工音素边界定位的符合度  76-77
    5.1.2 基于HMM 模型的语音自动切分系统  77-79
    5.1.3 基于DTW 语音自动切分方法  79-80
    5.1.4 其它基于声学特征参数的语音自动切分方法  80-81
    5.1.5 小结  81
  5.2 利用递归趋势切分语音  81-85
  5.3 基于HMM 模型的连续语音切分精度的提高  85-95
    5.3.1 HMM模型在切分应用中的内在缺陷及一些改进措施分析  85-88
    5.3.2 应用依时递归趋势分析调整音素切分边界  88-90
    5.3.3 测试数据库  90-91
    5.3.4 切分结果及其分析  91-95
  5.4本本章结论  95-96
第六章基于信号递归度分析的语音端点检测  96-109
  6.1 噪声环境下语音端点检测技术  96-101
    6.1.1 基于短时能量的方法  97-98
    6.1.2 基于倒谱距离测度的方法  98
    6.1.3 基于自相关相似距离的方法  98-99
    6.1.4 基于语音波形短时网格分形维数的方法  99-100
    6.1.5 基于HMM 模型的方法  100
    6.1.6 各类方法比较总结  100-101
  6.2基基于信号递归度分析的语音端点检测  101-108
    6.2.1 信号递归度  101-102
    6.2.2 临界距离的选择  102-104
    6.2.3 判别流程  104
    6.2.4 测试数据  104
    6.2.5 对比方法  104-105
    6.2.6 测试结果分析  105-107
    6.2.7 缺点分析  107-108
  6.3 本章结论  108-109
第七章定量递归分析在语音清浊音判决中的应用  109-116
  7.1 汉语普通话语音音素递归特性分析  109-112
    7.1.1 递归参数的选择  109-110
    7.1.2 音素递归图分析  110-111
    7.1.3 定量递归分析  111-112
  7.2清清浊音判决的实现和性能分析  112-115
    7.2.1 清浊音递归特性统计  112-113
    7.2.2 判决方法流程  113-114
    7.2.3 判决结果分析  114-115
    7.2.4 缺点分析  115
  7.3 本章结论  115-116
第八章总结和展望  116-118
  8.1 本文的研究总结  116-117
    8.1.1 递归趋势分析在语音自动切分中的应用  116
    8.1.2 基于信号递归度分析的语音端点检测  116-117
    8.1.3 定量递归分析在语音清浊音判决中的应用  117
  8.2 本课题研究展望  117-118
附录 A TIMIT 音素表  118-119
附录 B HTK环境配置参数及HMM模型拓扑结构原型设置  119-121
  B.1 HTK 环境配置参数  119
  B.2 HMM 拓扑结构  119-121
参考文献  121-129
致谢  129-130
攻读博士期间发表和完成的学术论文  130-131
学位论文出版授权书  131

相似论文

基于小波变换的语音信号去噪及其DSP算法实现,TN912.3
基于压缩感知的语音稀疏基和投影矩阵构造技术的研究,TN919.8
基于稀疏表示的语音信号的最佳投影与其重构技术的研究,TN912.3
数字助听器中语音增强技术的研究,TN912.35
功率谱估计在宽带ADCP信号检测中的研究与应用,TN911.23
基于电话信道的声纹识别算法研究,TN912.34
基于改进MFCC的语音识别系统研究及设计,TN912.34
EFG显式非线性动力学计算平台开发及应用,O313
应用Samcef/Rotor计算转子—轴承系统非线性动力学响应与稳定性,TH113
机械早期故障检测的混沌抑制与阵列随机共振方法,TH165.3
基于自动切分的PSOLA语音合成在大坝监控系统中的应用研究,TP277
语音信号基音周期检测算法研究,TN912.3
语音端点检测算法研究及硬件实现,TN912.34
基于经验模态分解的语音端点检测算法研究,TN912.3
说话人识别中特征参数的提取及优化研究,TN912.34
无人机内燃机隔振技术分析,V235.1
语音情感识别研究,TN912.34
G.729语音编解码算法的研究及其DSP实现,TN919.81
自适应低速率语音编解码研究与实现,TN912.3
阿尔茨海默病患者图形和汉字短时记忆的40Hz脑电的研究,R749.16
与文本无关的开集说话人识别技术研究,TN912.34