学位论文 > 优秀研究生学位论文题录展示

神经网络在语音质量客观评价应用中的研究

作 者: 鄢田云
导 师: 靳蕃
学 校: 西南交通大学
专 业: 交通信息工程及控制
关键词: 语音质量客观评价 广义同余神经网络 径向基函数 平均意见分 可懂度
分类号: TP183
类 型: 博士论文
年 份: 2007年
下 载: 508次
引 用: 2次
阅 读: 论文下载
 

内容摘要


现有语音质量主观评价存在费时、费力、费钱,灵活性不够,重复性和稳定性较差,受人的主观影响较大等缺点。为了克服主观评价的缺点,有必要寻求方便、快捷的客观评价方法。传统的音质客观评价判断模型用简单的数学形式难以体现听觉系统对语音的感知性状,于是本文采用接近于主观评价处理方式的神经网络系统模型,针对大词汇量汉语语音数据库,进行基于输入-输出方式、仅基于输出方式的语音质量客观评价;以及针对有限单词闭集汉语语音数据库,进行基于转移概率测度的语音质量可懂度客观评价;并对相关神经网络的结构、算法进行分析研究。传统的音质客观评价方法高度依赖于特征参数和失真测度,而且对信道干扰式样的增加很敏感;判断模型用简单的数学形式难以体现听觉系统对语音的感知性状。本文通过建立以径向基函数神经网络(RBFNN)为听觉判断模型的语音质量客观评价系统,有效地实现了从语音特征参数空间到人的听觉感知的非线性映射。RBF神经网络语音质量客观评价系统模型对特征参数的依赖性大大降低;而且在增加信道干扰式样的情况下,依然能取得高度相关的评价性能;评价结果性能比传统音质评价方法好;取得了跟主观评价MOS分值的高度相关性。但是训练建立一个RBFNN系统模型的时间代价较大。基于广义同余神经网络(GCNN)的语音质量客观评价系统模型,时间代价更小、音质评价性能更好。建立了基于GCNN的音质评价系统模型,除具有RBFNN系统模型的所有优势外,具有更简单的系统结构、更强的泛化性能、更高的主客观相关系数、更小的偏差和绝对误差,训练建立系统模型的时间代价节省约三分之一。总之,GCNN系统模型相比于RBFNN系统模型,无论在建模系统所需的时间方面,还是在语音质量评价的相关性能方面都具有明显的优势。提出了一种结构、算法更简单的递归神经网络——递归广义同余神经网络(RGCNN);并建立了基于递归广义同余神经网络的音质评价系统模型。从网络结构和调权算法两方面详细介绍了新提出的RGCNN,并总结了相比其它递归神经网络所具有的特点和优点;辨识仿真验证了RGCNN的有效性和收敛的快速性。为了体现语音信号的动态时变特性,考虑采用含有动力学性状的RGCNN,用于音质客观评价。通过建立基于RGCNN的语音质量客观评价系统模型,对连续语句语音和数字串话音进行基于输入-输出方式的音质客观评价,取得了理想的效果。提出了采用神经网络,对基于输出方式的语音质量进行客观评价的一种新方法——NN/OBQA。由于基于输入-输出方式的评价方法要求必须有原始输入语音、在时间上要求内同步的缺陷;尝试采用神经网络进行基于输出方式的语音质量客观评价。NN/OBQA音质客观评价方法仅对语音系统输出端的待测语音信号提取特征参数,然后通过神经网络完成特征参数到主观评价MOS分的非线性映射,其映射值即为仅依赖于输出的音质客观评价结果;其与主观评价MOS分之间达到高度相关。针对MOS分的音质评价研究已有不少,但对语音信息可懂度方面的音质评价研究,成果不多。本文针对有限闭集语音,探索设计了基于转移概率测度的可懂度评价原理;依照原理,提出了两种可懂度评价的具体方法:基于欧式距离转移概率测度的音质可懂度评价方法——EDTPM/ISQA和基于线性相关转移概率测度的音质可懂度评价方法——LCTPM/ISQA;提出了采用失真数据作为转移参考矩阵的思路方法,并详细分析了干净参考矩阵、失真参考矩阵的评价性能。对两种转移概率测度方法,采用干净参考矩阵、失真参考矩阵对语音质量成功地进行了可懂度评价;失真参考矩阵改善了客观可懂度评价结果与主观可懂度之间的相关性能。

全文目录


摘要  7-9
Abstract  9-16
第1章 绪论  16-36
  1.1 引言  16
  1.2 人工神经网络发展概述  16-20
    1.2.1 人工神经网络定义及功能特点  16-17
    1.2.2 神经网络三个发展阶段  17-19
    1.2.3 神经网络研究现状  19-20
    1.2.4 神经网络模型分类  20
  1.3 语音质量评价分类  20-22
    1.3.1 按评价主体分类  20-22
    1.3.2 语音质量客观评价从评价结构上分类  22
  1.4 语音质量客观评价发展概述  22-26
    1.4.1 基于输入-输出方式音质客观评价发展  22-25
    1.4.2 基于输出方式音质客观评价发展  25-26
  1.5 主观评价MOS测度  26-28
  1.6 语音材料  28-29
    1.6.1 标准语音库  28-29
    1.6.2 失真语音库  29
  1.7 音质客观评价的神经网络方法  29-30
  1.8 主客观评价之间的关系  30-33
    1.8.1 客观评价性能指标  30-32
    1.8.2 统计相关拟合模型  32-33
  1.9 本文主要研究内容及章节安排  33-36
第2章 基于径向基神经网络的音质客观评价系统  36-61
  2.1 引言  36-37
  2.2 特征参数提取  37-42
    2.2.1 美尔倒谱特征参数  37-40
    2.2.2 巴克谱特征参数  40-42
  2.3 径向基神经网络  42-47
    2.3.1 函数逼近与内插  42-43
    2.3.2 RBF神经网络学习方法  43-45
    2.3.3 RBF神经网络评价系统  45-47
  2.4 基于RBFNN的语音质量客观评价  47-59
    2.4.1 传统音质客观评价方法的原理  47-50
    2.4.2 神经网络进行音质客观评价原理  50-52
    2.4.3 两种评价方法结果比较  52-57
    2.4.4 RBFNN模型评价结果统计分析  57-59
  2.5 本章小结  59-61
第3章 GCNN及其音质评价研究  61-84
  3.1 引言  61-62
  3.2 三种GCNN及BPNN分析比较  62-71
    3.2.1 神经网络结构比较  63
    3.2.2 激励函数比较  63-65
    3.2.3 算法分析比较  65-68
    3.2.4 三种GCNN及BPNN性能分析比较  68-71
  3.3 辨识模型验证  71-74
    3.3.1 辨识模型  71-72
    3.3.2 仿真结果  72-74
  3.4 广义同余神经网络的语音质量评价  74-82
    3.4.1 连续语句语音客观质量评价  74-78
    3.4.2 数字串话音客观质量评价  78-81
    3.4.3 与RBF神经网络评价模型的整体性能比较  81-82
  3.5 本章小结  82-84
第4章 RGCNN特性分析及音质评价  84-101
  4.1 引言  84-85
  4.2 递归广义同余神经网络  85-89
    4.2.1 递归广义同余神经网络结构  85-86
    4.2.2 递归广义同余神经网络算法  86-89
  4.3 系统辨识验证  89-92
    4.3.1 辨识模型  89
    4.3.2 辨识仿真结果  89-92
  4.4 基于RGCNN的语音质量客观评价  92-99
    4.4.1 连续语句语音的音质客观评价  93-94
    4.4.2 数字串话音的音质客观评价  94-95
    4.4.3 结果比较分析  95-99
  4.5 本章小结  99-101
第5章 神经网络及其基于输出方式音质客观评价  101-119
  5.1 引言  101
  5.2 基于输出方式音质客观评价原理  101-107
    5.2.1 基于输出方式传统方法原理  101-103
    5.2.2 基于输出方式神经网络方法原理  103-105
    5.2.3 神经网络样本学习方法  105-107
  5.3 基于输出方式神经网络系统模型音质评价  107-117
    5.3.1 RBFNN的基于输出方式音质评价  107-110
    5.3.2 GCNN的基于输出方式音质评价  110-112
    5.3.3 采用RGCNN的输出方式音质评价  112-113
    5.3.4 三种神经网络系统模型音质评价性能比较  113-117
  5.4 本章小结  117-119
第6章 有限闭集语音转移概率测度  119-144
  6.1 研究的意义  119-120
  6.2 关键技术和方法  120-123
    6.2.1 闭集语音数据库  120
    6.2.2 转移概率与可懂度(或清晰度)之间的关系  120-123
  6.3 基于转移概率测度音质评价  123-143
    6.3.1 转移概率测度可懂度评价原理  123-126
    6.3.2 针对男女声混合数据欧式距离转移概率测度评价  126-132
    6.3.3 针对男女声混合数据线性相关转移概率测度评价  132-137
    6.3.4 线性相关转移概率测度与欧式距离转移概率测度对比分析  137-140
    6.3.5 客观可懂度与主观可懂度之间拟合关系  140-142
    6.3.6 可懂度与MOS对应关系  142-143
  6.4 本章小结  143-144
结论  144-148
  论文工作总结  144-146
  进一步的研究工作  146-148
致谢  148-149
参考文献  149-157
附表  157-161
攻读博士学位期间发表、录用和完成的论文  161-163
攻读博士学位期间主研和主持的科研项目  163

相似论文

  1. 带有多项式基的径向点插值无网格方法的研究及应用,O241
  2. 新型开放式超导MRI主磁体设计,R318.6
  3. 光学自由曲面面形描述方法和光线追迹模型的研究,O435
  4. 面向武器投放规划的自适应混合响应面优化方法研究,V271.4
  5. 物体变形破碎仿真建模及其绘制技术的研究与实现,TP391.41
  6. 双曲守恒律径向基函数方法研究,O241.82
  7. 复杂结构有限元模型分级确认研究,TB115
  8. 基于GST-MQ配点法的突发水污染事故反演模型研究,X52
  9. 基于RBF神经网络的循环灰利用率软测量技术的研究,X701.3
  10. 内模控制算法在锅炉烟气脱硫pH值控制系统中的仿真研究,TP273
  11. 基于OpenGL的SFS问题的研究与实现,TP391.41
  12. 基于局部泛化误差的半监督图像检索方法,TP391.41
  13. 非对称径向基函数配点法在地下水数值模拟中的应用,O241.82
  14. 基于RBF神经网络的γ能谱分析,TL817.2
  15. 航线收益影响因素与预测方法研究,F224
  16. 基于ISA-DE算法的神经网络PID控制,TP13
  17. 径向基神经网络算法优化及在嵌入式系统中的应用,TP368.1
  18. 基于Backstepping方法的RBF神经网络在倒立摆系统中的应用研究,TP183
  19. 基于RBF的电容层析成像系统图像重建算法研究,TP391.41
  20. 人脸特征提取及分类算法研究,TP391.41
  21. 非线性混合信号的盲源分离研究,TN911.7

中图分类: > 工业技术 > 自动化技术、计算机技术 > 自动化基础理论 > 人工智能理论 > 人工神经网络与计算
© 2012 www.xueweilunwen.com