学位论文 > 优秀研究生学位论文题录展示

三维人脸唇形动画的语音驱动研究

作 者: 乔德明
导 师: 蒲晓蓉
学 校: 电子科技大学
专 业: 软件工程
关键词: 语音驱动 唇形动画 端点检测 特征参数
分类号: TN912.34
类 型: 硕士论文
年 份: 2010年
下 载: 69次
引 用: 2次
阅 读: 论文下载
 

内容摘要


语音驱动的唇形动画属于人脸动画技术范畴,具有真实感的可视化语音合成技术已成为人机接口、虚拟主播与人工智能等领域的研究热点,可广泛用于视频教学、电影动画、虚拟社区等。本文主要研究基于三维网格模型的语音驱动唇形动画技术,重点研究了两个关键问题,(1)特定人的可视化语音与唇形同步技术。采用基于数据驱动的唇形合成方法,获得真实自然的唇形动画效果;(2)非特定人的语音唇形同步动画技术。利用BP神经网络研究语音驱动唇形动画。该方法运算量较小,可操作性较强,能够达到较理想的语音唇形动画效果。本文主要工作有如下几个方面:1.采集不同人的语音资料,建立语音库;研究与分析汉语的发音特征以及发音规律,分析唇形运动状态以将具有相似运动状态的唇形进行归类,建立口型库。2.基于特定人的语音可视化合成算法的研究,提取唇形的特征参数值,对唇形样本进行分类与聚类处理,形成基本的唇形类别,对语音进行分帧处理以提取语音的特征参数(MFFC),建立语音帧与唇形类别的映射关系,建立训练模型以训练样本数据,最终合成与语音帧相同步的唇形帧,经平滑处理后达到真实动画效果。3.非特定人的语音驱动唇形动画的研究,依据汉字音节特征以及声韵母与唇形类别间的映射关系,构建一个三层的BP网络模型进行学习训练。在实时语音驱动唇形动画过程中,首先对语音信号进行端点检测,将噪音段与无音段直接对应闭合的唇形状态,然后提取有效语音的底层特征参数,经过BP网络模型处理,生成与实时语音帧对应的唇形状态帧,以显示唇形动画。本文采用汉语语音驱动人脸唇形动画,首先提取语音的特征参数MFFC,建立语音帧与唇形帧在时间序列上的某种映射关系,以驱动唇形运动;最后,在三维人脸网格模型上实现语音驱动的唇形动画,达到真实自然的动画效果。实验证明,本文所提算法是有效的,且具有较满意的运行效率。

全文目录


摘要  4-5
ABSTRACT  5-9
第一章 绪论  9-14
  1.1 课题背景与意义  9-10
  1.2 研究现状与发展趋势  10-11
  1.3 论文组织与章节安排  11-14
第二章 三维人脸唇形动画技术基础  14-26
  2.1 三维人脸建模技术  14-15
  2.2 人脸动画技术  15-21
    2.2.1 混合人脸模拟动画技术  16-18
    2.2.2 基于FAP 流的动画技术  18-20
    2.2.3 基于肌肉模型的动画技术  20-21
  2.3 人脸动画驱动技术  21-25
    2.3.1 文本驱动唇形动画方法  22-23
    2.3.2 视频驱动人脸动画方法  23-24
    2.3.3 语音驱动唇形动画方法  24-25
  2.4 小结  25-26
第三章 汉语语音与口型资料库  26-34
  3.1 汉语发音特征研究  26-28
  3.2 口型类别分析  28-31
  3.3 建立语音数据库  31-33
  3.4 小结  33-34
第四章 语音特征参数提取  34-46
  4.1 语音信号分析  34-35
    4.1.1 语音信号的数字化  34-35
    4.1.2 语音基因频率  35
  4.2 语音信号的预处理  35-41
    4.2.1 语音信号的预加重  36
    4.2.2 语音信号的加窗  36-38
    4.2.3 短时平均能量  38-39
    4.2.4 短时语音平均幅度  39
    4.2.5 短时平均过零率  39-41
  4.3 LPCC 特征参数提取  41-43
  4.4 MFCC 特征参数提取  43-45
  4.5 本章小结  45-46
第五章 基于特征人的语音唇形动画合成  46-61
  5.1 语音动画的基本原理  46-48
  5.2 唇形数据的提取  48-51
    5.2.1 唇形特征的分析  48-49
    5.2.2 唇形特征的检测  49-51
  5.3 唇形的聚类分析  51-56
    5.3.1 K-Means 聚类算法  51-52
    5.3.2 改进的分级聚类算法  52-55
    5.3.3 聚类结果分析  55-56
  5.4 基于贝叶斯网络的语音可视化动画  56-60
    5.4.1 贝叶斯分类算法原理  56-57
    5.4.2 唇形合成模型的建立  57-58
    5.4.3 实时语音合成的唇形动画  58-60
  5.5 本章小结  60-61
第六章 基于BP 神经网络的语音唇形动画  61-72
  6.1 BP 神经网络原理  61-62
  6.2 基于BP 网络的语音唇形动画  62-70
    6.2.1 BP 网络模型的训练  62-66
    6.2.2 语音的端点检测  66-68
    6.2.3 实时语音驱动的唇形动画  68-70
  6.3 实验结果及分析  70-71
  6.4 本章小结  71-72
第七章 总结与展望  72-74
致谢  74-75
参考文献  75-78
攻硕期间取得的研究成果  78-79

相似论文

  1. 认知无线电网络中的基于信道特征的主用户仿真攻击防御技术,TN925
  2. 数字助听器中语音增强技术的研究,TN912.35
  3. 棉纤维成熟度纵向图像分析研究,TP391.41
  4. 功率谱估计在宽带ADCP信号检测中的研究与应用,TN911.23
  5. 基于电话信道的声纹识别算法研究,TN912.34
  6. 宽幅矮塔斜拉桥结构参数分析及宽幅箱梁剪力滞效应研究,U448.27
  7. 基于改进MFCC的语音识别系统研究及设计,TN912.34
  8. 基于日负荷曲线的用电行业构成比例在线修正方法研究,TM714
  9. 面向装备研制的产品平台构建研究,TJ08
  10. 竹子地上部分形态特征及生长建模研究,S795
  11. 基于机器视觉的汽车流量检测算法研究,TP391.41
  12. 语音端点检测算法研究及硬件实现,TN912.34
  13. 基于经验模态分解的语音端点检测算法研究,TN912.3
  14. 说话人识别中特征参数的提取及优化研究,TN912.34
  15. 面向全定制宏模块的时序建模技术研究与实现,TN47
  16. 水泥加固红土的力学特性及神经网络模型研究,TU446
  17. 基于人工神经网络的地下水源热泵系统节能诊断研究,TU831.3
  18. 随机载荷特征参数提取与疲劳寿命预测智能系统开发,TH87
  19. 基于机器视觉苹果检测算法的研究,TP391.41
  20. 焊缝X射线检测底片故障分类与图像识别方法研究,TP391.41
  21. 基于浮选泡沫图像处理的矿浆品位建模及仿真,TP391.41

中图分类: > 工业技术 > 无线电电子学、电信技术 > 通信 > 电声技术和语音信号处理 > 语音信号处理 > 语音识别与设备
© 2012 www.xueweilunwen.com