学位论文 > 优秀研究生学位论文题录展示
唇读识别中若干问题的研究
作 者: 张泽梁
导 师: 李雄飞
学 校: 吉林大学
专 业: 计算机软件与理论
关键词: 唇读 特征提取 变形模板 傅立叶描述子 隐马尔可夫模型
分类号: TP391.41
类 型: 博士论文
年 份: 2012年
下 载: 171次
引 用: 0次
阅 读: 论文下载
内容摘要
自动语音识别技术是未来人机界面的重要组成部分,主要是通过利用声音达到理解自然语言,身份识别等目的。语音识别技术已经取得显著的成就,而且已有一些比较成功的应用,比如IBM的ViaVoice系统。此类系统,在词汇量不是很大、噪音较小的环境下表现良好,但是在真实的应用环境下,性能就会显著下降。而在未来的人机交互领域应用中,对系统的健壮性就提出了更高的要求,比如:汽车,机场,现场采访方面的应用等等。因此我们需要寻求新的方法,而利用唇动的视觉特征(唇读)与声音特征相结合的方法,已经被众多研究者证明是非常有效的,它不仅可以提高自动语音系统的识别率,而且能使系统更加健壮,更能适应真实的环境。本文主要围绕唇读识别中如何提高唇部特征提取的有效性和提高唇读的识别率方面开展研究。主要工作及创新如下:(1)提出了基于MPEG-4参数的唇部特征提取算法。唇部特征的选择在唇读识别的研究中起着至关重要的作用,本文从MPEG-4中选取了24个同唇部发音有密切关联的人脸动画特征参数,用这些特征参数来描述唇部特征。为了将唇部区域同脸部其它区域区分开,本文采用了6个GMM对唇部区域颜色进行描述;为了能够更好的描述嘴唇的形状和对嘴唇的轮廓进行跟踪,本文根据对唇部区域颜色描述的6个GMM和嘴唇轮廓相关信息创建新的搜索能量函数,并将其用于变形模板中,使用极大似然度算法求出唇部区域的GMM参数和脸部其它区域的GMM参数,有效的将唇部区域同脸部其它区域进行了区分,同时获得ROI(感兴趣区域)的轮廓分布。为了去除人脸整体运动对唇部区域跟踪的影响,利用脸部的4个特征点进行脸部运动的姿态校正,估计出脸部运动的过程。最后根据脸部特征点的运动计算出人脸动画的特征参数值,在实验中得到了较好的效果。(2)提出了基于傅立叶描述子的唇形分类方法。通过AdaBoost演算法获得嘴唇的位置与大小后,首先通过边缘侦测法找出唇形边缘,然后唇形的外形经由傅立叶描述子找出重要特征值,最后转换出来的傅立叶描述子经过正规化处理后,输入到人工神经元网络中进行分类。经实验证明,使用傅立叶描述子来进行唇形分类的正确率可达到85%。(3)提出了基于改进隐马尔可夫模型的唇读识别方法,建立了一个基于改进隐马尔可夫模型的唇读识别系统。隐马尔可夫模型借助其自身的优势使得其在近几年也逐渐的被应用到唇读识别的研究中,但是由于传统隐马尔可夫模型的局限性,使得唇读识别率不是很高。经过研究发现,其主要原因是传统隐马尔可夫模型的状态转移和输出观测值的马尔可夫假设条件对于唇读识别应用有一定的限制和影响。本文提出的方法对传统隐马尔可夫模型的状态转移和输出观测值的马尔可夫假设条件作出了改进,并在传统隐马尔可夫模型的的基础上导出新模型的学习算法,同时基于新的算法建立了唇读识别系统。该系统采用AdaBoost演算法对脸部和唇部进行检测,PCA和LDA对唇部图像像素降维的方法对唇部特征进行提取;矢量量化方法对唇部特征向量进行处理;改进的隐马尔可夫学习算法进行唇读识别。最终实验结果表明,改进的隐马尔可夫模型与传统隐马尔可夫模型在唇读识别上相比较,识别率得到了一定的提高。
|
全文目录
摘要 5-7 Abstract 7-11 第1章 绪论 11-15 1.1 研究背景及意义 11-12 1.1.1 本文研究背景 11-12 1.1.2 本文研究意义 12 1.2 本文的研究内容 12-14 1.3 本文的组织结构 14-15 第2章 研究基础及相关工作 15-37 2.1 唇部区域定位或分割 16-17 2.2 视觉特征提取 17-20 2.3 口型分类 20-22 2.4 识别方法 22-27 2.4.1 隐马尔可夫模型 23-26 2.4.2 人工神经网络 26-27 2.4.3 Adaboost+HMM 27 2.5 语音视觉融合算法 27-28 2.6 唇读数据库 28-34 2.6.1 国外相关数据库 29-32 2.6.2 国内相关数据库 32-34 2.7 本章小结 34-37 第3章 基于MPEG-4 的唇读视觉特征参数估计 37-51 3.1 唇读特征参数的选择 37-40 3.2 人脸特征点的跟踪 40-46 3.2.1 唇部轮廓的跟踪 40-45 3.2.2 参照点的跟踪 45-46 3.2.3 侧面特征点的跟踪 46 3.3 特征参数的计算 46-48 3.3.1 滤波 46 3.3.2 姿态的校正 46-48 3.4 FAP的计算 48 3.5 实验结果与结论 48-50 3.6 本章小结 50-51 第4章 基于傅立叶描述子的唇形分类 51-61 4.1 系统概述 51-52 4.2 唇形分类 52-58 4.2.1 唇形分类的预处理 52-53 4.2.2 傅立叶边界描述子 53-55 4.2.3 唇形分类的实现 55-58 4.3 实验结果与分析 58-60 4.4 本章小结 60-61 第5章 基于改进隐马尔可夫模型的唇读识别系统 61-101 5.1 经典隐马尔可夫模型 61-68 5.1.1 基本概念 61-64 5.1.2 三大核心问题 64-68 5.2 改进的隐马尔可夫模型 68-73 5.2.1 问题的提出 68 5.2.2 IHMM算法 68-73 5.3 IHMM在唇读识别中的应用 73-95 5.3.1 实验数据准备 73-74 5.3.2 结合AdaBoost演算法的脸部唇部检测 74-83 5.3.3 基于PCA和LDA算法的唇部特征提取 83-88 5.3.4 基于矢量量化的唇部特征向量处理 88-92 5.3.5 基于IHMM的唇读识别 92-95 5.4 实验结果与分析 95-98 5.5 本章小结 98-101 第6章 总结与展望 101-103 6.1 工作总结 101-102 6.2 未来展望 102-103 参考文献 103-109 作者简介及在学期间所取得的科研成果 109-111 在学期间参加的科研项目 111-112 致谢 112
|
相似论文
- 基于SVM的高速公路路面浅层病害的自动检测算法研究,U418.6
- 空间目标ISAR成像仿真及基于ISAR像的目标识别,TN957.52
- 胆囊炎和肾病综合症脉象信号的特征提取与分类研究,TP391.41
- Q学习在基于内容图像检索技术中的应用,TP391.41
- 直推式支持向量机研究及其在图像检索中的应用,TP391.41
- 中医舌诊中舌形与齿痕的特征提取及分类研究,TP391.41
- 空间交会接近视觉测量方法研究,TP391.41
- 图像实时采集、存储与处理方法研究,TP391.41
- 唇读中的特征提取、选择与融合,TP391.41
- 基于完全二叉树SVM烧结工况多类识别的研究与实现,TP391.41
- 基于不对称双目机器视觉的嵌入式尺寸测量系统,TP368.1
- 心音信号特征分析与识别算法的研究,R318.04
- 基于滑动窗口的数据流预测聚集查询处理的研究,TP311.13
- 脸部表情识别在突发事件预防方面的应用,TP391.41
- 基于专家知识的音乐灯光表演方案辅助设计系统研究,TP311.52
- 隐马尔可夫模型下基于通信流的隐组识别,TP301.6
- 隐马尔科夫模型演化下的隐组检测,O157.5
- 基于隐马尔可夫模型的时间序列聚类的研究,TP311.13
- 基于神经网络的入侵检测系统研究与实现,TP393.08
- 基于双目立体视觉的匹配算法研究,TP391.41
- 木马网络通信特征提取技术研究,TP393.08
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 模式识别与装置 > 图像识别及其装置
© 2012 www.xueweilunwen.com
|