学位论文 > 优秀研究生学位论文题录展示

音视频联合说话人定位与跟踪方法研究

作　者: 金乃高
导　师: 殷福亮
学　校: 大连理工大学
专　业: 信号与信息处理
关键词: 说话人定位与跟踪粒子滤波麦克风音视频大连理工大学声源定位语音增强加权子空间拟合人脸跟踪
分类号: TN912.3
类　型: 博士论文
年　份: 2008年
下　载: 498次
引　用: 5次
阅　读: 论文下载

内容摘要

说话人定位与跟踪是人机交互研究中的重要课题,在视频会议系统、多媒体系统以及机器人等领域有着广泛的应用。通常,基于计算机视觉的人脸或人体跟踪方法与基于计算机听觉的声源定位方法都可作为解决说话人定位与跟踪问题的基本手段。然而,这些单模态的定位与跟踪方法难以适应复杂的动态环境,人脸跟踪方法容易受到视频遮挡以及光照、姿态变化等因素的影响,而背景噪声与房间混响则制约着声源定位方法的性能。因此,采用信息融合技术对说话人的音视频双模态信息进行处理,则成为提高说话人定位与跟踪系统精度与鲁棒性的重要手段。音视频联合说话人定位与跟踪是计算机听觉与计算机视觉相互融合的一个重要方向,其目的是综合利用说话人的音频与视频信息来估计说话人的空间位置。本文对音视频联合说话人定位与跟踪问题进行了深入研究,取得的研究成果如下:(1)将多传感器信息融合技术用于说话人定位与跟踪问题,提出了一种基于动态贝叶斯网络的音视频联合说话人定位与跟踪方法。在动态贝叶斯网络框架中,该方法分别采用麦克风阵列声源定位、基于肤色的人脸跟踪以及音视频互信息最大化三种感知方式获取与说话人位置相关的测量信息;然后采用粒子滤波对这些信息进行融合,通过贝叶斯推理实现说话人的有效跟踪;并运用信息熵理论对三种感知方式进行动态管理,以提高跟踪系统的实时性。(2)将加权子空间拟合算法应用于麦克风阵列声源定位问题,提出一种宽带加权子空间拟合声源定位方法。该方法在贝叶斯估计理论框架下,结合语音信号的宽带特性,构造了一个适用于语音信号的目标函数,采用粒子滤波对该目标函数进行全局优化,从而有效地确定声源的空间位置。(3)综合考虑语音建立信号与说话人运动模型在抑制房间混响中的作用,提出一种基于分层采样粒子滤波的麦克风阵列声源跟踪方法。在实际的中小型房间环境中,由于墙壁、地面、桌面的反射作用,麦克风阵列接收到的语音信号中通常含有混响成分,从而影响声源定位与跟踪系统的性能。基于分层采样粒子滤波的声源跟踪方法从语音信号中提取出无混响的建立信号,将其作为观测信息来计算麦克风阵列波束形成器的输出能量,同时考虑语音信号不同频率成分在声源定位中的作用,采用分层采样方法提高粒子的采样效率,从而增强跟踪系统的实时性。(4)考虑到说话人唇动信息对语音感知的增强作用,将可视语音引入语音提取问题,提出了一种基于粒子滤波的双模态语音提取方法。双模态语音提取方法在粒子滤波框架下,根据音视频互信息与语音峭度来确定分离矩阵,从而实现语音信号的有序提取。

全文目录

摘要  4-5
Abstract  5-9
1 绪论  9-23
  1.1 研究背景及意义  9-10
  1.2 说话人定位与跟踪方法综述  10-22
    1.2.1 麦克风阵列声源定位方法  11-13
    1.2.2 人脸检测与跟踪方法  13-18
    1.2.3 音视频联合说话人定位与跟踪方法  18-22
  1.3 论文的研究内容  22-23
2 粒子滤波理论  23-43
  2.1 贝叶斯滤波  23-25
  2.2 粒子滤波  25-35
    2.2.1 贝叶斯重要性采样  26-28
    2.2.2 序贯重要性采样算法  28-30
    2.2.3 重要密度函数的选择  30-32
    2.2.4 重采样方法  32-35
  2.3 量子进化粒子滤波  35-42
    2.3.1 量子计算  36-37
    2.3.2 量子进化算法  37-39
    2.3.3 量子进化粒子滤波算法  39-40
    2.3.4 仿真实验  40-42
  2.4 小结  42-43
3 麦克风阵列声源定位与跟踪  43-73
  3.1 麦克风阵列信号模型  43-46
  3.2 波束形成定位方法  46-51
    3.2.1 延时求和波束形成  46-49
    3.2.2 滤波求和波束形成  49-51
  3.3 基于时延估计的两步声源定位方法  51-59
    3.3.1 概述  51-55
    3.3.2 基于盲辨识的时延估计方法  55-59
  3.4 基于空间谱估计的声源定位方法  59-65
    3.4.1 信号模型  59-60
    3.4.2 宽带加权子空间拟合声源定位  60-63
    3.4.3 实验结果与分析  63-65
  3.5 基于分层采样粒子滤波的麦克风阵列说话人跟踪方法  65-72
    3.5.1 语音建立信号的检测  66-67
    3.5.2 分层采样粒子滤波在声源跟踪中的应用  67-69
    3.5.3 实验结果与分析  69-72
  3.6 小结  72-73
4 基于信息融合的音视频联合说话人跟踪方法  73-91
  4.1 多传感器信息融合技术  73-76
    4.1.1 信息融合的生理学基础  73-74
    4.1.2 信息融合的模型与结构  74-75
    4.1.3 信息融合的基本方法  75-76
  4.2 音视频联合说话人跟踪系统基本框架  76-77
  4.3 说话人跟踪系统中感知方法的实现  77-83
    4.3.1 基于麦克风阵列的声源定位方法  77-79
    4.3.2 基于肤色的人脸跟踪方法  79-82
    4.3.3 基于音视频互信息最大化的说话人跟踪方法  82-83
  4.4 基于动态贝叶斯网络的音视频联合说话人跟踪  83-87
    4.4.1 基于粒子滤波的贝叶斯推理  84-86
    4.4.2 基于信息嫡的感知方式管理  86-87
  4.5 实验结果与分析  87-90
  4.6 小结  90-91
5 基于粒子滤波的语音增强方法  91-107
  5.1 基于粒子滤波的双模态语音提取方法  91-98
    5.1.1 双模态语音提取方法  92-93
    5.1.2 音视频互信息计算  93-94
    5.1.3 双模态语音提取方法的粒子滤波实现  94-96
    5.1.4 实验结果与分析  96-98
  5.2 基于子带粒子滤波的单通道语音增强方法  98-106
    5.2.1 语音信号的时变AR模型  99-100
    5.2.2 基于R-B粒子滤波的语音增强方法  100-102
    5.2.3 基于子带粒子滤波的语音增强方法  102-105
    5.2.4 实验结果与分析  105-106
  5.3 小结  106-107
6 总结与展望  107-109
  6.1 本文工作总结  107-108
  6.2 今后研究展望  108-109
参考文献  109-121
攻读博士学位期间发表学术论文情况  121-122
创新点摘要  122-123
致谢  123-124

音视频联合说话人定位与跟踪方法研究

内容摘要

全文目录

相似论文