学位论文 > 优秀研究生学位论文题录展示

网络环境下实时音频解码与鲁棒说话人识别系统研究

作　者: 孟昕
导　师: 韩纪庆
学　校: 哈尔滨工业大学
专　业: 计算机科学与技术
关键词: 网络环境音频解码说话人识别高阶语义窗音素级对比
分类号: TN912.34
类　型: 硕士论文
年　份: 2011年
下　载: 15次
引　用: 0次
阅　读: 论文下载

内容摘要

网络环境下说话人识别是指在互联网音频信息中查找出目标说话人的一种技术,在安全、刑侦等领域具有重要的实际应用价值。本文以搭建工程化的网络环境下说话人识别系统为目的,开展相关的研究工作。进行网络环境下说话人识别,首先要将互联网中各种编码格式的音视频实时解码成统一规格的非压缩音频。本文在实验室现有的实时音频解码系统基础上,分析了不同协处理器(Coprocessor)实现实时音频解码的优劣,并将实际网络中占有量最大的MP3(MPEG Audio Layer 3)解码过程移植到众核芯片TILE64上,以解决实时音频解码系统占有CPU ( Central Processing Unit)资源较高、解码速度较低的问题。含有TILE64实时解码MP3功能的新实时音频解码系统平均解码速度达到200Mbps,比原来提高了1倍,而功耗并未增加。其次,利用新实时音频解码系统采集实际网络中的大批音视频数据,并实时地解码成8KHz采样率、16bits采样位数、单声道且时长为10秒的标准处理单元,然后通过VAD(Voice Activity Detection)和基于高斯核函数的SVM(Support Vector Machine)方法进行语音/非语音分类,过滤出约占总量七分之一的语音标准处理单元集合,并以此语音标准处理单元集合为基础,整理出用于说话人识别测试的真实网络语料库。接下来,搭建基于GMM-UBM(Gaussian Mixture Model-Universal Background Model)的文本无关的通用说话人辨认系统,通过实验表明,通用说话人识别系统能够在实验环境下表现良好,但在真实网络语料库中,由于非目标说话人的海量语音数据影响,虚警数远超过正确识别数,无法满足实际工程需求。最后,针对上述通用说话人识别系统不能胜任网络环境下工程需求的问题,设计并实现了两种说话人识别确认方法高阶语义窗和音素级对比方法,通过实验表明,这两种方法在提高通用说话人识别系统的鲁棒性上都表现良好。其中,两种方法的融合改进系统鲁棒性更加明显,虚警率在0.1‰时,召回率达到50%,与通用说话人识别系统相比提高了6.25倍,基本达到实际工程的需求。

全文目录

摘要  4-5
Abstract  5-9
第1章绪论  9-18
  1.1 研究目的和意义  9-10
  1.2 国内外研究现状  10-16
    1.2.1 网络环境下实时音频解码  10-12
    1.2.2 说话人识别的研究进展及主要方法  12-14
    1.2.3 网络环境下说话人识别的难点  14-16
  1.3 本文的研究内容  16-18
第2章基于协处理器的实时音频解码分析与实现  18-30
  2.1 引言  18-19
  2.2 协处理器实现实时音频解码的必要性  19-20
  2.3 不同协处理器实时音频解码实现分析  20-24
    2.3.1 DSP 上实现分析  20-21
    2.3.2 FPGA 上实现分析  21-22
    2.3.3 GPU 上实现分析  22-23
    2.3.4 众核上实现分析  23-24
  2.4 众核在实时音频解码方面的优势  24-26
  2.5 基于众核的实时音频解码设计与实现  26-28
  2.6 实验与讨论  28-29
  2.7 本章小结  29-30
第3章语音非语音分类及通用说话人识别系统  30-43
  3.1 引言  30
  3.2 语音非语音分类方法  30-34
    3.2.1 VAD  31
    3.2.2 基于SVM 的语音非语音分类  31-34
  3.3 通用说话人识别系统  34-37
    3.3.1 基于GMM-UBM 的通用系统  34-36
    3.3.2 预处理及特征选取  36-37
  3.4 实验与讨论  37-42
    3.4.1 语音非语音方法实验与讨论  37-39
    3.4.2 语料库  39-40
    3.4.3 通用说话人识别系统实验与讨论  40-42
  3.5 本章小结  42-43
第4章基于说话人确认的鲁棒提高方法  43-56
  4.1 引言  43
  4.2 基于高阶语义窗的确认方法  43-46
    4.2.1 高阶语义窗方法  43-45
    4.2.2 加速策略  45-46
  4.3 基于音素级对比的确认方法  46-50
    4.3.1 可行性分析  46-49
    4.3.2 音素级对比方法  49-50
  4.4 实验和讨论  50-54
    4.4.1 高阶语义窗  51
    4.4.2 音素级对比  51-52
    4.4.3 高阶语义窗与音素级对比方法融合  52-53
    4.4.4 实验分析和讨论  53-54
  4.5 本章小结  54-56
结论  56-57
参考文献  57-63
致谢  63

网络环境下实时音频解码与鲁棒说话人识别系统研究

内容摘要

全文目录

相似论文