学位论文 > 优秀研究生学位论文题录展示

网络环境下实时音频解码与鲁棒说话人识别系统研究

作 者: 孟昕
导 师: 韩纪庆
学 校: 哈尔滨工业大学
专 业: 计算机科学与技术
关键词: 网络环境 音频解码 说话人识别 高阶语义窗 音素级对比
分类号: TN912.34
类 型: 硕士论文
年 份: 2011年
下 载: 15次
引 用: 0次
阅 读: 论文下载
 

内容摘要


网络环境说话人识别是指在互联网音频信息中查找出目标说话人的一种技术,在安全、刑侦等领域具有重要的实际应用价值。本文以搭建工程化的网络环境下说话人识别系统为目的,开展相关的研究工作。进行网络环境下说话人识别,首先要将互联网中各种编码格式的音视频实时解码成统一规格的非压缩音频。本文在实验室现有的实时音频解码系统基础上,分析了不同协处理器(Coprocessor)实现实时音频解码的优劣,并将实际网络中占有量最大的MP3(MPEG Audio Layer 3)解码过程移植到众核芯片TILE64上,以解决实时音频解码系统占有CPU ( Central Processing Unit)资源较高、解码速度较低的问题。含有TILE64实时解码MP3功能的新实时音频解码系统平均解码速度达到200Mbps,比原来提高了1倍,而功耗并未增加。其次,利用新实时音频解码系统采集实际网络中的大批音视频数据,并实时地解码成8KHz采样率、16bits采样位数、单声道且时长为10秒的标准处理单元,然后通过VAD(Voice Activity Detection)和基于高斯核函数的SVM(Support Vector Machine)方法进行语音/非语音分类,过滤出约占总量七分之一的语音标准处理单元集合,并以此语音标准处理单元集合为基础,整理出用于说话人识别测试的真实网络语料库。接下来,搭建基于GMM-UBM(Gaussian Mixture Model-Universal Background Model)的文本无关的通用说话人辨认系统,通过实验表明,通用说话人识别系统能够在实验环境下表现良好,但在真实网络语料库中,由于非目标说话人的海量语音数据影响,虚警数远超过正确识别数,无法满足实际工程需求。最后,针对上述通用说话人识别系统不能胜任网络环境下工程需求的问题,设计并实现了两种说话人识别确认方法高阶语义窗和音素级对比方法,通过实验表明,这两种方法在提高通用说话人识别系统的鲁棒性上都表现良好。其中,两种方法的融合改进系统鲁棒性更加明显,虚警率在0.1‰时,召回率达到50%,与通用说话人识别系统相比提高了6.25倍,基本达到实际工程的需求。

全文目录


摘要  4-5
Abstract  5-9
第1章 绪论  9-18
  1.1 研究目的和意义  9-10
  1.2 国内外研究现状  10-16
    1.2.1 网络环境下实时音频解码  10-12
    1.2.2 说话人识别的研究进展及主要方法  12-14
    1.2.3 网络环境下说话人识别的难点  14-16
  1.3 本文的研究内容  16-18
第2章 基于协处理器的实时音频解码分析与实现  18-30
  2.1 引言  18-19
  2.2 协处理器实现实时音频解码的必要性  19-20
  2.3 不同协处理器实时音频解码实现分析  20-24
    2.3.1 DSP 上实现分析  20-21
    2.3.2 FPGA 上实现分析  21-22
    2.3.3 GPU 上实现分析  22-23
    2.3.4 众核上实现分析  23-24
  2.4 众核在实时音频解码方面的优势  24-26
  2.5 基于众核的实时音频解码设计与实现  26-28
  2.6 实验与讨论  28-29
  2.7 本章小结  29-30
第3章 语音非语音分类及通用说话人识别系统  30-43
  3.1 引言  30
  3.2 语音非语音分类方法  30-34
    3.2.1 VAD  31
    3.2.2 基于SVM 的语音非语音分类  31-34
  3.3 通用说话人识别系统  34-37
    3.3.1 基于GMM-UBM 的通用系统  34-36
    3.3.2 预处理及特征选取  36-37
  3.4 实验与讨论  37-42
    3.4.1 语音非语音方法实验与讨论  37-39
    3.4.2 语料库  39-40
    3.4.3 通用说话人识别系统实验与讨论  40-42
  3.5 本章小结  42-43
第4章 基于说话人确认的鲁棒提高方法  43-56
  4.1 引言  43
  4.2 基于高阶语义窗的确认方法  43-46
    4.2.1 高阶语义窗方法  43-45
    4.2.2 加速策略  45-46
  4.3 基于音素级对比的确认方法  46-50
    4.3.1 可行性分析  46-49
    4.3.2 音素级对比方法  49-50
  4.4 实验和讨论  50-54
    4.4.1 高阶语义窗  51
    4.4.2 音素级对比  51-52
    4.4.3 高阶语义窗与音素级对比方法融合  52-53
    4.4.4 实验分析和讨论  53-54
  4.5 本章小结  54-56
结论  56-57
参考文献  57-63
致谢  63

相似论文

  1. 网络环境下独立学院德育课程实效性研究,G641
  2. 网络环境下开展学习叙事促进学生深度学习研究,G434
  3. 由“艳照门”谈网络环境下隐私权的法律保护,D923
  4. 谈网络环境下对我国著作权合理使用制度的完善,D923.41
  5. 网络环境下基于顾客感知价值的服装品牌研究,F274
  6. 泛在网络下终端聚合过程中环境上下文的研究,TN929.5
  7. 网络环境下高中英语阅读课教学革新实践研究,G633.41
  8. 家用中央空调系统计算机辅助设计,TP391.72
  9. 网络环境下超文本和印刷文本阅读效果的对比研究,H319
  10. 网络环境下驰名商标反淡化保护研究,D923.43
  11. 具有能量补给的无线传感器网络分簇路由算法研究,TP212.9
  12. 复杂信道下的说话人识别技术,TN912.34
  13. 基于VC++6.0的说话人识别系统的研究,TN912.34
  14. 合理使用制度在网络环境下的重构研究,D923.41
  15. 网络环境下的小学教师专业发展探究,G625.1
  16. 网络环境下的师生互动教学研究,G420
  17. 网络环境下高校图书馆个性化信息服务研究,G252
  18. 基于混合特征和高斯混合模型的说话人识别研究,TN912.34
  19. 基于Windows CE的说话人识别系统的设计与实现,TN912.34
  20. 说话人识别中特征参数的提取及优化研究,TN912.34
  21. 基于文本无关的说话人识别研究,TN912.34

中图分类: > 工业技术 > 无线电电子学、电信技术 > 通信 > 电声技术和语音信号处理 > 语音信号处理 > 语音识别与设备
© 2012 www.xueweilunwen.com