学位论文 > 优秀研究生学位论文题录展示

语音识别在访问控制的应用

作　者: 徐炼东
导　师: 何国良；刘熔
学　校: 电子科技大学
专　业: 软件工程
关键词: 线性预测美尔倒谱矢量量化模型隐马尔科夫模型高斯混合模型
分类号: TN912.34
类　型: 硕士论文
年　份: 2011年
下　载: 60次
引　用: 0次
阅　读: 论文下载

内容摘要

语音识别在访问控制的应用就是要让计算机听懂人的说话声音,并确定说话人的真实身份。说话人识别属于生物特征识别技术的一种,是一项根据语音波形中反映说话人生理和行为特征的语音参数来自动识别人身份的技术。与目前识别语音内容不同的是,说话人识别利用的是语音信息中说话人信息,而不考虑语音中词语的意思,它强调说话人的个性;而语音内容识别的目的是识别出语音信号中言语的内容,并不是考虑说话人是谁,它强调的是共性。说话人识别技术的崛起得益于信息检测与处理、人工智能、模式识别、机器学习等技术与理论的发展,这是一个涉及生理学、语音学、心理学、声学等多学科的研究领域。说话人识别技术是计算机技术重要的发展方向,说话人识别理论研究逐渐深入和完整,基于PC平台的说话人识别系统的研究也在技术上获得了一些成功,尽管目前说话人识别的研究已经进入了商品化阶段,基础性理论比较完善,各种各样的产品也相继涌现,但把说话人识别技术与网络开发,数据库使用技术三者相结合的产品还没有。分布式声纹打卡系统将填补这一空白,它将首次在说话人识别产品引入网络和数据库开发技术,形成一套比较有特色的产品。本文首先介绍了说话人识别技术概述和国内外发展状况,在此基础上阐明了本课题的研究背景和应用前景,分析了说话人识别过程中面临的困难。其次,根据说话人识别系统的基本构成模型,介绍了预处理、端点检测和特征提取,包括线性预测技术和美尔倒谱技术,然后介绍了说话人模板生成及模板管理和模板匹配各部分所涉及到的语音数字信号处理、模式识别等方面的基本原理,介绍了在实现说话人识别系统的几种途径。接着,本文介绍了使用Matlab程序实现MFCC(美尔倒谱)和VQ(矢量量化)模型的算法,并在Windows操作系统上用.Net,C#实现的一个与文本无关的分布式声纹打卡系统,分析了矢量量化的识别率和出错原因,运用目前比较流行的编程技术和数据库技术完成了一个说话人识别产品。由于(VQ)矢量量化模型只适合于小规模人群的说话人识别,在识别人数增长的情况下识别率会降低,所以本文介绍了另外一种说话人识别模型-GMM(高斯混合模型),这是一种基于概率统计的模型,这种模型在识别人数增长的情况下,识别率依旧比较稳定。出于系统未来改进的考虑,本文还介绍了隐马尔科夫模型,这也是一种基于概率的统计模型,但这种模型不是用来识别说话人是谁,而是用来识别说话的内容,对以后系统的改进有很大的帮助。最后对本课题进行了小结,指出了该说话人识别的改进方向。本文通过对实际说话人识别系统的测试和研究,为进一步开发实用性语音识别系统的工作做了基础和探索性的工作。

全文目录

摘要  4-6
ABSTRACT  6-11
第一章绪论  11-19
  1.1 说话人识别概述  11-12
  1.2 说话人识别的优势与应用前景  12-15
  1.3 本课题研究历史  15-16
  1.4 本课题研究现状  16-17
  1.5 说话人识别中存在的问题  17-19
第二章说话人识别的基础知识  19-47
  2.1 说话人识别系统结构  19-20
  2.2 说话人识别特征提取  20-36
    2.2.1 预处理  21-26
      2.2.1.1 采样  21-22
      2.2.1.2 量化  22-24
      2.2.1.3 预加重处理  24-25
      2.2.1.4 加窗  25-26
      2.2.1.5 语音信号的分帧  26
    2.2.2 语音信号的时域分析  26-31
      2.2.2.1 短时能量  26-28
      2.2.2.2 短时过零率  28-29
      2.2.2.3 双门限端点检测  29-31
    2.2.3 线性预测技术  31-32
    2.2.4 美尔倒谱系数  32-35
    2.2.5 Delta 特征  35
    2.2.6 声门特征  35-36
  2.3 说话人识别模型  36-47
    2.3.1 矢量量化模型（VQ）  36-42
      2.3.1.1 概述  36-37
      2.3.1.2 矢量量化的基本原理  37-39
      2.3.1.3 矢量量化的失真测度  39
      2.3.1.4 矢量量化器的最佳码本设计  39-42
      2.3.1.5 矢量量化技术的局限性和优化  42
    2.3.2 动态规整模型（DTW）  42-47
      2.3.2.1 动态规整模型（DTW）介绍  43-45
      2.3.2.2 DTW 算法改进  45
      2.3.2.3 搜索宽度限制  45
      2.3.2.4 放宽端点限制  45-47
第三章分布式声纹打卡系统  47-61
  3.1 开发背景  47-48
  3.2 系统体系结构  48-57
    3.2.1 管理端和服务器端  49-53
    3.2.2 说话人识别模块  53-55
    3.2.3 数据库管理模块  55-56
    3.2.4 用户信息浏览模块  56
    3.2.5 远程通讯模块  56-57
  3.3 说话人识别  57-59
    3.3.1 决策方法  57-58
    3.3.2 模型数据更新  58-59
  3.4 性能评估  59-61
    3.4.1 实验条件  59
    3.4.2 识别率  59
    3.4.3 响应速度  59-60
    3.4.4 出错原因分析  60-61
第四章分布式声纹打卡系统改进方向  61-77
  4.1 利用隐马尔科夫模型识别随机数字  61-70
    4.1.1 隐马尔科夫模型的定义  61-62
    4.1.2 隐马尔科夫模型的三个问题  62-66
      4.1.2.1 评估问题  62-63
      4.1.2.2 解码问题  63-64
      4.1.2.3 训练问题  64-66
    4.1.3 隐马尔可夫模型在语音识别应用  66-67
    4.1.4 在MATLAB 中使用隐马尔科夫模型(HMM)识别孤立字  67-69
    4.1.5 隐马尔科夫模型存在的问题  69-70
  4.2 运用GMM 对说话人进行识别  70-77
    4.2.1 GMM 的定义  70-72
    4.2.2 GMM 的学习方法  72-75
    4.2.3 GMM 的MATLAB 实现  75-77
第五章结论  77-79
  5.1 本课题小结  77
  5.2 声纹识别的难题和改进方向  77-79
致谢  79-80
参考文献  80-83

相似论文

网络语音传输丢包的恢复技术,TN912.3
面向智能交通的视频车辆检测、跟踪和识别算法研究,TP391.41
高质量语音转换系统中关键技术的研究,TN912.3
说话人识别中集外话者的拒识方法研究,TN912.34
面向短波通信的文本无关说话人辨识研究,TN912.34
医疗诊断报告自动信息提取系统设计与开发,TP311.52
基于图像质量参数和图像内容相关性的数字图像盲取证,TP391.41
基于AS_R智能机器人的人脸识别系统研究与开发,TP242.6
EV-CELP语音编解码模型的研究,TN912.3
基于小波域隐马尔科夫模型的图像杂波抑制技术研究,TP391.41
调型信息在汉语语音识别中的应用研究,TN912.34
基于逻辑回归和高斯混合模型的设备故障诊断技术研究与应用,TH165.3
基于HMM的蛋白质侧链建模及其应用的研究,Q51
基于数字对讲机的MELP声码器算法研究与实现,TN912.3
基于语音信号的情绪识别研究,TN912.34
连续语音中关键词快速检出的研究,TN912.34
基于HMM和GMM天然地震与人工爆破识别算法研究,TN911.7
基于场景语义图像标注关键技术的研究,TP391.41
基于HMM/SVM混合模型的核电设备故障诊断技术研究及数据库系统开发,TM623.4
MIMO SC-FDMA系统中半盲信道估计新方法研究,TN919.3