学位论文 > 优秀研究生学位论文题录展示

基于音节的汉语连续语音声调识别方法研究

作 者: 钟金宏
导 师: 杨善林
学 校: 合肥工业大学
专 业: 计算机应用技术
关键词: 音节分割 基频检测 特征提取 声调模式 声调识别 汉语连续语音 三字词 分形理论 波形互相关性 小波变换 模糊自适应谐振理论映射
分类号: TN912.3
类 型: 博士论文
年 份: 2001年
下 载: 668次
引 用: 6次
阅 读: 论文下载
 

内容摘要


声调是汉语的主要属性之一,具有构词、辨义和提高表达效果等功能,对语音识别、语音合成和自然语言理解有重要意义。 近年来,自动语音识别研究取得了突破性的进展,出现了许多不同类型的语音识别系统。语音识别研究也转向了大词汇非认人连续语音识别和自然语言理解。现有的汉语语音识别系统基本上没有利用声调信息,声调识别研究也多限于孤立字和多字词的声调识别,连续语音的声调模式和声调识别研究很少,本文在这方面开展了一点工作。 汉语连续语音的声调识别比孤立字和多字词的声调识别更困难,本文提出了基于音节的声调识别思想,研究了其中涉及的音节分割、声调获取、特征提取、声调模式分析和声调识别模型等问题。论文的主要内容如下: (1)利用分形理论和波形互相关性研究了汉语连续语音中的音节分割问题。本文选音节做声调识别基元,这将引入音节切分问题。连续语流中的音节分割是非常困难的。本文根据语音信号的混沌本质,利用分形理论研究了汉语连续语音中的音节分割问题,提出了基于方差分形维数的音节分割方法,并详细分析了该方法的性能,它能很好地解决了无声与有声、浊音与清音间的分割问题,但很难解决浊音间的分割问题,当浊音相连且过渡段较短时,该方法无法实现它们之间的分割。为解决浊音之间的分割问题,本文根据语音中过渡段与非过渡段语音波形的差异,利用波形互相关性进行了研究,提出了基于波形互相关性的音节分割方法,并进行了实例分析。 (2)基于小波变换的语音基频提取。声调是基频变化的模式,因此可通过基频提取来获取声调信息。基频提取的方法很多,本文采用了小波变换方法,该方法对部分语音得到了较好的结果,但对大部分语音提取的基频中含有较多错误,经仔细分析和研究,本文对它进行了改进,提出了一种基于小波变换的语音基频检测新算法。该算法根据基频点在小波变换的不同分辨率层具有传递性和在不同尺度上的基频点位置相似的特性,采用投票策略选择基频点。该算法主要有以下几步:计算在五个(或三个)尺度上的小波变换;运用投票机制进行基频点选择;基频检查;基频点的重新定位。 (3)声调识别中的特征提取问题。特征提取是模式识别的基本问题。有效的特征既能反映模式的重要信息,又可减少计算量和误识率。汉语声调主要由基音曲线的调位高低和走向决定。因此,本文选择头尾差和相对调位比作为三字词音节的声调特征;选择头尾差和音节起点调位作为连续语音中音节的声调特征。合肥工业大学搏土论文 扬耍 (4)声调模式分析。连续语音中各音节的声调特征受前后音节的影响变化较大,声调模式更加复杂,仅具有四声的基本特征。正确地分析其中的声调模式和变调规则,对汉语连续语音的声调识别有重要意义。本文介绍了孤立字和二字词的声调模式,定性和定量地分析了三字词的声调模式,在此基础上研究了连续语音的声调模式。 (5)声调识别模型的选择与设计。汉语连续语音的声调模式复杂多变,一个固定不变的识别模型不可能解决连续语音的声调识别问题。本文以具有在线学习能力的模糊神经网络作为声调识别模型,提出了基于模糊自适应谐振理论映射的声调识别方法。 (6)用三字词和连续语音实例验证了所提出的思想和方法。 论文中取得的研究成果如下: 门)根据汉语的特点,提出了基于音节的汉语连续语音声调识别思想。 (2)根据语音信号的混饨本质,提出了基于方差分形维数的音节分割方法;针对 浊音间的分割困难,提出了基于波形互相关性的音节分割方法。 (3)根据传统小波变换方法在基频检测实验中出现的问题,引入投票策略,提出 了一种基于小波变换的基频检测新算法。 (4)根据汉语声调曲线的特点,选择头尾差和相对调位比作为三字词各音节的声 调特征:选择头尾差和音节起点调位作为连续语音中音节的声调特征。 (5)定性和定量地分析了三字词的声调模式,印证了已有的三字词声调模式变化 规律,得到了一些新的三字词声调模式变调规则。对汉语连续语音的声调模 式,提出了以下观点:连续语音中的音节声调模式可以二字词和三字词的声 调模式为基础:连续语音中的音节可认为仅受前后音节的彤响,一定间隙前 后的音节声调可看成互不相关;连续语音中的音节声调模式可归为头、中和 尾三类,通过对这三类声调模式的建模,可解决连续语音的声调识别问题。 ①)为了适应连续语音中的复杂情况,提出了以具有在线学习能力的模糊神经网 络作为声调识别模型的观点。在此基础上提出了基于模糊自适应谐振理论映 射的声调识别方法。

全文目录


中文摘要  4-6
英文摘要  6-9
目录  9-11
第一章 绪论  11-26
  1.1 语音信号处理  11-13
  1.2 语音研究历史  13-17
  1.3 汉语声调系统及其演变  17-20
  1.4 汉语连续语音声调识别  20-25
  1.5 论文结构安排  25-26
第二章 基于分形理论和波形互相关性的音节分割方法  26-49
  2.1 分形理论  26-34
  2.2 方差分形维数  34-38
  2.3 基于方差分形维数的音节分割方法  38-42
  2.4 基于波形互相关性的音节分割方法  42-48
  2.5 本章小节  48-49
第三章 基于小波变换的声调获取方法  49-73
  3.1 小波分析理论  49-59
  3.2 小波变换检测语音基频的机理  59-63
  3.3 基于小波变换的语音基频提取新算法  63-71
  3.4 基频提取实验  71-72
  3.5 本章小节  72-73
第四章 特征提取与模式分析  73-84
  4.1 孤立字和二字词的声调模式  73-74
  4.2 特征提取和特征分布  74-78
  4.3 三字词的声调模式分析  78-82
  4.4 汉语连续语音的声调模式分析  82-83
  4.5 本章小节  83-84
第五章 基于Fuzzy ARTMAP的声调识别方法  84-96
  5.1 Fuzzy ARTMAP神经网络概述  84-89
  5.2 基于简化Fuzzy ARTMAP的声调识别方法  89-94
  5.3 声调识别实验  94-95
  5.4 本章小节  95-96
第六章 汉语连续语音的声调识别方法与实例分析  96-101
  6.1 基于音节的汉语连续语音的声调识别方法  96-97
  6.2 实例分析  97-101
第七章 结束语  101-104
  7.1 主要工作回顾  101-102
  7.2 研究成果总结  102
  7.3 未来工作展望  102-104
参考文献  104-112
攻读博士学位期间发表和录用的论文  112-113
致 谢  113

相似论文

  1. 基于SVM的高速公路路面浅层病害的自动检测算法研究,U418.6
  2. 空间目标ISAR成像仿真及基于ISAR像的目标识别,TN957.52
  3. 基于TMS320C6713的SPIHT图像压缩算法研究及实现,TP391.41
  4. 胆囊炎和肾病综合症脉象信号的特征提取与分类研究,TP391.41
  5. Q学习在基于内容图像检索技术中的应用,TP391.41
  6. 图像的稀疏表示及编码模型研究,TP391.41
  7. 直推式支持向量机研究及其在图像检索中的应用,TP391.41
  8. 中医舌诊中舌形与齿痕的特征提取及分类研究,TP391.41
  9. 空间交会接近视觉测量方法研究,TP391.41
  10. 图像实时采集、存储与处理方法研究,TP391.41
  11. 唇读中的特征提取、选择与融合,TP391.41
  12. 多币种纸币处理技术的研究与实现,TP391.41
  13. 基于类Harr特征和最小包含球的纸币识别方法的研究,TP391.41
  14. 基于图像的路面破损识别,TP391.41
  15. 移动机器人视觉检测和跟踪研究,TP242.62
  16. 高光谱与高空间分辨率遥感图像融合算法研究,TP751
  17. 基于随机森林的植物抗性基因识别方法研究,Q943
  18. 基于图像处理技术的烟叶病害自动识别研究,S435.72
  19. 基于视觉的番木瓜外观品质检测技术研究,S667.9
  20. 羊绒与羊毛纤维鉴别系统的研究,TS101.921
  21. 红外图像目标识别及跟踪技术研究,TP391.41

中图分类: > 工业技术 > 无线电电子学、电信技术 > 通信 > 电声技术和语音信号处理 > 语音信号处理
© 2012 www.xueweilunwen.com