学位论文 > 优秀研究生学位论文题录展示

基于内容的MP3音乐检索研究和实现

作　者: 黄磊
导　师: 冯寅
学　校: 厦门大学
专　业: 计算机应用技术
关键词: 基于内容的音乐检索计算机音乐 MP3 旋律匹配
分类号: TP391.3
类　型: 硕士论文
年　份: 2008年
下　载: 200次
引　用: 1次
阅　读: 论文下载

内容摘要

基于内容的音乐检索就是把音乐本身的内涵,如节奏、旋律、和弦、伴奏音型、音色等,作为查询条件,对一个由不同格式的音频媒体(如MIDI、MP3或其它格式的波形音乐)所构成的音乐数据库实施查询检索以获取数据库中满足查询条件或包含相同或相似音乐片段的音乐资源。这些表征不同音乐内涵的查询条件可以通过哼唱或借助现有的乐谱输入工具输入到检索系统中以实施检索。本论文对基于内容的MP3音乐检索技术进行了研究,并实现了一个灵活的具有多种查询音乐输入方式的MP3音乐检索原型系统。目前,大部分基于内容的音乐检索系统所检索的对象都是MIDI音乐,对MP3音乐检索的研究相对来说比较少,并且查询音乐的输入方式也大都比较单一。鉴于不同的用户具备不同的音乐素养及拥有不同的查询音乐资源,本论文提出了在MP3音乐检索系统中引入多种查询音乐输入方式,包括五线谱输入方式、类简谱输入方式、哼唱输入方式、单音色且单声部的MP3音乐文件输入方式和多声部的MP3音乐文件输入方式。而由于当前对波形音乐的音高辨识技术的研究还不够成熟,且用户在哼唱输入时对音准和旋律节奏也并非能准确把握,这都使得系统最终获得的查询旋律特征与用户所期望的查询旋律会存在一定的差距,自然影响到检索的准确性。为此,本论文还提出通过多种交互手段使用户可以根据自己的音乐能力来判断和校正系统所获取的音乐旋律特征,以进一步提高检索的准确性和增强系统的可用性。在检索匹配多声部MP3音乐数据库的实现技术上,本论文针对单音色、单声部音乐和多声部音乐这两种类型的查询音乐的不同特点分别使用了不同的匹配方法。对于前者,本论文提出了一种包含休止符归并和长音分段的二次规整匹配新算法,并通过原型系统进行了实验模拟分析,证明了该算法的有效性。对于后者,本论文将Jeremy(2004)提出的基于和声模型的多声部MIDI音乐检索多声部MIDI音乐数据库的技术推广到使用多声部MP3音乐片段检索多声部MP3音乐数据库,分别构建了HMM和声模型和Markov和声模型两种检索模型,实验结果表明这两个模型都具有一定的实用价值。

全文目录

摘要  4-5
Abstract  5-11
第一章绪论  11-21
  1.1 研究目的及意义  11-12
  1.2 相关的工作  12-15
    1.2.1 针对音乐类数据的检索  12-14
    1.2.2 针对一般音频数据的检索  14-15
  1.3 关键技术  15-16
  1.4 本论文研究的主要内容和创新点  16-19
    1.4.1 问题的提出  16-17
    1.4.2 研究内容  17-19
    1.4.3 主要创新点和特色  19
  1.5 论文的结构  19-21
第二章 MP3音乐格式分析和旋律特征抽取  21-41
  2.1 MP3的音乐格式分析及编解码算法  21-30
    2.1.1 MPEG概述  21
    2.1.2 MP3编码原理  21-23
    2.1.3 MP3帧格式  23-25
    2.1.4 MP3解码算法  25-30
  2.2 旋律特征提取  30-39
    2.2.1 小波低通滤波  30-32
    2.2.2 基频提取分析和音符识别  32-36
      2.2.2.1 FFT变换  33
      2.2.2.2 频谱分析和基频提取  33-34
      2.2.2.3 音高名识别和多声部音乐的旋律特征表示  34-36
    2.2.3 人声哼唱和其它单声部波形音乐的旋律特征抽取  36-39
  2.3 本章小结  39-41
第三章单声部音乐检索的二次规整匹配算法  41-52
  3.1 类简谱  41-44
    3.1.1 类简谱音高序列  41-43
    3.1.2 类简谱音长序列  43-44
  3.2 单声部查询音乐的类简谱表示  44-47
    3.2.1 类简谱查询向量  44-46
    3.2.2 五线谱输入的类简谱查询向量表示  46-47
  3.3 检索和匹配过程  47-51
    3.3.1 设计思想  47-48
    3.3.2 具体算法  48-51
  3.4 本章小结  51-52
第四章多声部音乐检索的和声模型  52-72
  4.1 Markov模型和隐Markov模型简介  52-57
    4.1.1 Markov模型  52-53
    4.1.2 隐Markov模型的基本概念和定义  53-54
    4.1.3 隐Markov模型的三个基本问题  54
    4.1.4 隐Markov模型的基本算法  54-57
      4.1.4.1 前向-后向算法  54-56
      4.1.4.2 Viterbi算法  56-57
  4.2 和弦特征  57-61
    4.2.1 和声和和弦的基本概念  58
    4.2.2 和弦词典  58-59
    4.2.3 和声判定和共时向量  59-61
  4.3 HMM和声模型  61-67
    4.3.1 HMM和声模型的定义  62-63
    4.3.2 HMM和声模型的训练  63-66
      4.3.2.1 π和A的初始化  63-64
      4.3.2.2 B的初始化  64-66
    4.3.3 查询检索  66-67
  4.4 Markov和声模型  67-71
    4.4.1 部分观察  67-69
    4.4.2 Markov和声模型的训练  69
    4.4.3 查询检索  69-71
  4.5 本章小结  71-72
第五章系统设计与实现  72-85
  5.1 系统结构设计  72-73
  5.2 输入查询处理模块  73-76
    5.2.1 五线谱输入方式  74
    5.2.2 直接类简谱输入方式  74
    5.2.3 哼唱输入方式  74-75
    5.2.4 单声部MP3音乐文件(或波形文件)输入方式  75
    5.2.5 多声部MP3音乐文件(或波形文件)输入方式  75-76
  5.3 实验及结果分析  76-84
    5.3.1 五线谱和直接类简谱输入查询  76-78
    5.3.2 哼唱输入查询  78-79
    5.3.3 单音色、单声部的非哼唱音乐输入查询  79-82
    5.3.4 多声部音乐检索的和声模型  82-84
  5.4 本章小结  84-85
第六章总结与展望  85-88
  6.1 全文总结  85-86
  6.2 今后的工作  86-88
附录  88-96
参考文献  96-101
攻读硕士学位期间发表的论文  101-103
致谢  103

相似论文

基于Web架构的视频监控系统设计与实现,TP391.41
数字音频的重压缩与重采样检测研究,TN912.3
基于压缩域音频的信息隐藏技术研究,TN919.8
数字音频码流分析系统研究,TN911.7
多媒体解码芯片的SoC设计,TN47
基于SOPC的MP3编解码器的设计与实现,TN912.2
基于FPGA的MP3播放器的设计与实现,TN912.2
基于FPGA的音乐景观灯的设计与实现,TM923.5
高中生使用便携式媒体的现状调查研究,G635.5
基于Ptolemy Ⅱ的MP3解码器的建模仿真研究,TN764
百度mp3版权问题研究,D923.6
基于Android平台的嵌入式手机MP3播放器的设计与仿真,TN912.2
基于FS7821的磁带式MP3播放器的设计与实现,TN912.2
基于ARM7嵌入式系统的MP3设计,TN912.2
基于MP3技术的电梯语音报站装置,TN912.3
基于China-Core微控制器的MP3解码芯片架构的研究与设计,TN912.2
嵌入式流媒体播放器软硬件协同优化设计与实现,TN946
车载MP3播放器音频解码的软件设计,TN912.3
手机UMD电子书阅读器的研究与实现,TN929.53
基于Android平台的在线音乐客户端设计与实现,TN929.5
基于Nios Ⅱ的MP3解码研究与实现,TN912.2