学位论文 > 优秀研究生学位论文题录展示
光学乐谱识别技术研究与实现
作 者: 刘晓翔
导 师: 张树生
学 校: 西北工业大学
专 业: 航空宇航制造工程
关键词: 光学乐谱识别 谱线定位 谱线删除 音符基元抽取 音符结构分析 乐谱重建 乐谱语义解释
分类号: TP391.4
类 型: 博士论文
年 份: 2006年
下 载: 211次
引 用: 1次
阅 读: 论文下载
内容摘要
纸质乐谱向数字化乐谱的转换,是人类音乐活动与计算机音乐处理之间进行信息交流的必经之路。光学乐谱识别是将纸质乐谱扫描输入计算机后,对乐谱图像加以处理、识别、分析,最终获得乐谱的计算机数字表达的过程。光学乐谱识别技术突破了纯手工的乐谱数字化瓶颈,为乐谱数字化提供了一条智能、高效、快捷的新途径,具有重要的理论研究意义和应用价值。本文以印刷体多声部五线谱为研究对象,从谱线定位与删除、音符识别、乐谱专用符号识别、乐谱重建与语义解释四个方面,对乐谱识别的关键技术进行了系统深入地研究,在多个环节上提出了行之有效的新思路和新方法。谱线定位与删除是乐谱识别的首要环节。在谱线定位方面,本文提出了基于交叉相关性的乐谱图像变形校正与谱线定位算法,其本质是利用“化整为零、相关计算”的思想,对基于水平投影的谱线定位方法的一种改进。该算法在保持了投影方法计算简单、抗噪声能力强的原有优势的同时,弥补了其对变形敏感的不足,有效解决了现有统计和结构两类谱线定位方法存在的抗变形和抗噪声之间的矛盾。在谱线删除方面,本文针对谱线删除过程中存在的“过删除”问题,提出了基于图段拓扑关系的谱线删除算法。与现有谱线删除方法相比,该算法在提高删除单元表达层次的同时,强调对删除单元周边环境特征的分析和判断,能够更全面、清晰地观察到谱线与非谱线像素的区别,从而明显减少谱线“过删除”现象的发生,保证了乐谱图形符号在谱线删除之后的完整性。音符识别是乐谱识别的核心与关键。本文根据音符的多样性和多态性特点,确定了基于结构的音符识别方案,将其识别过程划分为基元抽取和结构分析两个阶段。在音符基元抽取方面,提出了基于垂直游程编码的粗提取、基于水平游程编码的精检测的符干抽取方法,克服了现有方法对复杂音符适应性差、抽取结果不完整等缺陷;设计了一种先分割、后特征检测的实心符头抽取方法,该方法利用音符先验知识和已有的谱线、符干识别结果对符头进行切割,解决了粘连符头的切分难题;提出一种基于块状体分割和特征检测的尾桥抽取方法,避开了传统的直线抽取方法所无法处理的尾桥粘连问题。在音符结构分析方面,提出了一种基于作用场的音符结构分析方法。该方法将物理学中的作用场概念引入到音符基元的关系表达,实现了知识性、鲁棒性和精确性三者的统一。在此基础上,定义了六个音符子结构,建立了关键结构优先定位的音符结构分析模型,实现了音符基元数据向音符对象的重建。该模型体现了人工识谱时突出重点特征、从整体到细节的思维习惯,不仅减少了分析的复杂度,而且具有较强的基元冗余排错能力。对于音符除外的其它乐谱符号即乐谱专用符号。提出了一种基于几何、中心矩和穿刺三类特征的神经网络识别方法。上述三类特征能够很好地兼顾统计特征的抗噪性和结构特征对细微差别的分类能力,体现了各类乐谱专用符号的实际特点,并采用具有强大非线性分类能力的BP神经网络作为符号分类器,取得了良好的识别效果。最后,本文通过建立“乐谱结构树”,实现了由散乱图形符号数据到乐谱数据的有机组织和重建。讨论了音乐事件序列的生成方法,实现了乐谱语义解释及其语义内容的标准MIDI格式文件输出。作为本文的主要研究成果之一,开发研制了一个完整的乐谱智能识别原型系统IOMRS。应用本文提出的图形与语义相结合的识别评价体系,对IOMRS系统和商品化乐谱识别系统进行了性能评测和比较。测试结果表明,IOMRS的整体识别性能已达到目前优秀商品化乐谱识别系统的水平,并且在音符识别、不同数据环境下的适应性和执行速度三方面表现出明显的优势。
|
全文目录
摘要 4-6 Abstract 6-8 目录 8-13 第一章 绪论 13-24 1.1 光学乐谱识别的产生背景、基本概念和研究内容 13-16 1.1.1 产生背景 13-14 1.1.2 概念 14 1.1.3 乐谱文档特点分析 14-16 1.1.4 研究内容 16 1.2 研究意义 16-18 1.2.1 理论意义 17 1.2.2 应用价值 17-18 1.3 国内外研究综述 18-21 1.3.1 发展历程与技术论坛 18-19 1.3.2 主要研究机构与成果 19-21 1.4 本文的工作 21-23 1.5 论文组织结构 23-24 第二章 谱线定位与删除 24-42 2.1 引言 24 2.2 现有谱线定位方法及其本文方法 24-26 2.2.1 统计变换方法 24-25 2.2.2 结构搜索方法 25-26 2.2.3 本文方法 26 2.3 基于交叉相关性的变形校正与谱线定位方法 26-31 2.3.1 方法思路 26-27 2.3.2 乐谱图像变形校正算法 27-29 2.3.3 谱线定位流程 29 2.3.4 实验结果 29-31 2.4 现有谱线删除方法及其本文方法 31-34 2.4.1 像素分析方法 31-32 2.4.2 游程分析方法 32-33 2.4.3 图段分析方法 33 2.4.4 本文方法 33-34 2.5 基于图段拓扑关系的谱线删除方法 34-41 2.5.1 方法思路 34-35 2.5.2 建立游程邻接图 35-36 2.5.3 建立图段邻接图 36-38 2.5.4 谱线删除 38 2.5.5 实验结果 38-41 2.6 本章小结 41-42 第三章 音符识别(一)—基元抽取 42-63 3.1 引言 42-43 3.2 现有音符基元抽取方法及其本文方法 43-48 3.2.1 投影法 44 3.2.2 骨架化方法 44-45 3.2.3 游程分析方法 45-46 3.2.4 模板匹配方法 46 3.2.5 数学形态学方法 46 3.2.6 本文方法 46-48 3.3 符干抽取 48-52 3.3.1 方法思路 48 3.3.2 抽取算法描述 48-50 3.3.3 实验结果 50-52 3.4 实心符头抽取 52-57 3.4.1 方法思路 52-53 3.4.2 抽取算法描述 53-55 3.4.3 实验结果 55-57 3.5 尾桥抽取 57-61 3.5.1 方法思路 57-58 3.5.2 抽取算法描述 58-59 3.5.3 实验结果 59-61 3.6 空心符头与符尾识别 61 3.7 本章小结 61-63 第四章 音符识别(二)—结构分析 63-88 4.1 引言 63 4.2 现有音符结构分析方法及其本文方法 63-66 4.2.1 过程描述方法 63-64 4.2.2 说明型描述方法 64-65 4.2.3 方法局限性讨论 65-66 4.2.4 本文方法 66 4.3 音符基元作用场 66-72 4.3.1 作用场定义 66 4.3.2 势函数定义 66-72 4.3.3 作用场的优越性 72 4.4 音符结构分析模型 72-76 4.4.1 音符子结构定义 72-74 4.4.2 音符子结构的特征分析 74-75 4.4.3 音符结构分析模型及其优越性 75-76 4.5 基于作用场的音符结构分析 76-81 4.5.1 作用场、音符基元的数据结构描述 76-77 4.5.2 主音符结构识别 77-79 4.5.3 主尾桥结构与尾桥中音符结构识别 79-80 4.5.4 和声与反向和声结构识别 80 4.5.5 副尾桥结构识别 80-81 4.6 音符重建 81-83 4.6.1 音符的数据结构描述 81-82 4.6.2 音符重建流程 82 4.6.3 音符删除 82-83 4.7 实验结果 83-87 4.8 本章小结 87-88 第五章 乐谱记号识别 88-100 5.1 引言 88 5.2 文字提取 88-90 5.2.1 乐谱文字的特征分析 88-89 5.2.2 提取算法描述 89-90 5.3 点、线图形提取 90-91 5.3.1 乐谱中的线条图形特征分析 90 5.3.2 提取算法描述 90-91 5.4 乐谱专用符号识别 91-99 5.4.1 特征提取 91-94 5.4.2 基于BP神经网络的分类器设计 94-96 5.4.3 网络训练与测试结果 96-97 5.4.4 符号识别流程 97 5.4.5 实验结果 97-99 5.5 本章小结 99-100 第六章 乐谱重建与语义解释 100-111 6.1 引言 100 6.2 乐谱重建 100-104 6.2.1 谱表重建 100-101 6.2.2 乐谱小节重建 101-102 6.2.3 谱号、调号、拍号重建 102-103 6.2.4 音符重建 103-104 6.3 音乐语义解释 104-110 6.3.1 音高与时值的确定 105-106 6.3.2 音乐事件序列 106-108 6.3.3 MIDI输出 108-110 6.4 本章小结 110-111 第七章 乐谱识别系统IOMRS与性能评价 111-124 7.1 引言 111 7.2 IOMRS系统开发实现 111-115 7.2.1 系统简介 111 7.2.2 功能结构 111-113 7.2.3 体系结构 113-115 7.3 IOMRS系统识别实例 115-120 7.4 IOMR系统性能评价 120-123 7.4.1 评价方法 120-121 7.4.2 IOMRS系统与商品化乐谱识别软件的识别性能对比 121-123 7.5 本章小结 123-124 第八章 结束语 124-127 8.1 论文内容总结 124-125 8.2 进一步研究工作 125-127 参考文献 127-136 附录 在攻读博士学位期间获得的主要成绩 136-138 1. 发表论文 136-137 2. 参与课题 137 3. 成果奖励 137-138 致谢 138-139
|
相似论文
- 中国工尺谱的数字实现研究,G202
- 基于FPGA的数字图像处理基本算法研究与实现,TP391.41
- 用于检索的人脸特征提取与匹配算法研究,TP391.41
- 基于FPGA的高速图像预处理技术的研究,TP391.41
- 2D人脸模板保护算法研究,TP391.41
- 导弹虚拟试验可视化技术研究,TP391.9
- 基于用户兴趣特征的图像检索研究与实现,TP391.41
- 图像拼接技术研究,TP391.41
- 高效精确字符串匹配算法的研究与实现,TP391.41
- 基于词义及语义分析的问答技术研究,TP391.1
- 基于三维重建的焊点质量分类方法研究,TP391.41
- 舌体特征的提取及融合分类方法研究,TP391.41
- 统计机器翻译中结构转换技术的研究,TP391.2
- 基于人眼检测的驾驶员疲劳状态识别技术,TP391.41
- 基于句法特征的代词消解方法研究,TP391.1
- 空中目标与背景的红外图像仿真技术研究,TP391.41
- 基于EPC C1G2协议的超高频RFID系统设计及仿真,TP391.44
- 基于智能学习的多传感器目标识别与跟踪系统研究,TP391.41
- 基于TMS320C6713的SPIHT图像压缩算法研究及实现,TP391.41
- 双传感器图像联合目标检测及系统实现研究,TP391.41
- 雾天或背光条件下图像清晰化算法研究及硬件实现,TP391.41
中图分类: > 工业技术 > 自动化技术、计算机技术 > 计算技术、计算机技术 > 计算机的应用 > 信息处理(信息加工) > 模式识别与装置
© 2012 www.xueweilunwen.com
|