摘 要:音乐信息检索是从音乐资源中找到满足用户所需信息的匹配、定位过程。传统的基于文本描述的音乐检索技术已经无法满足大量音频数据的检索需要,基于内容的音频信息检索技术应运而生。。本文根据音乐检索的研究现状, 论述了基于内容的音乐检索步骤,讨论了音乐检索系统的基本组成。
关键词:音乐检索;音乐分类;音乐信息检索系统
1.序言
随着多媒体和Internet的技术的发展和深入普及,推动着各种基于Internet 的音频应用逐步走向实用。各种音频数据的数量正在呈指数增长,其信息量也在迅速膨胀。语音和音乐是两类最重要的音频信息。如何快速有效地在大量的音乐数据中查询到所需要的内容,已经成为现代信息检索领域的一个研究重点。
目前现有绝大多数的音乐搜索平台都只支持文本的检索,比如www.baibu.com。用户可以通过歌名、歌词等信息搜索到相关的音频文件。但是,许多情况下,人们只记得一部分音乐内容,比如旋律。他们希望可以通过这些信息直接搜索到相关的歌曲。如何基于实际音乐内容快速查找到音乐信息成为当前的一个研究热点。
2.数字音频
要对音乐信息进行搜索,首先就需要了解音频信息的记录方式。当前音频信息声音可通过多种格式进行存储,总结下来基本上可以分为两类:记录声音波形变化的格式(如WAV格式)和记录声音指令的格式(以MIDI格式为代表)。
波形音频文件是以数字方式来表示波形,使用采样位数、采样频率和声道数这三个参数:对声波进行采样、量化、编码,最后转换成数字形式,并压缩储存的声音文件。
而与波形文件相MIDI是Musical Instrument Digital Interface的缩写,又称作乐器数字接口,是数字音乐/电子合成乐器的统一国际标准。MIDI文件相对波形文件来说较小,它记录的内容是一系列可以被 PC 的声卡解释的数字音乐指令(音符)。
波形音频文件是对实时播放的音乐信号进行采样和数字编码,记录了实际的演奏效果。而MIDI格式则是记录的一系列音符的演奏信息,如音符的起始、结束、控制变化等等信息。
另外随着网络和多媒体技术的进一步发展,人们对于数字音频技术的研究进一步深入,又出现了多种有损压缩的编码格式,这些编码格式,以极小的声音失真换取了较高的压缩比,比如在因特网上广泛流传的.MP3格式就是其中的代表。
正是由于不同的音频记录格式,并且在每一种格式下又各自有着一系列不同的格式,如何使不同的格式能够统一为一种能够为计算机检索所识别的代码就成为了音乐信息检索面临的主要问题。
3.音乐信息检索
鉴于音乐信息的多种多样,目前针对音乐信息的提取也提出的了多种方法。其中大致可以分为基于旋律和基于内容两种方法。
由于MIDI音乐的编码方式较为简单,记录的文件相对较小,目前音乐信息检索的一个方向就是把复杂的波形文件进行一定的处理,使之成为一段类似于MIDI音乐文件的旋律编码。目前有一些音乐信息检索的研究方向就是以MIDI文件为核心,把一系类不同格式的音乐文件通过系统自动分析和处理,转化成为以记录音乐文件旋律为主的MIDI文件,再通过与其他MIDI文件之间的相互匹配,最终达到查找出相似旋律文件的目的。
而基于内容的音频信息检索技术则直接对音频进行分析,从中抽取内容特征,然后利用这些内容特征建立索引并进行检索,避免了用MIDI文件作为音频信息的转化过程。因而基于内容的音频数据信息检索是目前发展比较迅速,研究较为深入的一个方向,它可以成为其他许多应用研究的基础。
4.基于内容的音乐信息检索
4.1音频的抽取:
对数字音乐进行搜索的前提条件,就需要明确那一段音乐是我们要进行搜索的目标,有的搜索是针对整个一个音乐文件而言,需要做到所有整个音乐文件的匹配,这样的搜索相对费时,而有些搜索只要求搜索内容相近,或者部分相似的内容,这样我们就不需要对整个音乐文件都去进行信息的抽取。在明确信息搜索的目标后,我们就需要对信息进行提取,目前提取特征有两种方法:一是提取感性特征,如音高、响度、节奏;二是计算非感性属性或称物理特性,如Mel频率倒频谱系数、平均过零率、线性预测系数等
4.2音频的分类:
由于目前的数字音乐文件数量庞大,要将所有的文件都遍历之后进行查询显然不可能。因此目前常用的方法主要是实现按一定的方法将音乐文件进行分类,如分为然后根据特征文件的分类按图索骥去进行有针对的查找。
目前常用的音频分类方法主要有:
(1)基于决策树的分类方法
所谓决策树是一个类似流程图的树型结构,树的每个结点代表一个属性(取值) 的测试,其分支代表测试结果,树的每个叶结点代表-个类别。树的最高层结点是根结点。
(2)神经网络分类算法
神经网络是一组相互连接的输入输出单元,这些单元之间的每个连接都关联一个权重。 在网络学习阶段,网络通过调整权重来实现输入样本与其相应(正确) 类别的对应。 由于网络学习主要是针对其中的连接权重进行,因此神经网络的学习有时也称为连接学习。
(3)贝叶斯分类方法
贝叶斯分类算法是统计学分类方法,它是一类利用概率统计知识进行分类的算法。在许多场合,朴素贝叶斯分类算法可以与决策树和神经网络分类算法相媲美,该算法能运用到大型数据库中,且方法简单、分类准确率高、速度快。[5]
(4)近邻算法
用该方法进行预测的基本概念就是相互之间"接近"的对象具有相似的预测值。如果知道其中一个对象的预测值后,可以预测其最近的邻居对象。
5.基于内容的音乐信息检索系统
由于目前音乐信息检索还不能做到完全自动化,因此目前的音乐信息检索系统应该包含以下一些步骤:
第一步,建立数据库。对数字音乐进行分析,并提取特征,再通过音频分割,识别分类以后将音乐数据装入数据库的原始音频库,将特征装入音频特征库。数据库建立以后就可以进行音乐信息检索。
第二步,确定查询特征矢量。即用户通过查询界面确定样本并设定属性值,可以是一段哼唱的声音,可以是具体的数字音乐文件,然后提交查询,系统对样本提取特征,结合属性值确定查询特征矢量。
第三步,查询特征匹配。检索引擎对特征矢量与聚类参数集匹配,按相关性从大到小的顺序在特征库和原始音乐库中检索一定数量的相应数据,并通过查询接口返回给用户。其中,原始音乐库存放的是音乐数据;特征库存放音乐数据的特征,按一定顺序存放;聚类参数库是对音频特征进行聚类所得的参数集,包括特征矢量空间的码本、阈值等信息。
第四步,查询结果求精。用户通过人机交互, 对检索的结果逐步求精, 不断缩小匹配集合的范围, 从而定位到符合用户需求的音乐文件。