实时混音的实现_学术参考网

摘要本文主要讨论多路声音实时混叠的实现方法，以及实现过程中对一些特殊情况的处理。关键词 wave 混音混音器

1.引言

　　将多个wave文件或多路wave数据同时在wave设备上输出，就可同时听到多个不同的声音，达到混音的效果。如果是将多个不同端点的话音数据经局域网络传输到达某一个端点再经该端点的wave设备输出，就能同时听到多个人的话音，从而实现局域网络中多方的话音交谈。

　　在网络上实现话音交谈，特别强调实时性，要尽量保证话音的平滑、连续，因此为了保证话音数据连续，减少话音数据存储带来的延时，在具体实现中，话音的录制和播放都不采用文件的形式，录制和播放的话音数据都存在缓冲区中。在windows系统中，一般情况下，高层wave接口函数无法直接播放缓冲区中的话音数据，而必须用底层函数来实现，常用的是windows api中的wave函数。将wave数据在wave设备上输出使用的是waveoutwrite函数，但是该函数不支持多路wave数据的同时播放，为了能达到多路wave数据同时播放的效果，对缓冲区中多路wave数据进行必要的预处理后，再提交给wave输出设备播放。实现原理如图1所示。

图1 多路wave混音的实现原理

2.实现原理

　　实时地混音，就是将多路wave数据进行相互叠加处理到另一个目的缓冲区，最终将该目的的缓冲区提交给wave输出设备。

将每一路wave数据作为一个单独通道，分别从每个通道取一数据片段，把取得的几个数据片段相互叠加，然后存进另外一个目的缓冲区中。wWw.133229.COm为了便于处理，缓冲区通常采用数组的形式存放wave数据。

如果话音数据，采用采样频率1025hz，8位单声道的数据格式，那么一秒的话音数据量为11025个字节。

为了达到实时的效果，目的缓冲区通常都设置比较小，大约可存放1/8秒的话音数据量，对于前述的话音格式，目的缓冲区的大小为11025/8＝1375个字节。

下面具体看一下wave数据以数组形式存放时的混音过程。如图2所示。

图2 多路wave数据的叠加过程

假设有4路wave数据，目的缓冲区的大小为1378，混音子函数调用为 mixer(lpdest,rgpcddata,4,1378)。

下面给出混音子函数的实现。其中lpdest为目的缓冲区，rgwavesrc为多路wave数据源，inumwaves为wave数据源的通道数，wlen为目的缓冲区长度。

void mixit(lpsample lpdest,lpsample rgwavesrc［］，intinumwaves,wordwlen)

{int,,isum;

word ctr;

ctr=0

while(wlen)

{

isum=128;/*静音时数值为128*/

for(i=0;i＜inumwaves;i++)

isum=isum+*(rgwavesrc［］+ctr)-128;

peg(int)0,isum,(int)225);/*对转换结果处理*/

*lpdest++=isum;

ctr++;

wlen--;

}

}

注意一点的是对于单声道数据一个字节表示一个采样值，采样值在0-255之间，各个通道的对应wave数据相加后，就会溢出，还需要将相加结果转换成0-255之间的数值。

　　将该目的缓冲区中的wave数据经waveoutwrite函数输出，就能同时听到四个不同的声音，当wave输出设备播放完目的缓冲区中的数据便返回，请求用户提供更多的wave输出数据，因为wave输出设备只能输出提交给它的wave数据；另外，对wave数据进行混音还需要一定的时间，因此当提交一个目的缓冲区中的数据给wave输出设备后，就必须马上混叠另一段wave数据来提交给wave输出设备，作为下一个输出的数据缓冲区，避免声音输出的中断，后一个目的缓冲区提交后被输出设备放入输出队列中，当第一个目的缓冲区中输出完毕后再输出它的数据，当输出设备在输出第二个目的缓冲区的数据时，又能将第三段数据混合进第一个目的缓冲区中，然后重新提交，直到提交完所有的wave数据，那时就将停止输出。在实际应用中目的缓冲区的数要多个，一般为3至4个，图3给出了混音、提交的完整过程。

3 混音、提交过程

3.特殊情况的处理

上面讨论了混音及播放的一般过程，但在实际应用中，还需要到对一些特殊情况进行处理。

●各通道中待混音的wave数据长度不同。

...

图4 各通道中的wave数据长度不同

这种情况是指当前要混音的某一通道中的声音片段数据比wave混音器所定义的缓冲区长度要小，这时该路被采样的声音没有足够的数据与wave混音器中的数据相混叠。

对于这种情况，采用以下的方法可以有效地解决，主要包括三步：

a) wave混音器在混音前首先判断是否有这种情况出现，如果出现，wave混音器必须确定该wave通道中所能被采样的数据长度；

b) 按照该通道所能被采样的数据长度，将该路的数据与其它多个通道中的数据相混叠存入wave混音器的目的缓冲区中；

c) 停止对该通道wave数据的采样混叠处理，只采样混叠其它通道中的wave数据，存入wave混音器目的缓冲区的余下部分。

因为在接下来的采样混音过程还会出现相同的情况，所以必须重复上述a-c的步骤，直到wave混音器的缓冲区填充完毕或再没有可填充的数据为止。这时将该wave混音器的目的缓冲区提交给wave输出设备。

●当播放混音数据时又有新的一路wave数据要求混叠并且被播放。

当前正在播放wave混音器中一个已经混叠的目的缓冲区中wave数据，这时又有一路声音要求马上混叠并且被播放。

这种情况处理起来比较复杂。多路wave数据经过混叠，存储到目的缓冲区，该目的缓冲区中的wave数据在提交给输出设备前，是确定时长的。当有新的一路wave数据要求加入时，wave混音器必须要能确定目的缓冲区中的wave数据已经播放到什么位置了，同时通知wave播放设备当前所播放的wave数据以及wave设备播放队列中的所有wave数据不再有效，然后从该时间点起，重新采样混叠各通道中余下未播放的wave数据，采样混叠过程中加入新的一路要求混叠的wave数据，将重新混叠的wave数据提交给wave输出设备，所有这一切必须在很短的时间完成，要不然用户可能听到声音有中断现象出现。而且这种方法中该重新采样的时间点比较难定。

　　因此，对于这种情况还可以采用图2所示的方法来处理，也能达到同样的效果。这样wave混音器不用中断wave输出当前所在播放的数据，只要重新处理一下wave设备播放队列中的wave数据便可以了。

在混叠下一个目的缓冲区中数据时，包含进新的wave数据。这种方法有一定的延时，延时的时间长度为，从重新混叠的数据提交到wave设备的播放队列中算起，直到该缓冲区的wave数据被播放开始为止。如果定义输出队列的长度3个缓冲区，那么延时的长度最长也就2个缓冲区中的wave数据播放长度，要是缓冲区的长度设置的非常短的话，这种延时一般是不容易听出来的。

●播放过程中中止其中某一路wave数据的播放。

　　当正在播放多路wave数据时，在某一通道中的wave数据还未播放完成前，要求中止该通道中wave数据的播放。对于这种情况的处理，与前面提到的情况(2)相似。wave混音器首先确定当前缓冲区中wave数据已经播放到什么位置，同时通知wave播放设备当前所播放的wave数据以及wave设备播放队列中的所有wave数据不再有效，然后从该时间点起，重新混叠余下的未播放的wave数据，但在采样混叠过程不包括要求去除的wave数据。

同样当前播放位置的确定比较困难，所以实际中解决的方法基本同第二种情况中方法2相同，不过在进行后续的采样混叠过程不是加入新的wave数据，而是去除某一指定通道中的wave数据。

4.结束语

　　该方法已经在实际中使用，因考虑到网络中数据流量和系统的性能要求，话音数据的录制与播放都采用了8位单声道的格式，对于立体声16位wave数据的混音处理较复杂，有待作进一步的研究。

参考文献

《microsoft corporation.microsoft windows multimedia programmer's referce》 microsoft press 1995

《advance multimedia programming》电子工业版社 1995

《microsoft corporation.microsoft windows api referce》 microsoft press 1999