基于H.323协议的音频混合方案设计

摘　要：本文根据H.323协议，分析了多点处理单元（MCU）的组成，包括多点控制器（MC）和多点处理器（MP）。并在详细的分析了音频多点处理器后，提出了只对满足条件的m个信道的音频进行音频混合的方案，有效的刻服了现在比较流行的平均调整权重算法的音频混合方案所产生的缺陷和不足，大大提高了系统对音频混合的效果。

关键词：H.323协议；音频混合；设计
近年来，由于网络技术的快速发展为IP网络实现多媒体通信提供了基础条件，IPTV、视频会议、多媒体远程教育等宽带网络应用成为热点。而视频会议在实用化方面取得了迅速的发展，功能也己由原先单纯的电视会议功能发展成远程教学系统、远程监控系统、远程医疗系统等多方面的综合业务。
1、多点控制单元(MCU)
　　H.323协议在逻辑上可以分为四个组成实体:终端(Terminal)、网关(Gateway)、网守(Gatekeeper)、多点控制单元(MCU)。
　　多点控制单元用于支持三个以上端点设备的会议。在H.323系统中，一个多点控制单元由一个多点控制器(MC)和几个多点处理器(MP)组成，但也可以不包含MP。多点控制器处理终端间的H.245控制信息，从而决定它对视频和音频通常的处理能力。在必要情况下，多点控制器还可以判断哪些视频流和音频流需要多播，以控制会议系统使用的资源。
　　视频会议中，在集体讨论和自由发言的情况下，可能会有多个与会者同时发言。为了使每个与会者能同时听到其他所有发言者的声音，采用了音频混合技术。音频混合单元从各个终端取得音频信号，经过混合编码后再发送到各终端。该技术的引入使得各终端在接收多个发言人的音频信号时，在带宽占用和信号处理方面，与接收单一发言人的音频信号相比，不会增加任何额外负担。
　　为了实现音频信号混合功能，系统必须具备语音信号编解码和音频码流转换功能。H.323要求所有终端必须支持G.711语音标准，而对G.722，G.728，G.723.1和G.729标准则是可选择的。对于能够提供高速带宽环境的网络，为了保证语音的高质量，可以采用速率较高的编码方式，如G.711, G.722;对于远程接入系统，由于带宽昂贵，则可以采用码率较低的编码方式，如G.723.1。相应地，MCU必须支持以上各种语音编码标准。
　　音频混合单元要求输入的各路语音信息属于同一种编码，但实际应用中由于各个终端选用的编码器可能不同，因而发往MCU的音频码流也可能不同。为了解决这个矛盾，必须在混音之前先进行码流转换，将不同的码流转换成同一种编码，再送入音频混合处理单元。
2、音频混合方案设计
　　在实际应用中，如果与会人数只有两人，则只要保证通信是全双工的，就可以正常地进行会议，而无须进行混音。如果与会人数超过3人，则需要采用混音或者转发机制。
　　转发机制有两种策略：其一，将其他端点的数据都转发给一个端点；其二，按照约定的某种规则选出一路进行转发，也就是常见的“话筒传递”模式。这两种模式虽然可以满足一定层面的需求，但都存在明显的缺陷。前者会增加网络的传输负担和端点的处理负担，后者在多人会议的讨论中有明显的反应慢效果差的缺陷。如果与会者希望能够进行比较频繁的切换发言或者讨论，则会出现明显的断续和切换失效等情况。
　　而实时混音则能很好地解决这些问题。实际应用中，一般的混音方案都会采用时域叠加作为基本的处理手段。但是根据前面的分析可知，由于数字音频信号存在量化上限和下限的问题，则因叠加运算肯定会造成结果溢出。通常的处理手段是进行溢出检测，然后再进行饱和运算，即超过上限的结果被置为上限值，超过下限的值置为下限值。这种运算本身破坏了语音信号原有的时域特征，从而引入了噪声。这就是在某些系统中会出现爆破声和语音不连续现象的原因。同时，随着参与混音的人数增加，出现溢出的频率也不断上升，所以这类方法存在一个上限，而且这个上限值很低，实验证明，一般在4个终端参与混音时其结果就有很多噪音和断续，无法分辨语流了。
3、音频混合方案的改进设计
　　直接将各路音频流算术相加得到音频混合信号，其优点是简单且易于实现。经测试，在输入语音流少于4路时，能清晰地分辨各路语音信号。但系统仍存在问题。
　　在前述方法的基础上稍作改进可得到另一类混音设计方法，即将各路音频码流解码后，先对解码语音信号作一定程度的衰减，再进行算术相加。一般是在各路语音上乘以一个衰减因子1/n，其中n为进入混音器的语音流数目。这种方法能绝对保证相加后的语音信号不会溢出，而且对原算法的修改极少，极易实现。但是它存在的关键问题是，当进入混音器的语音流数较多时，各路语音信号的衰减程度都比较大，混音的结果是所有信号都比较弱，无法突出重点，严重时可能所有声音都听不清楚。
　　实现这一改进策略时，仍然是在每个语音通道上绑定一个解码器，负责该路语音的解码，但无需再绑定编码器。系统中最多同时存在m+l个编码器，其中m个分配给m路被选中的语音通道，另一个分配给音频混合信号S，对S编码后的码流发送到所有未被选中的终端和广播终端。由于解码器的运算复杂度远小于编码器，因此系统的计算负荷大大降低。改进后的混音器只选取音量最大的m路进行混音，其余信号被衰减，合理选择m的值，不仅使会议发言重点得以突出，与会者能获得最重要的发言信息，而且一般情况下都不会发生溢出情况。这一改进措施同时解决了前述两种方法所存在的问题和缺陷。
　　某个编码器在由一个语音通道转而分配给另一个语音通道时，必须先进行初始化(G.711a/u除外)。必须注意，要尽量减少编码器和语音通道之间对应关系的改变。
4、结束
　　本文在研究了H.323协议的基础上，研究了MCU的音频混合模型，并详细阐述了音频混合方案，为了过滤混合时的嘈音和增加临场感，提出了音频混合方案的改进方案。
参考文献：
[1] 陈丽霞，范士勇等。基于H.323视频会议系统及其组成。通信技术。2008.6
[2] 张明德，王永东视频会议系统原理与应用[M]. 第1版. 北京:北京希望电子出版社，1999.1~49