MPEG-4技术及应用综述

一．概述　
　关于图象视频压缩已有n×384kbps电视会议H.120建议、p×64kbps视频编码标准H.261、连续色调静止图象压缩标准JPEG、PSTN等低比特率活动图象压缩标准H.263。1988年ISO与CCITT成立活动图象专家组MPEG（MovingPictureExpertsGroup)，研究数字存储媒体上的活动图象及其伴音的编码表示,1992年通过1.5Mbps编码标准MPEG-1,1994年通过2Mbps、30Mbps高质量视频音频编码标准MPEG-2。以上标准均偏重于某(几)个应用领域,交互性较差,至多允许视频序列可变速度的双向播放,可重用性只限于矩形视频区域及其相关音频的线性片段,无法在同一场景集成自然信息与合成信息,不能提供对各种网络的一致性访问，容错性、灵活性和可扩展性比较差。
　　MPEG于1991年5月提出关于视频音频编码的MPEG-4项目，设系统、音频、视频、需求、实现研究、测试及自然合成混合编码（SNHC）子组,1998年11月成为国际标准。MPEG-4提供更强的交互能力。场景中的每个对象独立编码,用户可以选择性地与其中某(几)个对象交互,具有良好的重用性。重新组合音视对象AVO（AudioVisualObject）构造新场景,可以集成各种对象,无缝地集成自然信息与合成信息,实时信息与存储信息,AVO可以是单/双/多声道音频信息、单/双/多镜头2D/3D视频信息。可以透明地访问信息,通过各种网络传输的信息最终映射为本地信息,整个过程给用户的感觉就如同访问本地信息。而且允许基于内容(比特率、分辨率、帧率、防错保护和解码优先级)的可伸缩性和服务质量（QoS）参数,更加灵活,可扩展,充分考虑未来技术的发展及应用需求,将解码器可编程能力分为:不可编程的标准工具集合（Flex-0）；由标准化工具及其接口灵活配置的算法（Flex-1）；多种工具构成可能算法的标准化可扩展机制（Flex-2）。

二．技术部分

2.1 MPEG-4标准概要

　　MPEG-4引入了对象基表达(object-based representation)的概念，用来表达视听对象A VO(audio/visual objects)；MPEG-4扩充了编码的数据类型，由自然数据对象扩展到计算机生成的合成数据对象，采用合成对象/自然对象混合编码SNHC(Synthetic/Natural Hybrid Coding)算法；在实现交互功能和重用对象中引入了组合、合成和编排等重要概念。MPEG-4中制定了一个称为传输多媒体集成框架DMIF(Delivery Multimedia Integration Framework)的会话协议，它用来管理多媒体数据流。该协议在原则上与文件传输协议FTP(File Transfer Protocol)类似，其差别是：FTP返回的是数据，而DMIF返回的是指向到何处获取数据流的指针。DMIF覆盖了三种主要技术：广播技术，交互网络技术和光盘技术。
　　MPEG-4将应用在移动通信和公用电话交换网PSTN(public switched telephone network )上，并支持可视电话(videophone)、电视邮件(video mail)、电子报纸(electronic newspapers)和其他低数据传输速率场合下的应用。
　　MPEG-4的标准名是Very-low bitrate audio-visual coding (甚低速率视听编码)。截止到1998年9月，已作为国际标准草案DIS (Draft International Standard)的MPEG-4文件有5个部分，它们是：
　　① MPEG-4系统标准，标准名是ISO/IEC DIS 14496-1 Very-low bitrate audio-visual coding - Part1: 　Systems。
　　② MPEG-4电视图象标准，标准名是ISO/IEC DIS 14496-2 Very low bitrate audio-visual coding -Part 2: Video。
　　③ MPEG-4声音标准，标准名是ISO/IEC DIS 14496-3 Very low bitrate audio-visual coding - Part3: Audio。
　　④ MPEG-4一致性测试标准，标准名是ISO/IEC DIS 14496-4 Very-low bitrate audio-visual coding -Part 4: Conformance Testing。
　　⑤ MPEG-4参考软件，标准名是ISO/IEC DIS 14496-5 Very-low bitrate audio-visual coding - Part5: Reference software
　　⑥ MPEG-4传输多媒体集成框架，标准名是ISO/IEC DIS 14496-6 Very-low bitrate audio-visual coding - Part 6: Delivery Multimedia Integration Framework (DMIF)。
2.2 MPEG-4 标准的范围和特点

　　MPEG-4标准提供了一整套技术来满足作者的需要、服务提供商和最终用户的偏好。
　　*对于作者来讲，MPEG-4使得基于内容的产品成为现实，这种产品具有大得多的可用性，具有比现在的独立技术例如数字电视、动态图象、WWW网页及其扩展技术所能提供的更大的灵活性。而且，现在有可能进行更好的管理和着作权的保护。
　　*对于网络服务提供商来说，MPEG-4提供了透明的信息，它能够在相对标准的实体的帮助下解释并翻译成每个网络相应的本地信号讯息。不仅预先考虑到服务质量（QoS），MPEG-4还为不同的媒介提供一个通用的QoS描述符。为每种媒质从QoS的参数设置到网络服务质量的精确翻译超出了MPEG-4的范围，留给了网络提供商。端到端的发送MPEG-4媒质　QoS描述符就能够在异种网络间进行传输优化。
　　* 对于最终用户来说，MPEG-4在作者所置的限制内提供更高水平的内容交互。它也为新兴网络，包括那些应用相对低速率的网络以及移动网络提供多媒体服务。MPEG主页上的一份MPEG-4应用文档描述了很多最终用户应用，包括交互式多媒体广播和移动通信。
　　对所有相关方面，MPEG力求避免大量的所有权、非交错格式和播放器的使用。为实现以上目标，MPEG-4提供标准化方式来：
　　1．代表语音、视觉或语音视觉内容的单元，称为"媒体对象"。这些媒体对象可能来自自然或合成源；这就是说他们能够被相机或话筒所记录，或者由计算机产生；
　　2．描述这些对象的组合以创建构成语音视频屏幕的组合媒体对象；
　　3．复用和同步与媒体对象相关的数据，这样他们能在提供了适于特殊媒体对象特性的QoS的网络通道上传输；而且
　　4．与接收端产生的语音视频景象交互。
2.2.1 媒体对象的编码表示

　　MPEG-4 语音视频场景由一些媒体对象组成，以分层方式组织起来。在这层次结构中，我们找到了基本的媒体对象，例如：
　　* 静态图象（例如固定背景）
　　* 视频对象（例如正在说话的人-没有背景）
　　* 语音对象（例如和这个人相关的声音）
　　MPEG-4把这样大量的能够表现2-D或3-D自然和合成内容类型的基本媒体对象标准化。附加在上面提到的、除媒体对象之外，MPEG-4定义了如下对象的编码表示法，
　　* 文本和图形；
　　* 文本和图形；
　　* 用来合成语言和运动头部的正在讲话的合成的头部和相关的文本；
　　* 合成的声音
　　编码形式的媒体对象是由在语音视频景象中处理该对象的描述元素和相关流数据组成。重要的是在编码形式下每个媒体对象都能独立与它的环境或背景独立表现。考虑到要求的功能，这种媒体对象的编码表示法是尽可能的高效的。这些功能包括差错鲁棒性、易释性和可编辑性。

2.2.2 媒体对象的组合

　　基本媒体对象相应于描述树中的叶子，而组合媒体对象包含了整个子树。例如：相应于正在说话的人的视频对象和相应的声音捆绑在一起形成一个新的组合媒体对象，包含了那个人的语音和视频部分。
　　* 这样的组成允许作者构建复杂的景象，使客户能处理有意义的对象。
　　* 更普遍地，MPEG-4提供了一种描述景象的标准化方式，例如允许：
　　* 在给定坐标系内随处放置媒体对象；
　　* 应用变换来改变媒体对象的几何和声学表现；
　　* 整合基本媒体对象以形成组合媒体对象；
　　* 应用流数据于媒体对象以更改属性（例如声音，属于某对象的移动中的文本，驱动合成面孔的动态参数成面孔的动态参数；
　　* 交互式地改变用户在景象中的任何视听点。
景象描述是建立在来自于对象合成结点的结构和功能意义上的虚拟现实（VRML）的一些基本概念而且扩展为完全实现上述特点。

2.2.3 媒体对象流数据的描述和同步

　　一个MPEG-4影音场景的例子媒体对象可能需要在一个或多个基本流中传输的流数据。对象描述符把与媒体对象相关的所有流中区分开来。这就允许处理分层编码数据、内容变化信息的联系（称?quot;对象内容信息"）和相关的知识产权。每个流自身由一套配置信息的描述符所区别，例如用来决定需要编码源和编码的时间信息精度。而且描述符可以携带传输需要的QoS的线索（例如最大位速率、位差错速率、优先级等）。基本流的同步是通过基本流内单个访问单元的时标实现的。同步层管碚庋姆梦实ピ褪北甑氖侗稹６懒⒂诿教謇嘈椭猓貌阍市硎侗鸪龇梦实ピ睦嘈突指疵教宥韵蠡蚓跋竺枋龅氖被夷茉谄浼涫迪滞健８貌愕挠锓梢远嘀址绞脚渲茫市碓谛矶嘞低持惺褂谩?

2.2.4 流数据的传输

　　在不同QoS的网络中从源到目的的流信息的同步传输，是由上述的同步层和包含两子层的复合传输层确定的。第一个复用层根据MPEG-4标准的Part6中的DMIF规范进行管理。这种复用可在MPEG定义的FlexMux工具中体现，该工具允许以低复用费用组合基本流（ESS）。例如该层的复用可用来组合相似QoS需求的基本流，减少网络连接数或者端-端延迟，TransMux（传输复用）层搭建了提供匹配需求QoS的传输服务的层。MPEG-4仅确定了该层的接口而具体的数据包和控制信号的规划必须与各传输协议上有权的实体进行协商。任何现存的合适的传输协议栈，例如（RTP）/UDP/IP、（AAL5）/ATM或者MPEG-2在适合链路层上的传输流都可能成为TransMux的实例。选择权留给了最终用户和服务提供商，而允许MPEG-4用于广泛的运行环境中。
　　FlexMux复用工具的使用是可选的，如果下层的TransMux实例提供了所有要求的功能，该层必须为空。而同步层总是存在的。以下是可行的：
　　1．识别访问单元，传输时标和时钟参考信息以及检测数据丢失；
　　2．传输控制信息以实现：
　　* 为每个基本流和FlexMux流指示需要的QoS；
　　* 翻译这样的QoS需求为实际网络资源；
　　* 连接基本流到媒体对象；
　　* 转换基本流的映射为FlexMux和TransMux通道。
　　部分控制功能在和DMIF框架这样的传输控制实体联结后才可实现。

2.2.5 与媒体对象交互

　　总体来说用户看到的是依据作者设计组合而成的影象。然而，用户和影象交互的可能性依赖于作者所允许的自由度。用户可能被允许进行的操作包括：
　　* 改变景象的视/听点，例如在景象中漫游；
　　* 把景象中的对象拖到不同的位置上；
　　* 点击特定对象以触发一系列事件，例如开始或终止视频流；
　　* 多语言音轨时选择想要的语言。
　　更复杂的动作也能被触发，例如一个虚拟的电话铃响，用户接听并建立通信链路。

2.2.6 知识产权的管理和识别

　　能够在MPEG-4媒体对象中识别出知识产权是重要的。为支持这一点，MPEG与不同制造商的代表就语法定义和工具进行合作。MPEG-4通过存储唯一标识来实现识别，该标识由国际编号系统公布。该数字可用于识别媒体对象的当前所有者。因为并非所有的内容都由此数字识别，MPEG-4 Version1提供用关键值对来识别知识产权的可能。而且MPEG-4为想使用控制访问知识产权的系统的人提供一个紧密结合进系统层的标准化系统的人提供一个紧密结合进系统层的标准化接口。通过该接口，所有权控制系统可轻易地与解码器的标准化部分组合。
2.3 MPEG-4 标准的技术细节

　　显示了从网络（或存储设备）来的流作为TransMux流，复用为FlexMux流并传给适当的获取基本流的FlexMux解复器的。基本流（ES）被解析并传递给适当的解码器。解码是从编码形式中恢复出AV对象中的数据并进行必要的操作以重建初始的AV对象以备在适当设备上演示。重建的AV对象可为影象演示中的潜在需要组合成层。解码的AV对象和影象描述信息都被用来组合作者所描述的影象。用户可在作者允许的程度上与最终演示展现的影象交互。

2.3.1 传输多媒体集成框架DMIF

　　传输多媒体集成框架DMIF（Delivery Multimedia Integration Framework）是在通用传输技术上的管理多媒体流的会话协议。原理上与FTP相似，唯一也是基本的差别是FTP返回数据，DMIF返回获取（流）数据的指针。类似地，当DMIF运行时，第一个动作是和远端建立会话。然后，选择流并发要求（request）流注，DMIF对端将返回连接流注点的指针，并建立连接。
　　MPEG-4终端（接收侧）的主要部分与FTP相比，DMIF既是框架又是协议。DMIF提供的功能是由称为DMIF应用接口（DAI）的接口来表达，并翻译为协议消息。这些协议消息可能基于运行的网络而不同。服务质量同样为DMIF设计所考虑，DAI允许DMIF用户为所需的流指定要求。这样就要求DMIF执行时保证要求得以实现。DMIF规格提供了在几个新网络类型，例如Internet上实现该任务的线索。
　　DAI也用来访问广播介质和本地文件，这意味着在多传输技术上定义访问多媒体内容的单一、统一的接口。
　　因此，我们适合这样说，DMIF的集成框架涵盖了三种主要技术，交互网络技术、广播技术和磁盘技术。DMIF如此以至依赖于DMIF通信的应用不必关心底层的通信方法。DMIF执行以处理关于简单应用接口的传输技术细节。应用通过DMIF应用接口访问数据，无论该数据来自广播源、本地存储器或远端服务器。在所有的情况下本地应用只通过统一接口（DAI）交互。不同的DMIF实例考虑到采用传输技术的特性把本地应用翻译为送至远端应用的特定消息。类似地，（从远端服务器、广播网络或消息。类似地，（从远端服务器、广播网络或本地文件）进入终端的数据通过DAI统一地传给本地应用。不同的、特定的DMIF实例被管理各种特定传输技术的应用唤醒，虽然这对于应用是通明的，它只是和单一的"DMIF过滤器"交互。该过滤器负责为特定DAI向正确的实例粗定向。DMIF不规定该机制，只假设它是运行的。这在该图的阴影框内有所强调，目的是澄清DMIF应用的边界，此时DMIF通信构架定义了若干模块，实际的DMIF应用只需要在边界上保持他们的表现。这样，通过例如基于IP的或ATM的网络访问的"真实的"远程应用，和从广播源或磁盘获取内容的模拟远端制造者应用。然而在前一种情况中，两实体间交换的信息必须规范定义以确保互操作性。在后一种情况中，两个DMIF实体间的接口和模拟远端应用在单一实现中不需考虑该规范。对于广播和本地存储，该图展示了一条"本地DMIF、远端DMIF（模拟）、远端应用（模拟）"的链条。该链条只表达概念化模型而不需对应为实际实现（全部在阴影区内）。
　　DMIF构架考虑广播和本地存储时，假设模拟远端应用了解数据如何发送和存储。如何可以得到处理中的应用种类的信息。对于MPEG-4，这实际就是如基本流ID、首对象描述符、服务名之类的概念。虽然DMIF层理论上不了解正提供支持的应用，由于（模拟）远端应用的存在，对广播和本地存储等特殊情况该概念并不完全正确。因为（模拟）远端应用不了解数据是如何传送/存储的，对于这样的DMIF应用数据传送/存储的细致描述是无意义的。
　　而当考虑远端交互时，DMIF层是完全不了解应用的。引入附加接口-DMIF网络接口（DNI ）以确定DMIF对需要交换何种信息。该附加模块负责把DNI原语映射为特定网络使用的消息。应当注意DNI原语只是为信息目的所指定，并不需要在实际应用中表现DNI接口。为了支持相同的终端多传输技术甚至多场景（广播、本地存储器、远端交互），DMIF支持允许一个或多个DMIF实例同时出现，每个面对特定的传输技术。多传输技术可被相同应用激活，这样就能够管理被广播网络、本地文件系统和远端交互点传送的数据。

2.3.2 流数据的多路复用，同步和描述

　　必须要在传输层从网络连接或存储设备来的数据中获得各基本流。在MPEG-4系统模型中每个网络连接或文件被单独看成一个TransMux通道。依应用而异复用部分或完全地作用于MPEG-4范围之外的层。MPEG-4唯一定义的复用工具是FlexMux工具，它对于低延迟、低负载复用及为节省网络连接资源来说是可选的。
　　为了在系统环境中集成MPEG-4的目的，DMIF应用接口成为可作为同步层--打包流访问的基本流的参考点。DMIF网络接口确定了同步层-打包流-无FlexMux或FlexMux流如何从TransMux层得到的。这就是不被MPEG定义的传输功能的接口。这里考虑接口的数据部分，控制部分由DMIF处理。
　　与MPEG-1和MPEG-2以位流语法和语意描述理想解码设备的方式相同，MPEG-4定义了系统解码模型。这就允许不做非必要假设和精确细节准确定义终端操作。这对于以不同方式自由地实现设计真实MPEG-4终端和解码设备是必要的。这些设备包括从不能与发端通信的电视接收机到能完全双向交互的计算机。一些设备通过同步网络MPEG-4流，另一些通过非同步方式（例如Internet）交换MPEG-4信息。系统编码模块提供所有MPEG-4终端应用基于的通用模块。确定缓冲和延迟模型对不知道如何接收编码流的编码设备是必要的。虽然MPEG-4使编码设备可通知资源需求的解码设备，如前所述，该设备也可能不响应发端。同样有可能一个MPEG-4会话同时接受不同设备的信息。但这将根据设备的容量来进行。

2.3.3 语法描述

　　MPEG-4定义了一种语法描述语言来描述位流传送媒体对象和景象描述信息位流的精确位语法。该语言从C语言出发，是C++语言的扩展，用来以综合方式描述对象的句法表达、所有媒体对象的类定义和景象描述信息。这提供了精确地恒定统一描述语法的方式，同时简化位流依从测试。软件工具可用来进行语法描述，产生进行判定的程序的必要代码。

2.3.4音频对象编码

　　MPEG-4音频对象编码为表达自然声音（例如话音和音乐）和基于机构化描述的合成声音都提供工具。合成声音的表达可从文本数据或所谓的结构描述，以编码参数提供反射、空间定向等效果的方式实现。该方式提供压缩和其他例如可伸缩性和效果处理等其他功能。覆盖6kbit/s到24kbit/s速率的MPEG-4语音编码工具已和NADIB合作通过AM数字语音广播应用检验性测试。为辩识合适的数字语音广播格式以改进现有的AM模式服务，包括MPEG-4 CELP、TwinVQ、和AAC工具一些编码设置与一个参考AM系统进行了比较。发现数字技术可在同样带宽上实现更高质量，而且编码设置提供了优于联播的效果。MPEG还进行了附加检验测试，把话音和普通语音编码的工具与现存标准进行比较。

2.3.5 视频对象(VO)编码

　　为了支持基于内容的交互性,即支持对内容(场景中的物理对象)独立地进行编解码，MPE G-4视频检验模型(即发展完善中的视频编码算法和工具集)引入了视频对象面（VOP）的概念。假设输入的视频序列的每一帧都被分割成多个任意形状的图像区域（视频对象面），每个区域可能覆盖场景中特定的感兴趣的图像或视频内容。输入进行编码的VOP可以是任意形状的,且形状和位置可随帧而变。属于场景中同一物理对象的连续VOP序列称为视频对象（VO）。同一视频对象的VOP序列的形状、运动和纹理信息被编码传输,或者编码为一个隔离的视频对象层（VOL）。除此之外,辨别各个视频对象层,以及接收端合成不同的视频对象层以重建完整的原序列所需的相关信息也包含在比特流中。这使得可以对每个VOP独立地进行编解码,且可以对视频序列进行灵活操作。输入进行编码的源视频对象序列可以是独立实体,也可以由在线或脱线的分割算法产生。
　　有些多媒体业务需要提供面向对象的操作和编辑功能,如远程数据库访问、视频编辑等。有些情况下,人们只对场景中的某个对象感兴趣,如多媒体会议,人们感兴趣的只是与会者的头肩像,而不关心背景。因此,为了节省带宽,可以只传送头肩像的视频信息,接收端再把收到的头肩像信息解码重建,并置于一间虚拟会议室中。基于内容的视频编码系统可以在比特流层支持这种基于对象的访问和操作功能。
　　有两种类型的视频编码系统支持基于内容的交互性,一种是模型基编码;另一种是在传统的基于块的视频编码系统的基础上扩充而成的。对于前者,在此不做讨论。而后者则是传统的,基于块的混合运动预测/补尝编码系统扩展到任意形状的视频序列而成的。传统的、基于块的编码方法已被MPEG-1/2和H.261/3等标准所采用。这种系统主要由场景分析和对象分割、形状编码、运动编码、纹理编码等模块构成,具体的编码算法则做为实现系统中各个功能模块的工具,可根据实际需要选取组合。首先对输入的原图像序列进行场景分析和对象分割,以划分不同的VOP，得到各个VOP的形状和位置信息。VOP的形状和位置信息可以用上文提到的alpha平面来表示。发送端只需传送alpha平面,接收端就可以确定VOP的形状和位置。alpha平面所需的比特数是比较多的,需要进行压缩编码。显然,只要对VOP的轮廓进行编码和传送，接收端就可以恢复alpha平面,轮廓信息在轮廓编码器中进行编码。提取出的形状和位置信息又用来控制VOP的运动和纹理编码。对运动和纹理信息编码仍然采用经典的类似停校牛呛虷.261/3标准的运动预测/补偿法。输入的第N帧的VOP与帧存储器中存储的N-1帧的VOP进行比较,找到运动矢量,然后对两帧VOP的差值进行量化、编码。对不同对象的运动和纹理信息的编码可因地制宜地采用不同的方法,以提高编码效率。编码后得到的纹理信息,与运动编码器和形状编码器输出的运动信息和形状信息复接形成该VOP的比特流层。不同视频对象的VOP序列分别进行编码,形成各自的比特流层,经复接后在信道上传送。传送的顺序依次为形状信息、运动信息和纹理信息。接收端的解码过程是编码过程的逆操作。当VOP的形状为矩形时,不需要进行形状编码,该系统退化为传统的规则形状的视频编码系统,保持了后向兼容性基于内容的视频编码技术,可以对任意形状的视频对象序列进行编码,编码后的视频对象的比特流以"对象层"的形式而存在。同一场景中的不同视频对象可分别独立地进行编码和传输,因此,接收端可独立地有选择地解码和重建视频对象,也可灵活地在比特流层对视频对象进行操作而改变原场景。基于内容的视频编码技术在远程监控、移动多媒体、信息娱乐(infotainment)、多媒体会议、交互购物、电影和电视的后期制作、虚拟现实、计算机支持的协同工作(CSCW)等领域具有十分广阔的应用前景,它必然对多媒体事业产生巨大的冲击

三．应用部分

3.1 MPEG-4技术动态

　　ACTS是欧洲的一个研究与技术开发组织,其MCM子组的工作与MPEG-4系统、算法和工具、脸部特征跟踪及动画等密切相关。目前项目研究和开发一族PSTN等低比特率可视电话视频编码算法,允许异质网间视频会议的比特流可伸缩性。
VIDAS项目为时间相关表现、编码和AV流操纵设计一个合适算法,在可视电话场景(编码器)分析、(解码器)合成时充分利用语音和脸动的相关性,在真实帧之间插入合成帧提高帧率,平滑显示与语音同步的唇部运动,面向分布式创作和分布式虚拟现实。蓝室(BlueRoom)、计算机、合成三者可分布在不同地点,蓝室视频信号、控制信号和跟踪信号由远地传来,而背景和动画则在本地实时绘制,它们与蓝室视频信号合成后生成最终信号。分布式虚拟现实系统中一次性传送基本3D模型,然后只传输动态交互引起的模型变化量,人们通过高速网络可以在虚拟世界里交互。最近东芝公司推出首款基于MPEG-4视频流系统MobileMotion套件,包括Motion套件,包括MPEG-4产品、服务器和播放器软件,用于Internet/Intranet上构建视频和多媒体应用,支持CIF和亚1/4CIF,6kbps-384kbps时每秒可处理30帧视频数据。

3.2 MPEG-4及其在VOD业务中的应用

　　视频点播是近年发展起来的基于多媒体技术的交互式服务方式,VOD是以数字压缩技术为基础、网络与多媒体技术相结合的交互电视系统。VOD业务是指用户可以从自己的终端(机顶盒、普通模拟电视机)上申请所需信息,提供服务的部门按用户需要提供有关信息。VOD业务主要有影视选播、电视购物、远程教学、远程医疗、电子图书馆和交互式电子游戏等。目前流行的VOD系统主要采用MPEG-2编码标准。这种标准的画面质量好,压缩比高。然而MPEG-2标准在VOD业务的应用中也暴露出其不足方面:基于宏块和帧的编码方式限制了对内容的交互操作、压缩效率仍不理想、窄带网上的传输质量受到限制和对媒体的兼容能力有待提高等。因此VOD业务的发展急需一种以多媒体应用为目标的新一代编码标准。
MPEG-4基于对象编码的技术特点和它可实现的功能,在VOD业务中有很大的应用潜力。同采用MPEG-2标准的VOD业务相比,基于MPEG-4的VOD业务具有以下特点:
　　(1)图像主观质量更好由于采用基于视频对象的编码方式,编码时可以根据人眼的视觉特性,区分不同视频对象的主次关系,合理安排压缩比。与现存的标准相比,这种编码方式容易获得更好的图像主观质量。
　　(2)交互性更完善
　　MPEG-4VOD用户突破了传统上基于帧进行操作的限制,可以根据各自的需求,针对帧中的某一个视频对象,进行平移、旋转、缩放、剪帖和检索等交互式操作,使交互性能有了质的飞跃。这种基于对象的交互操作,使用户能根据某一具体画面(如某种植物)查询相关内容,或是查询画面中某一物质对象的其它资料（即VOD电子图书馆业务）。用户还可放大自己存放在医院的Ｘ光照片,取出自己关心的那部分画面仔细观察(即VOD远程医疗业务)等等。
　　(3)灵活性更大
　　VOD业务部门可以根据不同地域的具体条件、使用不同的传输网络（如HDSL、ADSL、HFC和FTTH/FTTC等），开展VOD业务。VOD用户也可以对音/视频的质量、实时性和接入网方式等作自由选择。
　　(4)多媒体兼容能力更强
　　MPEG-4不但支持自然音频、视频,而且支持自然和合成的混合音频、视频。在VOD电子游戏中,用户可以利用自然的音频和视频创作动画和合成声音。在VOD影视节目点播中,用户可以在画面上选择叠加自己母语的字幕,或者叠加其它文字信息（如股票行情等）。
　　对于采用MPEG-4标准的VOD系统,还可以利用MPEG-4多个并行数据流编码技术提供的多视点编码功能,开展虚拟现实游戏、三维电影和多视角演示等其它新业务。也可以利用音频编码的TTS功能,提高远程教学的质量。
此外,尚待解决的主要技术问题有:
　　(1)为了适应MPEG-规定的5kbps～4Mbps视频速率范围,为用户提供高质量乃至DVD质量的图像,目前的图像压缩技术仍需进一步提高。
　　(2)为了实现基于视频对象的交互操作,需要解决如何定义、描述、划分和分离视频对象
的问题。
　　MPEG-4标准具有比现存标准更好的主观画面质量、更完善的交互性能、更强的媒体兼容能力和更大的灵活性。将MPEG-4用于VOD业务,一方面可以发挥它在多媒体应用方面的优势,另一方面也可以提高VOD业务的质量,拓宽VOD业务的范围。随着数据压缩技术的不断发展，MPEG-4必将成为VOD系统编解码技术的核心标准

3.3 MPEG-4在无线/移动多媒体通信中的应用

　　ISO/IEC正在进行标准化的MPEG-4是一种可用于通信、广播和计算机等诸多领域的通用多媒体编码方式 ,1997年10月已公布了草案，正式标准(第1版)于1998年12月颁布。MPEG-1和MPEG-2是以CD-ROM和DVD等存储媒体以及广播系统的高质量、高比特率(2Mbps以上)为对象的音频和视频编码方式,已完成标准化。
　　MPEG-4则尤为重视压缩效率,是一种能用于低比特率（64kbps以下）的编码方式,对传输误差有较强的耐受性。
　　另一方面,ITU-T还推进模拟电话线路所用多媒体通信终端的标准方式（H-324）与无线/移动通信相对应, 准备将之作为H 324AnnexC,加以标准化。具体说来,就是对H- 324中所用H 223(在一个分组内对声音和图像进行多路复用方式)的抗误差性进行分级强化,分别作为H 223AnnexA、AnnexB和AnnexC进行标准化(下文中AnnexA、B、C统称Annex)。目前,就多媒体通信所必需的多路复用方式而言,除了MPEG-4外，ISO还能够采用H 223和MPEG 2TS（传输流）等已有的多路复用方式。因此,为了在无线/移动环境中实现多媒体通信,有必要将具有抗误差性的ISO标准MPEG 4编码方式与ITU-T标准H 223Annex多路复用方式结合起来。
　　图1多媒体通信网络范例
　　图1给出了包含无线/移动通信系统的多媒体通信网络范例。本例中,便携式终端通过各种网络实现电视电话、图像监视和图像浏览等功能。把便携式终端和电视摄像装置获取的图像存储在服务话、图像监视和图像浏览等功能。把便携式终端和电视摄像装置获取的图像存储在服务器中,并建立数据库,利用因特网进行信息分配,从而使其他便携式终端用户也能够看到这些图像。图像传输是多媒体通信的核心,采用何种图像编码方式是构筑多媒体网络的关键。特别是在用于要求实时性的电视电话和广播业场合,不能在收发方之间进行信息重发和到达确认等特殊控制,因此MPEG-4图像编码方式是比较理想的,它无需这种控制,且抗误差性较强。对应于不同的网络,多媒体信息传输时所需的多路复用方式有很多种。例如,因特网等分组网通常用不同的分组分别传送声音和图像,并通过内藏于各媒体的时间标记,各自取得同步的H 225多路复用方式或MPEG2TS多路复用方式。在使用模拟电话线路电视电话的场合,在同一分组内对声音和图像进行多路复用的H.223方式已经成为ITU-T标准。另外,在无线/移动环境中,具有抗误差性的H 223Annex多路复用方式也是行之有效的。
　　因此,在构筑多媒体网络时,可以采用抗传输误差性能较强的MPEG-4作为图像编码方式,而多路复用则采用与各网络相适应的方式。这样,当通过不同的网络进行图像传输时,只需调换多路复用方式就可以了。

参考文献

* 刘占平,董士海 MPEG-4标准及相关进展中国图象图形学报1999.06
* 岳云 MPEG-4在无线/移动多媒体通信中的应用电信快报1999.09
* 唐冬,郑善贤 MPEG-4及其在VOD业务中的应用电信快报1999.09
* 翁南钐,蔡德钧,容太平基于内容的视频编码技术通信技术1999.03
* 夏天,陈磊,余兆明 MPEG-4的基于内容的视频编码技术电子工程师1999.10
* Rob Koenen Overview of the MPEG-4 Standard Stockholm - July 1997
* MPEG -4 FAQs ISO/IEC JTC1/SC29/WG11 N MPEG 97/ July 1997
* Rob Koenen MPEG-4 Overview - (Melbourne Version) October 1999/Melbourne