您当前的位置:首页 > 计算机论文>通信论文

MPEG-4视频技术

2015-11-18 10:09 来源:学术参考网 作者:未知

摘 要:MPEG-4提出了媒体对象的概念,为各种多媒体应用特别是基于Intemet和移动网络的应用提供了理想的工具,本文阐述了MPEG-4的基本标准及其采用的视频技术。

关键词:MPEG-4;运动补偿;视频技术
  1  引言
  MPEG即Moving Picture Expert Group(活动图像专家组),它是专门从事制定多媒体视音频压缩编码标准的国际组织。MPEG系列标准对VCD、DVD等视听消费电子及数字电视和高清晰度电视(DTV&&HDTV)、多媒体通信等信息产业的发展产生了巨大而深远的影响。其中MPEG-4标准广泛应用于数字电视、动态图像、实时多媒体监控系统、DVD上的交互多媒体应用、基于计算机网络的可视化合作实验室场景应用等,它将推动电信、计算机、广播电视三大网络的最终融合。
  2  MPEG标准
  为了满足数字存储媒体、电视广播以及通信等应用领域对于“活动图像及其伴音的通用编码方法”日益增长的需求,MPEG组织在又推出了MPEG-2标准,国际标号ISO/IEC13818,数码率可高达10Mbps。MPEG-4的目标是达到低比特率下的多媒体通信和多业务的多媒体通信综合。为了实现该目标,MPEG-4引人了对象的概念,实际上就是用基于对象方法得到的分层区域。由此MPEG-4具有了内容交互性、灵活性和可扩展性这三个重要特征。MPEG-4的最大创新在于它的开放性,这使用户可以针对应用建立个性化系统,因此很容易实现Internet的图像搜索引擎、基于内容的图像数据库检索和交互式的多媒体通信等新功能,其具体方法应用目标为数字电视、交互式图形应用和交互式多媒体等。与前两个标准比,MPEG-4具有文件小、质量好的特点,现已被第三代手机3GPP接纳为多媒体传输标准。
  在制定MPEG-1、MPEG-2及MPEG-4的标准基础上,MPEG专家组于推出了新的标准MPEG-7,该标准的正式名称为“多媒体内容描述接口”(Multimedia Content Description Interface),它的由来是1+2+4=7,因为没有MPEG-3、MPEG-5、MPEG-6。MPEG-7规定一个用于描述各种不同类型多媒体信息的描述符的标准集合。它既不同于基于波形和基于压缩的表示方式,如MPEG-l和MPEG-2,又不同于基于对象的表示方式,如MPEG-4,而是将对各种不同类型的多媒体信息进行标准化描述,并将该描述与所描述的内容相联系,以实现快速有效的搜索。
  3  MPEG-4的视频技术
  MPEG-4实现基于内容交互的首要任务就是把视频分割成不同对象或者把运动对象从背景中分离出来,然后针对不同对象采用相应编码方法,以实现高效压缩。因此视频对象提取即视频对象分割,是MPEG-4视频编码的关键技术,也是新一代视频编码的研究热点和难点。视频对象分割涉及对视频内容的分析和理解,这与人工智能、图像理解、模式识别和神经网络等学科有密切联系。目前人工智能的发展还不够完善,计算机还不具有观察、识别、理解图像的能力;同时关于计算机视觉的研究也表明要实现正确的图像分割需要在更高层次上对视频内容进行理解。因此,尽管MPEG-4框架已经制定,但至今仍没有通用的有效方法去根本解决视频对象分割问题,视频对象分割被认为是一个具有挑战性的难题,基于语义的分割则更加困难。目前进行视频对象分割的一般步骤是:先对原始视频进行化简以利于分割,这可以通过低通滤波、中值滤波、形态滤波来完成;然后对视频数据进行特征提取,可以是颜色、纹理、运动、帧差、位移帧差乃至语义等特征;再基于某种均匀性标准来确定分割决策,根据所提取特征将视频数据归类;最后是进行相关后处理,以实现滤除噪声及准确提取边界。其过程如图1所示:


  
  视频对象平面(VOP,Video Object Plane)是视频对象(VO)在某一时刻的采样,VOP是MPEG-4视频编码的核心概念。MPEG-4在编码过程中针对不同VO采用不同的编码策略:即对前景VO的压缩编码尽可能保留细节和平滑;对背景VO则采用高压缩率的编码策略,甚至不予传输而在解码端由其他背景拼接而成。这种基于对象的视频编码不仅克服了第一代视频编码中高压缩率编码所产生的方块效应,而且使用户可与场景交互,从而既提高了压缩比,又实现了基于内容的交互,为视频编码提供了广阔的发展空间。
  MPEG-4中基于对象的编码过程的大致如下:首先对输人的任意形状的VOP序列,用基于块的混合编码技术编码。处理顺序是先帧内VOP和双向预测VOP,在对VOP的形状信息编码之后,取得任意形状VOP的采样,每个VOP用宏块栅格划分成不相交的宏块,每个宏块含有四个8x8的象素块,以进行运动估计和补偿及纹理编码,已编码的VOP帧保存在VOP帧存储器中。运动矢量在当前VOP帧和已编码VOP帧之间计算,对将被编码的块或宏块计算其运动补偿预测误差。运动补偿预测后的I-VOP及误差用8x8块DCT编码,并进行DCT系数的量化,然后是行程编码和熵编码。最后,形状、运动和纹理信息复合成VOL比特流输出。VOL(Video Object Layer)即视频对象层,属于同一个VO的形状,运动和纹理信息被编码成一个单独的结构。MPEG-4通过视频对象层数据结构实现分级编码。MPEG-4提供了两种基本分级工具,即时域分级(Temporal Scalability)和空域分级(Spatial Scalability),每一种分级编码都至少有两层VOL,低层为基本层,高层为增强层。基本层提供了视频序列的基本信息,增强层提供了视频序列更高的分辨率和细节。在时域分级中,增强层用于增大基本层序列的帧率从而使运动更加平滑。MPFG-4支持任意形状VOP的时域分级,有两种时域分级类型。在第一种类型中,增强层对基本层中一部分区域作帧率的增强。在第二种类型中,增强层对基本层的整个区域作增强。增强层类型由enhancement_type指示。在空域分级中MPEG-4支持矩形VOP的分级。基本层给出一个低分辨率的图像,并用双线性内插扩展到增强层的大小,作为增强层对应VOP的参考VOP。另外MPEG-4还支持时域和空域的混合分级。
  此外,MPEG-4还支持精灵编码。精灵是由视频段中始终可见的视频对象上的像素组成的图像。例如:从由于摄像机镜头摇移所产生的序列中得到的精灵将包括整个序列中背景对象的所有可见像素。精灵编码用于合成序列或只做刚性运动的自然视频编码可达到很高的压缩效率,是MPEG-4特有的视频压缩工具。精灵是由全局运动估计算法产生的。在精灵编码中,色度分量和灰度级分量用和亮度分量相同的方式处理。可以将精灵分片传送以适应延时或带宽的限制,这 尤其适合于strearning方式的媒体流传送。MPFG-4允许精灵作多种变形,包括静止、平移、各向同性的放大收缩、旋转、仿射和透视运动。每种变换都可用一些系数或一些参考点的运动轨迹来定义,前者在进行变换时较为方便,后者在编码时较为方便,参考点数决定形变类型,此点数在VOL中传送。目前,精灵编码方法根据不同的编码过程可以分为静态精灵编码和动态精灵编码。静态精灵编码主要适合于人工合成图像的编码,在编码前已知精灵图像和每帧图像重构点。在编码过程中,根据图像重构点,计算出当前帧在精灵图像中的对应点和范围,编码传输这部分精灵图像和重构点。整个精灵图像只需要编码传输一次,在解码端就能通过解得的重构点,重构许多帧不同的图像。动态精灵编码主要用于自然图像的编码,是一种增强的运动补偿方式。在编码器和解码器中都必须建立相同的动态精灵图像。对将要编码的每一帧图像,将其与已有精灵图像进行全局运动估计,并进行运动补偿,利用所得到的差值数据不断对已有精灵图像进行更新,直到完整的精灵图像生成。
  4  结束语
  MPEG-4视频的高效压缩、基于内容的交互等特性使它在未来的多媒体应用中扮演重要角色。MPEG-4潜在的应用领域十分广阔,如Intemet和移动网络上的多媒体传输,交互式视频游戏,基于存储器的交互式视频播放,交互式数字电视,CSCW,虚拟演播室等。目前已有一些厂家展示了基于MPEG-4应用,如通过同步卫星传送的MPEG-4内容的交互式组播,客户机通过ADSL访问远程MPEG-4内容的Web,通过低比特率的Modem以实时传输协议(RTP)传输音频和三维动画,及基于MPEG-4技术的电子商务等。可以预见,MPEG-4标准会极大地促进多媒体应用的发展。
  
参考文献:
[1] 吴四清,张国平,葛镜. MPEG-4视频编码核心思想与关键技术[J]. 科技资讯, 2006.
[2] 哈渭涛. 基于MPEG-4流媒体数据压缩与传输系统的分析与实现[J]. 渭南师范学院学报, 2009.
[3] 谢柳华. MPEG数据压缩标准的发展[J]. 科技信息(学术研究), 2007.

相关文章
学术参考网 · 手机版
https://m.lw881.com/
首页