论文题目是:数字电视接收机的视频压缩技术 帮写内容:(1)选题依据及研究意义; (2) 选题研究现状; (3)研究内容(包括基本思路、框架、主要研究方式、方法 等) 一共是三点,请大家教一下我这三点该怎么写?! 注明:论文我已经写好了:下面是论文提纲(含论文选题、论文主体框架) 论文选题:数字电视接收机的视频压缩技术 第一章:绪论 一、数字电视的发展及视频压缩的必要性; 二、视频图象数字压缩的客观依据; 三、数字电视与接收机(机顶盒); 四、电视信号模数转换标准; 第二章:数字电视机顶盒技术 一、什么是数字电视机顶盒; 二、数字电视机顶盒的基本原理; 三、数字电视机顶盒的结构; 四、数字电视机顶盒的主要技术; 第三章:视频压缩编码技术 一 空间或时间性编码; 二. 加权; 三. 遍历(Scannng); 四. 熵编码; 五. 空间性编码器; 六. 时间性编码; 七. 运动补偿; 八. 双向编码; 九. I、P 和B 画面; 十. MPEG 压缩器; 十一. 预处理; 十二. 类和级; 十三. 小波; 第四章:视频图象压缩标准 一、H.261标准; 二、JPEG标准; 三、MPEG-1压缩编码标准; 四、MPEG-2压缩编码标准; 五、MPEG-4压缩编码标准; 结束语 ; 参考文献 ;问题补充:题目是学校帮我选择的! 大家可以帮忙把这三点写一下吗? 我真不知道该怎么写! 或者大家帮我写前两点也好了~ 谢谢帮我忙的所有朋友! 拜托各位了!我开题16号就要交了看看这个能不能帮您! 一、如何选择问题 我一起萦绕于怀的,是在写博士论文开题报告的一年多时间里,导师薛澜教授反复追问的一个问题:“你的 puzzle 是什么?”多少次我不假思索地回答“我的问题就是,中国的半导体产业为什么发展不起来。”薛老师问题以其特有的储蓄,笑而不答。我在心中既恼火又懊丧:这么简单的道理,这么明显的答案,到底哪儿不对了?! 奥妙就在于提出问题的“层次”。不同于政策研究报告,学术文章聚集理论层面、解决理论问题。理论是由一系列前设和术语构造的逻辑体系。特定领域的理论有其特定的概念、范畴和研究范式。只有在相同的概念、视角和范式下,理论才能够对话;只有通过对话,理论才能够发展。极少有硕博论文是创造新理论的,能这样当然最好,但难度很大。我们多数是在既有理论的基础上加以发展,因此,在提出问题时,要以“内行”看得懂的术语和明确的逻辑来表述。审视我最初提出的问题“中国半导体产业为什么发展不起来”,这仅仅是对现象的探询,而非有待求证的理论命题。我的理论命题是:“中国产业政策过程是精英主导的共识过程吗?”在这个命题中,“政策过程”、“精英政治”、“共识诉求”三个术语勾勒出研究的理论大体范围和视角。 其次,选择问题是一个“剥笋”的过程。理论问题总是深深地隐藏在纷繁复杂的现实背后,而发现理论问题,则需要运用理论思维的能力。理论思维的训练是一个长期积累的过程。不过初学者也不必望而却步,大体上可以分“三步走”:第一步,先划定一个“兴趣范围”,如半导体产业、信息产业、农村医疗、高等教育体制等,广泛浏览相关的媒体报道、政府文献和学术文章,找到其中的“症结”或“热点”。第二步,总结以往的研究者大体从哪些理论视角来分析“症结”或“热点”、运用了哪些理论工具,如公共财政的视角、社会冲突范式等。第三步,考察问题的可研究性,也就是我们自己的研究空间和研究的可行性。例如,西方的理论是否无法解释中国的问题?或者同一个问题能否用不同的理论来解释?或者理论本身的前提假设、逻辑推演是否存在缺陷?通过回答这些问题,我们找到自己研究的立足点。不过还要注意我们研究在规定的一到两年时间内,是否可能完成?资料获取是否可行?等等。 最后,如何陈述问题?陈述问题实质上就是凝练核心观点的过程。观点应当来自对现实问题的思考和总结,而不是为了套理论而“削足适履”。中国的政治、经济和社会发展充满动态的、丰富的景象,如何才能用恰当的术语、准确的逻辑表述出来呢?雄心勃勃的初学者往往提出宏伟的概念或框架,但我的建议是尽可能缩小研究范围、明确研究对象,从而理清对象的内存逻辑,保证能在有限的时间内完成规范的学 术论文。如“中国半导体产业政策研究”就是一个非常含糊的陈述,我们可以从几个方面来收缩话题:( 1 )时间:从 1980 年到 2000 年;( 2 )对象:政府的叛乱者和决策行为,而不是市场、企业、治理结构等;( 3 )视角:政治和政府理论中的精英研究;( 4 )案例: 908 工程、 909 工程、 13 号文件和《电子振兴》,这是发生在 1980 - 2000 年间半导体政策领域的两个重大工程和两个重要文件。通过这样的明确界定,我们将目光集中在“政策过程”、“精英”、“共识”几个显而易见的概念上,问题也就水落石出了。同时,问题清楚了,我们在筛选信息和资料时也就有了明确的标准,在这个“信息冗余”的时代,能够大大提高研究效率。 二、 如何做文献综述 首先需要将“文献综述( Literature Review) ”与“背景描述 (Backupground Description) ”区分开来。我们在选择研究问题的时候,需要了解该问题产生的背景和来龙去脉,如“中国半导体产业的发展历程”、“国外政府发展半导体产业的政策和问题”等等,这些内容属于“背景描述”,关注的是现实层面的问题,严格讲不是“文献综述”,关注的是现实层面问题,严格讲不是“文献综述”。“文献综述”是对学术观点和理论方法的整理。其次,文献综述是评论性的( Review 就是“评论”的意思),因此要带着作者本人批判的眼光 (critical thinking) 来归纳和评论文献,而不仅仅是相关领域学术研究的“堆砌”。评论的主线,要按照问题展开,也就是说,别的学者是如何看待和解决你提出的问题的,他们的方法和理论是否有什么缺陷?要是别的学者已经很完美地解决了你提出的问题,那就没有重复研究的必要了。 清楚了文献综述的意涵,现来说说怎么做文献综述。虽说,尽可能广泛地收集资料是负责任的研究态度,但如果缺乏标准,就极易将人引入文献的泥沼。 技巧一:瞄准主流。主流文献,如该领域的核心期刊、经典著作、专职部门的研究报告、重要化合物的观点和论述等,是做文献综述的“必修课”。而多数大众媒体上的相关报道或言论,虽然多少有点价值,但时间精力所限,可以从简。怎样摸清该领域的主流呢?建议从以下几条途径入手:一是图书馆的中外学术期刊,找到一两篇“经典”的文章后“顺藤摸瓜”,留意它们的参考文献。质量较高的学术文章,通常是不会忽略该领域的主流、经典文献的。二是利用学校图书馆的“中国期刊网”、“外文期刊数据库检索”和外文过刊阅览室,能够查到一些较为早期的经典文献。三是国家图书馆,有些上世纪七八十年代甚至更早出版的社科图书,学校图书馆往往没有收藏,但是国图却是一本不少(国内出版的所有图书都要送缴国家图书馆),不仅如此,国图还收藏了很多研究中国政治和政府的外文书籍,从互联网上可以轻松查询到。 技巧二:随时整理,如对文献进行分类,记录文献信息和藏书地点。做博士论文的时间很长,有的文献看过了当时不一定有用,事后想起来却找不着了,所以有时记录是很有必要的。罗仆人就积累有一份研究中国政策过程的书单,还特别记录了图书分类号码和藏书地点。同时,对于特别重要的文献,不妨做一个读书笔记,摘录其中的重要观点和论述。这样一步一个脚印,到真正开始写论文时就积累了大量“干货”,可以随时享用。 技巧三:要按照问题来组织文献综述。看过一些文献以后,我们有很强烈的愿望要把自己看到的东西都陈述出来,像“竹筒倒豆子”一样,洋洋洒洒,蔚为壮观。仿佛一定要向读者证明自己劳苦功高。我写过十多万字的文献综述,后来发觉真正有意义的不过数千字。文献综述就像是在文献的丛林中开辟道路,这条道路本来就是要指向我们所要解决的问题,当然是直线距离最短、最省事,但是一路上风景颇多,迷恋风景的人便往往绕行于迤逦的丛林中,反面“乱花渐欲迷人眼”,“曲径通幽”不知所终了。因此,在做文献综述时,头脑时刻要清醒:我要解决什么问题,人家是怎么解决问题的,说的有没有道理,就行了。 三、如何撰写开题报告 问题清楚了,文献综述也做过了,开题报告便呼之欲出。事实也是如此,一个清晰的问题,往往已经隐含着论文的基本结论;对现有文献的缺点的评论,也基本暗含着改进的方向。开题报告就是要把这些暗含的结论、论证结论的逻辑推理,清楚地展现出来。 写开题报告的目的,是要请老师和专家帮我们判断一下:这个问题有没有研究价值、这个研究方法有没有可能奏效、这个论证逻辑有没有明显缺陷。因此,开题报告的主要内容,就要按照“研究目的和意义”、“文献综述和理论空间”、“基本论点和研究方法”、“资料收集方法和工作步骤”这样几个方面展开。其中,“基本论点和研究方法”是重点,许多人往往花费大量笔墨铺陈文献综述,但一谈到自己的研究方法时但寥寥数语、一掠而过。这样的话,评审老师怎么能判断出你的研究前景呢?又怎么能对你的研究方法给予切实的指导和建议呢? 对于不同的选题,研究方法有很大的差异。一个严谨规范的学术研究,必须以严谨规范的方法为支撑。在博士生课程的日常教学中,有些老师致力于传授研究方法;有的则突出讨论方法论的问题。这都有利于我们每一个人提高自己对研究方法的认识、理解、选择与应用,并具体实施于自己的论文工作中。
本文作者王军先生,电子科技大学通信与信息工程学院通信抗干扰技术重点实验室助教、硕士;吴军蹄女士,通信与信息工程学院教授。3 视频压缩标准视频编码标准主要由ITU-T和ISO/IEC开发。前者已经发布了视频会议标准、 、 ,并且准备进行远期编码标准的开发,以期望获得更大的编码效率。ISO/IEC的标准系列是大家熟悉的MPEG家族。包括:(1)MPEG-1(1988~1992),可以提供最高达的数字视频,只支持逐行扫描;(2)MPEG-2(1990~1994),支持的带宽范围从2Mbps到超过20Mbps,MPEG-2后向兼容MPEG-1,但增加了对隔行扫描的支持,并有更大的伸缩性和灵活性;(3)MPEG-4(1994~1998),支持逐行扫描和隔行扫描,是基于视频对象的编码标准,通过对象识别提供了空间的可伸缩性;(4)MPEG-7(1996~2000),是多媒体内容描述接口,与前述标准集中在音频/视频内容的编码和表示不同,它集中在对多媒体内容的描述。除了上述通用标准外,还存在很多专用格式,比较流行的有:C-Cube的M-JPEG、Intel的IVI(tm)(Indeo Video Interactive)、Apple的QuickTime(tm)、Microsoft的 Media Player(tm)和RealNetworks的RealPlayer(tm)。二 数字视频传输根据承载网络的变化和视频服务的区别,可以将数字视频的传输分为四类:数字电视、宽带视频通信、Internet视频流通信、蜂窝移动视频通信。虽然这四种通信体系下对视频通信的协议和服务有不同的要求,但对于实时应用下述几点是必须满足的:(1)传输必须限制在一定时限内完成;(2)必须对端到端的抖动建议限制;(3)必须有相应的同步机制;(4)在分组网络中应当有较高的优先级。1 数字电视广播欧洲走在了全球DVB开发最前面,将其采纳为数字电视DTV的标准;在美国,ATSC采用了HDTV;在亚太地区,日本采用了基于DVB和ATSC的ISDB-T,澳大利亚采用了DVB,韩国则采用了ATSC标准,我国也在制定数字电视的标准,并进行了现场试验。下面我们以欧洲的DTV标准为主分别介绍DTV系统规范和传输技术。系统规范根据传输系统的不同,DTV系统分为三类:陆基系统 DTV-T、卫星系统 DTV-S、有线系统 DTV-C。这三类DTV系统虽然各有不同,但也有公共的特性,MPEG-2视频和音频编码系统是所有DTV系统的基础。系统采用MPEG-2将数据压缩并组装成分组,称为净荷。对净荷采用Reed-Solomon前向纠错编码,降低信号传输中引入的误码。卫星系统采用单载波信号,采用外部编码的同时,内部加入了打孔卷积编码,从而又增加了一层误码纠错能力,根据带宽的变化和采用的特定设备,编码数据是可调整的,信号采用QPSK方式调制。陆基系统联合使用码正交频分复用 COFDM或者QPSK或QAM进行射频调制,采用了和卫星系统相似的打孔卷积编码。有线系统采用了QAM调制方案,不需要附加的内部编码来降低误码,系统优化采用64-QAM。b. DTV系统传输结构DTV系统广播和接收的基本结构由三个子系统构成:(1)信源编码和压缩子系统,通过ADC接受模拟视频和音频信号并将其转换成数字比特流,然后通过MPEG-2进行压缩,并加入控制和辅助数据;(2)服务复用和传递子系统,复用将视频和音频及辅助数据流联合构成长188字节的分组,并加上标记,分组构成单个数据流,采用MPEG-2传递系统语法控制这些复用任务;(3)传输子系统,包括对复用数据流的信道编码和调制。2 宽带视频通信这里讨论的宽带视频通信主要是指基于宽带核心网络和宽带接入技术的MPEG-2视频通信。为了满足实时视频通信对带宽的需求,核心网络通常采用宽带光纤网络,可以是ATM或者基于MPLS的宽带IP与ATM的结合,最后一公里的宽带接入的方法有光纤到户、光纤到楼双绞线到户及ADSL,最近也提出了宽带无线接入技术。通常,来自多个链路的数据业务在数字用户线路接入复用器(DSLAM)汇总。DSLAM将ATM业务路由到家中的ADSL接收器单元,同时,滤掉低频段的旧电话业务POTS 。在MPEG-2视频的情形下,ATM边界设备减轻信元的时延抖动的能力至关重要。ATM必须应付数据传输的需要并提供管理每个视频流的功能,特别要满足按序提取视频分组的要求。为了补偿网络传输延时,ATM网络边界设备必须精心设计以处理MPEG交换和抖动管理。本地MPEG-2视频流通过数字视频广播异步串行接口传输。ATM边界设备将MPEG-2多节目传输流(MPTS)或单节目传输流(SPTS)拆解到节目层并最终到分组标记(PID)层。在PID层,不同的节目流可以重新排序并复用进另外的MPTS。在ATM边界接收端,另外的边界设备管理ATM信元流,并重构SPTS或MPTS。本地的服务分布网络负责在本地的UTP网络分发视频内容。功能强大的MPEG-2压缩算法结合智能的ATM边界设备允许最后接入利用DSL技术作为视频分发的接入机制。(未完待续)相关信息:1.前言数字视频产品需求近些年出现猛增。主流应用包括视频通信、安全监控与工业自动化,而最热门的要算娱乐应用,如 DVD、HDTV、卫星电视、高清 (HD) 机顶盒、因特网视频流、数码相机与 HD 摄像机、视频光盘库 (video jukebox)、高端显示器(LCD、等离子显示器、DLP)以及个人摄像机等。众多精彩的新应用目前也处于设计或前期部署中,例如针对家庭与手持设备及地面/卫星标准(DVB-T、DVB-H、DMB)的高清 DVD(蓝光/HD-DVD)和数字视频广播、高清视频电话、数码相机以及 IP 机顶盒。由于手持终端计算能力的提高以及电池技术与高速无线连接的发展,最终产品的移动性与集成性也在不断提高。视频压缩是所有令人振奋的、新型视频产品的重要动力。压缩-解压(编解码)算法可以实现数字视频的存储与传输。典型的编解码器要么采用行业标准,如 MPEG2、MPEG4、 与 AVS,要么采用专有算法,如 On2、Real Video、Nancy与Windows Media Video (WMV) 等。WMV 是个例外——它最初是微软公司的专有算法,而现在则以 VC-1 的新名称在业界实现了标准化。编解码技术在过去十年中不断改进。最新的编解码技术( 与 VC-1)代表着第三代视频压缩技术。这两种编解码技术利用如可编程 DSP 与ASIC 等低成本 IC 的处理能力,都能够达到极高的压缩比。不过,为具体应用选择正确的编解码器并优化其实时处理仍然是一项巨大的挑战。最佳的设计必须权衡压缩效率及可用的计算能力。此外,如何在计算能力有限的情况下获得最佳压缩效率也是一门大学问。在本文中,我们首先概述视频编码的主要概念,同时介绍传统压缩标准。然后我们重点介绍其中包括 、WMV9/VC-1与AVS 等在内的最新编解码技术的功能,此外,还将深入探讨压缩能力与复杂性之间的权衡。最后,讨论市场中可能会影响主流视频编解码器未来的实时处理与主要趋势。数字视频的主要挑战在于原始或未压缩的视频需要存储或传输大量数据。例如,标准清晰度的 NTSC 视频的数字化一般是每秒 30 帧速率,采用 4:2:2 YcrCb 及 720(480,其要求超过 165Mbps 的数据速率。保存 90 分钟的视频需要 110GB 空间,或者说超过标准 DVD-R 存储容量的 25 倍。即使是视频流应用中常用的低分辨率视频(如:CIF:352x288 4:2:0、30 帧/秒)也需要超过 的数据速率,这是 ADSL 或 3G 无线等宽带网络速度的许多倍。目前的宽带网可提供 1~10Mbps 的持续传输能力。显然数字视频的存储或传输需要采用压缩技术。视频压缩的目的是对数字视频进行编码——在保持视频质量的同时占用尽可能少的空间。编解码技术理论依据为信息理论的数学原理。不过,开发实用的编解码技术需要艺术性的精心考虑。3. 压缩权衡在选择数字视频系统的编解码技术时需要考虑诸多因素。主要因素包括应用的视频质量要求、传输通道或存储介质所处的环境(速度、时延、错误特征)以及源内容的格式。同样重要的还有预期分辨率、目标比特率、色彩深度、每秒帧数以及内容和显示是逐行扫描还是隔行扫描。压缩通常需要在应用的视频质量要求与其他需求之间做出取舍。首先,用途是存储还是单播、多播、双向通信或广播?对于存储应用,到底有多少可用的存储容量以及存储时间需要多久?对于存储之外的应用,最高比特率是多少?对于双向视频通信,时延容差或容许的端到端系统延迟是多少?如果不是双向通信,内容需要在脱机状态提前完成编码还是需要实时编码?网络或存储介质的容错能力如何?根据基本目标应用,不同压缩标准以不同方式处理这些问题的权衡。另一方面是需要权衡编解码实时处理的成本。如 或 WMV9/VC-1等能够实现较高压缩比的新算法需要更高的处理能力,这会影响编解码器件的成本、系统功耗以及系统内存。4. 标准化机构在视频编解码技术定义方面有两大标准机构。国际电信联盟 (ITU) 致力于电信应用,已经开发了用于低比特率视频电话的 标准,其中包括 、、 与 ;国际标准化组织 (ISO) 主要针对消费类应用,已经针对运动图像压缩定义了 MPEG 标准。MPEG 标准包括 MPEG1、MPEG2 与 MPEG4。图 1 说明了视频编解码标准的发展历程。MPEG 与 ISO 根据基本目标应用往往做出稍有不同的取舍。有时它们也会开展合作,如:联合视频小组 (JVT),该小组定义了 编解码技术,这种技术在 MPEG 系列中又被称为 MPEG4-Part 10 或 MPEG4 高级视频编解码 (AVC)。我们在本文中将这种联合标准称为 。同样, 对应 MPEG2,而 基本规范类 (Baseline Profile) 技术在原理方面与 MPEG4 简单类 (Simple Profile) 编解码技术存在较多重复。标准对编解码技术的普及至关重要。出于规模经济原因,用户根据可承受的标准寻找相应产品。由于能够保障厂商之间的互操作性,业界乐意在标准方面进行投资。而由于自己的内容可以获得较长的生命周期及广泛的需求,内容提供商也对标准青睐有加。尽管几乎所有视频标准都是针对少数特定应用的,但是在能够适用的情况下,它们在其他应用中也能发挥优势。图1:ITU 与 MPEG 标准的发展历程 [10]为了实现更好的压缩及获得新的市场机遇,ITU 与 MPEG 一直在不断发展压缩技术和开发新标准。中国最近开发了一种称为 AVS 的国家视频编码标准,我们在后面也会做一介绍。目前正在开发的标准包括 ITU/MPEG 联合可扩展视频编码 (Joint Scalable Video Coding)(对 H264/ AVC 的修订)和MPEG 多视角视频编码 (Multi-view Video Coding)。另外,为了满足新的应用需求,现有标准也在不断发展。例如, 最近定义了一种称为高精度拓展 (Fidelity Range Extensions) 的新模式,以满足新的市场需求,如专业数字编辑、HD-DVD 与无损编码等。除了 ITU 与 ISO 开发的行业标准以外,还出现了几种专用于因特网流媒体应用、广受欢迎的专有解决方案,其中包括 Real Networks Real Video (RV10)、Microsoft Windows Media Video 9 (WMV9) 系列、ON2 VP6 以及 Nancy。由于这些格式在内容中得到了广泛应用,因此专有编解码技术可以成为业界标准。2003 年 9 月,微软公司向电影与电视工程师学会 (SMPTE) 提议在该机构的支持下实现 WMV9 位流与语法的标准化。该提议得到了采纳,现在 WMV9 已经被 SMPTE 作为 VC-1 实现标准化。5. 视频编码原理我们感兴趣的所有视频标准都采用基于模块的处理方式。每个宏模块一般包含 4 个 8(8 的光度块和 2 个 8(8 的色度块(4:2:0 色度格式)。视频编码基于运动补偿预测(MC),变换与量化及熵编码。图 2 说明的是一种典型的、基于运动补偿的视频编解码技术。在运动补偿中,通过预测与最新编码的("参考")视频帧处于同一区域的视频帧中各宏模块的像素来实现压缩。例如,背景区域通常在各帧之间保持不变,因此不需要在每个帧中重新传输。运动估计 (ME) 是确定当前帧——即与它最相似的参考帧的 16(16 区域中每个 MB 的过程。ME 通常是视频压缩中最消耗性能的功能。有关当前帧中各模块最相似区域相对位置的信息("运动矢量")被发送至解码器。MC 之后的残差部分分为 8(8 的模块,各模块综合利用变换编码、量化编码与可变长度编码技术进行编码。变换编码(如:离散余弦变换或 DCT)利用残差信号中的空间冗余。量化编码可以消除感知冗余 (perceptual redundancy) 并且降低编码残差信号所需要的数据量。可变长度编码利用残差系数的统计性质。通过 MC 进行的冗余消除过程在解码器中以相反过程进行,来自参考帧的预测数据与编码后的残差数据结合在一起产生对原始视频帧的再现 。图 2:标准运动补偿视频编码在视频编解码器中,单个帧可以采用三个模式中的一个进行编码 —— 即 I、P 或 B 帧模式(见图 3)。几个称为 Intra (I) 的帧单独编码,无需参考任何其他帧(无运动补偿)。某些帧可以利用 MC 编码,以前一个帧为参考(前向预测)。这些帧称为预测帧 (P)。B 帧或双向预测帧通过之前的帧以及当前帧的后续帧进行预测。B 帧的优势是能够匹配堵塞在采用前向预测的上一帧中的背景区域。双向预测通过平衡前向及后向预测可以降低噪声。在编码器中采用这种功能会要求更多处理量,因为必须同时针对前向及后向预测执行 ME,而这会明显使运动估计计算需求加倍。为了保存两个参考帧,编码器与解码器都需要更多内存。B 帧工具需要更复杂的数据流,因为相对采集及显示顺序而言,帧不按顺序解码。这个特点会增加时延,因此不适合实时性较高的应用。B 帧不用于预测,因此可以针对某些应用进行取舍。例如,在低帧速应用中可以跳过它们而不会影响随后 I 与 P 帧的解码。图3:I、P 与 B 帧间预测图示6. 传统视频编码标准 编制的 [2] 标准是第一个主流视频压缩标准。它主要针对双工视频会议应用,是为支持 40kpbs~2Mbps 的 ISDN 网络而设计的。 支持 352(288 (CIF) 及 176(144 (QCIF) 分辨率,色度分辨率二次采样为 4:2:0。由于可视电话需要同步实时编解码,因此复杂性设计得较低。由于主要用于对延迟敏感的双向视频,因此 仅允许采用 I 与 P 帧,而不允许 B 帧。 采用基于块的 DCT 进行残差信号的变换编码。DCT 把像素的每个 8(8 块映射到频域,产生 64 个频率成分(第一个系数称为 DC,其他的称为 AC)。为了量化 DCT 系数, 在所有 AC 系数中采用固定的线性量化。量化后的系数进行行程编码,其可以按非零系数描述量化的频率,后面跟随一串零系数,在最后一个非零值之后以块代码结束。最后,可变长度编码 (Huffman) 将运行级别对 (run-level pair) 转换成可变长度编码 (VLC),其比特长度已针对典型概率分布进行过优化。基于标准块的编码最终产生模块化视频。 标准利用环路滤波避免这种现象。在模块边缘采用的简单 2D FIR 滤波器用于平滑参考帧中的量化效应。必须同时在编码器及解码器中精确地对每个比特应用上述滤波。MPEG-1MPEG-1[3] 是 ISO 开发的第一个视频压缩算法。主要应用是数字媒体上动态图像与音频的存储与检索,如速率为 、采用 SIF 分辨率(352(240 - 或者 352(288 - 25 fps)的VCD。MPEG-1 与 相似,不过编码器一般需要更高的性能,以便支持电影内容的较高运动性而不是典型的可视电话功能。与 相比,MPEG1 允许采用 B 帧。另外它还采用自适应感知量化,也就是说,对每个频段采用单独的量化比例因子(或等步长),以便优化人们的视觉感受。MPEG-1 仅支持逐行视频,因此新标准——MPEG2 已经开始做出努力,同时支持分辨率及比特率更高的逐行与隔行视频。MPEG-2/[4] 专门针对数字电视而开发,很快成为了迄今最成功的视频压缩标准。MPEG-2 既能够满足标准逐行视频的需求(其中视频序列由一系列按一定时间间隔采集的帧构成),又能够满足电视领域常用的隔行视频的需求。隔行视频交替采集及显示图像中两组交替的像素(每组称为一个场)。这种方式尤其适合电视显示器的物理特性。MPEG2 支持标准的电视分辨率,其中包括:针对美国和日本采用的 NTSC 制式隔行 720(480 分辨率,每秒 60 场,以及欧洲和其他国家采用的PAL 制式的 720(576 分辨率,每秒 50 场。MPEG-2 建立在 MPEG-1 基础之上,并具备扩展功能,能支持隔行视频及更宽的运动补偿范围。由于高分辨率视频是非常重要的应用,因此 MPEG-2 支持的搜索范围远远大于 MPEG-1。与之前的标准相比,它显著提高了运动估计的性能要求,并充分利用更宽搜索范围与更高分辨率优势的编码器需要比 和 MPEG-1 高得多的处理能力。MPEG2 中的隔行编码工具包含优化运动补偿的能力,同时支持基于场和基于帧的预测,而且同时支持基于场和基于帧的 DCT/IDCT。MPEG-2 在 30:1 左右的压缩比时运行良好。MPEG-2 在 4-8Mbps 时达到的质量适合消费类视频应用,因此它很快在许多应用中得到普及,如:数字卫星电视、数字有线电视、DVD 以及后来的高清电视等。另外,MPEG-2 增加了分级视频编码工具,以支持多层视频编码,即:时域分级、空域分级、SNR 分级以及数据分割。尽管 MPEG-2 中针对分级视频应用定义了相关类别 (profile),不过支持单层编码的主类 (Main Profile) 是当今大众市场中得到广泛应用的唯一 MPEG-2 类。MPEG-2 通常称为 MPEG-2 主类。MPEG-2 解码最初对于通用处理器及 DSP 具有很高的处理要求。优化的固定功能 MPEG-2 解码器开发已问世,由于使用量较高,成本已逐渐降低。MPEG2 证明低成本芯片解决方案的供应是视频编解码标准成功和普及的关键。[5] 在 之后得到开发,主要是为了以更低的比特率实现更高的质量。其主要目标之一是基于普通 电话调制解调器的视频。目标分辨率是 SQCIF (128(96)~CIF (352(288)。其基本原理与 大同小异。 的运动矢量在两个方向上允许是 1/2 的倍数(“半像素”),参考图像以数字方式内插到更高的分辨率。这种方法可以提高 MC 精度及压缩比。MV 可采用更大的范围。为不同方案提供许多新的选项,包括:* 4 个运动矢量——每个块采用一个运动矢量,而非整个 MB 采用单个运动矢量。* 3D VLC:Huffman 编码——将块结束 (EOB) 指示符与每个运行级别对结合在一起。这种功能主要用于低比特率,这时大多时候只有一、两个编码系数。尽管存在这些功能,但是仍然很难在普通电话线上实现理想的视频质量,而且目前基于标准调制解调器的可视电话仍然是一个难题。不过,由于 一般情况下可提供优于 的效率,它成为了电视会议首选的算法,但是,为了兼容旧系统,仍然需要支持 。 逐渐发展成为了 ,其增加了可选的附件,为提高压缩并实现分组网的鲁棒性提供支持。 及其附件构成了 MPEG-4 中许多编码工具的核心。MPEG-4MPEG-4[6] 由 ISO 提出,以延续 MPEG-2 的成功。一些早期的目标包括:提高容错能力以支持无线网、对低比特率应用进行更好的支持、实现各种新工具以支持图形对象及视频之间的融合。大部分图形功能并未在产品中受到重视,相关实施主要集中在改善低比特率压缩及提高容错性上。.MPEG-4 简化类 (SP) 以为基础,为改善压缩增加了新的工具,包括:* 无限制的运动矢量:支持对象部分超出帧边界时的预测。* 可变块大小运动补偿:可以在 16(16 或 8(8 粒度下进行运动补偿。* 上下文自适应帧内 DCT DC/AC 预测:可以通过当前块的左右相邻块预测 DC/AC DCT 系数。* 扩展量化 AC 系数的动态范围,支持高清视频:从 的 [-127:127] 到 [-2047, 2047]。增加了容错功能,以支持丢包情况下的恢复,包括:* 片断重同步 (Slice Resynchronization):在图像内建立片断 (slice),以便在出现错误后更快速的进行重新同步。与 MPEG-2 数据包大小不同,MPEG4 数据包大小与用于描述 MB 的比特数量脱离了联系。因此,不管每个 MB 的信息量多少,都可以在位流中按相同间隔进行重新同步。* 数据分割:这种模式允许利用唯一的运动边界标记将视频数据包中的数据分割成运动部分和 DCT 数据部分。这样就可以实现对运动矢量数据更严格的检查。如果出现错误,我们可以更清楚地了解错误之处,从而避免在发现错误情况下抛弃所有运动数据。* 可逆 VLC:VLC 编码表允许后向及前向解码。在遇到错误时,可以在下一个slice进行同步,或者开始编码并且返回到出现错误之处。* 新预测 (NEWPRED):主要用于在实时应用中实现快速错误恢复,这些应用中的解码器在出现丢包情况下采用逆向通道向解码器请求补充信息。MPEG-4 高级简化类 (ASP) 以简化类为基础,增加了与 MPEG-2 类似的 B 帧及隔行工具(用于Level 4 及以上级别)。另外它还增加了四分之一像素运动补偿及用于全局运动补偿的选项。MPEG-4 高级简化类比简化类的处理性能要求更高,而且复杂性与编码效率都高于 MPEG-2。MPEG-4 最初用于因特网数据流,例如,已经被 Apple 的 QuickTime 播放器采用。MPEG-4 简化类目前在移动数据流中得到广泛应用。MPEG-4 ASP 是已经流行的专有 DivX 编解码器的基石。工具与压缩增益当我们查看 、MPEG1、MPEG2 与 视频编解码技术中引入的功能时,明显可以发现几种基本技巧提供了大部分压缩增益。图 4 说明这些技巧及其相关效果。与 4 个运动矢量以及四分之一像素运动补偿等工具相比,运动补偿(整数像素与半像素)的效果显然更为突出。图 4:基本技巧的效果:1) 无 MC;2) 增加 Skip 模式构成 CR 编码器;3) 仅允许零 MV;4) 允许整数像素 MC;5) 允许半像素 MC;6) 允许 4-MV;7) 允许四分之一像素MC。如欲了解有关详细说明,敬请参见 [7]。7. MPEG4-AVC视频编码技术在过去几年最重要的发展之一是由 ITU 和 ISO/IEC 的联合视频小组 (JVT) 开发了 AVC[8] 标准。在发展过程中,业界为这种新标准取了许多不同的名称。ITU 在 1997 年开始利用重要的新编码工具处理 (长期),结果令人鼓舞,于是 ISO 决定联手 ITU 组建 JVT 并采用一个通用的标准。因此,大家有时会听到有人将这项标准称为 JVT,尽管它并非正式名称。ITU 在 2003 年 5 月批准了新的 标准。ISO 在 2003 年 10 月以 MPEG-4 Part 10、高级视频编码或 AVC 的名称批准了该标准。 在压缩效率方面取得了巨大突破,一般情况下达到 MPEG-2 及 MPEG-4 简化类压缩效率的大约 2 倍。在 JVT 进行的正式测试中 [9], 在 85 个测试案例中有 78% 的案例实现 倍以上的编码效率提高,77% 的案例中达到 2 倍以上,部分案例甚至高达 4 倍。 实现的改进创造了新的市场机遇,如:* 600Kbps 的 VHS 品质视频。可以通过 ADSL 线路实现视频点播。* 高清晰电影无需新的激光头即可适应普通 DVD。 标准化时支持三个类别:基本类、主类及扩展类。后来一项称为高保真范围扩展 (FRExt) 的修订引入了称为高级类的 4 个附加类。在初期主要是基本类和主类引起了大家的兴趣。基本类降低了计算及系统内存需求,而且针对低时延进行了优化。由于 B 帧的内在时延以及 CABAC 的计算复杂性,因此它不包括这两者。基本类非常适合可视电话应用以及其他需要低成本实时编码的应用。主类提供的压缩效率最高,但其要求的处理能力也比基本类高许多,因此使其难以用于低成本实时编码和低时延应用。广播与内容存储应用对主类最感兴趣,它们是为了尽可能以最低的比特率获得最高的视频质量。尽管 采用与旧标准相同的主要编码功能,不过它还具有许多与旧标准不同的新功能,它们一起实现了编码效率的提高。图 5 的编码器框图总结了其主要差别,概述如下:帧内预测与编码: 采用空域帧内预测技术来预测相邻块邻近像素的 Intra-MB 中的像素。它对预测残差信号和预测模式进行编码,而不是编码块中的实际像素。这样可以显著提高帧内编码效率。帧间预测与编码: 中的帧间编码采用了旧标准的主要功能,同时也增加了灵活性及可操作性,包括适用于多种功能的几种块大小选项,如:运动补偿、四分之一像素运动补偿、多参考帧、通用 (generalized) 双向预测和自适应环路去块。可变矢量块大小:允许采用不同块大小执行运动补偿。可以为小至 4(4 的块传输单个运动矢量,因此在双向预测情况下可以为单个 MB 传输多达 32 个运动矢量。另外还支持 16(8、8(16、8(8、8(4 和 4(8 的块大小。降低块大小可以提高运动细节的处理能力,因而提高主观质量感受,包括消除较大的块化失真。四分之一像素运动估计:通过允许半像素和四分之一像素运动矢量分辨率可以改善运动补偿。多参考帧预测:16 个不同的参考帧可以用于帧间编码,从而可以改善视频质量的主观感受并提高编码效率。提供多个参考帧还有助于提高 位流的容错能力。值得注意的是,这种特性会增加编码器与解码器的内存需求,因为必须在内存中保存多个参考帧。自适应环路去块滤波器: 采用一种自适应解块滤波器,它会在预测回路内
数字技术的出现与应用为人类带来了深远的影响,人们如今已生活在一个几乎数字化的世界之中,而数字音频技术则称得上是应用最为广泛的数字技术之一,CD、 VCD等早已走进千家万户,数字化广播正在全球范围内逐步得到开展,正是这些与广大消费者密切相关的产品及应用成为了本文将要介绍的主题:数字音频压缩技术得以产生和发展的动力。1、音频压缩技术的出现及早期应用 音频压缩技术指的是对原始数字音频信号流(PCM编码)运用适当的数字信号处理技术,在不损失有用信息量,或所引入损失可忽略的条件下,降低(压缩)其码率,也称为压缩编码。它必须具有相应的逆变换,称为解压缩或解码。音频信号在通过一个编解码系统后可能引入大量的噪声和一定的失真。 数字信号的优势是显而易见的,而它也有自身相应的缺点,即存储容量需求的增加及传输时信道容量要求的增加。以CD为例,其采样率为,量化精度为16比特,则1分钟的立体声音频信号需占约10M字节的存储容量,也就是说,一张CD唱盘的容量只有1小时左右。当然,在带宽高得多的数字视频领域这一问题就显得更加突出。是不是所有这些比特都是必需的呢?研究发现,直接采用PCM码流进行存储和传输存在非常大的冗余度。事实上,在无损的条件下对声音至少可进行4:1压缩,即只用25%的数字量保留所有的信息,而在视频领域压缩比甚至可以达到几百倍。因而,为利用有限的资源,压缩技术从一出现便受到广泛的重视。 对音频压缩技术的研究和应用由来已久,如A律、u律编码就是简单的准瞬时压扩技术,并在ISDN话音传输中得到应用。对语音信号的研究发展较早,也较为成熟,并已得到广泛应用,如自适应差分PCM(ADPCM)、线性预测编码(LPC)等技术。在广播领域,NICAM(Near Instantaneous Companded Audio Multiplex - 准瞬时压扩音频复用)等系统中都使用了音频压缩技术。 2、音频压缩算法的主要分类及典型代表 一般来讲,可以将音频压缩技术分为无损(lossless)压缩及有损(lossy)压缩两大类,而按照压缩方案的不同,又可将其划分为时域压缩、变换压缩、子带压缩,以及多种技术相互融合的混合压缩等等。各种不同的压缩技术,其算法的复杂程度(包括时间复杂度和空间复杂度)、音频质量、算法效率(即压缩比例),以及编解码延时等都有很大的不同。各种压缩技术的应用场合也因之而各不相同。 (1)时域压缩(或称为波形编码)技术是指直接针对音频PCM码流的样值进行处理,通过静音检测、非线性量化、差分等手段对码流进行压缩。此类压缩技术的共同特点是算法复杂度低,声音质量一般,压缩比小(CD音质> 400kbps),编解码延时最短(相对其它技术)。此类压缩技术一般多用于语音压缩,低码率应用(源信号带宽小)的场合。时域压缩技术主要包括 、ADPCM、LPC、CELP,以及在这些技术上发展起来的块压扩技术如NICAM、子带ADPCM(SB-ADPCM)技术如、 、Apt-X等。 (2)子带压缩技术是以子带编码理论为基础的一种编码方法。子带编码理论最早是由Crochiere等于1976年提出的。其基本思想是将信号分解为若干子频带内的分量之和,然后对各子带分量根据其不同的分布特性采取不同的压缩策略以降低码率。通常的子带压缩技术和下面介绍的变换压缩技术都是根据人对声音信号的感知模型(心理声学模型),通过对信号频谱的分析来决定子带样值或频域样值的量化阶数和其它参数选择的,因此又可称为感知型(Perceptual)压缩编码。这两种压缩方式相对时域压缩技术而言要复杂得多,同时编码效率、声音质量也大幅提高,编码延时相应增加。一般来讲,子带编码的复杂度要略低于变换编码,编码延时也相对较短。 由于在子带压缩技术中主要应用了心理声学中的声音掩蔽模型,因而在对信号进行压缩时引入了大量的量化噪声。然而,根据人类的听觉掩蔽曲线,在解码后,这些噪声被有用的声音信号掩蔽掉了,人耳无法察觉;同时由于子带分析的运用,各频带内的噪声将被限制在频带内,不会对其它频带的信号产生影响。因而在编码时各子带的量化阶数不同,采用了动态比特分配技术,这也正是此类技术压缩效率高的主要原因。在一定的码率条件下,此类技术可以达到“完全透明”的声音质量(EBU音质标准)。 子带压缩技术目前广泛应用于数字声音节目的存储与制作和数字化广播中。典型的代表有著名的MPEG-1层Ⅰ、层Ⅱ(MUSICAM),以及用于Philips DCC中的PASC(Precision Adaptive Subband Coding,精确自适应子带编码)等。(3)变换压缩技术与子带压缩技术的不同之处在于该技术对一段音频数据进行“线性”的变换,对所获得的变换域参数进行量化、传输,而不是把信号分解为几个子频段。通常使用的变换有DFT、DCT(离散余弦变换)、MDCT等。根据信号的短时功率谱对变换域参数进行合理的动态比特分配可以使音频质量获得显著改善,而相应付出的代价则是计算复杂度的提高。变换域压缩具有一些不完善之处,如块边界影响、预回响、低码率时声音质量严重下降等。然而随着技术的不断进步,这些缺陷正逐步被消除,同时在许多新的压缩编码技术中也大量采用了传统变换编码的某些技术。 有代表性的变换压缩编码技术有DolbyAC-2、AT&T的ASPEC(Audio Spectral Perceptual Entropy Coding)、PAC(PerceptualAudioCoder)等。 3、音频压缩技术的标准化和MPEG-1 由于数字音频压缩技术具有广阔的应用范围和良好的市场前景,因而一些著名的研究机构和大公司都不遗余力地开发自己的专利技术和产品。这些音频压缩技术的标准化工作就显得十分重要。CCITT(现ITU-T)在语音信号压缩的标准化方面做了大量的工作,制订了如、、等标准,并逐渐受到业界的认同。 在音频压缩标准化方面取得巨大成功的是MPEG-1音频(ISO/IEC11172-3)。在MPEG-1中,对音频压缩规定了三种模式,即层Ⅰ、层Ⅱ(即MUSICAM,又称MP2),层Ⅲ(又称MP3)。由于在制订标准时对许多压缩技术进行了认真的考察,并充分考虑了实际应用条件和算法的可实现性(复杂度),因而三种模式都得到了广泛的应用。VCD中使用的音频压缩方案就是MPEG-1层Ⅰ;而MUSICAM由于其适当的复杂程度和优秀的声音质量,在数字演播室、DAB、DVB等数字节目的制作、交换、存储、传送中得到广泛应用;MP3是在综合MUSICAM和ASPEC的优点的基础上提出的混合压缩技术,在当时的技术条件下,MP3的复杂度显得相对较高,编码不利于实时,但由于MP3在低码率条件下高水准的声音质量,使得它成为软解压及网络广播的宠儿。可以说,MPEG-1音频标准的制订方式决定了它的成功,这一思路甚至也影响到后面将要谈到的MPEG-2和MPEG-4音频标准的制订。 最新进展 1、多声道音频信号压缩与DolbyAC-3 随着技术的不断进步和生活水准的不断提高,原有的立体声形式已不能满足受众对声音节目的欣赏要求,具有更强定位能力和空间效果的三维声音技术得到蓬勃发展。而在三维声音技术中最具代表性的就是多声道环绕声技术。 更准确地说,环绕声应该是一种声音恢复形式,其新技术的含量实际表现在随着这种形式发展起来的一些数字压缩标准上。环绕声技术发展至今已相当成熟,已日渐成为未来声音形式的主流。有鉴于此,1992年CCIR(ITU-R)以建议的形式约定了多声道声音系统的结构及向下兼容变换的标准,即CCIR Recommendation 775。其中主要约定了大家熟知的声道形式及声道形式,而在对环绕声压缩的研究上也产生了许多专利技术,如DolbySurroundPro -Logic、THX、DolbyAC-3、DTS及MPEG-2等。这些技术在不同的场合,尤其是在影剧院、家庭影院系统,及将来的高清晰度电视(HDTV)等系统中得到广泛的应用。 (1)Dolby AC-3技术是由美国杜比实验室主要针对环绕声开发的一种音频压缩技术。在声道的条件下,可将码率压缩至384kbps,压缩比约为10:1。Dolby AC-3最初是针对影院系统开发的,但目前已成为应用最为广泛的环绕声压缩技术之一。Dolby AC-3是一种感知型压缩编码技术。 在Dolby AC-3中,音频输入以音频块为单位,块长度为512个样值,在48KHz采样率时即为毫秒,各声道单独处理;音频输入在经过3Hz高通滤波器去除直流成分后,通过另一高频带通滤波器以检测信号的瞬变情况,并用它来控制TDAC变换的长度,以期在频域分辨率和时域分辨率之间得到最好的折中效果; TDAC变换的长度一般为512点,而数据块之间的重叠长度为256点,即TDAC每毫秒进行一次;在瞬变条件下,TDAC长度被等分为256 点,这样DolbyAC-3的频域分辨率为,时域最小分辨率为毫秒;在图1中的定点/浮点转换类似于MPEG-1中比例因子计算的作用,主要是为了获得宽的动态范围,而在分离后的指数部分经编码后则构成了整个信号大致的频谱,又被称为频谱包络;比特分配主要是通过计算解码后的频谱包络(视为功率谱密度)和掩蔽曲线的相关性来进行的;由于比特分配中采用了前/后向混合自适应比特分配以及公共比特池等技术,因而可使有限的码率在各声道之间、不同的频率分量之间获得合理的分配;在对尾数的量化过程中,可对尾数进行抖晃处理,抖晃所使用的伪随机数发生器可在不同的平台上获得相同的结果;AC -3的帧结构由同步字、CRC、同步信息(SI)、码流信息(BSI)、音频块和附加数据等组成,帧长度与TDAC变换的长度有关,在长度为512点时,帧长为32毫秒,即每秒帧。通过以上叙述可见,在Dolby AC-3中,使用了许多先进的、行之有效的压缩技术。如前/后向混合自适应比特分配、公共比特池、TDAC滤波、频谱包络编码、及低码率条件下使用的多声道高频耦合等。而其中许多技术对其它的多声道环绕声压缩技术的发展都产生了一定的影响。可以说,AC-3的出现是杜比公司几十年来在声音降噪及编码技术方面的结晶(从一定的角度来看,编码技术实际上就是降低编码噪声影响的技术),在技术上它具有很强的优势。因而即使作为一项专利技术,DolbyAC-3仍然在影院系统、HDTV、消费类电子产品(如LD、DVD)及直播卫星等方面获得了广泛的应用,得到了众多厂商的支持,成为业界事实上的标准。 (2)MPEG-2BC(后向兼容方式),即ISO/IEC13818- 3,是另一种多声道环绕声音频压缩技术。早在1992年初,该方面的讨论工作便已初步开展,并于94年11月正式获得通过。MPEG-2BC主要是在 MPEG-1和的基础上发展起来的。与MPEG-1相比较,MPEG-2BC主要在两方面做了重大改进。一是支持多声道声音形式,二是为某些低码率应用场合,如多语声节目、体育比赛解说等而进行的低采样率扩展。同时,标准规定的码流形式还可与MPEG-1的第1和第2层做到前、后向兼容,并可依据CCIR 做到与双声道、单声道形式的向下兼容,还能够与Dolby Surround形式兼容。 在MPEG-2BC中,由于考虑到其前、后向兼容性以及环绕声音形式的新特点,在压缩算法中除承袭了MPEG-1的绝大部分技术外,为在低码率条件下进一步提高声音质量,还采用了多种新技术。如动态传输通道切换、动态串音、自适应多声道预测、中央声道部分编码(Phantom Coding of Center)、预编码(Predistortion)等。 然而,MPEG-2BC的发展和应用并不如MPEG-1那样一帆风顺。通过对一些相关论文的比较可以发现,MPEG-2BC的编码框图在标准化过程中发生了重大的变化,上述的许多新技术都是在后期引入的。事实上,正是与 MPEG-1的前、后向兼容性成为MPEG-2BC最大的弱点,使得MPEG-2BC不得不以牺牲码率的代价来换取较好的声音质量。一般情况下,MPEG -2BC需640kbps以上的码率才能基本达到EBU“无法区分”声音质量要求。由于MPEG-2BC标准化的进程过快,其算法自身仍存在一些缺陷。这一切都成为MPEG-2BC在世界范围内得到广泛应用的障碍。 (3)DVD(DigitalVersatileDisk)是新一代的多媒体数据存储和交换的标准。在视频DVD的伴音方式及音频DVD的声音格式选择上,AC-3和MPEG-2BC之间的争夺十分激烈,最后达成的协议如表1 所示。可见,多声道环绕声音频压缩技术标准亟待统一。
MP3 MP3原本用于表述MPEG1 Layer 3,但是日常应用中已经发展至包含Layer 1, Layer 2以及Fraunhofer Institute所扩展的MPEG 。MP3是得到最高认知度的编解码器之一,在互联网编解码器中具有最大的用户群。但是为达到近CD品质音频,对某些难应付的内容需要高于192kbps速率。 [编辑]MPEG1、Part 3 (ISO/IEC 11172-3) 定义了双声道,采样率为32、或者48KHz,编码率从32 到 384kbps的编解码方法。此标准描述了三个相关方法:Layers I、II、和 III。Layer III提供最高的压缩率,但是复杂度也最高。 [编辑]MPEG2、Part 3 (ISO/IEC 13818-3) 对MPEG1标准提供了两个重要的改进。首先,低比特率需求通过使“低采样率(LSF)”扩展标准化而得到满足。该编解码器提供了16、、和24kHz采样率编码方法;其次,MPEG1模式被扩展为支持上至12声道的音频数据。Fraunhofer的低频率扩展,即,提供了MPEG2一半的采样频率选择:8、和12kHz。 [编辑]数字杜比(AC-3) 目前,数字杜比具有最大的多声道编解码用户群。通过将多声道整合至单一编码对象中,数字杜比实现了高品质、低复杂度音频压缩。尽管该算法与编码声道的数量无关,目前的实现方案已经接受了SMPTE的建议,即采用了由5个全带宽音频声道和1个用于低音的分带宽声道组成声道:分别为左、中、右、左环绕、右环绕和低频扩展(LFE)。 数字杜比支持灵活的播放方式:1声道到声道,32、或者48KHz采样率,比特率从32 到640kbps。解码后的音频可自动匹配播放系统以提供与音响配置无关的最佳品质的音效。 [编辑]aacPlus系列编解码器 Coding Technologies公司已经开发了一系列得到国际标准组织广泛采用的编解码器。MPEG2采用了AAC,以128kbps提供接近CD的品质,即使对于特别复杂的内容也如此。aacPlus v1被DVD论坛、DVB、Digital Radio Mondiale、3GPP2和ISMA等组织定为标准。aacPlus v2在2004年末开始商用,已被指定为3GPP中的高品质音频编解码器,aacPlus v 2的所有组件都是MPEG-4音频规范的组成部分。 [编辑]AAC aacPlus系列编解码器均是围绕MPEG2、Part 7(ISO/IEC 13818-7)所描述的AAC核心而建立。AAC提供8、11、12、16、22、24、32、44、 48、63、88或者96kHz的采样率,以及高达48声道的音频,每个声道比特率可高达288kbps。其定义了三个紧密相关的方案:低复杂度(Low Complexity)、Main和可伸缩采样率(SSR)。低复杂度的AAC-LC需要非常少的处理器资源,因此通常用于嵌入式应用中。 [编辑]MPEG4、Part 3(ISO/IEC 14496-3) 为MPEG2 AAC增加了知觉噪音替代(PNS)工具,因此定义为MPEG4 AAC。PNS通过对类噪声信号的参数化编码,从而简化这些信号的表达方法。不能将PNS与MPEG2、MPEG4中的时域噪声整形(TNS)相混淆。 [编辑]aacPlus V1 该编解码器有时被称为“高效AAC”(HE-AAC)。它整合了基本的AAC编解码器和频带复制(SBR)技术。SBR是一种频带扩展技术,可使几乎任何音频编解码器在比特率下降30%时仍能保证音质。SBR通过使用频带低半部分信息加上一些编码参数来表达频带的高半部分信息。SBR技术也可用于其他编解码器,例如结合带MP3的SBR构成了MP3Pro编解码器。 [编辑]aacPlus V2 在aacPlus V1中增加参数化立体声(PS)技术,形成了aacPlus V2编解码器。PS技术使用左声道和一些额外的编码参数,生成右声道,进一步降低了比特率。aacPlus V2在160 Kbps下可达到声道品质,在48Kbps可达到近CD立体声品质,在32 Kbps下可达到极佳立体声效果,在24Kbps下可达到娱乐品质立体声效果,在低于16Kbps时可达到高品质单声道效果。aacPlus V2的效率使移动数字广播新应用成为可能。 [编辑]WMA WMA是微软授权的Windows Media Series中一系列广泛使用的音频编解码器。此系列中最新版本是WMA9、WMA9 Professional、WMA9 Lossless、WMA9 Voice 和WMA9 Variable Bit Rate(VBR)。在嵌入式应用中,WMA9是此系列中最常见的编解码器;提供16位/320kbps双通道,采样率高达48KHz。“Professional”支持24位、96KHz采样率和高达128到768kbps的声道。与数字杜比相同,解码后的音频可自动匹配播放系统,以提供和音响配置无关最佳品质的音效。“Lossless”用于CD存档,压缩率在2:1和3:1之间。“Voice”用于压缩语音至20kbps。尽管VBR对于大部分的流应用并不理想,但WMA9和“Professional”都能以可变比特率编码。“Lossless”则总是使用VBR功能。 [编辑]Ogg Vorbis 为无需专利费用的开放资源,具有近似于MP3的音质。“ogg”是容器格式,而“Vorbis”为音频编解码器。由于它免除了与MP3游戏音乐相关的按每游戏收取的许可费用,因此Ogg Vorbis在电脑游戏厂商中使用率日益上升。
353 浏览 2 回答
173 浏览 3 回答
324 浏览 3 回答
289 浏览 2 回答
145 浏览 3 回答
298 浏览 6 回答
325 浏览 4 回答
245 浏览 5 回答
252 浏览 5 回答
211 浏览 4 回答
182 浏览 5 回答
158 浏览 4 回答
253 浏览 3 回答
141 浏览 4 回答
138 浏览 4 回答