因为芯片行业的高端技术只掌握在少数人手里面。谁拥有这个技术就是拥有了很多财富,所以芯片很重要。
是背后的技术垄断和大国力量博弈,根本是国家科技力量的斗争,我们努力突破技术困境。
2019年5月,美国商务部将华为列入实体清单,禁止美国企业向华为出口技术和零部件;2020年5月,美国进一步升级对华为贸易禁令,要求凡使用了美国技术或设计的半导体芯片出口华为时,必须得到美国政府的许可证,进一步切断华为通过第三方获取芯片或代工生产的渠道。
此前,高通、英特尔和博通等美国公司都向华为提供芯片,用于华为智能手机和其他电信设备,华为手机使用谷歌的安卓操作系统。华为自研的麒麟高端手机芯片,也依赖台积电代工。随着美国芯片禁令实施,华为手机业务遭遇重创,消费者业务收入大幅下滑,海外市场拓展也受到影响。
美国凭借芯片技术优势对中国企业“卡脖子”,使半导体产业陡然成为中美 科技 竞争的风暴眼。“缺芯”之痛,突显了中国半导体产业的技术短板。它如一记振聋发聩的警钟,惊醒国人看清国际 科技 竞争的残酷现实。
半导体产业是 科技 创新的龙头和先导,在信息 科技 和高端制造中占据核心地位。攻克半导体核心技术难题,解决高端芯片受制于人的现状,成为中国高 科技 发展和产业升级的当务之急。
全球半导体版图
半导体产业很典型地体现了供应链的全球化,各国在半导体产业链上分工协作,相互依赖。美国、韩国、日本、中国、欧洲等国家或地区发挥各自优势,共同组成了紧密协作的全球半导体产业链。
根据美国半导体行业协会发布的最新数据,美国的半导体企业销售额占据全球的47%,排名第二的是韩国,占比为19%,日本和欧盟半导体企业销售额占比均为10%,并列第三。中国台湾和中国大陆半导体企业销售额占比分别为6%和5%。
具体来看,美国牢牢控制半导体产业链的头部,包括最前端EDA/IP、芯片设计和关键设备等。具体而言,在全球产业链总增加值中,美国在EDA/IP上,占据74%份额;在逻辑芯片设计上,占据67%;在存储芯片设计上,占据29%;在半导体制造设备上,占据41%。
日本在芯片设计、半导体制造设备、半导体材料等重要环节掌握核心技术;韩国在存储芯片设计、半导体材料上发挥关键作用;欧洲在芯片设计、半导体制造设备和半导体材料上贡献突出;中国则在晶圆制造上发挥重要作用。
中国大陆在全球晶圆制造(后道封装、测试)增加值占比高达38%;中国台湾在全球半导体材料、晶圆制造(前道制造、后道封装、测试)增加值占比分别达到22%和47%。
以上国家和地区构成了全球半导体产业供应链的主体。
芯片是人类智慧的结晶,芯片制造是全球顶尖的高端制造产业之一,是典型的资本密集和技术密集行业。制造的过程之复杂、技术之尖端、对制造设备的苛刻要求,决定了芯片产业链的复杂性。半导体制造中的大部分设备,包含了数百家不同供应商提供的模块、激光、机电组件、控制芯片、光学、电源等,均需依托高度专业化的复杂供应链。每一个单一制造链条都可能汇集了成千上万的产品,凝聚着数十万人多年研发的积累。
芯片技术也涉及广泛的学科,需要长时期的基础研究和应用技术创新的成果累积。举例来说,一项半导体新技术方法从发布论文,到规模化量产,至少需要10-15年的时间。作为全球最先进的半导体光刻技术基础的极紫外线EUV应用,从早期的概念演示到如今的商业化花费了将近40年的时间,而EUV生产所需要的光刻机设备的10万个零部件来自全球5000多家供应商。
芯片制造的复杂性,创造了一个由无数细分专业方向组成的全球化产业链。在半导体市场中,专业的世界级公司通过几十年有针对性的研发,在自己擅长的领域建立了牢固的市场地位。比如,荷兰ASML垄断着世界光刻机的生产;美国高通、英特尔、韩国三星、中国台湾的台积电等也都形成了各自的技术优势。目前全世界最先进制程的高端芯片几乎都由台积电和三星生产。
中美芯片供应链各有软肋
“缺芯”,不仅困扰着中国企业。
自去年下半年以来,受新冠疫情及美国贸易禁令干扰,芯片产能及供应不足,全球信息产业和智能制造都遭遇了严重的“芯片荒”。
随着新一轮新冠疫情在东南亚蔓延, 汽车 行业芯片短缺进一步加剧,全球三家最大的 汽车 制造商装配线均出现中断。丰田称 9 月全球减产 40%。美国车企也不能幸免,福特 汽车 旗下一家工厂暂停组装 F-150 皮卡,通用 汽车 北美地区生产线停工时间也被迫延长。
蔓延全球的芯片荒,迫使各国对全球半导体供应链的安全性、可靠性进行重新审视和评估。中美两个大国在半导体供应链上各有优势,也各有软肋。
中国芯片产业起步较晚,但近年来加速追赶。根据中国半导体行业协会统计,2020年中国集成电路产业销售额为8848亿元,同比增长17%,5年增长了超过一倍。其中,设计业销售额为3778.4亿元,同比增长23.3%;制造业销售额为2560.1亿元,同比增长19.1%;封装测试业销售额2509.5亿元,同比增长6.8%。中国2020年出口集成电路2598亿块,出口金额1166亿美元,同比增长14.8%。
中国芯片核心技术与美国有较大差距,主要突破在芯片设计领域,芯片设计水平位列全球第二。在制造的封测环节也不是我们的短板。中国芯片制造的短板主要在三方面:核心原材料不能自己自足、芯片制造工艺与国际领先水平有较大差距、关键制造设备依赖进口。
由于不能独立完成先进制程芯片的生产制造,大量高端芯片依赖进口。2020年中国进口芯片5435亿块,进口金额3500.4亿美元。
美国是世界芯片头号强国,拥有世界领先的半导体公司,但其核心能力是主导芯片产业链的前端,包括设计、制造设备的关键技术等,但上游资源和制造能力也依赖国外。美国在全球半导体制造市场的市占率急速下降,从 1990 年 37% 滑落至目前 12%左右。
波士顿咨询公司和美国半导体行业协会在今年4月联合发布的《在不确定的时代加强全球半导体产业链》的报告显示,若按设备制造/组装所在地统计,2019年中国大陆半导体企业销售额占比高达35%;美国则排名第二,销售额占比为19%。
世界芯片的主要制造产能集中在亚洲, 2020 年中国台湾半导体产能全球占比为 22%,其次是韩国 21%,日本和中国大陆皆为 15%。这意味着美国在芯片的制造和生产环节,也存在很大的脆弱性。这也是伴随东南亚疫情爆发导致芯片产业链产能受限,美国同样遭遇“芯片荒”的原因。
对半导体产业链脆弱性的担忧,推动美国加大对半导体产业的投资和政策扶持。今年5月美国参议院通过一项两党一致同意的芯片投资法案,批准了520亿美元的紧急拨款,用以支持美国半导体芯片的生产和研发,以提升美国国内半导体产业链的韧性和竞争力。今年2月24日,美国总统拜登签署一项行政命令,推动美国加强与日本、韩国及中国台湾等盟国/地区合作,加速建立不依赖中国大陆的半导体供应链。
除了产能问题,美国在全球半导体竞争中的另一个软肋就是对中国市场的依赖。中国是全球最大的半导体需求市场,每年中国半导体的进口额都超过3000亿美元,大多数美国半导体龙头企业至少有25%的销售额来自中国市场。可以说,中国是美国及全球主要半导体供应商的最大金主。如果失去中国这个最富活力、最具成长性的市场,那么依赖高资本投入的美国各主要芯片供应商的研发成本将难以支撑,影响其研发投入及未来竞争力。
这从另一方面说,恰是中国的优势,中国庞大的市场需求和发展空间,足以支撑芯片产业链的高强度资本投入与技术研发,并推动技术和产品迭代。
“中国芯”提速
随着中国推进《中国制造2025》,芯片制造一直是中国 科技 发展的优先事项。如今,美国在芯片供应和制造上进行霸凌式断供,使中国构建自主可控、安全高效的半导体产业链的目标更加紧迫。
客观上,半导体产业链需要各国协作,这从成本和技术进步角度,对各国都是互利共赢。但美国的断供行为改变了传统的商业与贸易逻辑。在大国竞争的背景下,对具有战略意义的半导体和芯片产业链,安全、可靠成为主导的逻辑。
中国要成为制造强国,实现在全球产业链、价值链的跃升,摆脱关键技术受制于人的困境,芯片制造这道坎儿就必须跨过。
随着越来越多的中国高 科技 企业被列入美国实体清单,迫使半导体产业链中的许多中国企业不得不“抱团取暖”,携手合作,努力寻求供应链的“本土化”。“中国芯”突围,成为中国 科技 界、产业界不得不面对的一场“新的长征”。中国半导体产业进入攻坚期,也由此迎来发展的重大战略机遇期。
在国家“十四五”规划和2035远景目标纲要中,把 科技 自立自强作为创新驱动的战略优先目标,致力打造“自主可控、安全高效”的产业链、供应链;国家将集中资金和优势 科技 力量,打好关键核心技术攻坚战,在卡脖子领域实现更多“由零到一”的突破。国家明确提出到2025年实现芯片自给率70%的目标。
2020年8月,国务院印发《新时期促进集成电路产业和软件产业高质量发展的若干政策》,瞄准国产芯片受制于人的短板,在投融资、人才和市场落地等方面进一步加大政策支持,助力打通和拓展企业融资渠道,加快促进集成电路全产业链联动,做大做强人才培养体系等。
全国多地制定半导体产业发展规划和扶持政策,积极打造半导体产业链。长三角地区是我国半导体产业重点聚集区,深圳市则是珠三角地区集成电路产业的龙头,京津冀及中西部地区的半导体产业也正在加快布局。
作为中国创新基地,上海市政府6月21日发布《战略性新兴产业和先导产业发展“十四五”规划》,其中集成电路产业列为第一位的发展项目,提出产业规模年均增速达到20%左右,力争在制造领域有两家企业营收进入世界前列,并在芯片设计、制造设备和材料领域培育一批上市企业。
上海市的规划中,对芯片制造也制定出具体目标和实施路径:加快研制具有国际一流水平的刻蚀机、清洗机、离子注入机、量测设备等高端产品;开展核心装备关键零部件研发;提升12英寸硅片、先进光刻胶研发和产业化能力。到2025年,基本建成具有全球影响力的集成电路产业创新高地,先进制造工艺进一步提升,芯片设计能力国际领先,核心装备和关键材料国产化水平进一步提高,基本形成自主可控的产业体系。
上海联合中科院和产业龙头企业,投资5000亿元,打造世界级芯片产业基地:东方芯港。目前东方芯港项目已引进40余家行业标杆企业,初步形成了覆盖芯片设计、特色工艺制造、新型存储、第三代半导体、封装测试以及装备、材料等环节的集成电路全产业链生态体系。
在国家政策指引和强劲市场的驱动下,国家、企业、科研机构、大学、 社会 资金等集体发力,中国芯片行业正展现出空前的发展动能和势头。
在外部倒逼和内部技术提升的共同作用下,中国芯片产业第一次迎来资金、技术、人才、设备、材料、工艺、设计、软件等各发展要素和环节的整体爆发。国产芯片也在加速试错、改造、提升,正在经历从“不可用”到“基本可用”、再到“好用”的转变。
中国终将重构全球半导体格局
中国芯片制造重大技术突破接踵而至:
中微半导体公司成功研制了5纳米等离子蚀刻机。经过三年的发展,中微公司5纳米蚀刻机的制造技术更加成熟。该设备已交付台积电投入使用。
上海微电子已经成功研发出我国首款28纳米光刻机设备,预计将在2021年交付使用,实现了光刻机技术从无到有的突破。
中芯国际成功推出N+1芯片工艺技术,依托该工艺,中芯国际芯片制程不断向新的高度突破,同时成熟的28纳米制程扩大产能。
7月29日,南大光电承担的国家 科技 重大专项“极大规模集成电路制造装备及成套工艺”之光刻胶项目通过了专家组验收。
8月2日青岛芯恩公司宣布8寸晶圆投片成功,良率达90%以上,12寸晶圆厂也将于8月15日开始投片。
2017年,合肥晶合集成电路12寸晶圆制造基地建成投产,至2021年合肥集成电路企业数量已发展到近280家。
中国半导体行业集中蓄势发力,在关键技术和设备等瓶颈领域,从无到有,由易入难,积小成而大成,关键技术和工艺水平正在取得整体跃迁。
小成靠朋友,大成靠对手。某种意义上,我们应该感谢美国的遏制与封锁,逼迫我们在芯片和半导体行业加速摆脱对外部的依赖。
回望新中国 科技 发展史,凡是西方封锁和控制的领域,也是中国技术发展最快的领域:远的如两弹一星、核潜艇,近的如北斗导航系统以及登月、空间站、火星探测等航天工程。在外部压力的逼迫下,中国 科技 与研发潜能将前所未有地爆发。
实际上,中国的整体 科技 实力与美国的差距正在迅速缩小。在一些尖端领域,比如高温超导、纳米材料、超级计算机、航天技术、量子通讯、5G技术、人工智能、古生物考古、生命科学等领域已经居于世界前沿水平。
英国世界大学新闻网站8月29日刊发分析文章,梳理了中国 科技 水平的颠覆性变化:
在创新领域,中国在全球研发支出排名第二,全球创新指数在中等收入国家中排名第一,正在从创新落伍者转变为创新领导者。
人才方面,拥有庞大的高端理工人才库,中国已是知识资本的重要创造者,美中 科技 关系从高度不对称转变为在能力和实力上更加对等。
技术转让方面,中国从单纯的学习者和技术接收者,转变为技术转让的来源和跨境技术标准的塑造者。
人才回流,中国正在扭转人才流失问题,积极从世界各地招募科学和工程人才。
这些变化表明,中国 科技 整体实力已经从追赶转变为能够与国际前沿竞争,由全球 科技 中的边缘角色转变为具有重要影响力的国家之一。
中国的基础研究水平也在突飞猛进。据《日经新闻》8月10日报道,在统计2017年至2019年间全球被引用次数排名前10%的论文时,中国首次超过美国,位居榜首位置。报道还着重指出中国在人工智能领域相关论文总数占据20.7%,美国为19.8%,显示中国在人工智能领域的研究成果正在超越美国。
另有日本学者在研究2021QS世界大学排名后,发现世界排名前20的理工类大学中,中国有7所上榜,清华大学居于第一位,而美国有5所。如果进一步细分到“机械工程”、“电气与电子工程”,中国大学在排名前20中的数量更是全面碾压美国。
芯片技术反映了一个国家整体 科技 水平和综合研发实力,中国的基础研究、应用研究、人才实力具备了突破芯片核心技术的基础和能力。
正如世界光刻机龙头企业——荷兰ASML总裁温尼克今年4月接受采访时所说:美国不能无限打压中国,对中国实施出口管制,将逼迫中国寻求 科技 自主,现在不把光刻机卖给中国,估计3年后中国就会自己掌握这个技术。“一旦中国被逼急了,不出15年他们就会什么都能自己做。”
温尼克的忧虑,正在一步步变成现实。全球半导体产业正进入重大变革期,中国在芯片制造领域的发愤图强,正在改写世界半导体产业的竞争格局。
中国的市场优势加上国家政策优势、资金优势以及基础研究的深入,打破美国在芯片制造领域的技术垄断和封锁,这一天不会太遥远。
汽车芯片短缺将持续较长时间已成为业内共识。原因在于,一方面,现有车用芯片供应商扩产保守,另一方面通过扩产和新厂商入局释放新产能都需要时间。在需求旺盛、芯片短缺的情况下,车企囤货意愿强烈,选择重复下单或超额下单,使供应商难以判断真实需求水平。不仅如此,缺芯情况还滋生了倒卖芯片等行为,进一步干扰市场供需判断。因此,供应商如果在繁荣时期贸然根据车企需求扩产,很可能在扩产后面临需求不及预期,承担芯片价格下跌和生产线费用支出庞大等代价。
3月28日,智东西公开课组织的「自动驾驶新青年讲座」第16讲顺利完结。在这一讲中,地平线工具链核心开发者杨志刚以《基于征程5芯片的Transformer量化部署实践与经验》为主题进行了直播讲解。
杨志刚首先介绍了Transformer发展趋势及在嵌入式智能芯片上部署的问题,之后重点讲解了以征程5为例的嵌入式智能芯片的算法开发流程,并对以SwinT为例的量化精度提升和部署性能优化做了详细解读,最后分析了如何在征程5上既快又好地部署Transformer模型。
本次讲座分为主讲和Q&A两个环节,以下则是主讲回顾:
大家好,我叫杨志刚,在地平线主要负责天工开物工具链的开发,比如征程2、征程3、征程5上的系列量化工具和算法工具的一些开发和验证工作。因此和我们公司内部的算法团队、编译器团队都有比较深入的接触。
今天我分享的主题是《基于征程5芯片的Transformer量化部署实践与经验》,然后也会从量化和部署两个方面分析如何让Swin-Transformer在征程5上跑得既快又好。
以下是本次讲座的主要内容,大概分为4个部分:
1、Transformer发展趋势及在嵌入式智能芯片上部署的问题
2、以征程5为例的嵌入式智能芯片的算法开发流程
3、以SwinT为例的量化精度提升和部署性能优化
4、如何在征程5上既快又好地部署Transformer模型
01
Transformer发展趋势
及在嵌入式智能芯片上部署的问题
第一部分是Transformer的发展趋势以及它在嵌入式智能芯片上的部署问题。最近,我估计大家都对Transformer势不可挡的趋势有所了解,它确实已经在NLP领域甚至在图像领域都起到了不可替代的作用。比如从2017年Transformer被提出来以后,因为它超强的序列建模和全局建模的能力,所以Transformer模型结构其实已经在整个智能模型结构里有着越来越重要的地位。
一方面,它引领了一个大模型的潮流(当然这个潮流主要是指NLP领域),比如最近比较火的BERT、GPT等这样以Transformer为基础的模型其实在NLP领域已经起到了一些根本性的变革,还有像GPT这种模型的参数量从亿级别到千亿级别,我们能看到 Transformer的容量还有模型发展的趋势都朝着越来越大的方向发展。当然越来越大的前提是我们可以通过更大的模型去获取更高的精度,所以这个量级基本上已经从亿级别到了千亿级别、万亿级别。
另外一方面,Transformer不仅在NLP领域引领了大模型的潮流,而且在图像领域也有着越来越重要的地位。我这里截的图(如图一所示)主要是它在Backbone也就是分类ImageNet上面的一个趋势图,可以看到随着它的计算量、参数量越来越大,它的正确率也会越来越高。
事实上它在常见的基础任务中(比如说常见的检测、分割、跟踪等这样的任务)制作刷榜的时候,可以看到前几名里基本上已经遍地都是Transformer的影子了。所以比如常见的以Swin-Transformer为例的encoder,以DETR为例的decoder,还有时序、BEV等这种用Transformer做特征融合的,不管在图像领域的哪一个阶段,我们都可以把Transformer的特性和CNN结合,甚至替代CNN的模型结构。无论是替代CNN还是和CNN结合,这两个发展方向都已经成为视觉领域的常用做法,所以整体上来说Transformer在现在的图像领域里已经是无法绕开的模型结构了。
其实我在标题里面新加了一句话“通向通用人工智能的一扇门”,当然这个话我不敢说,我也是在一些别的信息上看到的。现在基本上认为,在我们做特征提取的阶段中,Transformer是通用人工智能的一种组件,所以也被称为一扇门,不过这个不是我们今天要分享的重点。
Transformer确实在模型结构上起着越来越重要的作用,但是另一方面,它在嵌入式端部署的问题也会受到越来越多的重视。具体来说,Transformer越来越大和嵌入式智能芯片部署这两个方向的出发点是有区别的,比如说Transformer模型在发展上是越做越大、越做越宽,但是嵌入式智能芯片因为受到成本、功耗等方面的限制,导致它在算力、带宽等很多功能方面受限,这就导致当前的嵌入式智能芯片不管是部署稍微大一点的还是小一点的Transformer模型,都会有一些吃力。
这里我讲三个主要的例子。第一个因为嵌入式智能芯片受到成本和功耗的限制,所以它的算力、带宽、内存等方面都会受到一定的限制,这就直接导致像Transformer这样的大模型的部署会受到限制。因为如果用一个大模型去部署一个小算力的平台,就算不是Transformer哪怕只是普通的CNN,性能显而易见的可能会极差,更何况是Transformer这样的大模型在小算力平台上的部署很明显会有一些缺陷。
第二个特征是目前市面上比较流行的嵌入式智能芯片通常都会以低精度的方式来处理部署的模型。当然低精度之外也会少量的去支持一定精度的浮点,这个原因和算力、带宽受限是一样的,主要还是从成本、功耗等这方面的情况考虑的,所以这就直接导致了如果想要在嵌入式智能芯片上部署的话,那么这个模型可能要经过一些量化,但同时量化不能有一定的精度损失。否则如果精度损失比较大的话,这个部署就是没有意义的。
第三点是芯片的发展其实是滞后于算法的。关于这一点,在我们公司罗老师之前的分享当中(地平线罗恒博士:如何打造一颗好的自动驾驶AI芯片)有比较详细的描述,大家如果有兴趣可以去看一下。简单来说,就是芯片从设计到正式量产需要经过一个漫长的过程,这个过程可能是2-4年。因此现在市面上流行的嵌入式智能芯片基本上是源自于1-2年甚至更长时间之前的设计,而那时候设计的嵌入式智能芯片很大概率没有考虑Transformer的情况,因为那时候可能大部分市面上流行的还是以CNN为主的模型,所以这样就会造成现在大部分嵌入式智能芯片对CNN的部署非常友好,但是对Transformer的部署存在一定的gap。今天我们就要讨论这个gap到底来自哪里。
下面我们详细拆解一下刚刚讲到的问题:Transformer部署过程中会遇到哪些问题?
第一个是量化问题,其实Transformer的量化问题现在我们能在很多社区的论文或者一些博客当中看到。首先,它为什么要经过量化?我刚刚简单讲了一下,它是从成本、功耗等方面考虑的。如果用int8或者低比特的量化部署,它的好处是显而易见的,比如可以降低功耗、提高计算速度、减少内存和存储的占用。这里有个数据对比,Transformer部署的时候其实会有一些常见的问题,如果熟悉量化训练的同学应该比较清楚,Transformer模型当中有大量的非线性函数,比如说像GeLU、LayerNorm这样的东西。所以它激活值的输出和高斯分布会有比较大的差异,这就直接导致了很大一部分之前在CNN中最常用的对称量化的方法,可能会出现很明显的精度问题。
如果要解决Transformer的量化精度问题,社区有很多常见的经验。我这里举两个例子,比如用非对称量化等方法去处理分布不均衡或高斯分布差异较大的情况,还有一些情况可能会直接在硬件上使用浮点的SoftMax或LayerNorm,这种情况肯定是可以解决量化问题的,但实际上我们需要和硬件结合,而硬件上到底能不能支持浮点或者能不能支持非对称性量化是我们需要考虑的另一个问题。我们今天要讲的征程5的平台,它就是一个纯int8的嵌入式智能平台,如果要在一个纯int8的嵌入式智能平台上去部署一个浮点的SoftMax或者LayerNorm显然是不合理的。甚至有一些情况就算它是纯int8的,可能也不支持非对称量化,所以我们如果要解决Transformer量化不友好的问题,还需要结合硬件的特点来考虑。
Transformer模型部署的第二个问题是Transformer对算力的要求比较高。开始也讲到,Transformer是近年来最受关注的神经网络模型,而Transformer在机器视觉领域最重要也是最彻底的应用就是Swin Transformer,这个工作也得到了机器视觉领域最高的奖项,马尔奖。这里我们以Swin-Transformer为例。我们考虑Swin-Transformer这个最小的模型,它的计算量大概是4.5G左右。
说4.5G可能很多人没有直观概念,我做了两个简单的对比,这就约等于我们常用模型里的EffcientNetB4和ResNet50。说到ResNet50,很多人就有概念了,如果我们用ResNet50的水平去做部署的话,其实市面上很多算力稍微低一点的嵌入式智能芯片部署就会有点吃力了。如果有人知道地平线的历史,比如地平线的上一代芯片跑ResNet50是可以跑的,但它的效率不是很高,而且这还是CNN的部署效率,如果在Transformer上效率会进一步降低。这样考虑的话,整个SwinT部署的前提条件就是芯片的算力达到一定的要求。
除了刚才提到的SwinT的基础还有量化问题之外,还有一个比较重要的问题就是我们一直在讲的Transformer和CNN模型到底有哪些区别?为什么说我的芯片可以部署ResNet50,但是没法部署Transformer呢?其实这就是CNN模型和Transformer模型之间一个比较重要的区别。如果我们比较熟悉CNN模型,就会知道CNN基本上从头到尾只有一个卷积,或者有少量的非卷积算子,如RoiAlign。所以整个CNN模型实际上是以卷积和矩阵乘为主的。换句话说,这类算子的特征是以计算密集型算子为主。我们早期的智能芯片为什么并发能力强,因为智能芯片设计之初就是以这样的CNN模型为出发点的,它的重点是利用并发去解决计算密集型的问题。
但在Transformer里情况是不一样的,Transformer里除了我们刚刚说到的卷积和矩阵乘以外,还有大量像Elementwise、Reduce这样的访存密集型算子。访存密集型算子和计算密集型会有明显的区别,会要求我的访存带宽或者访存本身的存储容量比较高,同时不规则的数据搬运比较多,不像CNN中,一个4d-tensor可以从头到尾,而且我的4d-tensor的规则可能非常明显:W/H维度做下载样,C维度做特征变长,这种4d-tensor的特征对整个嵌入式智能平台是非常友好的。
但Transformer中不规则的数据搬运会明显多很多,比如像Swin-Transformer,我们做window partition和window reverse时会有很多Reshape和Transpose的操作,这种操作带来的问题是效率会进一步降低。事实上这个问题是整个Transformer或者说整个芯片行业都会遇到的一个问题,不仅是嵌入式智能芯片会有这样的问题,训练芯片也会有类似的问题。
我记得早几年前英伟达在测试上做过一个OPS的简单统计,这个细节就不说了,大体上的结论是纯粹计算型的算子,比如卷积和矩阵乘这样的算子在计算量上占比大概99.8%,但实际上它在英伟达芯片(就训练芯片上而言)的执行时间只有60%。换句话说,训练芯片本身有大量的占比很低的非计算型算子,但这些算子却花费了40%的时间。这个问题在Transformer部署嵌入式智能芯片时,会被很大程度的放大。常见的嵌入式智能芯片可能会有大量的时间浪费在访存算子和不规则数据搬运上面。
总结一下第一部分,就是嵌入式智能芯片由于受到成本、功耗等方面的限制,设计思路和实际上需要部署的Transformer模型之间有较大的区别。
02
以征程5为例的
嵌入式智能芯片的算法开发流程
第二部分重点讲一下嵌入式智能芯片的开发流程,这里虽然是以征程5为例,但实际上我们通过目前的调研或者就目前大部分嵌入式智能芯片总体上看,开发流程基本上是一致的,所以换句话说,大家要解决的问题基本上类似。
首先简单讲一下征程5的基本情况,这在之前的系列课里有比较充分的描述,是讲征程5是怎么设计出来的,然后针对智驾平台有怎样的创新或者怎样的用处,我就不多讲了,这里我主要讲这几个基本情况是如何符合Transformer部署的前提条件的。然后这个也和我们刚才说的常见的嵌入式智能芯片部署的缺陷对应上。
第一点是大算力计算平台,首先我们得有一个大算力计算平台作为前提,才有可能去部署Transformer系列模型。如果是小算力的话,刚刚也讲了,比如上一代征程3想部署Transformer可能就比较困难。
第二个重点是丰富的算子支持。我们在刚才Transformer的结构图中也能看到这点为什么比较重要,CNN模型的主体是以卷积为主,配合少量其他算子,如RoiAlign等。但Transformer中其实有很多很杂的算子,比如说像LayerNorm、SoftMax,还有Reshape、Transpose等,所以说智能芯片部署Swin-Transformer或者其他Transformer的前提条件除了大算力之外,还需要非常丰富的算子知识。
另外是最强的计算性能,我觉得在我们Transformer的部署中其实没有太多的参考价值,因为它是以CNN为基础的模型进行统计的,也就是以计算密集型的模型统计的,但Transformer的能力跟这个还是有比较明显的差距。
最后一点是超低功耗,这点也需要多讲,因为它本身也是征程5的亮点之一。地平线的征程5和天工开物工具链,其实已经积累了一套比较完善的软件工具,这套软件工具从用户训练的浮点模型开始,然后做量化、训练、编译、部署、优化等,最终部署到嵌入式端。以量化为例,基本上整个芯片工具链会提供PTQ的后量化和QAT的量化训练这两种量化方式。在优化编译阶段,可以提供Checker、Calibrator和分析、仿真等工具,最终可以保证用户的模型经过量化、优化后,能部署到嵌入式端。这里需要说一下早期的天工开物整个工具链的积累其实是基于CNN模型的,后面我也会讲为什么基于CNN模型积累下的整个芯片工具链在处理Transformer模型时,不管是量化还是优化部署方面都有一定缺陷。
下面是如何利用整个天工开物工具链帮助用户把浮点模型快速部署到嵌入式芯片上。这就是我一开始讲的,各家的芯片工具链、各家的嵌入式智能芯片的部署流程已经趋于相同了,整体上都是从算法迁移代价足够小的角度考虑,所以基本上已经是一个标准流程了。然后我们来看一下这个流程,从浮点训练开始,经过PTQ后量化的校准,如果后量化的精度满足要求我们就可以直接编译优化、最终部署;如果不满足要求可以反过来去做量化感知训练,量化感知训练的目的是使精度达到要求,并最终去做模型定义。那么如果我们要处理这种Transformer部署优化的流程,要处理的两个重点就是量化调优和编译优化,主要是利用量化公式去提升量化精度。第二个是在编译过程中,用手动或自动的方式去获取更好的部署性能。
天工开物工具链首次把Swin-Transformer部署在征程5上,其实没有遇到太多困难,当然这个前提我刚刚已经讲了,首先它有大算力,然后丰富的算子知识,这两点我们在征程5上的部署过程比较简单。这里简单讲一下支持哪些算子,其实了解Swin-Transformer的人应该都了解,比如说有Reshape、roll、LayerNorm、matmul等。这里为什么需要算子完全支持?我们一开始做这个事情的时候发现 ONNX opset上面没有完全支持roll,所以当时测Swin-Transformer在其他品牌上的结果时,还需要单独处理roll的情况。最近,我们发现opset上已经支持roll了,但另一个方面说明一些嵌入式智能芯片的平台不管是由于使用的工具还是最后部署的芯片的限制,想做到算子完全支持有一定的门槛。
【本文来自易车号作者车东西,版权归作者所有,任何形式转载请联系作者。内容仅代表作者观点,与易车无关】
243 浏览 4 回答
318 浏览 4 回答
177 浏览 4 回答
148 浏览 3 回答
248 浏览 4 回答
305 浏览 3 回答
275 浏览 6 回答
273 浏览 5 回答
196 浏览 5 回答
278 浏览 2 回答
354 浏览 5 回答
227 浏览 3 回答
303 浏览 2 回答
207 浏览 5 回答
337 浏览 3 回答