软件定义汽车之AI计算芯片格局分析

来源:公众号“汽车电子与软件”
2020-06-22
1859


1. 概述


软件定义汽车这个概念是由百度提出的,这个是比较典型的互联网行业思维方式。随着汽车上的ECU越来越多,软件的应用在汽车行业越来越普遍,这一概念得到了行业的广泛认可。软件定义汽车的模式对于互联网企业来说很熟悉,但是对于传统车企来说意味着产业的变革,这个转变需要一个过程。

软件定义汽车的核心内涵就是通过软件来动态改变系统当中网络节点之间的聚合关系,从而产生新的功能,但是它有几个前提是统一的系统架构、软件系统、应用开发框架等等。

说白了软件定义汽车需要一个统一的架构规范或者平台,但是软件定义汽车本身的出发点应该是不依赖于特定硬件、操作系统、芯片、车型等,因此就需要硬件抽象或者软件中间件的存在,也就是对不同芯片、不同硬件、不同系统架构进行一个统一的归纳整理,便于软件模块调用、通讯和执行输出。

对于传统汽车来说,当前分布式架构上百个的ECU都搞统一化,难度堪比跟上帝说我要世界和平。软件定义汽车的实施在现在的汽车分布式EE架构情况下是无法实现的,而正在实施的域控制器架构能够成为很好的基础。

电子电气架构EEA(Electrical / Electronic Architecture),最先是由德尔福提出的。按照Bosch等Tier1提出的EEA发展路线,当前是分布式架构系统,并逐渐向域控制器架构过渡,最终形态将是中央计算平台架构。因此汽车EE架构的升级迭代为软件定义汽车提供了一个很好的路径。现在的分布式架构是满足不了软件定义汽车的需求的,而域控制器架构以及未来的中央计算架构成为很好的载体,通过OTA对DCU或者中央计算平台升级就很好实现。

域控制架构的实施,对于域控制器本身软硬件及系统设计都提出了很高的要求,加之智能汽车的多传感器和大量计算需求,域控制器对于芯片的选择需求等级大幅度提高,因此AI芯片的发展格局将会对软件定义汽车的发展起到重要作用。

本文将重点谈谈软件定义汽车背景下,域控制器的设计和AI芯片的发展格局。

对于域控制器或者计算平台,作为一个域控制器研发项目经理,对于行业内的域控制器产品以及芯片大多有所了解。

自动驾驶行业目前可用的域控制器或者说计算平台也就几个,华为MDC、NVIDIA Driver平台、Tesla FSD HW3.0、ZF ProAI、地平线Matrix平台以及最近发布的德赛西威IPU03等等。而这些基本上代表了目前可供选择的主要的AI芯片的厂家或者说派系。这里包含了GPU、FPGA、ASIC等不同的路线,其中FSD、mobileye、华为、地平线均属于ASIC路线;NVIDIA是典型的GPU路线的代表;而FPGA目前主要是赛灵思和Altera的天下。


2. 域控制器设计对AI芯片的需求


2.1. 从域控制器硬件平台设计需求分析AI芯片发展趋势

由于域控制器需要充分考虑算力和性能需求。因此域控制器硬件层面划分为三部分芯片或者叫三颗重要芯片:

第一部分通常是GPU或TPU,承担大规模浮点数并行计算需求,主要用于环境感知和信息融合,如Xavier的GPU单元、昇腾310、地平线BPU等。

第二部分大多为ARM架构,类似于CPU,主要负责逻辑运算和决策控制,处理高精度浮点数串行计算。

第三部分主要负责可靠性和车辆控制,目前用的较多的就是Infineon的TC297或者TC397。

这里面涉及到技术路线争议的主要是第一部分也就是AI计算芯片。

自动驾驶系统包括了复杂的逻辑运算和大量数据的并行处理任务,能够同时满足这两种运算任务需求的芯片必然是采用异构计算的方式;CPU用于完成复杂逻辑运算,AI芯片负责完成大量数据并行计算。

一般认为,L2需要的AI计算力<10TOPS,L3需要的AI计算力为30~60TOPS,L4需要的AI计算力>100TOPS,L5需要的AI计算力为500-1000TOPS,目前可供选择的计算平台仅能满足部分L3、L4级别的自动驾驶所需。

要完成如此大量计算的需求,CPU是无法胜任的,传统的MCU完全就不够看,可供选择的就是GPU、FPGA,或者重新设计的ASIC,比如各个厂家推出的各种U。当然GPU由于长期积累目前在市场上占据优势。

2.2. 从软件平台角度分析

软件平台包括操作系统、中间件、应用层算法等。

对于域控制器而言,芯片提供计算能力,操作系统的核心功能是任务调度、设备管理以及将外部传感器的数据传入芯片内部,以便用于后续处理;中间件在操作系统之上,应用算法之下,负责软件接口和协议的规范统一;应用算法负责对数据处理,根据输入接口获取的感知数据,完成对外部世界的感知、行驶路径的规划以及对车辆的控制。因此软件层面跟芯片有直接关系的就是操作系统。

操作系统是一种管理计算机硬件与软件资源的计算机程序。操作系统的内核架构决定了系统的稳定性和安全性,车规级要求芯片必须要用RTOS也就是实时操作系统,我们常说的QNX就是一种RTOS内核。

对于不同的芯片架构设计,对应的操作系统也是不同的,比如ARM和X86架构,或者苹果PC,从而对应的操作系统有Windows、Linux、Android、苹果OS等。

软件定义汽车需要打造一个基础软件平台,规范硬件及基础软件接口便于应用算法的部署应用,但是并不意味着做一个操作系统。

自动驾驶,其核心是算法设计和数据积累,但是应用软件算法和操作系统不会绑死,其设计一定是跨平台的,有成熟稳定的 RTOS 即可,目前主流的有三种 RT-Linux、QNX、VxWorks。并且车载架构的特殊性,决定了无法使用单一操作系统来实现所有功能,多个操作系统并存的局面还会持续很久。

但是自动驾驶软件系统缺一个类似于 ROS 的能够跨平台的实时的分布式开发框架。由于AUTOSAR在传统汽车领域的优势,Adaptive AUTOSAR的推出也许会充当这一作用,目前来看这个可能性很大。

所以从软件层面来讲,对于AI芯片并没有多大的约束,只不过是需要一个符合RTOS的中间件的统一架构。


3. 行业内AI芯片盘点


3.1. 特斯拉:

从 Mobileye ASIC 到英伟达 GPU,再到FSD,个人很佩服马斯克的技术创新和产业化能力,目前FSD也是汽车行业内做的最好的量产域控制器了,FSD 的 HW3.0 由两个相同的计算单元构成,每个计算单元上面有特斯拉自研的2 块FSD计算芯片,每块算力位 36Tops,设备总算力位 4 x 36 Tops = 144 Tops。但是由于采用的是双机冗余热备的运行方式,实际可用的算力为72 Top。

FSD芯片里面包含着三种不同的处理单元:负责图形处理的 GPU、负责深度学习和预测的神经处理单元 NPU,还有负责通用数据处理的中央处理器 CPU。目前这是业内最成功的用于自动驾驶AI计算的ASIC芯片。


3.2. NVIDIA

在自动驾驶领域,英伟达可以说是目前绝对的头部企业。其针对自动驾驶领域的芯片开发快速迭代,算力不断攀升,性能优势明显。NVIDIA Xavier是目前自动驾驶领域应用最多的AI芯片,也是最早投入量产的AI芯片。

Xavier内部集成了90亿颗晶体管, CPU采用NVIDIA自研8核ARM64架构(代号Carmel),GPU采用512颗CUDA的Volta,支持FP32/FP16/INT8,20W功耗下单精度浮点性能1.3TFLOPS,Tensor核心性能20TOPs,解锁到30W后可达30TOPs。Xavier 内有六种不同的处理器:ValtaTensorCore GPU,八核ARM64 CPU,双NVDLA深度学习加速器,图像处理器,视觉处理器和视频处理器。

TÜVSÜD已确认NVIDIA Xavier 系统芯片符合ASIL C 等级的ISO 26262随机硬件完整性,并达到了ASIL D等级的系统处理能力要求(最严格的功能安全标准)。

在GTC2019上,NVIDIA发布了全新一代AI芯片——Orin,由 170 亿个晶体管组成,集成了 NVIDIA 新一代 GPU 架构和 Arm Hercules CPU 内核以及全新深度学习和计算机视觉加速器,每秒可运行 200 万亿次计算,几乎是 NVIDIA 上一代 Xavier系统级芯片性能的7倍。作为对比,Orin是200Tops,特斯拉FSD是72Tops。

NVIDIA GTC 2020厨房发布会上,黄教主又推出了新一代GPU架构安培,高达2000Tops算力的GPU A100成为新的带头大哥,基于安培架构的第一款 GPU A100是目前全球最大的7nm芯片,540 亿个晶体管,3D 堆叠技术,加上高达 826 平方毫米的芯片面积,同时支持 TF32 和 BF16 格式,拥有 438 个第三代Tensor Core,支持虚拟成为 77 个 GPU 来执行不同的任务。算力达到2000TOPS,相比Volta架构提升了高达20倍的性能,可以同时满足AI训练和推理的需求。

3.3. 华为

华为在2018年推出MDC智能驾驶计算平台,包括MDC300和MDC600两个平台。

华为MDC300由华为昇腾310芯片、华为鲲鹏芯片和Infineon的TC397三部分构成,算力在64Tops 左右。MDC600基于8颗昇腾310 AI芯片,同时还整合了CPU和相应的ISP模块,算力高达352TOPS。

华为昇腾系列主打AI算力需求。昇腾310使用了华为自研的高效灵活CISC指令集,每个AI核心可以在1个周期内完成4096次MAC计算,集成了张量、矢量、标量等多种运算单元,支持多种混合精度计算,支持训练及推理两种场景的数据精度运算。


为NPU,昇腾310集成了FPGA和ASIC两款芯片的优点,包括ASIC的低功耗以及FPGA的可编程、灵活性高等特点,从而其统一架构可以适配多种场景,功耗范围从几十毫瓦到几百瓦,弹性多核堆叠,可在多种场景下提供最优能耗比。

华为已经拿到了包括华为MDC PDU智能驾驶计算平台(2020-01-16)

3.4. Intel/Mobileye

Intel作为消费电子芯片的老大,近几年在汽车领域的布局堪称大手笔,买买买,买不断。

英特尔2017年收购 Mobileye,Mobileye是全球视觉 ADAS 市场的NO1,掌握 ADAS 市场 80%份额,拥有丰富的视觉 ADAS 产品。Mobileye 的专有软件算法和 EyeQ 芯片能对视觉信息进行详细分析并预测与其他车辆、 行人、 自行车或其他障碍物的可能碰撞,还能够检测道路标记、 交通标志和交通信号灯。

MobileyeEye系列是典型的ASIC技术路线的代表,Eye Q4算力为2.5Tops,Eye Q5算力为12Tops,目前没有什么优势。

3.5. Intel/ Altera、Xilinx

全球 FPGA 市场主要被 Xilinx和Altera 瓜分,合计占有近 90%的市场份额。FPGA 属于半定制电路,相较于 ASIC 的全定制电路具有更高的灵活性和可编程性。

英特尔2015年收购Altera。目前Altera的自动驾驶 FPGA 芯片已经量产。Altera 的 FPGA产品共有四大系列,分别是顶配的 Stratix 系列(近万美元)、成本与性能平衡的 Arria 系列(2000~5000 美元)、廉价的 Cyclone 系列(10~20 美元)、 以及 MAX 系列 CPLD。

Waymo就是采用英特尔CPU+AlteraFPGA的方案来解决自动驾驶所需要的数据融合和算法处理。

赛灵思2019年11月宣布推出两款16nm汽车级芯片 Zynq UltraScale+MPSoC 7EV 和 11EG。支持L2至L4级自动驾驶系统。MPSoC采用了64位四核ARMCortex A53和双核ARM Cortex-R5高性能处理器,并集成了赛灵思的UltraScale架构。到目前为止,XA系列MPSoC已经被包括戴姆勒奔驰在内的29个汽车品牌以及Aptiv、Autoliv、博世和大陆集团等顶级零部件供应商广泛使用。


3.6. 地平线

地平线成立于2015年7月,由前百度研究院副院长、百度深度学习实验室主任余凯创办,致力于为B端用户提供涉及算法和硬件在内完整的嵌入式人工智能解决方案(机器人大脑)。地平线在自动驾驶领域推出Matrix平台,基于自研Journey芯片,算力达到40Tops


2017年12月底,地平线发布了中国首款全球领先的嵌入式人工智能芯片——面向智能驾驶的征程(Journey)1.0 处理器和面向智能摄像头的旭日(Sunrise)1.0 处理器,还有针对智能驾驶、智能城市和智能商业三大应用场景的人工智能解决方案。

2019年8月,地平线宣布量产中国首款车规级AI芯片——征程二代。Journey 2芯片搭载地平线自主创新研发的高性能计算架构BPU2.0(Brain Processing Unit),可提供超过4 TOPS的等效算力,典型功耗仅2W。

Matrix二代开发套件及计算平台,基于征程二代车规级芯片,将于明年正式上市,与此同时,基于征程三代的Matrix自动驾驶计算平台算力将高达192 TOPS,也将于明年发布。

3.7. NXP

恩智浦基于自研第二代视觉专用处理芯片S32V234设计开发了一款 自动驾驶开发平台BlueBox,集成了 S32V234 汽车视觉和传感器融合处理器、S2084A 嵌入式计算处理器、 S32R27 雷达微控制器。

S32V234 视觉处理器, 拥有 CPU(4 颗 ARMCortexA53 和 1 颗 M4)、3D GPU(Vivante GC3000)和视觉加速单元(2 颗 APEX-2vision accelerator), 支持4 路摄像头。可用于前视摄像头、后视摄像头、环视系统、传感器融合系统等, 能实时 3D 建模,计算能力为 50GFLOPs。同时, S32V234 芯片预留了支持毫米波雷达、激光雷达、超声波的接口,可实现多传感器数据融合,最高可支持 ISO26262ASIL-C 标准。

由于NXPS32234芯片本身设计架构问题造成算力不足,以及生态工具链欠缺较多,目前该芯片已经被边缘化。

3.8. 瑞萨

瑞萨提供多种车载 MCU 和 SoC, 其中R-Car 平台支持 L4 级自动驾驶。R-Car采用ARM CPU 和 PowerVR GPU,硬件平台可覆盖入门级(R-Car E 系列)、中级(R-Car M 系列)及高级(R-Car H 系列),支持多种开源软件(安卓、 QNX、 Linux、 Windows、Genivi等)。由于技术相对封闭,目前应用较少。

3.9. TI德州仪器

TI 德州仪器ADAS主要产品是TDAx 系列,包括TDA2x、TDA3x、TDA2Eco三款SoC,基于异构硬件和通用软件架构。TDA2x于2013年10月发布,主要面向中到中高级市场,配置了2颗ARM Cortex-A15 内核与4 颗 Cortex-M4 内核、 2 颗 TI 定浮点 C66xDSP 内核、4颗 EVE 视觉加速器核心,以及ImaginationSGX544GPU,主要应用于前置摄像头信息处理,包括车道报警、防撞检测、自适应巡航以及自动泊车系统等。TDA3x于2014年10月发布,主要面向中到中低级市场,其缩减了包括双核A15及SGX544GPU,主要应用在后置摄像头、2D 或 2.5D 环视等。TI公司的TDA4VM处理器系列是基于Jacinto™ 7架构,将TI行业领先的DSP和EVE内核整合到单个高性能内核中,并增加了浮点矢量计算功能,该款SoC包含通用处理CPU、C7 DSP MMA深度学习加速器、VPAC DMPAC视觉加速器、ISP和以太网交换机以及PCIe交换机等。


4. 传统芯片厂商的位置


从上面的分析可以看出,自动驾驶AI芯片供应商,大多是消费类半导体企业,传统汽车芯片供应商缺少身影,而随着华为、特斯拉的入局,Intel大采购策略下完成汽车自动驾驶芯片的产业布局,加上英伟达长期以来建立的优势,汽车AI芯片行业的具体效应开始显现,相对应的Infineon、NXP等逐渐失声。


随着汽车行业四化的发展,智能汽车将摆脱出行工具的概念形态,依靠AI芯片成为一个最强大脑控制的智能设备。在这个过程中,传统汽车半导体公司将会成为“配角”,但依然承担非常重要的作用,如传感器芯片、功率器件等,但不会成为智能汽车芯片领域的显性品牌存在。

从根本上来说这是市场需求、产业结构、产品概念方式的改变。智能汽车与之对应的车内电子设备需要同等的智能化表现。

传统汽车芯片厂商,在面对智能驾驶和汽车内部对高质量数字显示、人机交互等需求的不断增长时都缺乏战略性的布局和速度。而NVIDIA、华为等消费电子企业能够快速迎合市场机遇,把握汽车制造商对于智能网联汽车发展浪潮下对于芯片智能计算、信息传输等方面的新需求,快速推出AI芯片产品并积极推动市场布局。后浪奔涌,前浪无力,结局可想而知。

智能驾驶主要由计算机视觉和深度学习功能支持,而这恰恰是传统汽车芯片供应商所不具备的。传统汽车芯片供应商也试图赶上,比如NXP的S32V,德州仪器的TDAx和瑞萨的R-car,他们的强项在于MCU、ECU的功能安全与控制,以及长期以来车规级的经验积累。但AI计算方面的弱势终究造成了被动的局面。

当然传统汽车芯片企业也有自己的位置,做好配角的同时加快追赶步伐,也不是不能逆向超车,毕竟汽车AI芯片的格局纷争也是刚刚开始。


5.  趋势总结


从应用场景来看,自动驾驶系统包括了复杂的逻辑运算,也包括了大量数据的并行处理任务,单一处理器无法独立完成。

从技术架构来看,GPU、FPGA、ASIC等芯片各有优势。

GPU:是单指令、多数据处理,采用数量众多的计算单元和超长的流水线,作为图形处理器,GPU 善于处理图像领域的运算加速。但 GPU 无法单独工作,必须由 CPU 进行控制调用才能工作。

CPU 可单独作用,处理复杂的逻辑运算和不同的数据类型,但当需要大量的处理类型统一的数据时,则可调用 GPU进行并行计算。

 FPGA:适用于多指令,单数据流的分析。FPGA 是用硬件实现软件算法,因此在实现复杂算法方面有一定的难度,缺点是价格比较高。FPGA缺少内存和控制所带来的存储和读取部分速度更快功耗低,但是运算量并不是很大。所以需要结合 CPU 和 GPU 各自的优势,即异构设计。

 ASIC 芯片:实现特定要求而定制的芯片。除了不能扩展以外,在功耗、可靠性、体积方面都有优势,尤其在高性能、低功耗的移动端。特斯拉的NPU、华为的昇腾,地平线的 BPU 都属于 ASIC 芯片。 

有一种说法是在 ASIC 芯片里还有叫做类脑芯片。人脑的特点就是神经元进行数据传输。当用硬件去模拟人脑时会存在许多多余的元素,而类脑芯片就拟合人脑的作用。要做类脑芯片非常难,IBM、高通、英特尔等公司的芯片策略都是用硬件来模仿人脑的神经突触。”

总结而言,GPU 未来的主攻方向是高级复杂算法和通用性人工智能平台,GPU 的通用性强,所以应用于大型人工智能平台可高效完成不同的需求。FPGA 更适用于各种细分的行业。ASIC 芯片是全定制芯片,长远看适用于自动驾驶量产化。现在做 AI 应用算法的企业也是从这个点切入。因为算法复杂度越强,越需要一套专用的芯片架构与其进行对应,ASIC 基于AI智能算法进行定制,但是距离成熟还需要时间。

当前人工智能及智能驾驶算法尚未定型,GPU作为通用加速器,预计仍将在相当长一段时间内保持其汽车主控芯片的主流地位;FPGA作为硬件加速器,将成为GPU的有效补充;将来如果全部或部分智能驾驶算法得以固化,ASIC 将成为最优性价比的终极选择。


收藏
点赞
2000