视觉和神经网络推动了对更强大芯片的需求
现在,在其第28年,“热芯片”会议是已知的,用于发布"大铁铁",例如世界上一些最快的系统背后的电源和SPARC芯片。但是这些天,处理电力的需求来自新的地方。其中一个重要的是视觉处理,由照相机的扩散驱动;在汽车、电话和各种"事物;"中的新应用以及用于目标识别的神经网络的快速进展。所有这些都需要很多马力,在本周的会议上,有几家公司谈到了解决这一问题的不同方法。
也许最有新闻价值的是Nvidia的Parker宣布,它的下一代TEGRA处理器是一款具有自驱动功能的高级汽车。在采用3DFinFET晶体管的16nm工艺上通过铸造TSMC制造,Parker有两个CPU群集(两个NVIDIA的自定义64位丹佛2内核和四个现成ARMCortex-A57内核),是具有公司最新Pascal图形的第一个Telegra芯片。根据公司的博客文章,Parker能够在半精度(FP16)下1.5个触发器。在会议上,NVIDIA还显示了SPECint_2000基准测试的性能,与苹果A9x、高通Snapdragon820、三星ExyNOSM1和HiSiliconKirin935相比。
NVIDIA使用标准测试的结果表明,Parker可以超过一些最强大的移动处理器。(资料来源:NVIDIA)
但帕克不适合打电话。相反,它的目的是为下一代具有自动驾驶功能的车辆提供动力,它还包括一些专门的功能。它支持多达十几台摄像机,可以以每秒60帧的速度解码和编码4K视频,使用千兆位以太网-AVB将音频和视频流移动到汽车周围,为多达8台VMs提供完全的硬件虚拟化,以安全地处理多种汽车功能,并包括一个双CAN(控制器区域网络)接口,以连接到众多的电子控制单元。它也是NVIDIA的第一个汽车级(ISO-26262)SoC,具有弹性功能和一个在模上安全管理器.
今年早些时候,NVIDIA宣布了驱动PX2模块,该模块有两个ParkerSOC(12个CPU内核)和两个离散GPU,总共提供8个单精度(FP32)性能。为了让这一点,GeForceGTX1080,NVIDIA的速度最快的台式机图形卡,除了1,200美元的TanX之外,还有大约9个TerapsFP32。NVIDIA表示,超过80家客户正在使用驱动PX2模块开发自主驾驶功能,而沃尔沃则表示,他们将使用它来测试明年开始的两个自驾驶XC90SUV。
毫无疑问,驱动PX2是最强大的汽车系统之一。但其他公司声称,DSP(数字信号处理器)可以在GPU上使用几瓦或更多的电能。
Movie谈到需要在推理的边缘上进行更节能的处理,或者运行用于对象识别和其他任务的模型。"如果你有一辆自驾车,你就不能忍受为了处理而去云所需的延迟,"CTODavidMoloney说。在热芯片运动中,Movius演示了它在DJIPhantom4无人机中的微小的2个视觉处理单元,以及执行对象识别和同时定位和映射。联想最近宣布将在未来的VR产品中使用大量2,并且Flipr已将VPU添加到其热成像相机上。Movieius展示了在2014年imaGenet大赛中使用的22层深层神经网络的2个对比未识别GPU的性能和效率结果。
与GPU相比,根据Movius,当运行用于对象识别的神经网络时,大量2可以提供更高的性能。(资料来源:Movieius)
Ceva-XM4是一款高性能的视觉DSP,能够在TSMC的28nmHPM过程中达到1.5GHz的速度,设计用于监视摄像头、ADAS和自主驾驶等领域的嵌入式视觉和AI,增强现实,以及无人机。该公司声称,它的Ceva深度神经网络2(CDNN2)软件可以优化在流行的CAFFE或Tensorflow框架中构建的任何神经网络,使得它能够在DSP上运行。Ceva演示了运行Alexnet库的CevaXM-4,实时使用Milli瓦特的电源进行对象识别。像NVIDIA的Parker一样,XM-4认证用于汽车使用,而Ceva说,从RockChip、NovatekBrite、Inupluger等。
最新增加的Cadence的Tensilica视觉线处理器,VisionP6,提供了两到四倍的性能,在卷积神经网络上,由于额外的MACS(倍累积)支持半精度和单精度浮点(以及8位、16位和32位定点数据),并增强了内存并行性和数据移动。卡登斯演示了视觉P6识别交通标志,人和脸。今年早些时候在嵌入式视觉峰会上宣布,视觉P6将从10月开始提供。
TensilicaDSP的一个客户是Microsoft。在主旨演讲中,微软的尼克贝克首次展示了芯片的一些细节,这些芯片为"混合现实"应用提供全镜头耳机,例如3D设计、通信和协作、游戏、在线学习、产品修复和维护以及在线购物。除了运行Windows10的14nm英特尔原子樱桃轨迹处理器外,全息镜头还包括自定义全息处理单元(HPU1.0)传感器集线器、2GB内存和64GB闪存。该HPU在28nm的工艺上由TSMC制造,具有24个Ten硅DSP内核和8MB高速缓存,能够每秒处理1万亿浮点操作。Baker说,微软尝试将任务卸载到管芯上的GPU,或者使用CPU或图像信号处理器的阵列,但是它们都没有提供将可编程的x86CPU内核和固定功能硬件与DSP相结合的混合解决方案的性能。
在边缘运行神经网络时,数字信号处理器可以提供更好的每瓦性能。(资料来源:cadence)
NVIDIA的TeslaGPU用于服务器显著缩短了培训模式所需的时间,导致精度突破,但在推理方面仍有很多工作要做。自主车辆、无人机、增强现实和虚拟现实、视频监控以及其他智能设备都需要嵌入式处理器,这些嵌入式处理器可以处理大量的数据而不使用大量的电源。今年热芯片上提出的视觉处理技术表明,我们正在接近,在未来几年中,他们应该为一些令人兴奋的应用提供构建块。