Google的第四代张量处理单元公开发布
2020-07-31 08:44:35 编辑: 来源:国际品牌资讯
模型时,第四代TPU的得分也很高。使用256个第四代TPU进行培训需要1.82分钟,仅比使用4,096个第三代TPU进行培训所需的0.39分钟稍慢。同时,使用Nvidia硬件达到0.81分钟的培训时间,需要2,048张A100卡和512个AMD Epyc 7742 CPU内核。
最新的MLPerf包括新的和经过修改的基准(建议和强化学习),并且TPU的结果参差不齐。由64个第四代TPU组成的集群在“建议”任务中表现良好,花费了1.12分钟的时间来训练来自Criteo AI Lab的Terabyte点击率(CTR)数据集的1TB日志的模型。(八个Nvidia A100卡和两个AMD Epyc 7742 CPU内核在3.33分钟内完成了训练。)但是Nvidia在强化学习方面取得了领先,设法在29.7分钟的简化版棋盘游戏中将模型训练为50%的获胜率。带有256个A100卡和64个AMD Epyc 7742 CPU内核。256个第四代TPU花费了150.95分钟。
需要注意的一点是,Nvidia硬件以Facebook的PyTorch框架和Nvidia自己的框架(而不是Google TensorFlow)为基准。第三代和第四代TPU都使用TensorFlow,JAX和Lingvo。尽管这可能会在一定程度上影响结果,甚至允许这样做,但基准测试明确了第四代TPU的性能优势。