华为AI训练集群Atlas900有多快?算力相当于50万台PC

网易科技讯 9月18日音讯,华为全联接2019大会上,华为副董事长胡厚崑发布了Atlas 900 AI练习集群。此次发布的Atlas 900 AI练习集群由数千颗昇腾910 AI处理器互联构成,是当时全球最快的AI练习集群,代表了当今全球的算力巅峰。其总算力到达256P~1024P FLOPS @FP16,相当于50万台PC的核算才能。

AI算力抢先

Atlas 900 AI练习集群选用业界单芯片算力最强的昇腾910 AI处理器,每颗昇腾910 AI处理器内置32个达芬奇AI Core,单芯片供给比业界高一倍的算力。Atlas 900 AI练习集群将数千颗昇腾910 AI处理器互联,打造业界榜首的算力集群。

昇腾910 AI处理器选用SoC规划,集成“AI算力、通用算力、高速大带宽I/O”,大幅度卸载Host CPU的数据预处理使命,充沛提高练习功率。

最佳集群网络

Atlas 900 AI练习集群选用“HCCS、 PCIe 4.0、100G以太”三类高速互联方法,百TB全互联无堵塞专属参数同步网络,下降网络时延,梯度同步时延缩短10~70%。

在AI服务器内部,昇腾910 AI处理器之间经过HCCS高速总线互联;昇腾910 AI处理器和CPU之间以最新的PCIe 4.0(速率16Gb/s)技能互联,其速率是业界干流选用的PCIe 3.0(8.0Gb/s)技能的两倍,使得数据传输愈加快速和高效。在集群层面,选用面向数据中心的CloudEngine 8800系列交流机,供给单端口100Gbps的交流速率,将集群内的一切AI服务器接入高速交流网络。

首创iLossless 智能无损交流算法,对集群内的网络流量进行实时的学习练习,完结网络0丢包与E2E μs级时延。

体系级调优

Atlas 900 AI练习集群经过华为调集通讯库和作业调度渠道,整合HCCS、 PCIe 4.0和100G RoCE三种高速接口,充沛开释昇腾910 AI处理器的强壮功能。

华为调集通讯库供给练习网络所需的分布式并行库,通讯库+网络拓扑+练习算法进行体系级调优,完结集群线性度>80%,极大提高了作业调度功率。

散热体系

传统数据中心多以风冷技能对设备进行散热,但在人工智能年代传统数据中心却面对非常大的应战。高功耗器材比方CPU和AI芯片带来更大的热岛效应要求更高效的冷却方法。液冷技能能够满意数据中心高功率、高密布置、低PUE的超高需求。

Atlas 900 AI练习集群选用全液冷计划,立异性规划业界最强柜级密闭绝热技能,支撑>95%液冷占比。单机柜支撑高达50kW超高散热功耗,完结PUE<1.1的极致数据中心动力功率。

别的,在空间节约方面,与8kW风冷机柜比较,节约机房空间79%。极致的液冷散热技能满意了高功率、高密设备布置、低PUE的需求,极大地下降了客户的TCO。

据了解,华为已在华为云上布置了一个Atlas 900 AI练习集群,集群规划为1024颗昇腾910 AI处理器。根据当时最典型的“ResNet-50 v1.5模型”和“ImageNet-1k数据集”,Atlas 900AI练习集群只需59.8秒就可完结练习,排名全球榜首。

“ImageNet-1k数据集”包括128万张图片,精度为75.9%,在平等精度下,其他两家业界干流厂家测验成果分别是70.2s和76.8s,Atlas 900 AI练习集群比第2名快15%。

Atlas 900 AI集群主要为大型数据集神经网络练习供给超强算力,可广泛应用于科学研究与商业立异,让研究人员更快地进行图画、视频和语音等AI模型练习,让人类更高效地探究世界奥妙、猜测气候、勘探石油和加快自动驾驶的商用进程。(静静)

本文来历:网易科技报导 责任编辑:乔俊婧_NBJ11279