Huis Vooruit denken Google cloud maakt deel uit van een trend naar ai-specifieke processors

Google cloud maakt deel uit van een trend naar ai-specifieke processors

Video: Diving into the TPU v2 and v3 (November 2024)

Video: Diving into the TPU v2 and v3 (November 2024)
Anonim

In de afgelopen weken zijn er een aantal belangrijke introducties geweest van nieuwe computerplatforms die specifiek zijn ontworpen voor het werken aan diepe neurale netwerken voor machine learning, waaronder de nieuwe "cloud TPU's" van Google en het nieuwe Volta-ontwerp van NVIDIA.

Voor mij is dit de meest interessante trend in computerarchitectuur - zelfs meer dan AMD en nu introduceert Intel 16-core en 18-core CPU's. Natuurlijk zijn er andere alternatieve benaderingen, maar Nvidia en Google krijgen terecht veel aandacht voor hun unieke benaderingen.

Bij Google I / O zag ik het introduceren wat een "cloud TPU" (voor Tensor Processing Unit, wat aangeeft dat het is geoptimaliseerd voor Google's TensorFlow machine learning framework). De vorige generatie TPU, geïntroduceerd op de show van vorig jaar, is een ASIC die voornamelijk is ontworpen voor inferentie - het uitvoeren van machine learning-bewerkingen - maar de nieuwe versie is ontworpen voor inferentie en training van dergelijke algoritmen.

In een recent artikel gaf Google meer details over de oorspronkelijke TPU, die het beschreef als een matrix van 256-bij-256 multiple-accumulate (MAC) -eenheden (65.536 in totaal) met een piekprestatie van 92 teraops (biljoen operaties per tweede). Het krijgt zijn instructies van een host-CPU via PCIe Gen 3-bus. Google zei dat dit een 28nm-chip was die kleiner was dan de helft van een Intel Haswell Xeon 22nm-processor en dat deze beter presteerde dan die processor en de 28nm K80-processor van Nvidia.

De nieuwe versie, genaamd TPU 2.0 of cloud TPU (zie hierboven), bevat feitelijk vier processors op het bord en Google zei dat elk bord 180 teraflops kan bereiken (180 biljoen floating point-bewerkingen per seconde). Net zo belangrijk is dat de boards zijn ontworpen om samen te werken, met behulp van een aangepast high-speed netwerk, zodat ze fungeren als een enkele machine die supercomputing leert die Google een 'TPU pod' noemt.

Deze TPU-pod bevat 64 tweede-generatie TPU's en biedt tot 11, 5 petaflops om de training van een enkel groot machine-leermodel te versnellen. Tijdens de conferentie zei Fei Fei Li, die leiding geeft aan het AI-onderzoek van Google, dat terwijl een van de grootschalige leermodellen van het bedrijf een volledige dag nodig heeft om te trainen op 32 van de beste commercieel beschikbare GPU's, het nu kan trainen voor de dezelfde nauwkeurigheid in een middag met een achtste van een TPU-pod. Dat is een grote sprong.

Begrijp dat dit geen kleine systemen zijn - een pod lijkt ongeveer de grootte van vier normale computerrekken te hebben.

En elk van de afzonderlijke processors lijkt zeer grote koellichamen te hebben, wat betekent dat de planken niet te strak kunnen worden gestapeld. Google heeft nog niet veel details gegeven over wat er is veranderd in deze versie van de processors of de interconnect, maar waarschijnlijk is dit ook gebaseerd op 8-bit MAC's.

De week ervoor introduceerde Nvidia zijn nieuwste inzending in deze categorie, een enorme chip die bekend staat als de Telsa V100 Volta, die hij beschreef als de eerste CPU met deze nieuwe Volta-architectuur, ontworpen voor high-end GPU's.

Nvidia zei dat de nieuwe chip geschikt is voor 120 TensorFlow-teraflops (of 15 32-bit TFLOPS of 7.5 64-bit degenen.) Dit maakt gebruik van een nieuwe architectuur met 80 Streaming Multiprocessors (SM's), elk met acht nieuwe "Tensor Cores" en is een 4x4x4-array die 64 FMA-bewerkingen (Fused Multiply-Add) per klok kan uitvoeren. Nvidia zei dat het de chip in zijn DGX-1V-werkstations met 8 V100-kaarten in het derde kwartaal zal aanbieden, na de eerdere DGX-1 van het bedrijf die de eerdere P100-architectuur gebruikte.

Het bedrijf zei dat deze doos van $ 149.000 960 teraflops trainingsprestaties zou moeten leveren, met behulp van 3200 watt. Later, zei de eerste, zou het een persoonlijk DGX-station met een vier V100's verzenden, en in het vierde kwartaal zei het dat de grote serververkopers V100-servers zouden verzenden.

Deze chip is de eerste aangekondigde die de 12nm-processor van TSMC gebruikt, en het zal een enorme chip zijn met 21, 1 miljard transistors op een matrijs van 815 vierkante millimeter. Nvidia noemde zowel Microsoft als Amazon als vroege klanten voor de chip.

Merk op dat er grote verschillen zijn tussen deze benaderingen. De Google TPU's zijn echt aangepaste chips, ontworpen voor TensorFlow-toepassingen, terwijl de Nvidia V100 een iets algemenere chip is, die in staat is tot verschillende soorten wiskunde voor andere toepassingen.

Ondertussen kijken de andere grote cloudproviders naar alternatieven, waarbij Microsoft beide GPU's gebruikt voor training en field-programmable gate arrays (FPGA's) voor inferentie, en beide aan klanten aanbiedt. Amazon Web Services maakt nu zowel GPU- als FPGA-instanties beschikbaar voor ontwikkelaars. En Intel heeft FPGA's en tal van andere technieken gepusht. Ondertussen werken een aantal nieuwe startups aan alternatieve benaderingen.

In sommige opzichten is dit de meest ingrijpende verandering die we in werkstation- en serverprocessors in jaren hebben gezien, tenminste sinds ontwikkelaars enkele jaren geleden voor het eerst met "GPU compute" begonnen te werken. Het zal fascinerend zijn om te zien hoe dit zich ontwikkelt.

Google cloud maakt deel uit van een trend naar ai-specifieke processors