Inhoudsopgave:
Video: Types of Machine Learning 1 (November 2024)
Op de SC16 Supercomputing-conferentie van deze maand waren twee trends opvallend. De eerste is de verschijning van Intel's nieuwste Xeon Phi (Knights Landing) en Nvidia's nieuwste Tesla (de op Pascal gebaseerde P100) op de Top500-lijst van de snelste computers ter wereld; beide systemen kwamen in de top 20. De tweede is een grote nadruk op hoe chip- en systeemmakers concepten uit moderne machine learning-systemen nemen en deze toepassen op supercomputers.
Bij de huidige herziening van de Top500-lijst, die twee keer per jaar wordt bijgewerkt, is de top van de grafiek nog steeds stevig in handen van de Sunway TaihuLight-computer van het Chinese nationale supercomputingcentrum in Wuxi en de Tianhe-2-computer van de nationale supercomputer van China Centrum in Guangzhou, zoals het is sinds de ISC16-show in juni. Geen enkele andere computer presteert bijna hetzelfde, met de derde en vierde rangorde - nog steeds de Titan-supercomputer op Oak Ridge en het Sequoia-systeem in Lawrence Livermore - beide leveren ongeveer de helft van de prestaties van Tianhe-2.
De eerste daarvan is gebaseerd op een unieke Chinese processor, de 1, 45 GHz SW26010, die een 64-bits RISC-kern gebruikt. Dit heeft een ongeëvenaarde 10.649.600 cores die 125.4 petaflops leveren met een theoretische piekdoorvoer en 93 petaflops met maximale gemeten prestaties op de Linpack-benchmark, met een vermogen van 15, 4 Megawatt. Opgemerkt moet worden dat hoewel deze machine de hitlijsten in Linpack-prestaties met een enorme marge overtreft, het niet zo goed presteert in andere tests. Er zijn andere benchmarks zoals de High Performance Conjugate Gradients (HPCG) benchmark, waar machines meestal slechts 1 tot 10 procent van hun theoretische piekprestaties zien, en waar het topsysteem - in dit geval de Riken K-machine - nog steeds minder levert dan 1 petaflop.
Maar de Linpack-tests zijn de standaard om te praten over high-performance computing (HPC) en wat wordt gebruikt om de Top500-lijst te maken. Met behulp van de Linpack-tests stond de nummer 2 machine, Tianhe-2, de afgelopen jaren op nummer 1 en maakt gebruik van Xeon E5 en oudere Xeon Phi (Knights Corner) versnellers. Dit biedt 54, 9 petaflops van theoretische piekprestaties en benchmarks op 33, 8 petaflops in Linpack. Veel waarnemers zijn van mening dat een verbod op de export van de nieuwere versies van Xeon Phi (Knights Landing) de Chinezen ertoe brachten hun eigen supercomputerprocessor te maken.
Knights Landing, formeel Xeon Phi 7250, speelde een grote rol in de nieuwe systemen op de lijst, te beginnen met de Cori-supercomputer bij Lawrence Berkeley National Laboratory die op de vijfde plaats kwam, met een topprestatie van 27.8 petaflops en een gemeten prestatie van 14 petaflops. Dit is een Cray XC40-systeem dat de Ram-interconnect gebruikt. Merk op dat Knights Landing kan fungeren als een hoofdprocessor, met 68 cores per processor die 3 piek-teraflops levert. (Intel vermeldt een andere versie van de chip met 72 cores op 3, 46 teraflops van piek theoretische dubbele precisieprestaties op zijn prijslijst, maar geen van de machines op de lijst gebruikt deze versie, misschien omdat het duurder is en meer energie verbruikt.)
Eerder kon Xeon Phis alleen werken als versnellers in systemen die werden bestuurd door traditionele Xeon-processors. Op de zesde plaats stond het Oakforest-PACS-systeem van het Japanse Joint Center for Advanced High Performance Computer, met 24.9 piek petaflops. Dit is gebouwd door Fujitsu, met behulp van Knights Landing en Intel's Omni-Path interconnect. Knights Landing wordt ook gebruikt in het nr. 12-systeem (de Marconi-computer bij CINECA in Italië, gebouwd door Lenovo en met Omni-Path) en het nr. 33-systeem (de Camphor 2 aan de Kyoto-universiteit van Japan, gebouwd door Cray en met behulp van de Ram interconnect).
Nvidia was ook goed vertegenwoordigd op de nieuwe lijst. Het nr. 8-systeem, Piz Daint bij het Swiss National Supercomputing Center, werd opgewaardeerd naar een Cray XC50 met Xeons en de Nvidia Tesla P100, en biedt nu iets minder dan 16 petaflops van theoretische topprestaties en 9, 8 petaflops van Linpack-prestaties - een grote upgrade van de 7.8 petaflops van topprestaties en 6.3 petaflops van Linpack-prestaties in zijn eerdere versie gebaseerd op de Cray XC30 met Nvidia K20x-versnellers.
Het andere op P100 gebaseerde systeem op de lijst was Nvidia's eigen DGX Saturn V, gebaseerd op de eigen DGX-1-systemen van het bedrijf en een Infiniband-interconnect, die op nummer 28 op de lijst kwam. Merk op dat Nvidia nu zowel de processors als het DGX-1-apparaat verkoopt, dat software en acht Tesla P100's bevat. Het DGX Saturn V-systeem, dat Nvidia gebruikt voor intern AI-onderzoek, scoort bijna 4, 9 piek petaflops en 3, 3 Linpack petaflops. Maar wat Nvidia aangeeft, is dat het slechts 350 kilowatt vermogen verbruikt, waardoor het veel energiezuiniger is. Hierdoor staat dit systeem bovenaan de Green500-lijst van de meest energie-efficiënte systemen. Nvidia wijst erop dat dit aanzienlijk minder energie is dan het Xeon Phi-gebaseerde Camphor 2-systeem, dat vergelijkbare prestaties levert (bijna 5, 5 petaflops piek en 3.1 Linpack petaflops).
Het is een interessante vergelijking, waarbij Nvidia een betere energie-efficiëntie op GPU's aanprijst en Intel een meer vertrouwd programmeermodel aanprijst. Ik ben er zeker van dat we de komende jaren meer concurrentie zullen zien, omdat de verschillende architecturen concurreren om te zien welke van hen de eerste zullen zijn die "exascale computing" zullen bereiken of dat de Chinese thuisbenadering daar zal komen. Momenteel verwacht het Amerikaanse Exascale Computing Project van het Amerikaanse ministerie van Energie dat de eerste exascale machines in 2022 worden geïnstalleerd en het jaar daarop live gaan.
Ik vind het interessant om op te merken dat ondanks de nadruk op veel-kernversnellers zoals de Nvidia Tesla en Intel Xeon Phi-oplossingen, slechts 96 systemen dergelijke versnellers gebruiken (inclusief die welke alleen Xeon Phi gebruiken); in tegenstelling tot 104 systemen een jaar geleden. Intel blijft de grootste chipaanbieder, met zijn chips in 462 van de top 500-systemen, gevolgd door IBM Power-processors in 22. Hewlett-Packard Enterprise heeft 140 systemen gemaakt (inclusief die gebouwd door Silicon Graphics, die HPE heeft overgenomen), Lenovo gebouwd 92 en Cray 56.
Machine Learning-competitie
Er waren een aantal aankondigingen op of rond de show, waarvan de meeste betrekking hadden op een vorm van kunstmatige intelligentie of machine learning. Nvidia kondigde een samenwerking aan met IBM voor een nieuwe diepgaande softwaretoolkit, IBM PowerAI genaamd, die IBM Power-servers draait met NVLink-interconnect van NVIDIA.
AMD, een bijzaak in zowel HPC- als machine-learningomgevingen, is bezig dit te veranderen. Op dit gebied concentreerde het bedrijf zich op zijn eigen Radeon GPU's, pushte het zijn FirePro S9300 x2 server GPU's en kondigde een samenwerking aan met Google Cloud Platform om het via de cloud te kunnen gebruiken. Maar AMD heeft niet zoveel geïnvesteerd in software voor het programmeren van GPU's, omdat het de nadruk heeft gelegd op OpenCL boven de meer eigen aanpak van NVIDIA. Tijdens de show introduceerde AMD een nieuwe versie van zijn Radeon Open Compute Platform (ROCm) en prees plannen om zijn GPU's te ondersteunen in heterogene computerscenario's met meerdere CPU's, inclusief de aanstaande "Zen" x86 CPU's, ARM-architecturen beginnend met Cavium's ThunderX en IBM Power 8 CPU's.
Tijdens de show sprak Intel over een nieuwe versie van zijn huidige Xeon E5v4 (Broadwell) -chip die is afgestemd op drijvende komma-werkbelastingen, en hoe de volgende versie op basis van het Skylake-platform volgend jaar uitkomt. Maar in een later evenement die week maakte Intel een reeks aankondigingen die zijn ontworpen om zijn chips in de kunstmatige intelligentie of machine-learningruimte te plaatsen. (Dit is ExtremeTech's take.) Veel van dit heeft implicaties voor high-performance computing, maar is meestal gescheiden. Om te beginnen promoot het bedrijf, naast de standaard Xeon-processors, ook FPGA's voor een groot deel van de inferenties in neurale netwerken. Dat is een belangrijke reden waarom het bedrijf Altera onlangs heeft gekocht, en dergelijke FPGA's worden nu gebruikt door bedrijven zoals Microsoft.
Maar de focus op AI vorige week ging over een aantal nieuwere chips. Ten eerste is er Xeon Phi, waar Intel heeft aangegeven dat de huidige Knights Landing-versie volgend jaar zal worden aangevuld met een nieuwe versie genaamd Knights Mill, gericht op de "deep learning" -markt. Aangekondigd op IDF, dit is nog een 14nm-versie, maar met ondersteuning voor half-precisieberekeningen, die vaak worden gebruikt bij het trainen van neurale netwerken. Inderdaad, een van de grote voordelen van de huidige Nvidia-chips bij diep leren is hun ondersteuning voor halfprecisieberekeningen en 8-bits gehele getallen, waarnaar Nvidia vaak verwijst als 'diep leren' tera-ops. Intel heeft gezegd dat Knights Mill tot vier keer de prestaties van Knights Landing levert voor diepgaand leren. (Deze chip is nog steeds gepland om later te worden gevolgd door een 10 nm-versie genaamd Knights Hill, waarschijnlijk meer gericht op de traditionele high-performance computing-markt.)
Het interessantst voor volgend jaar is een ontwerp van Nervana, dat onlangs door Intel is overgenomen, dat een reeks verwerkingsclusters gebruikt die zijn ontworpen om eenvoudige wiskundige bewerkingen uit te voeren die zijn verbonden met geheugen met hoge bandbreedte (HBM). Eerst in deze familie komt Lake Crest, dat werd ontworpen voordat Intel het bedrijf kocht en produceerde volgens een 28 nm TSMC-proces. Volgens de testversies in de eerste helft van volgend jaar zegt Intel dat het meer ruwe computerprestaties zal leveren dan een GPU. Dit zal uiteindelijk worden gevolgd door Knights Crest, die op een of andere manier Nervana's technologie naast Xeon implementeert, met details die nog steeds niet zijn aangekondigd.
"We verwachten dat de technologieën van Nervana de komende drie jaar een 100-voudige prestatieverbetering zullen produceren om complexe neurale netwerken te trainen, waardoor datawetenschappers hun grootste AI-uitdagingen sneller kunnen oplossen", schreef Intel CEO Brian Krzanich.
Intel heeft onlangs ook plannen aangekondigd om Movidius over te nemen, waardoor DSP-gebaseerde chips bijzonder geschikt zijn voor het bepalen van computervisies - opnieuw beslissingen nemen op basis van eerder getrainde modellen.
Het is een ingewikkeld en evoluerend verhaal - zeker niet zo eenvoudig als Nvidia's drang naar GPU's overal. Maar wat het duidelijk maakt, is hoe snel machine learning van start gaat en de vele verschillende manieren waarop bedrijven van plan zijn het probleem aan te pakken, van GPU's zoals die van Nvidia en AMD tot vele x86-kernprocessors zoals Xeon Phi en FPGA's, aan gespecialiseerde producten voor training zoals Nervana en IBM's TrueNorth, aan aangepaste DSP-achtige inferencing-engines zoals Google's Tensor Processing Units. Het zal heel interessant zijn om te zien of de markt ruimte biedt voor al deze benaderingen.