Huis Vooruit denken Grote veranderingen zijn eindelijk in aantocht voor supercomputers

Grote veranderingen zijn eindelijk in aantocht voor supercomputers

2024

Video: The new supercomputer behind the US nuclear arsenal (November 2024)

Terugkijkend op de ISC 17-supercomputersconferentie van deze week, lijkt het erop dat de supercomputers ter wereld de komende jaren een aantal grote upgrades zullen zien, maar de update van de tweejaarlijkse Top 500-lijst van 's werelds snelste supercomputers was niet heel anders dan de vorige versie.

De snelste computers ter wereld blijven de twee enorme Chinese machines die al enkele jaren bovenaan de lijst staan: Sunway TaihuLight-computer van het Chinese Nationale Supercomputing Center in Wuxi, met duurzame Linpack-prestaties van meer dan 93 petaflops (93.000 triljoen drijvende punt) bewerkingen per seconde); en de Tianhe-2-computer uit het nationale supercomputercentrum van China in Guangzhou, met duurzame prestaties van meer dan 33, 8 petaflops. Dit blijven de snelste machines met een enorme marge.

De nieuwe nummer drie is het Piz Daint-systeem van het Zwitserse nationale Supercomputing Center, een Cray-systeem dat Intel gebruikt Xeons en Nvidia Tesla P100s, die onlangs werd geüpgraded om het een Linpack-duurzame prestatie van 19, 6 petaflops te geven, tweemaal het vorige totaal. Dat bracht het omhoog van nummer acht op de lijst.

Hiermee daalt het Amerikaanse topsysteem - het Titan-systeem in het Oak Ridge National Laboratory - naar de vierde plaats, waardoor dit de eerste keer in twintig jaar is dat er geen Amerikaans systeem in de top drie staat. De rest van de lijst blijft ongewijzigd, met de VS nog steeds goed voor vijf van de top 10 in het algemeen en Japan voor twee.

Zelfs als de snelste computerlijst niet veel is veranderd, zijn er elders grote veranderingen. Op de Green 500-lijst van de meest energiezuinige systemen zijn negen van de top tien gewijzigd. Bovenop staat het Tsubame 3.0-systeem, een gemodificeerd HPE ICE XA-systeem van het Tokyo Institute of Technology op basis van een Xeon E5-2680v4 14-kern, Omni-Path interconnect en Nvidia's Tesla P100, die 14, 1 gigaflops per watt mogelijk maakt. Dit is een enorme sprong van Nvidia's DGX Saturn V, gebaseerd op het DGX-1-platform van het bedrijf en P100-chips, die nummer één op de novemberlijst was maar dit keer nummer tien, op 9, 5 gigaflops / Watt. De P100 staat in negen van de tien beste Green500-systemen.

Het breken van 10 gigaflops / watt is een groot probleem, omdat het betekent dat een hypothetisch exaflopsysteem gebouwd met de technologie van vandaag minder dan 100 megawatt (MW) zou verbruiken. Dat is nog steeds te veel - het doel is 20-30 MW voor een exaflop-systeem, dat onderzoekers hopen de komende vijf jaar te zien - maar het is een enorme stap vooruit.

Net als de Top 500-lijst, waren er slechts kleine wijzigingen op vergelijkbare lijsten met verschillende benchmarks, zoals de High Performance Conjugate Gradients (HPCG) benchmark, waar machines de neiging hebben om slechts 1-10 procent van hun theoretische piekprestaties te zien, en waar de top systeem - in dit geval de Riken K-machine - levert nog steeds minder dan 1 petaflop. Zowel de TaihuLight- als de Piz Daint-systemen kwamen op deze lijst. Wanneer onderzoekers het hebben over een exaflop-machine, bedoelen ze meestal de Linpack-benchmark, maar HPCG kan realistischer zijn in termen van real-world prestaties.

De opkomst van GPU-computing als een versneller - bijna altijd met behulp van Nvidia GPU-processors zoals de P100 - was de meest zichtbare verandering op deze lijsten in de afgelopen jaren, gevolgd door de introductie van Intel's eigen versneller, de veel-core Xeon Phi (inclusief de meest recente versie van Knights Landing). De huidige Top 500-lijst bevat 91 systemen die versnellers of coprocessors gebruiken, waaronder 74 met Nvidia GPU's en 17 met Xeon Phi (met nog eens drie die beide gebruiken); één met een AMD Radeon GPU als versneller, en twee die een veelkernige processor gebruiken van PEZY Computing, een Japanse leverancier. Nog eens 13 systemen gebruiken nu de Xeon Phi (Knights Landing) als de belangrijkste verwerkingseenheid.

Maar veel van de grotere veranderingen aan supercomputers liggen nog in het verschiet, omdat we grotere systemen beginnen te ontwerpen die met deze concepten in gedachten zijn ontworpen. Een voorbeeld is de nieuwe MareNostrum 4 in het Barcelona Supercomputing Center, die op nummer 13 in de Top 500-lijst is opgenomen. Zoals tot nu toe geïnstalleerd, is dit een Lenovo-systeem gebaseerd op de komende Skylake-SP-versie van Xeon (officieel de Xeon Platinum 8160 24 -core processor). Wat hier interessant is, zijn de drie nieuwe clusters van 'opkomende technologie' die gepland zijn voor de komende jaren, waaronder een cluster met IBM Power 9-processors en Nvidia GPU's, ontworpen voor een piekverwerkingscapaciteit van meer dan 1, 5 Petaflops; een tweede gebaseerd op de Knights Hill-versie van Xeon Phi; en een derde op basis van 64-bits ARMv8-processors ontworpen door Fujitsu.

Deze concepten worden gebruikt in een aantal andere grote supercomputingprojecten, met name een aantal gesponsord door het Amerikaanse ministerie van Energie als onderdeel van de CORAL Collaboration in Oak Ridge, Argonne en Lawrence Livermore National Labs. Eerst moet Summit op Oak Ridge zijn, die IBM Power 9-processors en Nvidia Volta GPU's zal gebruiken, en gepland is om meer dan 150 tot 300 petaflops te leveren; gevolgd door Sierra in Lawrence Livermore, gepland om meer dan 100 petaflops te leveren.

We zouden dan de Aurora-supercomputer moeten zien in het Argonne National Laboratory, gebaseerd op de Knights Hill-versie van Xeon Phi en gebouwd door Cray, die gepland is om 180 petaflops te leveren. De CORAL-systemen moeten up en zijn rennen volgend jaar.

Ondertussen hebben de Chinese en Japanse groepen ook upgrades gepland, meestal met behulp van unieke architecturen. Het zou interessant moeten zijn om naar te kijken.

Een nog grotere verschuiving lijkt net iets verder weg: de verschuiving naar machine learning, meestal op massaal parallelle verwerkingseenheden binnen de processor zelf. Hoewel het Linpack-nummer verwijst naar 64-bits of dubbele precisieprestaties, zijn er toepassingsklassen - waaronder veel op het diepe neurale netwerk gebaseerde toepassingen - die beter werken met berekeningen met enkele of zelfs halve precisie. Nieuwe processors profiteren hiervan, zoals de recente Volta V100-aankondiging van Nvidia en de aankomende Knights Mill-versie van Xeon Phi. Tijdens de show zei Intel dat de versie, die in het vierde kwartaal in productie zal zijn, nieuwe instructiesets zou hebben voor "low-precision computing" genaamd Quad Fused Multiply Add (QFMA) en Quad Virtual Neural Network Instruction (QVNNI).

Ik ga ervan uit dat deze concepten ook kunnen worden toegepast op andere architecturen, zoals de TPU's van Google of de FPGA's van Intel en Nervana-chips.

Zelfs als we dit jaar geen grote veranderingen zien, moeten we volgend jaar verwachten meer te zien. Het concept van een exascale (1000 teraflops) machine is nog steeds in zicht, hoewel het waarschijnlijk een aantal nog grotere veranderingen met zich meebrengt.