Video: Will Nvidia Chips Be Inside Everything? (November 2024)
Hoewel veel van de chip-opwinding vorige week kwam van de aankondiging van Intel Broadwell, werden er tijdens de jaarlijkse Hot Chips-conferentie een aantal andere chips in detail besproken, die zich meestal richtten op chips die zijn ontworpen voor servers en datacenters.
De show staat bekend om high-end chips, waarbij Intel, Oracle en IBM allemaal hun nieuwste inzendingen bespreken, maar alleen Oracle's Sparc M7 was echt nieuw. In plaats daarvan richtte een groot deel van de show zich op ARM-gebaseerde producten, inclusief de eerste details van de aankomende 64-bit "Denver" -versie van Nvidia van de Tegra K1-processor
Oracle, Intel en IBM streven hoog met serverchips
Van de high-end chips kwam het meest indrukwekkende nieuws van Oracle, die de volgende generatie van zijn SPARC-processor besprak, bekend als een M7. Deze chip heeft 32 S4 SPARC-cores (elk met maximaal acht dynamische threads), 64 MB L3-cache, acht DDR4-geheugencontrollers (maximaal 2 TB per processor en 160 GBps geheugenbandbreedte met DDR4-2133) en acht data-analyse versnellers verbonden via een on-chip netwerk.
De chip is georganiseerd in acht clusters met vier cores met elk een gedeelde L2-cache en een gepartitioneerde 8 MB L3-cache met meer dan 192 GBps bandbreedte tussen een kerncluster en de lokale L3-cache. In vergelijking met de M6 (een 28nm-chip met 12 3, 6 GHz SPARC S3-kernen), levert de M7 3-3, 5 keer betere prestaties op geheugenbandbreedte, gehele doorvoer, OLTP, Java, ERP-systemen en drijvende komma doorvoer. Stephen Phillips, Senior Director van SPARC Architecture bij Oracle, zei dat het doel een stapsgewijze prestatieverbetering was in plaats van incrementele winst.
De M7 kan worden geschaald naar 8 sockets lijmloos (tot 256 cores, 2.000 threads en 16 TB geheugen), en met een ASIC-schakelaar om het verkeer tussen hen in een SMP-configuratie te beheren, tot 32 processors, zodat je zou kunnen eindigen met een systeem met 1.024 cores, 8.192 threads en maximaal 64 TB geheugen. Erg indrukwekkend. Oracle zei dat het bij verschillende tests 3 tot 3, 5 keer betere prestaties biedt, vergeleken met de SPARC M6 van vorig jaar. Het bedrijf zei dat dit zal worden geoptimaliseerd voor Oracle's eigen softwarestack, vervaardigd volgens een 20 nm-proces en ergens volgend jaar beschikbaar zal zijn in systemen.
IBM gaf ook meer details over zijn Power8-lijn, die het tijdens de show van vorig jaar aankondigde. Die versie van de chip had 12 cores, elk met maximaal acht threads met 512 KB SRAM Level 2 cache per core (6 MB totale L2) en 96 MB gedeelde embedded DRAM als een Level 3 cache. Deze enorme chip, die 650 vierkante millimeter meet met 4, 2 miljard transistoren, is vervaardigd volgens het 22nm SOI-proces van IBM en is volgens IBM in juni gestart.
Enkele maanden geleden kondigde IBM een versie aan met zes cores van 362 mm 2. De bespreking van dit jaar ging over hoe IBM twee van de zes-core versies kan combineren in een enkel pakket met 48 banen van PCIe Gen 3. IBM zei dat een versie met twee sockets met een totaal van 24 cores en 192 threads beter zal presteren dan een twee-processor Xeon Ivy Bridge-server met 24 cores (met 48 threads). IBM verkoopt Power meestal op hoogwaardige en gespecialiseerde markten, dus de meeste mensen zullen deze twee niet vergelijken, maar het is interessant. In een poging om de Power-architectuur meer mainstream te maken, heeft IBM vorig jaar het Open Power Consortium aangekondigd en dit jaar zei het bedrijf dat het een volledige open-source softwarestack voor het platform had. Maar tot nu toe heeft niemand anders dan IBM een server aangekondigd op basis van het platform.
Intel sprak over "Ivytown", de serverversie van Ivy Bridge, met de versies van de Xeon E5 die een jaar geleden werden geïntroduceerd, en de Xeon E7 die in februari werd geïntroduceerd. De bespreking van dit jaar was gericht op hoe Intel nu in principe één architectuur heeft die beide markten kan bestrijken, met chips die maximaal 15 cores, twee DDR3-geheugencontrollers, drie QPI-koppelingen en 40 PCI Gen 3-banen mogelijk maken, die in een modulaire verdieping zijn gerangschikt plan dat kan worden omgezet in drie verschillende dobbelstenen, elk ontworpen voor verschillende stopcontacten, met een totaal van meer dan 75 varianten. Dit kan worden gebruikt in servers met twee, vier en acht sockets zonder speciale interconnects.
Deze chips vormen natuurlijk het grootste deel van de serveraankopen tegenwoordig, aangezien Intel de overgrote meerderheid van de servereenheden voor zijn rekening neemt. Maar veel informatie werd eerder behandeld op ISSCC, en Intel zal naar verwachting algemeen binnenkort de volgende versie van de E5-familie (de E5-1600v3 en E5-2600 v3) introduceren, gebaseerd op een bijgewerkte versie met een variant van de Haswell-architectuur genaamd Haswell-EP. (Vorige week kondigde Dell nieuwe werkstations aan op basis van deze nieuwe chips.)
Intel besprak ook zijn Atom C2000, bekend als Avoton, die eind 2013 in productie ging. Deze chip en de Ivy Bridge- en Haswell-chips zijn allemaal gebaseerd op het 22nm-proces van Intel.
Nvidia, AMD, Applied Micro Aim at New Markets for ARM
De grootste verrassing van de show was waarschijnlijk de focus op ARM-gebaseerde technologie, inclusief keynotes van ARM-speakers en Nvidia's detaillering van de aanstaande "Denver" -versie van de Tegra K1-processor.
In een keynote besprak ARM CTO Mike Muller de stroombeperkingen in alles, van sensoren tot servers, en concentreerde hij zich op hoe ARM probeerde uit te breiden naar de onderneming. Muller heeft ook het concept van het gebruik van ARM-sensorchips voor het internet der dingen gepusht, een onderwerp dat ook werd herhaald in een keynote van Rob Chandhok van Qualcomm. Maar geen van beide bedrijven kondigde nieuwe cores of processors aan.
In plaats daarvan kwam het grote nieuws op dat vlak van Nvidia, dat veel meer details gaf over de nieuwe versie van zijn K1-processor. Toen het Denver-project van het bedrijf voor het eerst werd aangekondigd, leek het erop dat deze chip zou worden gericht op de high-performance computing-markt, maar nu lijkt het bedrijf zich meer te hebben gericht op zaken als tablets en de automobielmarkt. De Tegra K1 komt in twee versies. De eerste, die eerder dit jaar werd aangekondigd en nu in de Shield-tablet van het bedrijf wordt geleverd, heeft vier 32-bits ARM Cortex-A15-kernen plus een 'power-companion core' met laag vermogen in de 4 + 1-configuratie die Nvidia heeft ingedrukt zijn Tegra-lijn voor meerdere jaren.
De Denver-versie is heel anders met twee nieuwe gepatenteerde 64-bits cores ontworpen door Nvidia, en het bedrijf is echt de prestaties aan het aanprijzen die het krijgt. De kern is zeven-weg superscalar (wat betekent dat het tot zeven micro-ops tegelijkertijd kan uitvoeren), en heeft een 128 KB vierweg L1 instructiecache en een 64 KB vierweg L1 datacache. De chip combineert twee van deze cores, samen met een 2MB level 2 cache die beide cores bedient, als de 192 "CUDA cores" (grafische cores) die het deelt met de 32-bit K1. Als zodanig vertegenwoordigt het een grote afwijking van de 4 + 1-architectuur.
Een grote verandering omvat wat Nvidia "dynamische code-optimalisatie" noemt, die is ontworpen om veelgebruikte ARM-code te nemen en die om te zetten in micro-code die speciaal is geoptimaliseerd voor de processor. Dit wordt opgeslagen in 128 MB cachegeheugen (gesneden uit traditioneel systeemhoofdgeheugen). Het doel is om het de uitvoering van een buiten-gebruik uitvoering te geven zonder zoveel kracht te vereisen als die techniek gewoonlijk gebruikt. Het concept is niet nieuw - Transmeta heeft het jaren geleden geprobeerd met zijn Crusoe-chip - maar Nvidia zegt dat dit nu aanzienlijk beter werkt.
Nvidia toonde verschillende benchmarks, waarin het beweerde dat de nieuwe chip aanzienlijk hogere prestaties kan behalen dan bestaande vier- of acht-core mobiele CPU's - met name onder vermelding van Qualcomm's Snapdragon 800 (MSM8974), de Apple A7 (soms Cyclone genoemd) gebruikt in de iPhone 5s - en zelfs sommige reguliere pc-processors. Nvidia zei dat het beter was dan een Atom-processor (Bay Trail) en vergelijkbaar was met Intel's 1, 4 GHz dual-core Celeron-processor (Haswell). Natuurlijk heb ik de neiging om leveranciersprestatienummers te nemen met een korreltje zout: niet alleen kiezen de leveranciers de benchmarks, het is helemaal niet duidelijk dat we het hebben over dezelfde kloksnelheden of dezelfde stroomafname.
Ondertussen, in chips die meer op servers waren gericht, sprak AMD meer over zijn Opteron A1100, bekend als "Seattle", terwijl het bedrijf zei dat het momenteel aan het samplen was en tegen het einde van dit jaar op servers beschikbaar zou moeten zijn. Deze chip heeft acht 64-bit Cortex A57 CPU-cores; 4 MB L2-cache en 8 MB L3-cache; twee geheugenkanalen voor maximaal 128 GB DDR3- of DDR4-geheugen met foutcorrectie; veel geïntegreerde I / O (8 rijstroken elk van PCIe Gen3 en 6 Gbps SATA en twee 10 Gbps Ethernet-poorten); een Cortex A5 "systeemcontroleprocessor" voor veilig opstarten; en een versneller voor het versnellen van codering en decodering. Het wordt vervaardigd volgens het 28nm-proces van GlobalFoundries. AMD heeft nog geen details gegeven over de frequentie, het vermogen of de prestaties van de chip, maar liet wel een basisschema van de chip zien. (bovenstaande)
Applied Micro claimt al lang de eerste ARM-serverchip op de markt te hebben, met zijn X-Gene 1 (bekend als Storm) met 8 2, 4 GHz gepatenteerde ARMv8-cores, vier DDR3-geheugencontrollers, PCIe Gen3 en 6 Gbps SATA en 10 Gbps Ethernet. Dit is momenteel in productie volgens het 40nm-proces van TSMC, zegt het bedrijf.
Bij Hot Chips heeft Applied Micro zijn X-Gene 2 (Shadowcat) ontwerp gepusht, dat beschikbaar zal zijn met acht of 16 "verbeterde" kernen, met snelheden van 2, 4 tot 2, 8 GHz, en voegt een RoCE (RDMA via Converged Ethernet) host toe Kanaaladapter als een interconnect ontworpen om verbindingen met lage latentie tussen clusters van microservers mogelijk te maken. Dit is ontworpen om te worden gebruikt in clusters, met een enkel serverrack dat maximaal 6.480 threads en 50 TB geheugen ondersteunt, die allemaal een enkele opslagpool delen. Het bedrijf zegt dat de X-Gene 2 ongeveer 60 procent betere integerprestaties zal bieden, twee keer de prestaties op Memcache en ongeveer 25 procent betere Apache Web-bediening. Het wordt vervaardigd volgens een 28 nm-proces en bemonstert momenteel.
Applied Micro zegt dat de X-Gene 2 een gat opvult tussen concurrerende microservers (Cavium ThunderX, Intel Atom C2000 "Avoton" en AMD Opteron A1100 "Seattle") en full-size Xeon-servers. Het gaf enkele details over de volgende generatie, de X-Gene 3 (Skylark), die naar verwachting volgend jaar begint met samplen. Deze chip heeft 16 ARMv8-kernen met een snelheid tot 3 GHz en wordt vervaardigd met behulp van 16nm FinFet-technologie.