Huis Vooruit denken Hot chips: machine learning staat centraal

Hot chips: machine learning staat centraal

2024

Video: Fully Automatic Potato Chips Line - Economode (December 2024)

Het meest populaire onderwerp van tegenwoordig is computerleren, en dat is zeker zichtbaar aan de hardwarezijde. De afgelopen weken hebben we veel gehoord over nieuwe chips die zijn ontworpen voor diep leren, van Nvidia's Tesla P100 en Drive PX 2 tot Google's Tensor Processing Units tot Intel's Xeon Phi. Het is dus niet verwonderlijk dat we vorige week op de Hot Chips-conferentie van een aantal verschillende bedrijven hoorden met een aantal zeer verschillende benaderingen van ontwerpen op maat van machine learning en vision processing.

Misschien wel het grootste nieuws was de onthulling van Nvidia van meer detail op zijn Parker-chip, gebruikt in de Drive PX 2-module voor zelfrijdende auto's en gericht op diep leren voor autonome machines. Deze chip gebruikt twee op maat gemaakte ARM-compatibele CPU CPU-cores, vier ARM Cortex-A57 cores en 256 van wat Nvidia Pascal CUDA (grafische) termen noemt.

Nvidia zei dat dit de eerste chip was die werd ontworpen en beoordeeld voor gebruik in de auto, met speciale veerkrachtfuncties, en sprak over zijn hogere snelheid en geheugen, en merkte op dat de Denver-kern een aanzienlijke verbetering van de prestaties per watt biedt. Een van de nieuwe functies is hardware-ondersteunde virtualisatie, met maximaal 8 VMS om de integratie van autofuncties mogelijk te maken die traditioneel op afzonderlijke computers worden uitgevoerd. Over het algemeen zei het bedrijf dat het Drive PX 2-model twee van deze Parker-chips en twee discrete GPU's kan hebben, met een totale prestatie van 8 teraflops (dubbele precisie) of 24 deep learning-bewerkingen (8-bit of half-precisie). het bedrijf nam benchmarks op om het gunstig te vergelijken met de huidige mobiele verwerking met behulp van SpecInt_2000, een relatief oude benchmark. Maar de prestaties zien er indrukwekkend uit en Volvo heeft onlangs gezegd dat het het zal gebruiken om autonome voertuigen te testen vanaf volgend jaar.

Natuurlijk zijn er veel andere benaderingen.

Chinese startup DeePhi besprak een FPGA-gebaseerd platform voor neurale netwerken, met twee verschillende architecturen, afhankelijk van het soort netwerk. Aristoteles is ontworpen voor relatief kleine convolutionele neurale netwerken en gebaseerd op de Xilinx Zynq 7000, terwijl Descartes is ontworpen voor grotere recidiverende neurale netwerken met behulp van lang kortetermijngeheugen (RNN-LSTM), gebaseerd op de Kintex Ultrascale FPGA. DeePhi beweert dat zijn compiler en architectuur de ontwikkelingstijd hebben verkort in vergelijking met de meeste toepassingen van FPGA's en ook dat het gebruik van een FPGA betere prestaties kan leveren dan de Tegra K1- en K40-oplossingen van NVIDIA.

Een andere benadering is om een digitale signaalprocessor of DSP te gebruiken, die meestal een specifieke functie of een kleine reeks functies zeer snel uitvoert, met zeer weinig energie. Vaak zijn deze ingebed in andere, meer complexe chips om bepaalde functies te versnellen, zoals vision processing. Een aantal bedrijven, waaronder Movidius, CEVA en Cadence deelden hun oplossingen op Hot Chips.

Movidius toonde zijn op DSP gebaseerde oplossing die bekend staat als de Myriad 2 vision-verwerkingseenheid en had deze te zien in de DJI Phantom 4-drone. Het liet ook zien hoe de Myriad 2 beter presteert dan GPU's en het diepe neurale netwerk van GoogLeNet dat werd gebruikt in de ImageNet-wedstrijd van 2014.

CEVA promootte zijn CEVA-XM4 Vision DSP, specifiek afgestemd op vision-verwerking en gericht op de automotive-markt, samen met zijn CEVA Deep Neural Network 2-platform, waarvan het zei dat het alles kon nemen wat geschreven was voor de Caffe- of TensorFlow-frameworks en het optimaliseren voor gebruik op zijn DSP. De nieuwe processor zou volgend jaar in SoC's moeten zijn.

Ondertussen besprak Cadence, waarmee de Tensilica-familie van vision-processors (die kan worden ingebed in andere producten), zijn nieuwste versie, de Vision P6, die nieuwe functies heeft toegevoegd, zoals vector floating-point ondersteuning en andere functies voor convolutionele neurale netwerken. De eerste producten zouden binnenkort uit moeten komen.

Microsoft sprak over de details van de hardware voor zijn HoloLens-headset en zei dat het een 14nm Intel Atom Cherry Trail-processor met Windows 10 en een aangepaste Holographic Processing Unit (HPU 1.0) sensorhub gebruikte, vervaardigd door TSMC op een 28nm-proces. Dit omvat 24 Tensilica DSP-kernen.

Ik was vooral gecharmeerd door een van Cadence's slides die de verschillen in doorvoer en efficiëntie van GPU's, FPGA's en verschillende soorten DSP's toonden in termen van multiply-add-bewerkingen, een van de belangrijkste bouwstenen voor neurale netwerken. Hoewel het vanzelfsprekend is (zoals alle leverancierspresentaties zijn), wees het er wel op hoe de verschillende technieken variëren in termen van snelheid en efficiëntie (prestaties per watt), om nog maar te zwijgen van kosten en programmeergemak. Er zijn veel oplossingen voor verschillende benaderingen hier, en het zal interessant zijn om te zien hoe dit de komende jaren uitbarst.