Huis Bedrijf Ai-databases: wat ze zijn en waarom uw bedrijf erom zou moeten geven

Ai-databases: wat ze zijn en waarom uw bedrijf erom zou moeten geven

Inhoudsopgave:

Video: Rapportages met Microsoft Power BI (November 2024)

Video: Rapportages met Microsoft Power BI (November 2024)
Anonim

Data en business intelligence (BI) zijn twee kanten van dezelfde medaille. Verbeteringen in opslag, verwerking en analyse hebben gedemocratiseerde gegevens tot het punt waarop u geen databaseprofessional of gegevenswetenschapper hoeft te zijn om met enorme gegevenssets te werken en inzichten te verkrijgen. Er is nog steeds een leercurve, maar self-service BI en datavisualisatiehulpmiddelen herdefiniëren de manier waarop bedrijven alle gegevens benutten die ze verzamelen voor bruikbare analyses. Er is echter een verschil tussen een BI- of databasebedrijf met geavanceerde analyses en een kunstmatige intelligentie (AI) -database die speciaal is gebouwd voor training machine learning (ML) en deep learning-modellen.

ML-algoritmen zijn verweven in de structuur van veel van de hedendaagse software. Ervaringen van consumenten smelten samen met AI via virtuele assistenten en in bedrijfssoftware zijn er voorbeelden zoals Salesforce Einstein die fungeren als een intelligente laag onder de gehele CRM-portfolio (Customer Relationship Management) van het bedrijf. Technologiereuzen, waaronder Google en Microsoft, duwen onze intelligente toekomst nog verder, niet alleen met onderzoek, maar ook door te herschrijven hoe hun technologie vanaf de basis werkt met AI.

Een van de uitdagingen met trainingsmachines en diepgaande leermodellen is het enorme datavolume en de verwerkingskracht die u nodig hebt om een ​​neuraal netwerk te trainen, bijvoorbeeld over complexe patroonherkenning op gebieden zoals beeldclassificatie of natuurlijke taalverwerking (NLP). Daarom beginnen AI-databases in de markt op te duiken als een manier om het AI-leer- en trainingsproces voor bedrijven te optimaliseren. We spraken met GPU-versnelde relationele databaseprovider Kinetica, die een eigen AI-database heeft gebouwd, en PCMag's residente BI- en database-expert Pam Baker om te demystificeren wat een AI-database is en hoe deze werkt in vergelijking met traditionele databases. Wat nog belangrijker is, we vroegen om hun hulp om de hype en marketing te doorbreken om te bepalen of deze opkomende technologie al dan niet echte zakelijke waarde heeft.

Wat zijn AI-databases?

De snel veranderende aard van de AI-ruimte kan het moeilijk maken om terminologie vast te stellen. Je hoort vaak termen als ML, diep leren en AI door elkaar gebruikt, terwijl ze in feite nog steeds technieken ontwikkelen onder de grotere paraplu van AI. Als zodanig zei Baker dat er twee heel verschillende definities zijn van wat een AI-database is, afhankelijk van met wie je praat: de ene praktische en de andere meer pie-in-the-sky.

"Er is een soort losse consensus in de industrie dat een AI-database er een zou zijn die volledig zou werken zonder vragen in de natuurlijke taal. De gebruikersinterface zou zodanig zijn dat je niet zou moeten vertrouwen op zoektermen en sleutelzinnen om de informatie die u nodig heeft, zodat de gebruiker datasets kan oproepen met NLP ", aldus Baker. "Je zou een zeer beperkt argument kunnen maken dat IBM Watson vragen in de natuurlijke taal aan het systeem kan stellen, maar je moet al verbonden zijn met de gegevens en zelf de gegevens kiezen. Dus op dit moment is die definitie een stuk."

De meer praktische definitie, en het onderwerp van deze uitleg, maakt in wezen gebruik van een speciaal gebouwde database om de training van ML-modellen te versnellen. Een aantal technologiebedrijven ontwikkelt al speciale AI-chips om de zware verwerkingsbelasting in nieuwe hardwareproducten te verlichten naarmate leveranciers meer op AI gebaseerde functies uitrollen die veel rekenkracht vereisen. Aan de gegevenszijde kan het gebruik van een AI-database u helpen om het volume, de snelheid en complexe uitdagingen op het gebied van gegevensbeheer en -beheer die verband houden met training ML en diepgaande leermodellen beter te wringen om tijd te besparen en middelen te optimaliseren.

Afbeelding tegoed: Todd Jaquith op Futurism.com. Klik om de volledige infographic uit te vouwen

"Op dit moment zijn er veel inspanningen om ML-training te versnellen via verschillende tactieken, " legde Baker uit. "Een daarvan is om de infrastructuur te scheiden van de AI-onderzoekers die de codering uitvoeren, zodat geautomatiseerde functies de infrastructuur afhandelen en het ML-model trainen. Dus in plaats van ongeveer drie maanden te besteden, kijkt u misschien 30 dagen of 30 minuten."

Kinetica breekt dat idee op in een geïntegreerd databaseplatform dat is geoptimaliseerd voor ML en deep learning-modellering. De AI-database combineert data warehousing, geavanceerde analyses en visualisaties in een in-memory database. Mate Radalj, Vice President en Principal Software Engineer van Kinetica's Advanced Technology Group, legde uit dat een AI-database simultaan snel bewegende, complexe gegevens binnen milliseconden zou moeten kunnen opnemen, onderzoeken, analyseren en visualiseren. Het doel is om de kosten te verlagen, nieuwe inkomsten te genereren en ML-modellen te integreren, zodat bedrijven efficiëntere, gegevensgestuurde beslissingen kunnen nemen.

"Een AI-database is een subset van een algemene database", aldus Radalj. "Op dit moment zijn AI-databases erg populair. Maar veel oplossingen maken gebruik van gedistribueerde componenten. Spark, MapReduce en HDFS draaien altijd heen en weer in plaats van in het geheugen. Ze hebben niet de samenvloeiing van factoren zoals onze database, die is vanaf de grond opgebouwd met nauw geïntegreerde CPU's en GPU's op één platform. Het grote voordeel voor ons is snellere levering en een lagere hardware-voetafdruk van modelgebaseerde training, met een snelle doorlooptijd en analyses geïntegreerd in hetzelfde platform."

Hoe een AI-database werkt

Er zijn een aantal voorbeelden van AI-databases in de praktijk. Microsoft Batch AI biedt cloud-gebaseerde infrastructuur voor het trainen van deep learning en ML-modellen die worden uitgevoerd op Microsoft Azure GPU's. Het bedrijf heeft ook zijn Azure Data Lake-product om het voor bedrijven en datawetenschappers gemakkelijker te maken om gegevens te verwerken en analyseren in een gedistribueerde architectuur.

Een ander voorbeeld is de AutoML-benadering van Google, die de manier waarop ML-modellen worden getraind fundamenteel opnieuw ontwikkelt. Google AutoML automatiseert het ML-modelontwerp om nieuwe neurale netwerkarchitecturen te genereren op basis van bepaalde gegevenssets en vervolgens duizenden keren te testen en te herhalen om betere systemen te coderen. De AI van Google kan nu zelfs betere modellen maken dan menselijke onderzoekers.

"Kijk naar Google AutoML: ML die ML-code schrijft zodat je niet eens mensen nodig hebt, " zei Baker. "Dit geeft je een idee van wat een extreem verschil is in wat leveranciers doen. Sommigen proberen geavanceerde analyses door te geven als ML - en dat is het niet. En anderen doen ML op zo'n geavanceerd niveau dat verder gaat dan de meeste bedrijven kunnen het nu begrijpen."

Dan is er Kinetica. De in San Francisco gevestigde startup, die $ 63 miljoen aan risicokapitaal (VC) heeft opgehaald, biedt een krachtige SQL-database die is geoptimaliseerd voor snelle gegevensopname en -analyse. Kinetica is wat Radalj omschreef als een massaal parallelle verwerking (MPP) gedistribueerde database en computerplatform waarin elk knooppunt co-locatiegegevens in het geheugen, CPU en GPU bevat.

Wat een AI-database anders maakt dan een traditionele database, legt Radalj uit, komt neer op drie kernelementen:

  • Versnelde data-inname,
  • Co-lokaliteit van gegevens in het geheugen (parallelle verwerking over databaseknooppunten), en
  • Een gemeenschappelijk platform voor gegevenswetenschappers, software-ingenieurs en databasebeheerders om modellen sneller te itereren en te testen en de resultaten rechtstreeks op analyses toe te passen.

Voor alle niet-database- en AI-modeltrainingsexperts die dit lezen, heeft Radalj elk van deze drie kernelementen opgesplitst en uitgelegd hoe de AI-database verband houdt met tastbare bedrijfswaarde. Gegevensbeschikbaarheid en data-inname zijn cruciaal, zei hij, omdat bedrijven dankzij de mogelijkheid om realtime streaminggegevens te verwerken, snel actie kunnen ondernemen op basis van AI-gebaseerde inzichten.

"We hebben een retailklant die elke vijf minuten de verkooptarieven per winkel wilde volgen, " zei Radalj. "We wilden AI gebruiken om op basis van de laatste paar uur aan historische gegevens te voorspellen of ze de voorraad moeten aanvullen en dat proces moeten optimaliseren. Maar om die machinegestuurde voorraadaanvulling te doen, moeten 600-1200 query's per seconde worden ondersteund. We zijn een SQL-database en een AI-database, dus we kunnen met die snelheid gegevens opnemen. Wij die aan die zakelijke missie voldeden, resulteerden in een applicatie die meer ROI genereerde."

Baker was het ermee eens dat ML een enorme hoeveelheid gegevens vereist, dus het snel innemen ervan zou heel belangrijk zijn voor een AI-database. De tweede factor, het concept van "co-locality of in-memory data", vraagt ​​wat meer uitleg. Een in-memory database slaat gegevens op in het hoofdgeheugen in plaats van in afzonderlijke schijfopslag. Hiermee worden query's sneller verwerkt, met name in analyses en BI-databases. Door co-locality legde Radalj uit dat Kinetica CPU- en GPU-rekenknooppunten niet scheidt van opslagknooppunten.

Als gevolg hiervan ondersteunt de AI-database parallelle verwerking - die het vermogen van het menselijk brein nabootst om meerdere stimuli te verwerken - en tegelijkertijd verspreid blijft over een schaalbare database-infrastructuur. Dit voorkomt de grotere hardware-footprint, als gevolg van wat Radalj "dataverzending" noemde of de noodzaak om gegevens heen en weer te sturen tussen verschillende databasecomponenten.

"Sommige oplossingen maken gebruik van een orkestrator zoals IBM Symphony om werk te plannen voor verschillende componenten, terwijl Kinetica de nadruk legt op functionele verzending ten opzichte van co-locatiemiddelen, met geavanceerde optimalisatie om gegevensverzending te minimaliseren, " zei Radalj. "Die co-lokaliteit leent zich voor superieure prestaties en doorvoer, vooral voor zeer gelijktijdige zware query's op grote datasets."

Wat de daadwerkelijke databasehardware betreft, werkt Kinetica samen met Nvidia, dat een groeiende reeks AI GPU's heeft en mogelijkheden met Intel onderzoekt. Radalj zei ook dat het bedrijf de opkomende AI-hardware en cloud-gebaseerde infrastructuur zoals Google's Tensor Processing Units (TPU's) in de gaten houdt.

Eindelijk is er het idee van een uniform modeltrainingsproces. Een AI-database is alleen effectief als die voordelen van snellere opname en verwerking grotere, bedrijfsgerichte doelen dienen voor de ML en diepgaande leerinspanningen van een bedrijf. Radalj verwijst naar de AI-database van Kinetica als een "model pipeline platform" dat data-science-driven modelhosting uitvoert.

Dit alles leent zich voor snellere testen en iteratie om nauwkeurigere ML-modellen te ontwikkelen. Op dit punt zei Baker dat samenwerking op een uniforme manier alle ingenieurs en onderzoekers die werken aan het trainen van een ML- of diep leermodel sneller kan laten itereren door het combineren van wat werkt, in tegenstelling tot het continu opnieuw uitvinden van alle stappen in het trainingsproces. Radalj zei dat het doel is om een ​​workflow te creëren waarin de snellere batch-inname, streaming en query's modelresultaten genereren die onmiddellijk kunnen worden toegepast op BI.

"Gegevenswetenschappers, software-ingenieurs en databasebeheerders hebben één platform waar werk netjes kan worden afgebakend op gegevenswetenschap zelf, het schrijven van softwareprogramma's en SQL-datamodellen en -query's", aldus Radalj. "Mensen werken schoner samen in die verschillende domeinen als het een gemeenschappelijk platform is. Het doel vaker dan niet met het uitvoeren van ML en diep leren is dat je de resultaten daarvan - de co-efficiënties en variabelen - wilt gebruiken in combinatie met analyse en gebruik de uitvoer voor dingen als scoren of om iets nuttigs te voorspellen."

Hype of realiteit?

De bottom line waarde van een AI-database, althans zoals Kinetica deze definieert, ligt in het optimaliseren van reken- en databasebronnen. Hiermee kunt u op hun beurt betere ML- en diepgaande leermodellen maken, deze sneller en efficiënter trainen en een doorgaande lijn behouden hoe die AI op uw bedrijf wordt toegepast.

Radalj gaf het voorbeeld van een fleetmanagement- of vrachtwagenbedrijf. In dit geval kan een AI-database enorme stromen realtime-informatie van een voertuigenpark verwerken. Door vervolgens die geospatiale gegevens te modelleren en te combineren met analyses, kon de database vrachtwagens dynamisch omleiden en routes optimaliseren.

"Het is gemakkelijker om snel in te richten, een prototype te maken en te testen. Het woord 'modelleren' wordt in AI gebruikt, maar het draait allemaal om het doorlopen van verschillende benaderingen - hoe meer gegevens, hoe beter - ze steeds opnieuw uitvoeren, testen, vergelijken en met de beste modellen, "zei Radalj. "Neurale netwerken hebben leven gekregen omdat er meer gegevens zijn dan ooit tevoren. En we leren er doorheen te rekenen."

Uiteindelijk zijn de co-locatiedatabase en het modelpijplijnplatform van Kinetica slechts één benadering in een ruimte die veel verschillende dingen kan betekenen, afhankelijk van wie u het vraagt. Baker zei dat de uitdaging voor de koper in een markt die nog steeds evolueert en experimenteel is om erachter te komen wat een AI-databaseleverancier pitcht.

"Als een bedrijfsconcept, diep leren, ML, en dat alles is een solide concept. We werken aan technische problemen die oplosbaar zijn, zelfs als we ze nog niet hebben opgelost, " zei Baker. "Dat wil niet zeggen dat dit een volwassen ruimte is, want dat is het absoluut niet. Ik zou zeggen 'koper, pas op' omdat iets dat als ML wordt geprompt wel of niet kan zijn. Het kan gewoon geavanceerde tuinanalyses zijn."

Of AI-databases nu allemaal een hype zijn of dat ze een belangrijke trend vertegenwoordigen voor waar de zaken naartoe gaan, zei Baker dat het een beetje van beide is. Ze zei dat Big Data als marketingterm nu uit de gratie is. Baker zei dat er nu enige marktconflatie is tussen geavanceerde, gegevensgestuurde analyses en echte ML- en deep learning-algoritmen. Of je het nu hebt over een database voor ML-modellering of over de zelfbewuste AI's die zijn bedacht door de popcultuur, het begint en eindigt met gegevens.

"Gegevens zullen in het bedrijfsleven worden gebruikt tot het einde van de tijd; het is net zo belangrijk om zaken te doen, " zei Baker. "Als je het hebt over science fiction, is AI een zelfverwerkte intelligentie. Dat is het moment waarop je begint te praten over singulariteiten en robots die de wereld overnemen. Ik weet het niet. Ik ga weg dat tegen Stephen Hawking."

Ai-databases: wat ze zijn en waarom uw bedrijf erom zou moeten geven