Huis Bedrijf 7 Tips voor succes bij machine learning

7 Tips voor succes bij machine learning

Inhoudsopgave:

Video: The 7 steps of machine learning (November 2024)

Video: The 7 steps of machine learning (November 2024)
Anonim

In het eerste deel van onze Business Guide to Machine Learning (ML) werd uiteengezet hoe het overkoepelende concept van ML in een zakelijke omgeving veel genuanceerder is. De meest effectieve strategieën kijken naar ML in een praktische zin, waarbij zowel complexe diep leren als minder intensieve "goedkope leer" technieken worden gebruikt om bedrijfsprocessen te optimaliseren en tastbare business intelligence (BI) inzichten te verkrijgen.

Het doel van het inzetten van ML in uw bedrijfstoepassingen is het verbeteren van uw bedrijfsresultaten of het vergroten van het concurrentievoordeel van uw bedrijf. Maar in het grotere schema van uw organisatie gaat het benutten van de tijd en middelen die u in dit proces investeert veel verder dan de algoritmen. De IT-besluitvormers in uw bedrijf moeten ervoor zorgen dat alles dat rekening houdt met uw ML-impact - van de gegevens en logistiek tot hoe u met gebruikers omgaat - samenwerkt om de effectiviteit te maximaliseren.

Ted Dunning, Ph.D., is de Chief Application Architect bij MapR, een bedrijf voor softwarebedrijven dat verschillende Big Data-distributies en datamanagementtools aanbiedt. Dunning is ook co-auteur van twee boeken over wat hij "Practical Machine Learning" noemt en ontwikkelde ML-technologieën voor een aantal bedrijven door de jaren heen, waaronder het ID Analytics-fraudedetectiesysteem (gekocht door LifeLock) en de Musicmatch Jukebox-software, die later Yahoo Music werd. Hij is momenteel ook vice-president van Incubation voor de Apache Software Foundation.

Dunning heeft de ML-ruimte de afgelopen decennia zien evolueren en heeft veel geleerd over wat werkt en wat niet in een praktische zakelijke omgeving. Hieronder legt Dunning zeven best practices uit die moeten worden gevolgd bij het ontwikkelen van bedrijfsoplossingen die zijn geworteld in ML.

1. Vergeet logistiek niet

Succesvolle ML gaat niet alleen over het kiezen van de juiste tool of het juiste algoritme. Dunning zei dat je ook moet uitzoeken welke aanpak een goede pasvorm is en deze moet ontwerpen voor de specifieke situatie die je aanpakt. Dunning sprak bijvoorbeeld over ML in een online marketingcampagne in tegenstelling tot veel gecompliceerdere scenario's zoals algoritmen die een autonome auto begeleiden. Het uitgeven van uw middelen voor een incrementele verbetering van het algoritme is de moeite waard voor de auto, maar in het marketingscenario ziet u een veel beter rendement van het optimaliseren van alle logistiek eromheen.

"Vaak, voor bedrijven, is het de logistiek, niet het leren, dat u de waarde geeft. Dat is het deel waar u uw tijd en middelen aan moet besteden, " zei Dunning. "Het aanpassen van het algoritme zou je een kleine verbetering geven. Maar het aanpassen van die gegevens, de GUI, en hoe je luistert naar en met je gebruikers omgaat, kan je gemakkelijk een 100 procent verbetering geven. Tijd besteden aan het aanpassen van het algoritme is een fractie waard als zowel voor bedrijven als voor uw gebruikers."

Om dit punt te illustreren, legde Dunning uit hoe hij ooit een model bouwde voor het identificeren van toepassingsfraude (nepaccounts openen met gestolen identiteiten) in de klantendatabase van een bedrijf. Het model dat hij bouwde, behaalde geweldige resultaten, maar Dunning merkte dat het het geslacht van de aanvrager erg zwaar woog.

Het bleek dat de logistiek was uitgeschakeld. Hoe het sollicitatieproces werkte, vulde de aanvrager alleen zijn geslacht in nadat hij al klant was geworden en een aantal screeningstappen had doorlopen om fraudeurs uit te filteren. Dus door het genderveld te gebruiken, bedroog het ML-model de logistiek van het hele fraudeproces. Dat heeft niets met het algoritme te maken en alles met de manier waarop het bedrijf zijn gegevens in de eerste plaats kreeg.

2. Let op uw gegevens

Dunning zit vol met pakkende wijsheid. Na te zijn begonnen met 'het is de logistiek, niet het leren', zei hij dat de andere helft van dat idee is: 'het zijn de gegevens, niet de algoritmen'. Een groot deel van het verzekeren dat uw ML-algoritmen waardevolle inzichten opleveren, is ervoor zorgen dat u ze de juiste gegevens geeft. Dunning zei, als u niet het resultaat krijgt waarnaar u op zoek bent, dan is het vaker wel dan niet omdat u niet de juiste gegevens gebruikt.

"Mensen raken helemaal in de war en zijn ego gebonden aan bepaalde algoritmen, maar tegenwoordig, vanwege de tools die er zijn, kunnen iedereen en hun moeder allerlei nieuwe algoritmen bedenken, " zei Dunning. "De gegevens zijn veel belangrijker en zullen je veel meer lift geven dan eindeloos je algoritmen tweaken. Als je werkt aan een hard probleem zoals spraakherkenning of computer vision, dat is één ding. Maar dit is een gegevensgestuurd veld. In de meeste scenario's profiteert u veel meer van het aanpassen van de gegevens die u krijgt en het wijzigen van de vraag."

Dat is wat Dunning halverwege de jaren 2000 deed bij het bouwen van een video-aanbevelingsengine bij een bedrijf genaamd Veoh Networks. Het team was bezig met het identificeren van paren door gebruikers gegenereerde video's waarop mensen meer klikten dan verwacht, maar het algoritme werkte niet. Ze dachten in termen van muziek, waarbij gebruikers hun favoriete artiesten en liedjes bij naam kennen. Dus veranderden ze de vraag door de gebruikersinterface aan te passen zonder het algoritme zelf aan te raken.

"In door gebruikers gegenereerde video's weet niemand dat de artiesten en veel video's echt spam-titels hadden om meer weergaven te krijgen. Fietsen op algoritme tweaks zou ons nooit goede resultaten hebben opgeleverd, " zei Dunning. "Wat we deden, was de gebruikersinterface veranderen om elke 10 seconden een bakensignaal uit te zenden. We ontdekten dat als we het baken in plaats van klikken gebruikten voor de onbewerkte gegevens van de aanbeveling, we geweldige resultaten hadden. De lift voor deze ene wijziging was verschillende honderd procent verbetering in betrokkenheid dankzij aanbevelingen, zonder algoritmische wijzigingen."

3. Algoritmen zijn geen magische kogels

ML-implementaties gedijen op voortdurende vallen en opstaan. Hoe goed uw algoritmen ook zijn, als uw systeem met mensen communiceert, moet het na verloop van tijd worden aangepast. Dunning benadrukte dat bedrijven constant de algehele effectiviteit van hun implementatie moeten meten en de veranderingen en variabelen moeten identificeren die het beter en slechter maken. Dit klinkt misschien als een gemeenplaats, maar Dunning zei, ondanks hoe duidelijk het klinkt, heel weinig mensen doen dit of doen het goed.

"Veel mensen willen een systeem inzetten of actie ondernemen, en ze willen dat hun algoritme voor altijd perfect werkt", zegt Dunning. "Geen algoritme wordt een magische kogel. Geen ontwerp van een gebruikersinterface zal voor altijd blijven hangen. Geen methode voor gegevensverzameling zal nooit worden vervangen. Dit alles kan en zal gebeuren en bedrijven moeten waakzaam meten, evalueren en opnieuw evalueren hoe hun systeem werkt."

4. Gebruik een gevarieerde toolset

Er zijn tientallen ML-tools beschikbaar, waarvan u er veel gratis kunt gebruiken. Je hebt populaire open-source frameworks-bibliotheken zoals Caffe, H20, Shogun, TensorFlow en Torch, en ML-bibliotheken in een aantal Apache Software Foundation (ASF) -projecten, waaronder Mahout, Singa en Spark. Dan zijn er op abonnement gebaseerde opties, waaronder Amazon Machine Learning, BigML en Microsoft Azure Machine Learning Studio. Microsoft heeft ook een gratis Cognitieve Toolkit.

Er zijn talloze bronnen beschikbaar. Dunning heeft met tal van bedrijven, datawetenschappers en ML-beoefenaars gesproken en vraagt ​​hen altijd hoeveel verschillende frameworks en tools ze gebruiken. Gemiddeld zei Dunning dat de meesten zeiden dat ze minimaal 5-7 tools gebruiken en vaak veel meer.

"Je kunt niet aan één tool vastzitten. Je zult er meerdere moeten gebruiken, en als zodanig kun je je systeem beter zo bouwen dat het agnostisch is, " zei Dunning. "Iedereen die u probeert te overtuigen dat deze tool de enige is die u ooit nodig zult hebben, verkoopt u een stuk goederen.

"Er kan volgende week iets gebeuren dat de appelkar van streek maakt, en met de snelheid van innovatie die we zien, die tenminste nog vijf tot tien jaar zal blijven gebeuren, " vervolgde Dunning. "Kijk naar een goedkoop leervoorbeeld waarbij je misschien een bestaande afbeeldingclassificator opnieuw gebruikt om foto's in een catalogus te analyseren. Dat is diep leren met computer vision erin gegooid. Maar er zijn tools die het allemaal hebben ingepakt. Je hebt nodig om te meten, evalueren en aarzelen tussen verschillende tools, en uw infrastructuur moet dat verwelkomen."

5. Experimenteer met hybride leren

Dunning zei dat je ook goedkoop en diep leren kunt combineren tot iets van een hybride. Als u bijvoorbeeld een bestaand computervisiemodel neemt en de bovenste paar lagen opnieuw opbouwt waar een beslissing wordt genomen, kunt u een bestaand raamwerk coöpteren voor een geheel nieuwe use case. Dunning wees op een Kaggle-wedstrijd waarin deelnemers precies dat deden; ze namen een dataset en schreven er een nieuw algoritme bovenop om een ​​computer te helpen katten van honden te onderscheiden.

"Het onderscheiden van katten en honden is heel subtiel voor een ML-algoritme. Denk aan de logica: katten hebben puntige oren, maar Duitse herders ook. Honden hebben geen vlekken, behalve Dalmatiërs, enz. Dat kan behoorlijk moeilijk te herkennen zijn op zichzelf, "zei Dunning. "De man die won, ontwikkelde een systeem dat dit deed met een nauwkeurigheid van 99 procent. Maar ik was meer onder de indruk van de derde persoon. In plaats van helemaal opnieuw te bouwen, nam hij een bestaand programma voor beeldherkenning van een andere taak, nam de bovenste laag, en stopte daar een eenvoudige classificator in. Hij gaf het enkele voorbeelden, en al snel was het 98 procent nauwkeurig in het onderscheiden van katten van honden. Het hele proces duurde drie uur voor de man."

6. Goedkoop betekent niet slecht

Ondanks de openlijke connotatie zei Dunning dat goedkoop leren niet slecht leren betekent. De hoeveelheid tijd die u aan een ML-implementatie besteedt, is niet direct gecorreleerd met de bedrijfswaarde. De belangrijkste kwaliteit, zei hij, is ervoor te zorgen dat het proces herhaalbaar en betrouwbaar is. Als het bedrijf dat kan bereiken zonder een onnodige hoeveelheid middelen te investeren, dan is dat des te beter.

"Goedkoop betekent niet slecht. Als het werkt, werkt het. Als het goedkoop is en het werkt, dat is groots. Maar de moeite die je doet om het te bouwen, definieert de waarde niet. Dat is een misvatting van de kosten, " zei Dunning. "Wat de waarde definieert, is hoe het de business verbetert. Als het de winst verbetert of de kosten verlaagt of uw concurrentiesituatie verbetert. Het is het effect, niet de moeite."

7. Noem het geen AI

Dunning benadrukte dat bedrijven, wanneer ze over deze technieken praten, de exacte terminologie moeten gebruiken: ML, computer vision of deep learning. Dit valt allemaal onder de overkoepelende term 'kunstmatige intelligentie', maar volgens Dunning is de definitie van AI gewoon 'dingen die nog niet werken'.

"De beste definitie die ik ooit voor AI heb gehoord, is dat het de dingen zijn die we nog niet kunnen verklaren. De dingen die we nog niet hebben uitgezocht, " zei Dunning. "Elke keer als we iets krijgen om te werken, zeggen mensen:" Oh, dat is geen AI, het is alleen software. Het is gewoon een regelmotor. Het is eigenlijk gewoon logistieke regressie. " Voordat we iets bedenken, noemen we het AI. Daarna noemen we het altijd iets anders. In veel opzichten wordt AI beter gebruikt als een woord voor de volgende grens, en in AI zal er altijd een volgende grens zijn. AI is waar we naartoe gaan, niet waar we al zijn gekomen."

7 Tips voor succes bij machine learning