YouTube weet welke video je daarna wilt zien. Je spamfilter herkent nep-e-mails zonder dat jij ze hoeft te beoordelen. Een zelfrijdende auto leert hoe hij veilig rijdt zonder dat iemand hem dat stap voor stap heeft uitgelegd. Achter al deze toepassingen zit dezelfde technologie: machine learning.
Maar wat is machine learning precies, hoe verschilt het van AI en deep learning, en hoe werkt het in de praktijk? In dit artikel lees je precies wat Machine Learning is en wat het inhoudt.
Wat is machine learning?
Machine learning is een deelgebied van kunstmatige intelligentie waarbij systemen leren van data, zonder dat een programmeur alle regels handmatig hoeft in te programmeren. Het systeem herkent patronen in trainingsdata en gebruikt die patronen om voorspellingen te doen over nieuwe data.
Het kernidee: als je een model traint op een dataset die goed genoeg lijkt op de echte wereld, kan dat model accurate voorspellingen doen op situaties die het nog nooit heeft gezien. Het toepassen van dat getrainde model in de praktijk heet AI-inferentie.
Wat is het verschil tussen AI, machine learning en deep learning?
Deze drie termen worden veel door elkaar gebruikt, maar ze vormen een duidelijke hiërarchie.
- Kunstmatige intelligentie is de overkoepelende term voor systemen die taken uitvoeren die normaal menselijke intelligentie vereisen.
- Machine learning is een deelgebied van AI. Systemen leren hier van data en maken beslissingen zonder expliciete, hardgecodeerde instructies.
- Deep learning is een deelgebied van machine learning. Het gebruikt neurale netwerken met veel lagen om complexe patronen te herkennen.
Simpel gezegd: deep learning zit binnen machine learning, dat weer binnen AI zit. Volgens IBM is dit onderscheid cruciaal om te begrijpen waarom sommige AI-toepassingen veel meer data en rekenkracht vereisen dan andere.
De drie manieren waarop machines leren
De meeste machine learning valt binnen drie leermethoden. Elke methode heeft een andere aanpak en werkt voor andere soorten problemen.
1. Supervised learning
Bij supervised learning leert een model van gelabelde voorbeelden. Een mens levert de correcte antwoorden, het model leert de patronen erachter.
Een klassiek voorbeeld is een spamfilter. Je voert duizenden e-mails in die zijn gelabeld als "spam" of "geen spam". Het model leert welke kenmerken samenhangen met spam en past die kennis toe op nieuwe e-mails.
Binnen supervised learning zijn er twee hoofdtypen:
- Regressie voorspelt continue getallen, zoals huizenprijzen of de temperatuur van morgen.
- Classificatie voorspelt categorieën. Denk aan fraude of legitiem, of het toewijzen van meerdere tags tegelijk aan één afbeelding. Moderne supervised learning combineert vaak meerdere modellen via ensemble methods voor betere nauwkeurigheid.
2. Unsupervised learning
Bij unsupervised learning zijn er geen gelabelde antwoorden. Het model ontdekt zelf structuur in de data.
Clustering groepeert vergelijkbare items. Met k-means clustering deel je bijvoorbeeld klanten in vier segmenten in: koopjesjagers, trouwe kopers, grote spenders en browsers. Zo kun je gerichte aanbiedingen doen per groep.
Hiërarchische clustering werkt als een boom. Je begint met elk item apart en voegt de meest vergelijkbare groepen stap voor stap samen. Een IT-afdeling kan zo supporttickets automatisch groeperen op thema, zoals wachtwoord reset of laptop werkt niet, om ze direct naar de juiste afdeling door te sturen.
Dimensionaliteitsreductie vereenvoudigt data door het terug te brengen naar minder kenmerken, zonder de belangrijkste informatie te verliezen. Dit wordt gebruikt voor datacompressie en visualisatie. Bekende methoden zijn Principal Component Analysis (PCA) en autoencoders.
3. Reinforcement learning
Bij reinforcement learning leert een agent door te doen. Het observeert zijn omgeving, kiest een actie en ontvangt een beloning of straf. Over tijd leert het een strategie die de langetermijnbeloning maximaliseert.
Een zelfrijdende auto is het meest herkenbare voorbeeld. De auto krijgt input van GPS, camera's en sensoren. Hij beloont zichzelf voor veilig rijgedrag zoals in de rijstrook blijven. Hij straft zichzelf voor hard remmen en krijgt de zwaarste straf voor botsingen. Door miljoenen van deze interacties leert het model hoe het veilig en soepel rijdt.
Er is ook nog een tussenvorm: semi-supervised learning. Dat combineert een kleine gelabelde dataset met een grote ongelabelde pool. Je hebt zo veel minder kostbare gelabelde data nodig, terwijl de kwaliteit van het model vergelijkbaar blijft.
De beperkingen en risico's van machine learning
Machine learning is krachtig, maar niet onfeilbaar. Er zijn een aantal fundamentele beperkingen waar je rekening mee moet houden voordat je blindelings vertrouwt op de uitkomsten van een model.
Bias in trainingsdata
Een model is nooit beter dan de data waarop het is getraind. Als die data eenzijdig of onvolledig is, neemt het model die vooroordelen over en versterkt ze zelfs. Een bekend voorbeeld: een Amazon recruitmenttool die vrouwelijke kandidaten systematisch lager beoordeelde, omdat het model was getraind op historische sollicitatiedata die overwegend van mannen afkomstig was. Amazon trok de tool uiteindelijk terug.
Volgens een onderzoek van het MIT Media Lab maken gezichtsherkenningssystemen beduidend meer fouten bij vrouwen met een donkere huidskleur dan bij blanke mannen, puur omdat de trainingsdata niet representatief was.
Overfitting
Een model kan zo goed worden aangepast aan de trainingsdata dat het de onderliggende patronen niet meer generaliseert. Het onthoudt de data als het ware uit zijn hoofd. In de praktijk presteert zo'n model dan slecht op nieuwe, ongeziene data. Dit is een van de meest voorkomende problemen bij het bouwen van machine learning modellen.
Het black box probleem
Veel machine learning modellen, en zeker deep learning modellen, zijn moeilijk te interpreteren. Je weet wat de input is en wat de output is, maar niet waarom het model die specifieke beslissing heeft genomen. Dat is problematisch in sectoren zoals gezondheidszorg of rechtspraak, waar je beslissingen moet kunnen uitleggen en verantwoorden.
Data en rekenkracht
Machine learning vereist grote hoeveelheden data en aanzienlijke rekenkracht. Voor kleine bedrijven of ontwikkelingslanden is dat een serieuze drempel. Bovendien heeft het trainen van grote modellen een aanzienlijke ecologische voetafdruk door het hoge energieverbruik.
Waar zie je machine learning in de praktijk?
Machine learning zit verwerkt in producten en diensten die je dagelijks gebruikt:
- YouTube en Netflix gebruiken clustering en supervised learning om te voorspellen welke content je wilt zien
- Spamfilters gebruiken classificatie om e-mails te beoordelen op duizenden kenmerken tegelijk
- Banken gebruiken anomaly detection om frauduleuze transacties te signaleren
- Zelfrijdende auto's gebruiken reinforcement learning om veilig rijgedrag te leren
- Chatbots en taalmodellen zijn gebouwd op dezelfde ML-principes, maar dan op enorme schaal
Volgens McKinsey Global Institute gebruiken bedrijven machine learning inmiddels breed in sectoren zoals financiën, gezondheidszorg en retail. De grootste waarde zit in het automatiseren van repetitieve taken en het verbeteren van voorspellingen.
Conclusie
Machine learning is de motor achter vrijwel alle moderne AI-toepassingen. De principes zijn al jaren oud, maar de toepassingen worden steeds krachtiger naarmate er meer data beschikbaar is en rekenkracht goedkoper wordt. Wie begrijpt hoe machine learning werkt, begrijpt ook waarom AI doet wat het doet en waar de grenzen liggen. En die kennis wordt alleen maar waardevoller naarmate AI een grotere rol speelt in hoe we werken en leven.
Veelgestelde vragen
Is machine learning hetzelfde als AI?
Nee. Machine learning is een deelgebied van AI. AI is de overkoepelende term, machine learning is de specifieke aanpak waarbij systemen leren van data zonder expliciete programmering.
Wat is het verschil tussen machine learning en deep learning?
Deep learning is een deelgebied van machine learning dat gebruikmaakt van neurale netwerken met veel lagen. Alle deep learning is machine learning, maar niet alle machine learning is deep learning.
Heb je veel data nodig voor machine learning?
Dat hangt af van de methode. Supervised learning vereist doorgaans grote hoeveelheden gelabelde data. Semi-supervised learning is ontwikkeld om dit te omzeilen door gelabelde en ongelabelde data te combineren.
Wat is het verschil tussen model training en AI-inferentie?
Model training is het proces waarbij een model leert van data. AI-inferentie is het toepassen van dat getrainde model op nieuwe data om voorspellingen te doen. Training gebeurt eenmalig of periodiek, inferentie gebeurt continu in de praktijk.
Wat is RLHF?
RLHF staat voor Reinforcement Learning with Human Feedback. Menselijke beoordelaars geven beloningen en straffen op de output van een AI-model om het gedrag te verfijnen. Het wordt gebruikt om grote taalmodellen zoals ChatGPT veiliger en nuttiger te maken.
