• Home
  • /
  • ChatGPT Nieuws
  • /
  • Thomas Moerland: AI krijgt zintuigen — wat betekent het voor ChatGPT?
Thomas Moerland: AI krijgt zintuigen — wat betekent het voor ChatGPT? - AI Insider

Door Dave

januari 19, 2026

De Nederlandse AI-onderzoeker Thomas Moerland zet deze week de ontwikkeling van “AI met zintuigen” in de schijnwerpers. Steeds meer systemen van OpenAI en Google verwerken beeld, geluid en tekst tegelijk. Dat raakt Nederlandse zorg, onderwijs en overheid, omdat sensoren overal meekijken en meeluisteren. De kernvraag: wat werkt al, wat niet, en welke regels gelden in Europa?

AI krijgt digitale zintuigen

Nieuwe multimodale modellen koppelen camera’s, microfoons en andere sensoren aan één algoritme. OpenAI’s GPT-4o kan bijvoorbeeld live luisteren, spreken en beelden analyseren. Google’s Gemini verwerkt tekst, foto’s en audio in één systeem. Zo krijgen datamodellen een soort digitale “zien” en “horen”.

Ook tast komt op, via druksensoren en kunstmatige huid op robots. Dat helpt bij fijne motoriek, zoals het oppakken van kwetsbare objecten. In de praktijk blijft die tast nog grof en traag vergeleken met mensen. Maar onderzoekers bouwen stap voor stap ervaring op met echte en gesimuleerde aanrakingen.

Deze verandering verschuift AI van enkel tekst naar handelen in de wereld. Beeldherkenning en spraakbesturing worden nu gecombineerd met besluitvorming. Daardoor kunnen systemen context beter inschatten, bijvoorbeeld “zie ik een kassa én hoor ik een pieptoon?”. Dat maakt toepassingen nuttiger, maar ook gevoeliger voor fouten.

Multimodale AI betekent dat één model tegelijk beeld, geluid, tekst en soms tast verwerkt.

Leren in de echte wereld

Robotica koppelt sensoren aan actie, vaak met zogenoemd reinforcement learning: leren door proberen en feedback. Het TU Delft Robotics Institute en andere Europese labs werken aan grijpers die via camera en tast leren hoe hard ze moeten knijpen. Zo’n systeem zoekt zelf uit wat wel en niet werkt. Dat maakt het flexibel, maar ook onvoorspelbaar buiten de trainingssituatie.

Simulators, zoals NVIDIA Isaac Sim, versnellen dat leerproces. In een virtuele fabriek kan een robotarm miljoenen keren oefenen zonder risico. Daarna volgt finetuning in het echt. De overstap blijft lastig: kleine verschillen in licht, geluid of wrijving breken het geleerde snel af.

Real-time gedrag vraagt bovendien snelle chips en energiezuinige modellen. Fabrieken en ziekenhuizen willen veel liever op locatie (“edge”) draaien dan in de cloud. Dat vermindert vertraging en beschermt data. Het dwingt ontwikkelaars tot compacte, efficiënte algoritmen met duidelijke foutgrenzen.

Wat werkt al goed

Spraakherkenning is volwassen, met tools zoals OpenAI Whisper voor nauwkeurige transcriptie. GPT-4o en Gemini Live kunnen in natuurlijke taal terugpraten en meteen beeld of geluid meenemen. Voor veel klantenservice en toegankelijke interfaces is dit al bruikbaar. Ondersteuning voor meerdere talen verbetert snel.

Computer vision kan stabiel objecten vinden en segmenteren. Modellen als CLIP (OpenAI) koppelen beeld aan tekstlabels, en Meta’s Segment Anything helpt om onderdelen in een foto af te bakenen. In combinatie met audio levert dat rijkere scènes op. Denk aan “een fietser rechts, verkeer links, naderend sirenegeluid”.

Toegankelijkheid profiteert direct. Europese projecten zoals SignON en EASIER werken aan automatische vertaling tussen gebarentaal, tekst en spraak. Dat sluit aan bij de Wet erkenning Nederlandse Gebarentaal. Met betere camera’s en multimodale modellen wordt die brug steeds praktischer.

Wat nog ontbreekt

Betrouwbaarheid blijft een pijnpunt. Modellen hallucineren nog steeds, of raken in de war door achtergrondgeluid en slechte belichting. Tast is beperkt en weinig gestandaardiseerd. Zonder helder veiligheidskader is voorzichtigheid geboden bij medische of industriële inzet.

Diepere begripstaken zijn moeilijk: oorzaak-gevolg redeneren, plannen over meerdere stappen, of omgaan met onverwachte situaties. Systemen missen vaak een stabiel “wereldmodel”. Daardoor kunnen ze in het echt ineens anders reageren dan in de test.

Er zijn ook kosten en milieu-effecten. Multimodale training vraagt veel data en energie. Dat vergroot de kans op vooroordelen in datasets én op hoge rekeningen. Europese onderzoekers zetten daarom in op kleinere, zuinige modellen en beter databeheer.

Privacy en AI-verordening

Camera’s en microfoons verzamelen onvermijdelijk persoonsgegevens. Onder de AVG zijn dataminimalisatie, doelbinding en versleuteling verplicht. Organisaties moeten een DPIA uitvoeren als risico’s hoog zijn, bijvoorbeeld bij monitoring op de werkvloer. Toestemming of een andere wettelijke grondslag is nodig.

De Europese AI-verordening (AI Act) plaatst biometrische identificatie in een hoge risicoklasse. Ook algemene AI-modellen (“general‑purpose AI”) krijgen plichten, zoals documentatie en veiligheidsmaatregelen. Op het moment van schrijven werkt de EU de handhaving uit, en wijst Nederland nog bevoegde toezichthouders aan.

Voor overheid en zorg zijn de praktische gevolgen groot (“Europese AI-verordening gevolgen overheid”). Inkoop moet eisen stellen aan dataminimalisatie, on-device verwerking en uitlegbaarheid. De Autoriteit Persoonsgegevens en de Rijksinspectie Digitale Infrastructuur zullen naar verwachting scherp kijken naar live video- en audio-analyse in publieke ruimtes.

Gevolgen voor Nederland

In ziekenhuizen kunnen multimodale systemen artsen helpen bij endoscopie: de camera ziet poliepen, het model licht ze uit, en een microfoon registreert bevindingen. In het onderwijs ondersteunen spraak- en beeldassistenten leerlingen met een visuele of auditieve beperking. In het openbaar vervoer helpen slimme camera’s bij drukte en veiligheid, mits privacy-by-design is toegepast.

Voor gemeenten betekent dit: duidelijke borden, geen stiekeme sensoren en korte bewaartermijnen. Edge-oplossingen beperken datadeling met derden. Transparantie richting burgers is verplicht; leg vast wat het systeem wél en niet doet.

Bedrijven die met GPT-4o, Gemini of vergelijkbare modellen werken, moeten loggen, testen en begrenzen. Denk aan een noodstop voor robots en filters tegen gevoelige informatie in audio. Wie die basis op orde heeft, kan sneller voldoen aan AVG en straks de AI Act — en voorkomt dure herbouw achteraf.

Over de schrijver 

Dave

Hoi, ik ben Dave – schrijver, onderzoeker en nieuwsgierige geest achter AIInsiders.nl. Ik hou me bezig met de manier waarop technologie ons leven verandert, en vooral: hoe we dat een beetje kunnen bijbenen. Van slimme tools tot digitale trends, ik duik graag in de wereld achter de schermen.

Mijn stijl? Lekker helder, soms kritisch, altijd eerlijk. Geen onnodig jargon of overdreven hype, maar praktische inzichten waar je echt iets aan hebt. AI is niet eng of magisch – het is interessant, en ik help je graag om dat te zien.

Meer lezen

12/05/2026 22:36

OpenAI Parameter Golf is op 12 mei 2026 afgesloten met meer dan 2.000 inzendingen en ruim 1.000 geverifieerde GitHub-accounts, meldde Alex Zhao in een bericht lees verder

OpenAI Parameter Golf haalt 2.000 inzendingen en 1.000 GitHub

12/05/2026 12:36

OpenAI CoT grading is op 7 mei 2026 naar buiten gekomen via een bericht van onderzoeker Micah Carroll, dat door OpenAI werd gedeeld. Carroll schrijft lees verder

OpenAI ontdekt onbedoelde CoT-grading in RL-runs bij modellen

12/05/2026 11:36

OpenAI heeft het OpenAI realtime vertaalmodel op 7 mei 2026 gedeeld via een bericht van Jason Liu. De aankondiging noemt een nieuw model voor realtime lees verder

OpenAI introduceert realtime vertaalmodel via API vandaag

12/05/2026 10:36

GPT-Realtime-2 is sinds 7 mei 2026 beschikbaar in de API van OpenAI voor ontwikkelaars die spraakagents bouwen. Het nieuwe spraakmodel brengt GPT-5-klasse redeneren naar realtime lees verder

GPT-Realtime-2 brengt GPT-5-klasse redeneren naar de API
>