Thomas Moerland: AI krijgt zintuigen — wat betekent het voor ChatGPT?

  • Home
  • >
  • Blog
  • >
  • Nieuws
  • >
  • Thomas Moerland: AI krijgt zintuigen — wat betekent het voor ChatGPT?

Amsterdam, 19 januari 2026 07:32 

De Nederlandse AI-onderzoeker Thomas Moerland zet deze week de ontwikkeling van “AI met zintuigen” in de schijnwerpers. Steeds meer systemen van OpenAI en Google verwerken beeld, geluid en tekst tegelijk. Dat raakt Nederlandse zorg, onderwijs en overheid, omdat sensoren overal meekijken en meeluisteren. De kernvraag: wat werkt al, wat niet, en welke regels gelden in Europa?

AI krijgt digitale zintuigen

Nieuwe multimodale modellen koppelen camera’s, microfoons en andere sensoren aan één algoritme. OpenAI’s GPT-4o kan bijvoorbeeld live luisteren, spreken en beelden analyseren. Google’s Gemini verwerkt tekst, foto’s en audio in één systeem. Zo krijgen datamodellen een soort digitale “zien” en “horen”.

Ook tast komt op, via druksensoren en kunstmatige huid op robots. Dat helpt bij fijne motoriek, zoals het oppakken van kwetsbare objecten. In de praktijk blijft die tast nog grof en traag vergeleken met mensen. Maar onderzoekers bouwen stap voor stap ervaring op met echte en gesimuleerde aanrakingen.

Deze verandering verschuift AI van enkel tekst naar handelen in de wereld. Beeldherkenning en spraakbesturing worden nu gecombineerd met besluitvorming. Daardoor kunnen systemen context beter inschatten, bijvoorbeeld “zie ik een kassa én hoor ik een pieptoon?”. Dat maakt toepassingen nuttiger, maar ook gevoeliger voor fouten.

Multimodale AI betekent dat één model tegelijk beeld, geluid, tekst en soms tast verwerkt.

Leren in de echte wereld

Robotica koppelt sensoren aan actie, vaak met zogenoemd reinforcement learning: leren door proberen en feedback. Het TU Delft Robotics Institute en andere Europese labs werken aan grijpers die via camera en tast leren hoe hard ze moeten knijpen. Zo’n systeem zoekt zelf uit wat wel en niet werkt. Dat maakt het flexibel, maar ook onvoorspelbaar buiten de trainingssituatie.

Simulators, zoals NVIDIA Isaac Sim, versnellen dat leerproces. In een virtuele fabriek kan een robotarm miljoenen keren oefenen zonder risico. Daarna volgt finetuning in het echt. De overstap blijft lastig: kleine verschillen in licht, geluid of wrijving breken het geleerde snel af.

Real-time gedrag vraagt bovendien snelle chips en energiezuinige modellen. Fabrieken en ziekenhuizen willen veel liever op locatie (“edge”) draaien dan in de cloud. Dat vermindert vertraging en beschermt data. Het dwingt ontwikkelaars tot compacte, efficiënte algoritmen met duidelijke foutgrenzen.

Wat werkt al goed

Spraakherkenning is volwassen, met tools zoals OpenAI Whisper voor nauwkeurige transcriptie. GPT-4o en Gemini Live kunnen in natuurlijke taal terugpraten en meteen beeld of geluid meenemen. Voor veel klantenservice en toegankelijke interfaces is dit al bruikbaar. Ondersteuning voor meerdere talen verbetert snel.

Computer vision kan stabiel objecten vinden en segmenteren. Modellen als CLIP (OpenAI) koppelen beeld aan tekstlabels, en Meta’s Segment Anything helpt om onderdelen in een foto af te bakenen. In combinatie met audio levert dat rijkere scènes op. Denk aan “een fietser rechts, verkeer links, naderend sirenegeluid”.

Toegankelijkheid profiteert direct. Europese projecten zoals SignON en EASIER werken aan automatische vertaling tussen gebarentaal, tekst en spraak. Dat sluit aan bij de Wet erkenning Nederlandse Gebarentaal. Met betere camera’s en multimodale modellen wordt die brug steeds praktischer.

Wat nog ontbreekt

Betrouwbaarheid blijft een pijnpunt. Modellen hallucineren nog steeds, of raken in de war door achtergrondgeluid en slechte belichting. Tast is beperkt en weinig gestandaardiseerd. Zonder helder veiligheidskader is voorzichtigheid geboden bij medische of industriële inzet.

Diepere begripstaken zijn moeilijk: oorzaak-gevolg redeneren, plannen over meerdere stappen, of omgaan met onverwachte situaties. Systemen missen vaak een stabiel “wereldmodel”. Daardoor kunnen ze in het echt ineens anders reageren dan in de test.

Er zijn ook kosten en milieu-effecten. Multimodale training vraagt veel data en energie. Dat vergroot de kans op vooroordelen in datasets én op hoge rekeningen. Europese onderzoekers zetten daarom in op kleinere, zuinige modellen en beter databeheer.

Privacy en AI-verordening

Camera’s en microfoons verzamelen onvermijdelijk persoonsgegevens. Onder de AVG zijn dataminimalisatie, doelbinding en versleuteling verplicht. Organisaties moeten een DPIA uitvoeren als risico’s hoog zijn, bijvoorbeeld bij monitoring op de werkvloer. Toestemming of een andere wettelijke grondslag is nodig.

De Europese AI-verordening (AI Act) plaatst biometrische identificatie in een hoge risicoklasse. Ook algemene AI-modellen (“general‑purpose AI”) krijgen plichten, zoals documentatie en veiligheidsmaatregelen. Op het moment van schrijven werkt de EU de handhaving uit, en wijst Nederland nog bevoegde toezichthouders aan.

Voor overheid en zorg zijn de praktische gevolgen groot (“Europese AI-verordening gevolgen overheid”). Inkoop moet eisen stellen aan dataminimalisatie, on-device verwerking en uitlegbaarheid. De Autoriteit Persoonsgegevens en de Rijksinspectie Digitale Infrastructuur zullen naar verwachting scherp kijken naar live video- en audio-analyse in publieke ruimtes.

Gevolgen voor Nederland

In ziekenhuizen kunnen multimodale systemen artsen helpen bij endoscopie: de camera ziet poliepen, het model licht ze uit, en een microfoon registreert bevindingen. In het onderwijs ondersteunen spraak- en beeldassistenten leerlingen met een visuele of auditieve beperking. In het openbaar vervoer helpen slimme camera’s bij drukte en veiligheid, mits privacy-by-design is toegepast.

Voor gemeenten betekent dit: duidelijke borden, geen stiekeme sensoren en korte bewaartermijnen. Edge-oplossingen beperken datadeling met derden. Transparantie richting burgers is verplicht; leg vast wat het systeem wél en niet doet.

Bedrijven die met GPT-4o, Gemini of vergelijkbare modellen werken, moeten loggen, testen en begrenzen. Denk aan een noodstop voor robots en filters tegen gevoelige informatie in audio. Wie die basis op orde heeft, kan sneller voldoen aan AVG en straks de AI Act — en voorkomt dure herbouw achteraf.


Over Dave

Hoi, ik ben Dave – schrijver, onderzoeker en nieuwsgierige geest achter AIInsiders.nl. Ik hou me bezig met de manier waarop technologie ons leven verandert, en vooral: hoe we dat een beetje kunnen bijbenen. Van slimme tools tot digitale trends, ik duik graag in de wereld achter de schermen.

Mijn stijl? Lekker helder, soms kritisch, altijd eerlijk. Geen onnodig jargon of overdreven hype, maar praktische inzichten waar je echt iets aan hebt. AI is niet eng of magisch – het is interessant, en ik help je graag om dat te zien.

{"email":"Email address invalid","url":"Website address invalid","required":"Required field missing"}

Misschien ook interessant

>