OpenAI, Google en Microsoft zetten vol in op zogeheten AI-agents die zelfstandig taken uitvoeren. In Nederland en de rest van Europa testen bedrijven en overheden deze systemen op het moment van schrijven vooral in proefprojecten. De belofte is hogere productiviteit en lagere kosten, maar de praktijk blijft grillig. Dat maakt de vraag urgent wat werkt, en wat onder het rookgordijn valt — ook met het oog op de Europese AI-verordening en de gevolgen voor overheid en bedrijven.
Veel belofte, weinig bewijs
AI-agents worden gepresenteerd als digitale assistenten die plannen, boeken en mailen zonder hulp. Grote spelers tonen opvallende demo’s, zoals OpenAI’s GPT-4o in een spraakgestuurde rol en Google DeepMind met Project Astra. Ook Microsoft koppelt Copilot aan steeds meer werkprocessen. Toch blijft er weinig onafhankelijke toetsing van succespercentages in echte werkomgevingen.
Start-ups laten agents druk schakelen tussen tools, maar vaak zijn die demonstraties strak geregisseerd. Publieke benchmarks voor end-to-end taken ontbreken of zijn niet representatief. Bedrijven houden pilots daarom klein en zetten mensen in als vangnet. Zonder harde meetcijfers is het lastig om beloften te scheiden van marketing.
Ook gespecialiseerde agents, zoals Devin van Cognition Labs voor softwareontwikkeling, wekken hoge verwachtingen. In de praktijk vragen zulke systemen intensieve begeleiding en veel herstarts. Ze boeken zeker voortgang, maar nog niet op het niveau van volledig autonome inzet. Organisaties zoeken daarom naar afgebakende taken met laag risico.
Kosten en risico’s stapelen
Elk agentverzoek kost rekentijd en geld, zeker bij lange ketens van acties. Meer stappen betekenen hogere latency en meer kans op fouten. Als een agent documenten ophaalt, redeneert en meerdere externe API’s aanstuurt, lopen kosten en wachttijden snel op. Dit remt grootschalige uitrol in klantgerichte processen.
Fouten zijn bovendien niet alleen vervelend, maar soms risicovol. Hallucinaties, prompt-injecties en verkeerde toolaanroepen kunnen leiden tot onjuiste e-mails, foute bestellingen of datalekken. Veel organisaties eisen daarom expliciete goedkeuring door een medewerker voordat gevoelige acties doorgaan. Zo blijft de mens eindverantwoordelijk, ook als het algoritme het voorwerk doet.
Beveiliging vraagt extra aandacht wanneer agents via plug-ins of “actions” macht krijgen. Het principe van “minimale bevoegdheden” is nodig om misbruik te beperken. Loggen en scheiden van omgevingen zijn onmisbaar om fouten te herstellen en incidenten te onderzoeken. Zonder deze basis kan één agentactie onbedoelde kettingreacties veroorzaken.
AI-verordening vraagt strenger toezicht
De Europese AI-verordening (AI Act) legt op het moment van schrijven extra plichten op aan aanbieders en gebruikers van generieke AI-modellen. Leveranciers moeten informatie geven over modelcapaciteiten, beperkingen en risicobeperking. Organisaties die agents inzetten, moeten vooraf risico’s beoordelen en passende waarborgen inbouwen. Dit geldt zwaarder naarmate de toepassing gevoeliger is.
Worden agents ingezet in sectoren als overheid, zorg of werk, dan kan de toepassing in een hoogrisicoklasse vallen. Dan gelden eisen voor testen, documentatie, logging, menselijke controle en mogelijk CE-markering. Deze regels gaan gefaseerd in tussen 2025 en 2026. Voor Nederlandse overheden betekent dit dat inkoop en pilots nu al op conformiteit moeten sturen.
De AVG blijft daarnaast volledig van kracht. Dataminimalisatie, doelbinding en een DPIA zijn verplicht als er persoonsgegevens betrokken zijn. Versleuteling en korte bewaartermijnen verkleinen de impact van fouten. Wie agents koppelt aan e-mail, dossiers of CRM, moet deze basis op orde hebben voordat de techniek opschaalt.
Waarom systemen vastlopen
Een AI-agent is software die zelfstandig doelen uitwerkt in tussenstappen en daarbij tools gebruikt. Dat vraagt stabiel geheugen, goede planning en overzicht over de staat van het proces. In de praktijk zijn contextvensters nog beperkt en verandert de toolomgeving vaak. Daardoor verliezen agents regelmatig de rode draad.
APIs en interfaces wijzigen, waardoor ketens breken of outputs onverwacht afwijken. Frameworks als LangChain, LangGraph, Microsoft Autogen en de OpenAI Assistants API proberen die complexiteit te temmen. Ze bieden gestructureerde “tool-calls”, foutafhandeling en herplanning. Toch blijft het samenstellen van een robuuste agent-workflow veel maatwerk.
Nieuwere redeneermodellen, zoals OpenAI o1 en Anthropic Claude 3 (Opus en Sonnet), plannen en controleren beter. Ze zijn echter trager en duurder, zeker bij langere taken. Daardoor is continue autonomie vaak onrendabel. Teams kiezen daarom voor korte, goed meetbare stappen met expliciete checkpoints.
Een AI-agent is software die zelfstandig acties uitvoert op basis van een doel, zoals het verzenden van e-mails of het boeken van een afspraak, en leert van feedback.
Wat nu wél werkt
Afgebakende taken leveren het meeste op: samenvattingen, e-mailconcepten, notulen en eerste opzetjes voor rapporten. In deze rollen blijft een medewerker redigeren en goedkeuren. Dat beperkt risico’s en versnelt toch de doorlooptijd. Het past ook bij de eisen van de AI Act en de AVG.
Integraties in bestaande suites zijn populair, zoals Microsoft 365 Copilot en Google Workspace-functies. Ze draaien binnen beheerde omgevingen en gebruiken goedgekeurde connectors. IT-afdelingen kunnen rechten, logs en bewaartermijnen centraal regelen. Voor veel Nederlandse organisaties is dit een haalbare eerste stap.
Wie privacygevoelig werkt, kijkt vaker naar modellen op eigen infrastructuur. Open modellen zoals Meta’s Llama 3 en Mistral Large geven meer controle over data en aanpassing. Ze vragen wel extra beveiliging, evaluatie en beheer. Kleinere modellen presteren bovendien alleen goed binnen hun niche.
Meetlat voor echte voortgang
Zonder meetbare doelen blijft het rookgordijn hangen. Stel per usecase duidelijke servicelevels op: succesratio, tijd tot resultaat, herstel na fouten en kosten per taak. Publiceer die cijfers intern en, waar mogelijk, extern. Zo wordt zichtbaar wat werkt en wat nog niet.
Test agents actief met red-teaming tegen prompt-injecties en datalekken. Log alle beslissingen, gebruikte tools en versies, zodat audits mogelijk zijn. Beperk rechten op basis van het minste benodigde privilege. Dit verhoogt veiligheid zonder innovatie te blokkeren.
Begin klein met een mens-in-de-lus en schaal pas op na een DPIA en aantoonbare prestaties. Koppel elk experiment aan heldere businessdoelen en een exit-criterium. Combineer dit met de Europese AI-verordening en AVG-eisen in het ontwerp. Dan kan de drukte rond AI-agents plaatsmaken voor aantoonbare waarde.
