De Britse overheid start recent een onderzoek naar systeemrisico’s van geavanceerde kunstmatige intelligentie. Aanleiding zijn testresultaten met het AI‑model Claude van het Amerikaanse bedrijf Anthropic. Het onderzoek loopt in het Verenigd Koninkrijk en richt zich op effecten voor veiligheid en stabiliteit. Doel is te bepalen welke extra waarborgen nodig zijn, ook in het licht van de Europese AI‑verordening (AI Act) en de gevolgen voor overheid en bedrijven.
VK ziet structureel risico
Britse autoriteiten bekijken hoe zogeheten frontier‑modellen, de krachtigste AI‑systemen van dit moment, kunnen doorslaan naar maatschappelijke ontwrichting. Het gaat om risico’s voor kritieke infrastructuur, nationale veiligheid en het snelle verspreiden van misleidende informatie. De betrokkenheid van het nationale AI‑veiligheidsinstituut vergroot de kans dat technische tests en beleid bij elkaar komen. De inzet is een duidelijker drempel: wanneer wordt modelrisico ook een systeemrisico.
Het onderzoek is opgestart nadat een Anthropic‑model in evaluaties kwetsbaarheden liet zien. De precieze bevindingen zijn op het moment van schrijven niet openbaar. Wel is duidelijk dat generatieve systemen soms veiligheidsfilters kunnen omzeilen. Dat is zorgelijk waar fout gedrag veel mensen of meerdere sectoren tegelijk kan raken.
Systemisch risico is het risico dat een probleem in één technologie doorwerkt naar een hele sector of samenleving, bijvoorbeeld door keteneffecten of grootschalige afhankelijkheid.
De Britse aanpak past bij een bredere verschuiving: van individuele incidenten naar risico’s voor het totale ecosysteem. Daarbij horen strengere stresstests, scenario‑analyses en afspraken over noodremmen. De uitkomsten kunnen ook de internationale lijn richting de G7 en de EU beïnvloeden. Voor aanbieders en afnemers van AI‑diensten wordt voorspelbaarheid in regels steeds belangrijker.
Claude onder de loep
Anthropic ontwikkelt de Claude‑modellen, een familie van generatieve AI die teksten samenvat, code schrijft en complexe vragen beantwoordt. Het bedrijf staat bekend om zijn veiligheidsmethode “Constitutional AI”, waarbij modellen worden getraind met expliciete gedragsregels. Die aanpak verkleint onveilig gedrag, maar neemt het niet volledig weg. Evaluaties blijven dus nodig, zeker bij krachtigere versies.
De Britse tests kijken naar misbruikscenario’s zoals cyberaanvallen, biologische risico’s en geautomatiseerde manipulatie. Zulke beoordelingen bestaan uit red‑teaming, waarbij experts doelbewust naar zwakke plekken zoeken. Ook wordt gekeken hoe makkelijk gebruikers veiligheidsfilters kunnen omzeilen. Een model dat hier onvoldoende weerstand biedt, kan een systeemrisico vergroten.
Anthropic levert Claude commercieel via API’s en cloudplatforms, waardoor snelle schaal mogelijk is. Juist die schaal werkt als hefboom voor risico’s. Een kleine fout kan dan grote impact krijgen. Daarom willen toezichthouders vroeg ingrijpen met heldere grenzen en betere tests.
AI‑verordening vraagt meer waarborgen
De Europese AI‑verordening (AI Act) brengt extra plichten voor algemene AI‑modellen met systemisch risico. Denk aan onafhankelijke veiligheidstesten, transparantie over mogelijkheden en beperkingen, en een verplicht incidentmeldsysteem. Het nieuwe Europese AI‑Office coördineert dit toezicht en werkt samen met nationale autoriteiten. Dat moet versnippering in de EU voorkomen.
Voor aanbieders buiten de EU, zoals Anthropic, gelden de regels zodra hun systemen in de Europese markt worden aangeboden. Hergebruik van modellen door Europese bedrijven valt ook onder de wet. Dat maakt contractafspraken over modelupdates, beveiliging en logging noodzakelijk. Anders blijven afnemers met juridische en operationele gaten zitten.
Publieke instellingen en vitale sectoren moeten nu al sturen op “AI‑verordening gevolgen overheid en zorg”. Inkoop vraagt om technische en juridische toetsing, inclusief verificatie van veiligheidsclaims. Interne procedures horen menselijke controle te borgen bij hoog‑impact toepassingen. Zo kan naleving samengaan met verantwoorde inzet.
Beperkte vangrails bij generatieve AI
Huidige vangrails, zoals contentfilters en prompt‑beperkingen, zijn niet waterdicht. Gevorderde gebruikers vinden soms manieren om ze te omzeilen. Daarom verschuift de aandacht naar systeemmaatregelen, zoals throttling, gedragstoezicht in productie en snelle rollback van modelversies. Dat vraagt ook om betere meetbare criteria voor “veilig genoeg”.
Internationale instellingen werken aan gestandaardiseerde toetsen. In het VK ontwikkelt het AI‑veiligheidsinstituut evaluaties voor bioveiligheid en cybersecurity. In de EU werkt het AI‑Office aan testkaders die fabrikanten en grote afnemers kunnen hergebruiken. Eenduidige tests maken resultaten vergelijkbaar en handhaafbaar.
Naast veiligheid speelt privacy mee onder de AVG. Organisaties moeten dataminimalisatie toepassen en gevoelige gegevens vermijden in prompts. Logs en modeltelemetrie horen versleuteld en beperkt bewaard te worden. Leveranciers moeten duidelijk maken hoe data worden gebruikt voor verdere training.
Impact voor Nederlandse organisaties
Bedrijven en overheden in Nederland die Claude of vergelijkbare modellen gebruiken, doen er goed aan een risicobeoordeling op te zetten. Begin met een DPIA voor privacy, aangevuld met een AI‑impactanalyse op veiligheid. Beperk autonomie van het systeem en verplicht menselijke controle bij kritieke beslissingen. Leg afspraken over uptime, incidentmelding en modelwijzigingen contractueel vast.
Voor vitale processen, zoals zorg, energie en openbaar bestuur, is gefaseerde uitrol verstandig. Test eerst in een afgeschermde omgeving met realistische maar anonieme data. Monitor uitvoer continu op schadelijk of misleidend gedrag. Documenteer bevindingen, zodat naleving onder de AI‑verordening aantoonbaar is.
Houd de Britse bevindingen en Europese richtsnoeren in de gaten. Zij bepalen de lat voor wat acceptabel is bij generatieve AI. Wie nu al inzet op meetbare veiligheid en transparantie, voorkomt kostbare herbouw later. En vergroot tegelijk het vertrouwen van gebruikers en toezichthouders.
