Cisco: Mistral, Llama en Gemma vatbaar voor multi-turn AI-aanvallen

  • Home
  • >
  • Blog
  • >
  • Nieuws
  • >
  • Cisco: Mistral, Llama en Gemma vatbaar voor multi-turn AI-aanvallen

Amsterdam, 23 december 2025 15:19 

Cisco waarschuwt dat de chatmodellen Mistral, Llama en Gemma kwetsbaar zijn voor zogeheten multi-turn aanvallen. In een nieuw beveiligingsonderzoek laat het bedrijf zien hoe kwaadwillenden de veiligheidsfilters omzeilen door opdrachten op te knippen over meerdere beurten. Dat is relevant voor Europese organisaties die deze open modellen in diensten en apps gebruiken. De bevindingen raken ook aan de Europese AI-verordening en de gevolgen voor overheid en bedrijven.

Multi-turn doorbreekt filters

Bij een multi-turn aanval stuurt een aanvaller niet één grote opdracht, maar meerdere kleine stappen in een gesprek. Zo leert het model geleidelijk een taak, zonder de volle intentie te zien. Veiligheidsfilters zijn vaak getraind op directe, éénstaps verboden opdrachten. Door te stapelen kan de echte bedoeling aan de controle ontsnappen.

Beveiligingsmaatregelen zoals “weiger antwoorden over X” werken vooral per beurt. Ze houden minder goed rekening met het totale gesprek en de context die zich opbouwt. De aanval lijkt daardoor onschuldig tot het moment dat de laatste stap het gewenste, maar ongewenste resultaat triggert. Dit maakt detectie en logging ingewikkelder.

De methode is praktisch voor misbruik als het genereren van schadelijke instructies of het extraheren van gevoelige gegevens. Ook kan een aanvaller het model laten roleplayen om regels te versoepelen. Wanneer een model externe tools of internettoegang heeft, kan prompt-injectie uit websites het effect versterken. Het risico groeit naarmate organisaties modellen dieper integreren in processen.

Definitie: een multi-turn aanval is een omzeiling waarbij een aanvaller verboden instructies verdeelt over meerdere chatrondes, zodat het model stap voor stap tóch meewerkt.

Drie open modellen geraakt

Cisco testte varianten van drie populaire open modellen: Meta’s Llama, Google’s Gemma en Mistral AI’s Mistral. In de demonstraties gaven de modellen alsnog ongewenste output na enkele beurten. De weigeringen in de eerste ronde verdwenen zodra de opdracht kleiner, neutraler of technischer werd verpakt. Het resultaat was dat de guardrails niet meer ingrepen op het beslissende moment.

Deze modellen zijn geliefd omdat organisaties ze lokaal kunnen draaien. Dat is aantrekkelijk voor privacy, kosten en maatwerk. Juist daardoor worden ze vaak ingezet in Europese sectoren zoals overheid, zorg en onderwijs. De kwetsbaarheid raakt dus toepassingen die dichtbij burgers staan.

Extra systeemprompts, woordfilters en standaard contentmoderatie bleken niet genoeg als ze alleen per bericht werden toegepast. Gespreksoverstijgende controle ontbrak vaak. Ook fine-tuning op “veilig gedrag” hielp beperkt wanneer de aanval de intentie slim verborg. Dit onderstreept dat enkel trainingsdata of sleutelwoorden geen afdoende rem zijn.

Gevolgen voor AI-verordening

De AVG vereist dataverwerking met dataminimalisatie en passende beveiliging. Als multi-turn misbruik leidt tot datalekken via een chatsysteem, kan dat een meldplicht betekenen. Organisaties moeten daarom DPIA’s bijwerken en logging zo inrichten dat meerstapsaanvallen zichtbaar worden. Zonder dat is verantwoording richting toezichthouders lastig.

De Europese AI-verordening introduceert plichten voor generatieve en algemene AI-modellen, op het moment van schrijven in uitwerking. Leveranciers en gebruikers moeten systemische risico’s beperken, inclusief adversarial testing en incidentmeldingen. Multi-turn kwetsbaarheden vallen onder die risicobeperking. Europese inkopers zullen hierop moeten toetsen in aanbestedingen en contracten.

Voor Nederlandse overheden en vitale sectoren is het advies praktisch: borg conversationele veiligheid, niet alleen berichtniveau. Het Nationaal Cyber Security Centrum wijst al langer op veilige inzet van generatieve AI. Beleidskaders moeten daarom expliciet rekening houden met multi-turn misbruik. Dat voorkomt verrassingen bij audits of bij de Autoriteit Persoonsgegevens.

Wat organisaties nu doen

Begin met gespreksoverstijgende moderatie: beoordeel de intentie over het hele dialoogvenster. Combineer dat met “context windows” die verdachte patronen herkennen, zoals stapsgewijs herformuleren van verboden taken. Valideer gevoelige opdrachten via goedgekeurde tools met beperkte rechten. En dwing menselijke review af bij risicovolle uitkomsten.

Voer regelmatige red-teaming uit met multi-turn scenario’s. Gebruik testsets die roleplay, codering van instructies (bijvoorbeeld Base64) en omgekeerde prompts bevatten. Log alle tussenstappen zodat u kunt herleiden hoe een output tot stand kwam. Dat maakt forensisch onderzoek en verbetering mogelijk.

Overweeg aanvullende guardrails naast het model zelf. Voorbeelden zijn dedicated veiligheidscLassificatie, prompt-firewalls en output-sanitizers die over meerdere beurten kijken. Open en commerciële oplossingen bestaan, maar toets ze op Europese datalocatie en AVG-eisen. Integreer deze controles vroeg in de ontwikkelcyclus.

Beperk tot slot de impact als er toch iets misgaat. Gebruik “least privilege” voor tools en data, segmentatie van netwerken en strikte egress-controles. Stel duidelijke incidentprocessen op en train medewerkers in veilig prompten. Documenteer mitigaties voor de AI-verordening en contractuele due diligence.

Impact voor Nederland

Veel Nederlandse organisaties experimenteren met Llama, Gemma en Mistral vanwege kosten en on-premise opties. Multi-turn risico’s vragen om aanvullende waarborgen in pilots en productiesystemen. Denk aan lokale inferentie met versleuteling, gescheiden geheugens per gebruiker en verbod op gevoelige gegevens in prompts. Leg dat vast in beleid en gebruikersinstructies.

Publieke diensten, zoals gemeenten en onderwijsinstellingen, moeten extra voorzichtig zijn. Burgers verwachten betrouwbare informatie en veilige omgang met persoonsgegevens. Maak daarom een DPIA specifiek voor generatieve chats, inclusief multi-turn dreigingen. Betrek de Functionaris Gegevensbescherming vroeg in het traject.

Voor leveranciers en integrators geldt: wees transparant over modelkeuze, versies en beveiligingsmaatregelen. Bied gespreksoverstijgende logs en monitoring aan als standaard. Ondersteun klanten bij tests tegen multi-turn aanvallen. Dat wordt een onderscheidende factor bij Europese aanbestedingen.

Onderzoek en beperkingen

De gepresenteerde aanvallen tonen reële hiaten, maar testen nooit alle mogelijke instellingen. Resultaten verschillen per modelversie, fine-tuning en integratie. Zonder toolrechten is het risico anders dan met brede systeemkoppelingen. Organisaties moeten dus eigen, contextspecifieke tests uitvoeren.

Niet elk misbruik leidt direct tot grote schade. Wel groeit de kans op verkeerde of ongepaste output als gesprekken langer en complexer worden. Een klein lek in de keten kan genoeg zijn voor een incident. Daarom is defense-in-depth nodig, ook bij ogenschijnlijk veilige use-cases.

Beveiliging blijft een kat-en-muisspel. Nieuwe modellen krijgen betere guardrails, maar aanvallers passen hun aanpak aan. Door continu te testen, te loggen en te verbeteren, blijft het risico beheersbaar. Dat sluit aan bij de plichten die de AI-verordening stap voor stap invoert.


Over Dave

Hoi, ik ben Dave – schrijver, onderzoeker en nieuwsgierige geest achter AIInsiders.nl. Ik hou me bezig met de manier waarop technologie ons leven verandert, en vooral: hoe we dat een beetje kunnen bijbenen. Van slimme tools tot digitale trends, ik duik graag in de wereld achter de schermen.

Mijn stijl? Lekker helder, soms kritisch, altijd eerlijk. Geen onnodig jargon of overdreven hype, maar praktische inzichten waar je echt iets aan hebt. AI is niet eng of magisch – het is interessant, en ik help je graag om dat te zien.

{"email":"Email address invalid","url":"Website address invalid","required":"Required field missing"}

Elke dag het laatste AI-nieuws ontvangen?

Schrijf je in voor onze nieuwsbrief en ontvang iedere dag het laatste AI-nieuws. Zo weet je zeker dat je altijd op de hoogte bent van updates en meer.

Misschien ook interessant

>