Het model Mythos, een nieuw systeem voor generatieve AI, zorgde deze week online voor onrust. De makers beloven een āsupersterkā model dat beter presteert dan bestaande chatbots. Er is op het moment van schrijven geen breed toegankelijke test of technische documentatie openbaar. De discussie raakt direct aan de Europese AI-verordening en de gevolgen voor overheid en bedrijven.
Bewijs voor Mythos ontbreekt
Mythos wordt gepresenteerd als een zeer krachtig model, maar er zijn nog geen onafhankelijke cijfers. Zonder een paper, modelkaart of reproduceerbare benchmarks blijft het onduidelijk hoe het systeem scoort. Belangrijke vragen zijn wat het model kan, waar het op is getraind en hoe het omgaat met risicoās. Die informatie ontbreekt op het moment van schrijven in het publieke domein.
Benchmarks zijn gestandaardiseerde toetsen om prestaties te meten, bijvoorbeeld op taalbegrip, rekenen en code. Grote aanbieders zoals OpenAI (GPT-4o), Google (Gemini) en Anthropic (Claude) publiceren doorgaans zulke cijfers en methodes. Ook Europese spelers zoals Mistral en Meta (Llama) delen documentatie over capaciteit en beperkingen. Zonder vergelijkbare openheid kan niemand claims over Mythos betrouwbaar controleren.
Daarnaast is onafhankelijke herhaling van tests belangrijk. Leiderslijsten en externe evaluaties verkleinen de kans op selectieve of opgepoetste resultaten. Als Mythos echt bovenaan wil meedoen, horen transparante protocollen en herhaalbare metingen daarbij. Tot die tijd blijft de term āsupersterkā vooral een marketingbelofte.
Veel marketing, weinig meetresultaat
Grote woorden zonder bewijs voeden vooral de hype. Ze leiden af van bekende problemen van generatieve systemen, zoals hallucinaties, vooringenomen uitkomsten en kwetsbaarheden voor misleiding. Ook het misbruikrisico, bijvoorbeeld voor phishing of desinformatie, vraagt serieuze aandacht. Die risicoās kun je alleen beoordelen met inzicht in training, filters en veiligheidsmaatregelen.
Een modelkaart is daarbij essentieel. Zoān document beschrijft doel, beperkingen, data-oorsprong en bekende fouten van het model, in eenvoudige taal. Bedrijven als Anthropic en Google voegen daar veiligheidsanalyses en zogeheten red-teaming aan toe, waarbij experts actief naar zwaktes zoeken. Bij Mythos ontbreken zulke stukken vooralsnog publiek.
Voor Nederlandse organisaties is dit geen detail, maar een selectiecriterium. Zonder meetbare kwaliteit en duidelijke randvoorwaarden blijft implementatie een gok. Dat geldt extra voor sectoren met gevoelige gegevens, zoals zorg, onderwijs en overheid. Transparantie is hier geen luxe, maar een basisvoorwaarde.
AI-verordening vraagt transparantie
De Europese AI-verordening (AI Act) legt aanbieders van algemene AI-systemen, ook wel GPAI, plichten op. Denk aan technische documentatie, samenvattingen van trainingsdata en redelijke maatregelen tegen misbruik. Bij zeer capabele modellen met mogelijk systeemrisico gelden extra eisen, zoals intensieve veiligheidstests en incidentmelding. Ook importeurs en distributeurs in de EU moeten controleren of documentatie op orde is.
Voor een partij achter Mythos die de EU-markt wil bedienen, betekent dit concreet werk aan openheid en evaluaties. Zonder die basis wordt het lastig om aan compliance te voldoen. Nationale toezichthouders gaan hierop handhaven, met boetes als stok achter de deur. In Nederland bereiden meerdere instanties zich voor op deze taak, op het moment van schrijven nog in opbouw.
De verordening raakt ook gebruikers. Overheden en bedrijven moeten kunnen aantonen dat zij systemen kiezen die aantoonbaar veilig en passend zijn voor het doel. Dat vraagt om due diligence: vragen om modelkaarten, risicorapporten en onafhankelijke tests. Een losse demo of marketingbelofte voldoet niet aan deze lat.
General-purpose AI (GPAI) is een systeem dat voor veel verschillende doelen kan worden ingezet, van chatten en vertalen tot programmeren en zoeken.
Wat onafhankelijke tests tonen
Goede evaluaties meten meer dan pure taalvaardigheid. Ze bekijken ook redeneren, wiskunde, programmeren en meertaligheid, inclusief Nederlands. Veiligheidstests toetsen hoe het model reageert op aanzetten tot schadelijk gedrag of misinformatie. Robuustheidstests laten zien of kleine trucs het model op het verkeerde been zetten.
Daarnaast telt praktische bruikbaarheid. Hoe goed presteert het systeem op langere documenten, tabellen en formulieren? Wat zijn de kosten, latency en het energieverbruik bij echte werkstromen? En hoe schaalt het in drukke omgevingen, zoals een klantenservice of een klaslokaal?
Voor de Europese context is ook dataminimalisatie belangrijk, een kern van de AVG. Als Mythos persoonsgegevens verwerkt, moeten versleuteling, logging en bewaartermijnen duidelijk zijn. Gebruikers moeten weten waar data terechtkomen en of ze voor verdere training worden ingezet. Zonder heldere antwoorden hoort een DPIA, een risicoanalyse onder de AVG, bij elke pilot.
Impact voor Nederlandse organisaties
Publieke instellingen vallen onder strikte regels voor inkoop en gegevensbescherming. Wie een model zoals Mythos wil inzetten, moet contractueel vastleggen wat er met data gebeurt en welke garanties gelden. Ook moet het systeem uitleg kunnen geven over uitkomsten, zeker bij besluiten die burgers raken. Dit sluit aan bij de zorgplichten uit de Europese AI-verordening.
Voor onderwijs en zorg speelt taal extra mee. Een model dat in het Nederlands minder presteert dan in het Engels kan fouten of ongelijkheid veroorzaken. Test daarom expliciet op Nederlandse data en scenarioās. Denk aan medische termen, juridische teksten en administratieve processen.
Tot slot vraagt cybersecurity aandacht. Model-APIās vormen een nieuwe aanvalsroute, bijvoorbeeld via prompt-injectie of datalekken. Het Nationaal Cyber Security Centrum adviseert daarom streng toegangsbeheer, monitoring en segmentatie. Zonder volwassen beveiliging is productiegebruik onverstandig.
Eerst bewijs, dan besluitvorming
Voor Mythos geldt wat voor elk nieuw AI-model geldt: laat cijfers en documentatie het werk doen. Vraag om modelkaarten, onafhankelijke benchmarks en veiligheidstesten die zijn te herhalen. Beoordeel daarnaast kosten, energieverbruik en prestaties in Nederlands gebruik. Pas daarna is een gerichte pilot zinvol.
Tot die tijd is terughoudendheid verstandig, zeker bij publieke taken en gevoelige data. Organisaties kunnen intussen vergelijken met modellen die wel transparant zijn, zoals GPT-4o, Gemini, Claude, Llama of Mistral. Die bieden doorgaans meer houvast in beleid, techniek en veiligheid. Zo blijft innovatie mogelijk, maar wel met grip en verantwoording.
Hype verdwijnt snel, maar risicoās blijven. Europese regels maken duidelijk wat minimale zorgvuldigheid is. Als de makers van Mythos die lat halen, is serieuze beoordeling pas echt mogelijk. Zolang dat niet zo is, wegen woorden minder dan bewijs.
