Het Chinese technologiebedrijf Alibaba zou zijn eigen taalmodel Qwen hebben getraind met 28,8 miljoen gesprekken met de chatbot Claude van Anthropic. Documenten en bestanden die online opdoken wijzen daarop. Het werk vond plaats binnen Alibaba Cloud in China, recent en op grote schaal. Het doel was snellere modelverbetering, maar dit roept vragen op onder de AVG en de Europese AI-verordening.
Alibaba gebruikte Claude-logs
De gelekte informatie suggereert dat Alibaba dialoogdata van Claude heeft gebruikt voor fine-tuning. Fine-tuning is extra training met voorbeeldgesprekken om een model beter te laten antwoorden. Het zou gaan om 28,8 miljoen prompt- en antwoordparen. Daarmee richtte het bedrijf zich op natuurlijke en helpende conversaties.
Claude is de chatbot van de Amerikaanse AI-maker Anthropic. Zulke gesprekken kunnen gevoelige of persoonlijke details bevatten. Daarom is hergebruik zonder toestemming risicovol. Het vergroot de kans op privacy- en auteursrechtkwesties.
Alibaba ontwikkelt het Qwen-model, in China bekend als Tongyi Qianwen. Het bedrijf biedt Qwen aan via Alibaba Cloud voor bedrijven. Betere dialoogdata kunnen het model bruikbaarder maken in klantenservice en kantoorsoftware. Dat verklaart de drang naar grote, kwalitatieve datasets.
28,8 miljoen gesprekken vormt een uitzonderlijk groot trainingscorpus voor een chatmodel.
Herkomst data onduidelijk
Het is niet duidelijk hoe de Claude-gesprekken precies zijn verzameld. Mogelijke routes zijn scraping van platforms, inkoop via een dataleverancier of interne toegang via een tussenpartij. Scraping is geautomatiseerd downloaden van grote hoeveelheden webdata. Elk van die routes kent eigen juridische en ethische risico’s.
Als de data via een API of platform zijn verkregen, gelden vaak strikte gebruiksvoorwaarden. Die verbieden meestal hergebruik voor training zonder aparte toestemming. Overtreden daarvan kan contractbreuk zijn. Het kan ook botsen met auteursrechten op de gegenereerde tekst of de ingebrachte prompts.
Als de data publiek online stonden, is het risico anders maar niet weg. Ook publiek geplaatste gesprekken kunnen persoonsgegevens of bedrijfsgeheimen bevatten. Dan gelden privacyregels en zorgplichten nog steeds. De vraag is of en hoe die risico’s zijn afgewogen.
AI-verordening: gevolgen overheid
De Europese AI-verordening (AI Act) legt plichten op aan algemene AI-systemen, zoals Qwen. Aanbieders moeten onder meer documentatie en een samenvatting van trainingsdata publiceren. Ook moeten zij rekening houden met auteursrechten en opt-outs. Dat geldt zodra een model in de EU wordt aangeboden of ingezet.
Voor overheden en instellingen in Nederland is dit relevant bij inkoop en gebruik. Zij moeten toetsen of een systeem voldoet aan de AI Act en de AVG. Dat vraagt om transparantie over de herkomst van trainingsdata. Zonder die informatie is verantwoord gebruik lastig te onderbouwen.
De AVG eist daarnaast een rechtsgrond en dataminimalisatie bij verwerking van persoonsgegevens. Trainingslogs met prompts en antwoorden kunnen persoonsgegevens bevatten. Dan zijn ook beveiliging, doelbinding en eventuele doorgifte buiten de EU aan de orde. Dat raakt direct aan praktische compliance van Europese gebruikers.
Contract en aansprakelijkheid
Als Claude-logs zijn gebruikt in strijd met voorwaarden van Anthropic of een platform, kan dat contractbreuk zijn. De vraag is wie aansprakelijk is: de dataleverancier, de verzamelaar of de modelbouwer. In grensoverschrijdende situaties is handhaving complex. Toch zien we vaker dat partijen schikken of restricties opleggen aan hergebruik.
Voor Europese klanten van Alibaba Cloud of Qwen speelt ketenaansprakelijkheid. Zij moeten nagaan of leveranciers voldoen aan wet- en regelgeving. Een dataprovenance-verklaring en auditrapporten worden dan belangrijk. Zonder die stukken stijgt het juridische en reputatierisico.
Ook ontwikkelaars die met outputs werken kunnen geraakt worden. Onzuivere trainingsdata vergroten de kans op hallucinaties of bias. Bovendien kan er een “taalsignatuur” van een ander model doorsijpelen. Dat is problematisch als je juist eigen, onderscheidende antwoorden wilt.
Gevolgen voor marktspelers
Deze zaak kan de roep om transparantie over datasets versterken. Verwacht strengere due diligence bij aanbestedingen en enterprise-contracten in Europa. Modelkaarten met duidelijke databronnen worden de norm. Dat past bij de eisen van de AI Act voor algemene AI.
Voor Europese cloudaanbieders en AI-start-ups ontstaat ook een kans. Wie aantoonbaar met schone en toestemming-gedekte data traint, kan zich onderscheiden. Dat geldt in sectoren met hoge compliance-eisen, zoals zorg, fintech en overheid. Vertrouwen wordt daar een harde selectie-eis.
Gebruikers zullen scherper letten op export van data buiten de EU. Standaardclausules en technische maatregelen, zoals versleuteling en dataminimalisatie, komen centraal te staan. Logging en bewaartermijnen moeten worden verlaagd. Zo blijft het risico op datalekken en misbruik beperkt.
Wat nog onbekend blijft
Het is onduidelijk welke Qwen-versies met de Claude-gesprekken zijn getraind. Ook is niet bekend of Europese data in de set zaten. Evenmin weten we of betrokken partijen toestemming hadden of achteraf afspraken hebben gemaakt. Dat zijn cruciale punten voor de juridische duiding.
Op het moment van schrijven ontbreken volledige, geverifieerde technische details. Zonder die details blijft de impact op modelkwaliteit en naleving een inschatting. Onafhankelijke audits of forensische analyses kunnen meer duidelijkheid geven. Tot die tijd is zorgvuldige inkoop en gebruik aan te raden.
De zaak laat vooral zien dat dataprovenance in AI volwassen wordt. Grote aantallen gesprekken maken modellen beter, maar ook kwetsbaarder. Transparantie en toestemming zijn daarom geen bijzaak meer. Ze bepalen of een model in Europa inzetbaar is.
