juni 26, 2026

Alibaba trainde stiekem eigen AI op 28,8 miljoen Claude-gesprekken

Het Chinese technologiebedrijf Alibaba zou zijn eigen taalmodel Qwen hebben getraind met 28,8 miljoen gesprekken met de chatbot Claude van Anthropic. Documenten en bestanden die online opdoken wijzen daarop. Het werk vond plaats binnen Alibaba Cloud in China, recent en op grote schaal. Het doel was snellere modelverbetering, maar dit roept vragen op onder de AVG en de Europese AI-verordening.

Alibaba gebruikte Claude-logs

De gelekte informatie suggereert dat Alibaba dialoogdata van Claude heeft gebruikt voor fine-tuning. Fine-tuning is extra training met voorbeeldgesprekken om een model beter te laten antwoorden. Het zou gaan om 28,8 miljoen prompt- en antwoordparen. Daarmee richtte het bedrijf zich op natuurlijke en helpende conversaties.

Claude is de chatbot van de Amerikaanse AI-maker Anthropic. Zulke gesprekken kunnen gevoelige of persoonlijke details bevatten. Daarom is hergebruik zonder toestemming risicovol. Het vergroot de kans op privacy- en auteursrechtkwesties.

Alibaba ontwikkelt het Qwen-model, in China bekend als Tongyi Qianwen. Het bedrijf biedt Qwen aan via Alibaba Cloud voor bedrijven. Betere dialoogdata kunnen het model bruikbaarder maken in klantenservice en kantoorsoftware. Dat verklaart de drang naar grote, kwalitatieve datasets.

28,8 miljoen gesprekken vormt een uitzonderlijk groot trainingscorpus voor een chatmodel.

Herkomst data onduidelijk

Het is niet duidelijk hoe de Claude-gesprekken precies zijn verzameld. Mogelijke routes zijn scraping van platforms, inkoop via een dataleverancier of interne toegang via een tussenpartij. Scraping is geautomatiseerd downloaden van grote hoeveelheden webdata. Elk van die routes kent eigen juridische en ethische risico’s.

Als de data via een API of platform zijn verkregen, gelden vaak strikte gebruiksvoorwaarden. Die verbieden meestal hergebruik voor training zonder aparte toestemming. Overtreden daarvan kan contractbreuk zijn. Het kan ook botsen met auteursrechten op de gegenereerde tekst of de ingebrachte prompts.

Als de data publiek online stonden, is het risico anders maar niet weg. Ook publiek geplaatste gesprekken kunnen persoonsgegevens of bedrijfsgeheimen bevatten. Dan gelden privacyregels en zorgplichten nog steeds. De vraag is of en hoe die risico’s zijn afgewogen.

AI-verordening: gevolgen overheid

De Europese AI-verordening (AI Act) legt plichten op aan algemene AI-systemen, zoals Qwen. Aanbieders moeten onder meer documentatie en een samenvatting van trainingsdata publiceren. Ook moeten zij rekening houden met auteursrechten en opt-outs. Dat geldt zodra een model in de EU wordt aangeboden of ingezet.

Voor overheden en instellingen in Nederland is dit relevant bij inkoop en gebruik. Zij moeten toetsen of een systeem voldoet aan de AI Act en de AVG. Dat vraagt om transparantie over de herkomst van trainingsdata. Zonder die informatie is verantwoord gebruik lastig te onderbouwen.

De AVG eist daarnaast een rechtsgrond en dataminimalisatie bij verwerking van persoonsgegevens. Trainingslogs met prompts en antwoorden kunnen persoonsgegevens bevatten. Dan zijn ook beveiliging, doelbinding en eventuele doorgifte buiten de EU aan de orde. Dat raakt direct aan praktische compliance van Europese gebruikers.

Contract en aansprakelijkheid

Als Claude-logs zijn gebruikt in strijd met voorwaarden van Anthropic of een platform, kan dat contractbreuk zijn. De vraag is wie aansprakelijk is: de dataleverancier, de verzamelaar of de modelbouwer. In grensoverschrijdende situaties is handhaving complex. Toch zien we vaker dat partijen schikken of restricties opleggen aan hergebruik.

Voor Europese klanten van Alibaba Cloud of Qwen speelt ketenaansprakelijkheid. Zij moeten nagaan of leveranciers voldoen aan wet- en regelgeving. Een dataprovenance-verklaring en auditrapporten worden dan belangrijk. Zonder die stukken stijgt het juridische en reputatierisico.

Ook ontwikkelaars die met outputs werken kunnen geraakt worden. Onzuivere trainingsdata vergroten de kans op hallucinaties of bias. Bovendien kan er een “taalsignatuur” van een ander model doorsijpelen. Dat is problematisch als je juist eigen, onderscheidende antwoorden wilt.

Gevolgen voor marktspelers

Deze zaak kan de roep om transparantie over datasets versterken. Verwacht strengere due diligence bij aanbestedingen en enterprise-contracten in Europa. Modelkaarten met duidelijke databronnen worden de norm. Dat past bij de eisen van de AI Act voor algemene AI.

Voor Europese cloudaanbieders en AI-start-ups ontstaat ook een kans. Wie aantoonbaar met schone en toestemming-gedekte data traint, kan zich onderscheiden. Dat geldt in sectoren met hoge compliance-eisen, zoals zorg, fintech en overheid. Vertrouwen wordt daar een harde selectie-eis.

Gebruikers zullen scherper letten op export van data buiten de EU. Standaardclausules en technische maatregelen, zoals versleuteling en dataminimalisatie, komen centraal te staan. Logging en bewaartermijnen moeten worden verlaagd. Zo blijft het risico op datalekken en misbruik beperkt.

Wat nog onbekend blijft

Het is onduidelijk welke Qwen-versies met de Claude-gesprekken zijn getraind. Ook is niet bekend of Europese data in de set zaten. Evenmin weten we of betrokken partijen toestemming hadden of achteraf afspraken hebben gemaakt. Dat zijn cruciale punten voor de juridische duiding.

Op het moment van schrijven ontbreken volledige, geverifieerde technische details. Zonder die details blijft de impact op modelkwaliteit en naleving een inschatting. Onafhankelijke audits of forensische analyses kunnen meer duidelijkheid geven. Tot die tijd is zorgvuldige inkoop en gebruik aan te raden.

De zaak laat vooral zien dat dataprovenance in AI volwassen wordt. Grote aantallen gesprekken maken modellen beter, maar ook kwetsbaarder. Transparantie en toestemming zijn daarom geen bijzaak meer. Ze bepalen of een model in Europa inzetbaar is.

Vorige artikel

Volgende artikel

Over de schrijver

Dave

Hoi, ik ben Dave – schrijver, onderzoeker en nieuwsgierige geest achter AIInsiders.nl. Ik hou me bezig met de manier waarop technologie ons leven verandert, en vooral: hoe we dat een beetje kunnen bijbenen. Van slimme tools tot digitale trends, ik duik graag in de wereld achter de schermen.

Mijn stijl? Lekker helder, soms kritisch, altijd eerlijk. Geen onnodig jargon of overdreven hype, maar praktische inzichten waar je echt iets aan hebt. AI is niet eng of magisch – het is interessant, en ik help je graag om dat te zien.

Meer lezen

30/06/2026 09:34

Philip Morris’ AI domineerde Nederlandse inspraak over EU-tabakswet

Tabaksreus Philip Morris International gebruikte een AI-systeem om de Nederlandse inspraak op nieuwe EU-tabaksregels te sturen. Tijdens de consultatie van de Europese Commissie werden veel lees verder

Philip Morris’ AI domineerde Nederlandse inspraak over EU-tabakswet

30/06/2026 07:31

OpenAI, Google en Microsoft domineren — waarom Europa achterblijft

Europa loopt achter in de race om krachtige AI-systemen. Onderzoekers, toezichthouders en bedrijven in de EU zien dat misbruik, zoals deepfakes en fraude, nu al lees verder

OpenAI, Google en Microsoft domineren — waarom Europa achterblijft

29/06/2026 21:53

Anthropic deelt Claude met Amerikaanse overheid — wat verandert?

Anthropic mag een nieuwe AI‑tool toch leveren aan Amerikaanse overheidsinstanties. Het technologiebedrijf, bekend van het Claude‑model, kreeg groen licht na extra veiligheidsafspraken. Het besluit volgt lees verder

Anthropic deelt Claude met Amerikaanse overheid — wat verandert?

29/06/2026 19:49

Wie maakt gewelddadige Rob Jetten-deepfakes — kan OpenAI dit stoppen?

Een online maker heeft gewelddadige AI-video’s over D66-leider Rob Jetten verspreid. De filmpjes doken de afgelopen weken op op X en Telegram en werden snel lees verder

Wie maakt gewelddadige Rob Jetten-deepfakes — kan OpenAI dit stoppen?