Stichting Brein heeft een AI-trainingset laten aanpassen na een sommatie. Ongeveer twee miljoen ongeautoriseerd gebruikte artikelen zijn verwijderd uit de online dataset. Dat gebeurde deze week om inbreuk op auteursrechten te stoppen. De stap raakt ontwikkelaars, uitgevers en ook de overheid in het licht van de Europese AI-verordening en de gevolgen voor de overheid.
Brein dwingt verwijdering af
De Nederlandse stichting Brein trad op tegen een dataset die nieuwsartikelen zonder toestemming bevatte. De beheerders hebben daarop circa twee miljoen teksten verwijderd. Daarmee is de trainingset aangepast, zodat de omstreden content niet langer beschikbaar is.
Volgens Brein ging het om artikelen die als volledige tekst waren opgenomen. Zulke kopieƫn worden gebruikt om algoritmen te trainen. Zonder licentie of uitzondering onder de wet is dat niet toegestaan.
Brein zegt op te treden namens rechthebbenden, zoals uitgevers en journalisten. Het doel is hergebruik van beschermde werken te beperken. De stichting kondigt aan soortgelijke datasets te blijven monitoren.
Nieuwsartikelen zijn beschermd
Nieuwsartikelen vallen onder de Auteurswet en het EU-auteursrecht. Ook als een tekst vrij online te lezen is, blijft kopiĆ«ren en herpubliceren zonder toestemming meestal verboden. Een statische trainingset met volledige artikelen is zoān herpublicatie.
Het verschil tussen linken en kopiƫren is belangrijk. Een link verwijst naar de bron en maakt geen kopie. Een dataset met de volledige tekst maakt wel een kopie en verspreidt die opnieuw.
Uitgevers beschermen hun content om inkomsten en investeringen in journalistiek veilig te stellen. Ongeautoriseerd hergebruik kan tot schadeclaims leiden. Dat geldt ook als het hergebruik āalleen voor trainingā gebeurt.
Commerciƫle text- en datamining in de EU is toegestaan, tenzij rechthebbenden via een duidelijke opt-out hebben aangegeven dat hun werken niet mogen worden gebruikt.
Regels voor textmining gelden
De EU kent uitzonderingen voor text- en datamining (TDM). Onderzoekers mogen onder voorwaarden data minen als zij rechtmatige toegang hebben. Commerciƫle partijen mogen dat ook, maar alleen als rechthebbenden geen opt-out hebben ingesteld.
Uitgevers kunnen een TDM-reservering plaatsen in hun robots.txt of metadatatags. Wie toch kopieƫn opneemt in een dataset, handelt in strijd met die reservering. Dat is een groter risico dan alleen tijdelijk analyseren.
Het bouwen en delen van complete kopieƫn versterkt de inbreuk. Het gaat dan niet meer om analyseren, maar om verspreiden. Voor zulke datasets is vrijwel altijd een licentie nodig.
Naast auteursrecht kan ook de AVG meespelen. Nieuwsartikelen bevatten soms persoonsgegevens. Grote verzamelingen vereisen dan een duidelijke juridische grondslag en dataminimalisatie.
AI-verordening vraagt openheid
De Europese AI-verordening verplicht aanbieders van generieke AI-modellen tot meer transparantie. Zij moeten een samenvatting publiceren van de gebruikte trainingsdata. Dat vergroot de zichtbaarheid van ongeoorloofde bronnen.
Voor overheden die AI inkopen betekent dit extra due diligence. Leveranciers moeten aantonen dat hun data rechtmatig zijn verkregen. Afspraken over licenties en opt-outs horen in contracten en aanbestedingen.
Ook publieke instellingen moeten letten op AVG en auteursrecht. Intern gebruik ontslaat niet van regels. Een helder auditspoor van data en rechten wordt essentieel.
De verordening stimuleert bovendien risicobeheersing. Documentatie, naleving en snelle correctie van fouten worden een plicht. De ingreep in deze dataset past in die lijn.
Gevolgen voor ontwikkelaars
AI-ontwikkelaars lopen juridische en operationele risicoās bij foutieve datasets. Verwijderingen breken trainingspijplijnen en schaden reproduceerbaarheid. Vertrouwen en reputatie staan op het spel.
Praktisch betekent dit: werk met gelicentieerde corpora en respecteer TDM-opt-outs. Gebruik filters om beschermde content te weren. Leg herkomst en toestemmingen vast met dataprovenance-tools.
Open-sourcegemeenschappen en datasetplatforms moeten strenger modereren. Het delen van volledige, beschermde teksten zonder licentie is niet toelaatbaar. Curatie en klachtenprocedures zijn nodig om herhaling te voorkomen.
Voor startups en universiteiten geldt hetzelfde. Check de juridische basis vóórdat je traint. Dat voorkomt kostbare retraining en claims achteraf.
