AI-bedrijven benaderen op dit moment antiquariaten met verzoeken om grote partijen tweedehands boeken. Het gaat om winkels in Nederland en andere Europese landen. De bedrijven willen de boeken digitaliseren voor het trainen van taalmodellen zoals GPT-4o, Llama 3 en Claude 3. Ze zoeken snel meer tekstdata, terwijl de Europese AI-verordening en de AVG strengere eisen stellen.
Antiquariaten krijgen massale verzoeken
Meerdere antiquariaten melden dat ze recent e-mails kregen van tussenpersonen die voor AI-bedrijven werken. De vraag: lijsten met titels, of direct bulkinkoop van uiteenlopende genres. Soms wordt ook gevraagd om tijdelijk inzien of scannen, met snelle afhandeling en eigen vervoer. Winkeliers herkennen een nieuwe, niet-traditionele vraag uit de technologiesector.
De interesse richt zich op literaire werken, vakboeken en handleidingen. Zulke teksten zijn lang, verzorgd geredigeerd en dekken veel onderwerpen. Voor algoritmen leveren ze stabiele patronen en rijke woordenschat. Dat is nuttig voor het trainen van datamodellen die zinnen moeten begrijpen en maken.
De verzoeken komen vaak uit het buitenland, met Engelstalige standaardmails. Maar de focus ligt ook op lokale talen, zoals Nederlands en Duits. AI-bedrijven willen bredere taaldekking en betere prestaties op Europese datasets. Daardoor worden juist regionale boekcollecties interessant.
Drijfveer: meer en gevarieerde data
Grote taalmodellen hebben veel en diverse tekst nodig om te leren. OpenAI (GPT-4o), Meta (Llama 3), Anthropic (Claude 3) en Mistral bouwen door op steeds grotere corpora. Het web levert niet altijd genoeg hoogwaardige of rechtenvrije tekst. Boeken vullen dat gat met thematische diepte en consistente stijl.
Voor Nederlands en kleinere Europese talen is de dataschaarste nog groter. Online teksten zijn versnipperd en kort. Boeken bieden lange redeneringen en specialistische termen. Dat helpt modellen om instructies beter te volgen en kennisvragen te beantwoorden.
Daarnaast willen bedrijven het risico op āruisā en misinformatie uit webdata verkleinen. Geselecteerde boekcollecties leveren gecontroleerder bronmateriaal. Dat kan de output van systemen voorspelbaarder maken. Voor toepassingen in overheid en zorg is dat extra relevant.
Juridische grijze zone bij boeken
Boeken kopen geeft geen automatisch recht om ze te kopiƫren of te scannen. Digitaliseren valt onder het auteursrecht, behalve waar een uitzondering geldt. In de EU bestaat een tekst- en datamining-exceptie (TDM) als men rechtmatig toegang heeft. Auteurs en uitgevers kunnen daar wel vooraf een opt-out voor instellen.
Bij fysieke boeken is die opt-out lastig zichtbaar. Anders dan bij websites is er geen robots.txt. AI-bedrijven moeten dus aantoonbaar zorgvuldig werken en opt-outs respecteren. Ook moeten ze kopieƫn niet langer bewaren dan nodig voor datamining.
Voor werken in het publieke domein (auteur meer dan 70 jaar overleden) ligt het eenvoudiger. Daar is scannen in principe toegestaan. Toch blijven er vragen over databescherming en morele rechten. Zeker bij memoires of brieven met gevoelige informatie kan de AVG raken aan hergebruik.
Text- en datamining (TDM) is het geautomatiseerd analyseren van teksten of data om patronen, trends of verbanden te vinden, bijvoorbeeld voor het trainen van AI-systemen.
EU-regels dwingen tot transparantie
De Europese AI-verordening verplicht aanbieders van algemene AI-systemen tot meer openheid. Zij moeten op het moment van schrijven een āvoldoende gedetailleerdeā samenvatting van trainingsdata publiceren. Ook moeten zij rekening houden met het auteursrecht en TDM-opt-outs. Dit raakt direct het verzamelen van boekteksten.
Voor Nederlandse en Europese afnemers wordt naleving een harde eis. Overheden en publieke instellingen mogen straks alleen AI gebruiken die aan de verordening voldoet. Dit is belangrijk voor aanbestedingen in bijvoorbeeld onderwijs en zorg. Leveranciers moeten hun dataketen kunnen uitleggen en onderbouwen.
De regels komen gefaseerd in werking in 2025 en 2026. Bedrijven die nu datasets bouwen, moeten daar al op voorsorteren. Grijze praktijken rond tweedehands boeken kunnen later reputatie- en juridische risicoās opleveren. Transparantie en documentatie worden concurrerende factoren.
Uitgevers en auteurs willen grip
Auteurs en uitgevers vragen om duidelijke licenties en een eerlijke vergoeding. In de VS lopen rechtszaken tegen onder meer OpenAI en Meta over het gebruik van boeken. In Europa groeit de druk om via collectieve regelingen of directe deals toegang te bieden. Daarmee wordt willekeurig datagraaien minder aantrekkelijk.
Enkele grote mediagroepen sloten recent licentie-overeenkomsten met AI-bedrijven. Het doel is gebruik onder voorwaarden, met bronvermelding en vergoeding. Voor boekenmarkten kan zoān model ook werken, bijvoorbeeld via sectorafspraken. Dit bevordert rechtszekerheid Ć©n kwaliteitsdata.
Voor schrijvers gaat het om erkenning Ʃn controle. Ze willen weten of en hoe hun werk in datamodellen belandt. Een helder opt-out-mechanisme voor TDM bij boeken ontbreekt nu nog in de praktijk. Dat maakt communicatie met AI-bedrijven en tussenpersonen essentieel.
Gevolgen voor Nederlandse boekhandel
Antiquariaten krijgen plots een nieuwe klantgroep met afwijkende wensen. Winkels moeten afwegen of bulkverkoop voor scanning past bij hun profiel. Er zijn vragen over aansprakelijkheid en contractvoorwaarden. Heldere afspraken over doel, opslagduur en vernietiging van scans zijn nodig.
Voor sommige genres kunnen prijzen stijgen door extra vraag. Denk aan technische handboeken, woordenboeken en naslagwerken in het Nederlands. Die zijn schaars maar waardevol voor modellen die Europese talen beter moeten beheersen. Dit kan de markt tijdelijk verstoren.
Ook bibliotheken en erfgoedinstellingen kunnen benaderd worden. Zij hebben vaak hoogwaardige, gedigitaliseerde collecties met duidelijke metadata. Samenwerking kan, maar waarschijnlijk alleen met strikte licenties en auditplichten. Zo blijft hergebruik verenigbaar met de AI-verordening en het auteursrecht.
Voor eindgebruikers kan dit leiden tot betere Nederlandstalige AI-systemen. Maar het vertrouwen hangt af van legale en transparante dataverzameling. Overheid en bedrijven zullen hierop sturen bij inkoop. Daarmee verschuift de prikkel van snel Ʃn stil inkopen naar netjes en navolgbaar licenseren.
