ChatGPT en AVG, deel 2: How It’s Made

Robot dat boekjes aan het lezen is in een getekende stijl

Zoals we in deel 1 uiteenzetten, werd in 2016 de Algemene verordening gegevensbescherming (AVG) aangekondigd. Twee jaar later, na de nodige ophef en discussie, trad de AVG in 2018 definitief in werking.

De komst van AI-toepassingen zoals ChatGPT zorgt voor een extra laag complexiteit wanneer het gaat om privacy en gegevensbescherming. Waar voorheen de opslag en verzending van gegevens redelijk eendimensionaal was komt er nu een “black box” in het spel.

Logischerwijs beginnen de zorgen omtrent privacy met betrekking tot toepassingen als ChatGPT zich op te stapelen. In dit artikel richten we ons op de vraag:

Welke informatie is er gebruikt om de modellen te trainen? Werd daarmee privacywetgeving of auteursrecht geschonden?

Trainingsdata

Wanneer we kijken naar het trainen van LLMs (‘Large Language Models’ vormen het technologische fundament waarop tools zoals ChatGPT berusten), dan ligt het zwaartepunt van de zorgen wat meer op auteursrecht dan op privacy. Desalniettemin werd ChatGPT in Italië geblokkeerd, omdat er tekenen zijn dat er persoonlijke informatie is gebruikt om het onderliggende LLM te trainen:

“[…] there was no legal basis to justify “the mass collection and storage of personal data for the purpose of ’training’ the algorithms underlying the operation of the platform”.” [bbc]

Hoewel deze zorg gegrond is, is de oplossing met name een logistieke uitdaging waar ontwikkelaars zoals OpenAI niet al te veel moeite mee zullen hebben. Door in de toekomst selectiever te zijn in het samenstellen van de trainingsdata en door hierover meer transparantie te bieden is het te verwachten dat deze zorg snel wordt weggenomen.

ℹ️ Inmiddels zijn er meerdere partijen die “ethically clean, GDPR-compliant” datasets aanbieden, zoals datasetshop.com. Daarnaast kunnen ontwikkelaars op speciale marktplaatsen voor Machine Learning (bijvoorbeeld Datarade) zelf zoeken naar datasets die voldoen aan hun eisen. Het lijkt dan ook een kwestie van tijd voordat het bemachtigen van integere data een relatief eenvoudige transactie wordt — maar op dat punt zijn we nog niet.

Maar OpenAI is niet de enige partij die LLMs traint. Zowel talloze hobbyisten als commerciële partijen ontwikkelen hun eigen modellen, of doen op zijn minst pogingen.

Dit leidde tot de recente keuze van Reddit (één van de oudste en grootste internetfora met tientallen miljoenen gebruikers) om hun API betaald te maken. Een API, kort voor Application Programming Interface, is een soort leveranciersingang waarmee ontwikkelaars kunnen communiceren met een platform. Via de Reddit API kon iedereen in theorie alle content die ooit op het platform is geplaatst uitlezen en verwerken — en dus gebruiken voor trainingsdoeleinden.

Het idee achter de paywall van Reddit’s API is om controle te krijgen over wie er data kan uitlezen en wat daar vervolgens mee gebeurt. Tegelijkertijd beperkt Reddit hiermee ook duizenden hobbyisten en communities die helemaal niet met AI bezig zijn. Velen hebben onschuldige, handige, en grappige plugins ontwikkeld die gebruik maken van de Reddit API. Nu deze niet meer gratis is, vallen er op veel plekken gaten doordat dit soort tools offline gaan.

Inbreuk op persoonlijke levenssfeer

Een extra punt van aandacht met betrekking tot trainingsdata is de mate waarin applicaties zoals ChatGPT inbreuk doen op de persoonlijke levenssfeer. Omdat het niet inzichtelijk is op welke informatie GPT is getraind is het voor buitenstaanders (en wetgevers) onmogelijk om te beoordelen of er wel of geen vooroordelen — in deze context vaak bias genoemd — in de antwoorden van de applicatie sluipen.

Hierdoor is niet vast te stellen of er inbreuk wordt gedaan op de persoonlijke levenssfeer, of dat er bijvoorbeeld al dan niet onbewust gediscrimineerd of op andere wijze gegeneraliseerd wordt.

Stappen in de juiste richting

Overigens heeft niet ieder bedrijf evenveel moeite met transparantie en het innemen van een duidelijke positie. Softwaregigant Adobe (ontwikkelaar van onder andere Photoshop en After Effects) werkt aan een eigen AI image generator onder de naam Adobe Firefly.

De positie van Adobe is overduidelijk: transparant en ethisch verantwoord, met name op het gebied van auteursrechten van makers en artiesten. Logisch, natuurlijk, aangezien het productaanbod van Adobe zich 100% richt op diezelfde groep.

De FAQ op de productpagina van Firefly is hier een duidelijk voorbeeld van. Er worden talloze vragen beantwoord die de zorgen van makers en artiesten moeten wegnemen, zoals:

Hoe gaat Adobe om met het ethische aspect van generatieve AI? Bij Adobe hebben we generatieve AI ontwikkeld en geïmplementeerd volgens onze kernbeginselen voor AI-ethiek: verantwoording, verantwoordelijkheid en transparantie. Lees ons blogbericht voor meer informatie over onze benadering en onze inspanningen om generatieve AI te ontwikkelen op een manier die onze klanten respecteert en aansluit bij onze bedrijfswaarden.

Een ethisch vraagstuk

De manier waarop producten worden vervaardigd doet er toe. Tot voor kort beperkten deze zorgen zich tot de fysieke wereld: arbeidsomstandigheden in lage-loonlanden, gebruik van verantwoorde materialen en het wel of niet testen van cosmetica op dieren.

Daar komt nu dus een extra categorie bij: welke digitale informatie is er gebruikt voor het ‘vervaardigen’ van een tool, wat is de herkomst van deze informatie, werd hiermee inbreuk gedaan op privacy en is de informatie zuiver?

Onder de streep zijn al deze kwesties van ethische aard. Hierin speelt natuurlijk de aanbieder (producent of ontwikkelaar) een belangrijke rol. Ongeacht het product of de dienst die zij leveren, hebben zij de plicht om ethisch verantwoorde keuzes te maken en daar bovendien zeer transparant over te zijn.

Vervolgens is het aan de gebruiker — die volledig afhankelijk is van de transparantie van de aanbieder — om een keuze te maken. Kies je ervoor het product te gebruiken, dan stem je in met de wijze van vervaardiging en morele gronden waarop dit gebeurt.

Biedt de aanbieder niet genoeg transparantie, of sluiten de waarden niet aan bij waar je voor staat? Dan ben je het aan jezelf verplicht om verder te kijken.

Geschreven door Jeroen Peerbolte