ChatGPT, Privacy en AVG

ChatGPT, Privacy en AVG, deel 1: What Goes In…

IT services kasten in een donkere ruimte

In 2016 werd de Algemene verordening gegevensbescherming (AVG) aangekondigd. Hoewel het belang van deze wet door vrijwel iedereen werd onderkend, stuitte de aankondiging ook op de nodige weerstand. Administratieve lasten, de kosten voor de implementatie om aan de regels te voldoen en de dreiging van boetes zorgden voor ophef.

De AVG trad in 2018 definitief in werking. Terugblikkend was het naleven van de wet destijds, hoewel het nog niet zo gek lang geleden is, een stuk overzichtelijker dan nu. En als we vooruitkijken, dan zien we in de nabije toekomst nog wat aanvullende uitdagingen.

De komst van AI-toepassingen zoals ChatGPT zorgt voor een extra laag complexiteit wanneer het gaat om privacy en gegevensbescherming. Waar voorheen de opslag en verzending van gegevens redelijk eendimensionaal was komt er nu een “black box” in het spel.

Logischerwijs beginnen de zorgen omtrent privacy met betrekking tot toepassingen als ChatGPT zich op te stapelen. In dit artikel richten we ons op de vraag:

Wat gebeurt er met de informatie die gebruikers naar de AI-systemen sturen, zoals persoonsgegevens, bedrijfskritieke informatie en beeldmateriaal? En hoe wordt dit verwerkt?

Informatie van gebruikers

ChatGPT ontvangt dagelijks miljoenen queries. De aard van ChatGPT (evenals alle andere AI-toepassingen) is dat de gebruiker informatie deelt om daarop een reactie te ontvangen; het is een dialoog.

Dit betekent er bij iedere query een pakketje met informatie naar een server gestuurd wordt. Die data wordt verwerkt en, zo blijkt, vrijwel altijd opgeslagen.

Helaas biedt de privacyverklaring van OpenAI hier zeer beperkt informatie over. Bovendien is deze verklaring niet van toepassing op ChatGPT — daarvoor gelden weer andere, onduidelijke voorwaarden.

Dit gebrek aan transparantie is reden genoeg voor meerdere landen, waaronder dus Italië, om ChatGPT (tijdelijk) te verbieden, zodat er tijd is om onderzoek te doen en opheldering te eisen.

Niet iedere query is hetzelfde

Er zijn twee manieren om ChatGPT te gebruiken: Via de chat interface op chat.openai.com of via de onderliggende API — een technische koppeling waarmee programmeurs direct het achterliggende AI model kunnen aanspreken en gebruiken in hun eigen applicaties.

Alle informatie die via de chat interface naar ChatGPT wordt gestuurd kan door OpenAI worden gebruikt voor trainingsdoeleinden. De manier waarop dit gebeurt is vaag, waardoor we niet zeker weten of informatie ingebracht door gebruiker A haar weg terug kan vinden naar gebruiker B. Een belangrijke valkuil om je bewust van te zijn en reden te meer om geen bedrijfskritieke of anderszins belastende informatie te delen via de web client.

Informatie die via de API naar ChatGPT wordt gestuurd, wordt niet gebruikt voor trainingsdoeleinden. Maar dat is geen garantie dat je data niet wordt opgeslagen. Op de website van OpenAI is te lezen:

OpenAI will not use data submitted by customers via our API to train or improve our models, unless you explicitly decide to share your data with us for this purpose. You can opt-in to share data.
Any data sent through the API will be retained for abuse and misuse monitoring purposes for a maximum of 30 days, after which it will be deleted (unless otherwise required by law).

Met name het tweede punt vergt aandacht. Informatie die met de juiste intenties wordt opgeslagen kan nog steeds in handen vallen van iemand met andere intenties. Het voornaamste risico is niet dat OpenAI misbruikt maakt van de gegevens, maar dat er een lek ontstaat waardoor kwaadwillenden toegang krijgen tot (een gedeelte van) de gevoelige informatie.

Bovendien wordt de data opgeslagen in de VS, waar de privacywetgeving significant anders is dan in de EU en Nederland, en wat sinds 2020 ook nog eens in strijd is met de AVG.

Daarnaast kan de informatie ook door menselijke fouten publiekelijk worden gemaakt — iets wat in de geschiedenis al regelmatig gebeurde bij kleine én grote tech-bedrijven.

Het is op dit moment onduidelijk in hoeverre de informatie die vanuit de API wordt opgeslagen is geanonimiseerd of op andere wijze is bewerkt om dit risico te beperken.

Hier ging het al mis

Naast het rigoureuze besluit van de Italiaanse overheid om ChatGPT in zijn geheel te blokkeren zijn er al een aantal andere opmerkelijke voorvallen geweest.

Meerdere medewerkers van elektronicagigant Samsung voedden het systeem met met kritieke informatie. Er werden geheime stukken broncode naar ChatGPT gestuurd om het te controleren op fouten. Een andere medewerker deelde opnames van een besloten meeting met het verzoek om hiervan een samenvatting te maken.

Daarnaast veroorzaakte OpenAI zelf onrust door een knullige maar tekenende fout. Gebruikers van de web client van ChatGPT hebben toegang tot een lijst met titels van al hun voorgaande gesprekken. Door een bug in het systeem konden gebruikers tijdelijk de titels van de gesprekshistorie van andere gebruikers zien.

Dit is een goed voorbeeld van het risico van gegevensopslag, zelfs wanneer dit met de juiste intenties gebeurt.

Op welk grondgebied wordt de data verwerkt?

Een ander belangrijk punt voor de AVG is dat de gegevensverwerking op Europees grondgebied moet plaatsvinden. De servers van OpenAI bevinden zich op het moment van schrijven allemaal in de VS.

Gelukkig is er een oplossing. Met behulp van Microsoft Azure kunnen we GPT benaderen via een API die wél op Europese servers draait.

Behalve dat deze benadering wat omslachtiger is dan rechtstreekse communicatie met de OpenAI servers, kleeft er nog een ander nadeel aan: de Azure-varianten van OpenAI’s modellen liggen vaak (minstens een maand) achter ten opzichte van de originele modellen.

Hoe nu verder?

Autofabrikanten dragen vrijwel de volledige verantwoordelijkheid voor het produceren van veilige, betrouwbare auto’s. Maar ook als bestuurders spelen we een belangrijke rol. De fabrikant kan ons immers niet behoeden voor roekeloos rijgedrag. Een vergelijkbare balans is van toepassing op producten als ChatGPT.

De verantwoordelijkheid voor de juiste omgang met gegevens ligt natuurlijk bij OpenAI. Zij moeten ervoor zorgen dat alleen de nodige informatie correct en veilig wordt opgeslagen, dat de beveiliging up to date is, en dat de kans op aanvallen of andere lekken hierdoor minimaal is. Daarnaast zal OpenAI enorm ver moeten gaan in haar transparantie omtrent de verwerking van gegevens en het bieden van keuzes — ook om ons als gebruiker keuzes te laten maken die in lijn zijn met onze ethische waarden.

Een voorbeeld van extra transparantie en controle is de recente aankondiging van een opt-out voor trainingsdoeleinden. Een ander voorbeeld uit datzelfde artikel is de mogelijkheid om al je data op te vragen.

Dit soort opties en deze mate van transparantie helpt gebruikers om te weten waar ze staan, maar ook om OpenAI scherp te houden.

Wat je zelf kunt doen

GPT en de ontwikkeling rondom large language models is te waardevol om links te laten liggen. Maar we moeten wel waakzaam blijven en voorkomen dat we in ons enthousiasme bepaalde zaken over het hoofd zien.

Tenslotte hebben wij als gebruiker zelf de verantwoordelijkheid om bedachtzaam met de techniek om te gaan. Wat je op zijn minst kunt doen:

Maak gebruik van de API en niet via de chat interface op OpenAI.
Deel nooit bedrijfs-kritieke of andere gevoelige informatie met externe systemen.
Zorg dat je API gehost staat op Europees grondgebied (zoals wij doen via Microsoft Azure).
Ben kritisch naar de resultaten, een LLM is een model dat op basis van historische gegevens een verwacht resultaat geeft, maar is alles behalve foutloos.
Zorg dat je de bronvermeldingen van de LLM controleert.
Samengevat blijf ALERT (gebruik het als Aanvulling op bronnen, zorg voor Legitiem gebruik, Ethisch verantwoord, controleer het Resultaat, en besef dat het een Tool is ter ondersteuning)

Daarnaast kunnen we extra stappen nemen. Zo gebruiken wij een [open source front-end] die in verbinding staat met de ChatGPT API. Deze front-end hosten we zelf en presteert op z’n minst net zo goed als de user interface van OpenAI. Maar een bijkomend voordeel is dat we ook profiteren van de privacy-voordelen van de API ten opzichte van OpenAI’s eigen interface.

Oh — en de kosten zijn op deze manier zelfs lager dan wanneer we voor alle teamleden van Stijlbreuk een ChatGPT Plus-account zouden afsluiten. Win-win, dus.

💡 Hier lees je deel 2. Hierin kijken we naar de manieren waarop trainingsdata vergaard en verwerkt worden en hoe dit verband houdt met privacy.

Omdat het privacy vraagstuk continu in beweging is zullen we hieronder ontwikkelingen toevoegen:

💡 Update: OpenAI is bezig met het ontwikkelen van een ChatGPT Business abonnement. Hiermee richten ze zich op “professionals die meer controle over hun gegevens nodig hebben, evenals bedrijven die hun eindgebruikers willen beheren.” Deze ontwikkeling is een duidelijk signaal dat OpenAI zich bewust is van de vragen en knelpunten in de markt en bereid is om daar op in te spelen.

Geschreven door Jeroen Peerbolte