Versnel je groei in 2024

  • Inzichten van 24 digitale experten
  • 47 concrete tips die je kan toepassen
  • Thema’s rond: data, contentmarketing, videomarketing, customer experience, social selling, customer journeys, …
  • 63 pagina’s vol groeiversnellers
  • 4 podcasts met 4 topmarketeers
Download whitepaper

Hoe voorkom je dat AI jouw (social media) data gebruikt?

In de maand november schreven we een blogpost ‘Google, handen af van onze content’. Nadien schreven we een post over AI die content gebruikt en hergebruikt zonder toestemming van de contentcreators. En vandaag schrijven we een post over de social media die je persoonlijke inhoud willen gebruiken om hun AI-modellen op te trainen. Dit betekent dat jouw persoonlijke posts, foto’s en blogs die je deelt op je sociale media mogelijk terechtkomen in datasets die gebruikt worden voor het trainen van AI-modellen. Het laat zien hoe internetreuzen zonder enige scrupule zich volop de content toeëigenen zonder toestemming van de creator. Niemand wil dat zijn content zonder toestemming wordt gebruikt, maar wat kun je hiertegen doen?

Waarom gebruiken AI-bedrijven onze content?

Om goede output te kunnen leveren heeft AI content nodig. Het is op basis van data dat de modellen getraind worden. AI-modellen, zoals taalmodellen, leren patronen, structuren en informatie door grote hoeveelheden data te analyseren. Deze data kan tekst, afbeeldingen, geluiden of andere vormen van informatie bevatten. Zonder deze data kan een AI geen relevante kennis opbouwen of nuttige uitkomsten genereren. En daar wringt het schoentje.

Een populaire bron voor deze cruciale grondstof zijn de media. Niet iedereen is daar gelukkig mee. CNN, The Washington Post en The Guardian hebben de toegang tot hun content voor de webcrawlers van OpenAI al geblokkeerd. Andere, zoals The New York Times, hebben rechtszaken aangespannen tegen het ongeoorloofde gebruik van hun intellectuele eigendom. De relatie tussen media-, creatieve en AI-bedrijven is gespannen, omdat de laatste weinig respect lijken te hebben voor copyright en intellectueel eigendom.

Welke content?

De Washington Post heeft een dataset (Google C4 dataset) onderzocht waarop AI getraind werd. Het gaat over een dataset van meer dan 15 miljoen websites. Zij onderzochten welke content Google gebruikt om hun AI-modellen op te trainen. De top vier zijn websites uit: business en industrie (16%), technologie (15%), nieuws en media (13%) en kunst & entertainment (11%). Ook hoog op de lijst: b-ok.org, een beruchte markt voor illegale e-boeken die inmiddels in beslag is genomen door het Amerikaanse ministerie van Justitie. Ten minste 27 andere sites die door de Amerikaanse overheid zijn geïdentificeerd als markten voor piraterij en vervalsingen waren aanwezig in de dataset, naast heel wat websites waar contentcreators hun creatief werk kunnen opladen. Kortom, AI gebruikt content zonder dat de contentcreators hiervan op de hoogte zijn. Google gebruikt die content dus zonder dat het de expliciete toestemming kreeg van de contentcreators. Er lopen op dit moment dan ook verschillende processen tegen verschillende aanbieders van AI.

Andere bedrijven worden dan weer wel betaald voor de content die ze op hun platform hebben. Zo sloot Reddit een deal met Google, waardoor al hun content gebruikt mag worden voor AI-training. Maar ook hier krijgen de contentcreators geen vergoeding.

In hun algemene voorwaarden staat letterlijk: Reddit respects the intellectual property of others and requires that users of our Services do the same.

Ook Tumblr en WordPress zouden op het punt staan om hun content te verkopen aan bedrijven zoals Midjourney en OpenAI.

En nu ook jouw persoonlijke foto’s?

In de AI-race is het belangrijk om te weten dat ook de socialemediaspelers op de kar willen springen, waaronder Meta, Snapchat, TikTok en X. Bij X staat in hun aangepaste privacybeleid dat openbare gebruikersdata kunnen worden gebruikt voor AI-training: “We may use the information we collect and publicly available information to help train our machine learning or artificial intelligence models for the purposes outlined in this policy.”

Meta gebruikt data van Facebook, Instagram en Threads voor het trainen van generatieve AI. Dit omvat foto’s en video’s. En ook TikTok geeft aan dat het aan de slag gaat met jouw content om hun tool te verbeteren.

En wat met de content die we opladen in ChatGPT en andere AI?

Voor wie nog mocht twijfelen: ook ChatGPT gebruikt de content die je daar oplaadt.

Zij verwoorden het als volgt: “Our large language models are trained on a broad corpus of text that includes publicly available content, licensed content, and content generated by human reviewers. We don’t use data for selling our services, advertising, or building profiles of people—we use data to make our models more helpful for people. ChatGPT, for instance, improves by further training on the conversations people have with it, unless you choose to disable training.”

Het is toch wel vreemd dat dit automatisch aan staat. De GDPR-regeling geeft juist aan dat je altijd eerst de toestemming moet vragen. Het is dan ook onbegrijpelijk dat deze bedrijven dit gewoon kunnen doen zonder eerst actief de toestemming van hun gebruikers te vragen.

Wat kun je hiertegen doen?

Hoewel het soms lijkt alsof je machteloos staat tegenover deze bedrijven, zijn er toch enkele stappen die je kunt nemen om je gegevens te beschermen.

1. Informeer jezelf

De Washington Post biedt een handige tool waarmee je kunt zien welke websites deel uitmaken van de dataset waarmee hun AI getraind is. Zo krijg je inzicht in hoeveel van jouw gegevens mogelijk gebruikt worden. Wij deden even de test.

Van Mediaforta:

Van de VRT:

2. Opt-out mogelijkheden

Verschillende platformen bieden een opt-out mogelijkheid aan om je content te delen voor AI-trainingen. Als je niet wil dat Meta jouw gegevens gebruikt voor AI-training, kun je een speciaal formulier invullen. Tumblr heeft een opt-out voor het delen van je blog met AI-modellen. En zoals we eerder aangaven, kan je ook aan ChatGPT vragen om je content niet te gebruiken.

Zoals je kan zien, moeten gebruikers in het opt-out formulier zelf argumenteren. Test-Aankoop raadt daarbij de volgende formulering aan in het verplichte argumentatieveld:

“Ik maak expliciet bezwaar tegen het gebruik van mijn gegevens voor AI-doeleinden door Meta. Uw staat van dienst op het gebied van gegevensbescherming en -verwerking is bedroevend en u verzuimt expliciet aan te geven hoe mijn gegevens zullen worden gebruikt. Als Meta mijn verzoek niet inwilligt, dien ik een formele klacht in conform de GDPR (General Data Protection Regulation) bij de Belgische Gegevensbeschermingsautoriteit.”

Maar waarom moet jij als gebruiker actief actie ondernemen? Dat is op zich wel vreemd.

Pierre Dewitte, onderzoeker bij het Citip aan de KU Leuven, geeft in de Standaard aan dat dit een mogelijk probleem is voor Meta. “Bedrijven zijn verplicht het voor gebruikers gemakkelijk te maken om hun rechten uit te oefenen.”

Bovendien is het volgens Pierre Dewitte nog niet duidelijk hoe de GDPR privacywetgeving moet worden toegepast op het trainen van AI. “Die kwestie wordt nu besproken bij de European Data Protection Board (EDPB).”

Bij het schrijven van dit artikel heeft de privacyorganisatie noyb (none of your business) in elf Europese landen, waaronder België, een klacht ingediend tegen Meta (Facebook, Instagram, WhatsApp). Volgens de in Wenen gevestigde ngo is de reden hiervoor het plan van Meta om binnenkort de persoonlijke gegevens van zijn gebruikers “illegaal” te gebruiken in een programma voor kunstmatige intelligentie (bron HLN). In ons land diende ook Testaankoop een klacht in bij de Gegevensbeschermingsautoriteit. En bij het schrijven van dit artikel heeft Meta bevestigd dat het zijn AI-plannen in Europa gaat pauzeren.

Waar we ons ook vragen bij stellen is het volgende. Stel dat je dit actief uitzet of een aanvraag daarvoor zou indienen. Of zoals Facebook nu aangeeft dat ze dit in Europa op pauze zullen zetten. Hoe weet je dan dat zij dit ook daadwerkelijk respecteren? Zijn er instanties die dit controleren? Deze platformen zijn immers geen heilige jongens. Ze hebben ondertussen al verschillende miljarden euro’s aan boetes verzameld omdat ze aan bepaalde Europese wetgeving hun voetenvegen.

We vroegen het ook aan Pierre Dewitte zelf, en hij bevestigde dat er inderdaad geen instantie is die dat kan controleren.

3. Verwijderen van accounts

De meest effectieve manier om te voorkomen dat je gegevens gebruikt worden voor AI-training, is je accounts te verwijderen. Hoewel dit een drastische stap is, kan het een goede optie zijn als je echt geen gegevens wil delen. Dit geldt natuurlijk alleen voor toekomstige data. Gegevens die al verzameld zijn, kunnen nog steeds gebruikt worden.

Wat zegt Europa?

In de loop van de maand juni zal de Europese AI-act van toepassing worden. Voor dit artikel hebben we geprobeerd om iemand binnen de EU te kunnen spreken. Tot op heden hebben we echter geen reactie gekregen. Dan hebben we het maar aan ChatGPT gevraagd.

Meta heeft aangekondigd dat ze hun AI-systemen ook op data van Europese gebruikers gaan trainen. Dit zal vanaf eind juni gebeuren en is gebaseerd op een ‘gerechtvaardigd belang’, een controversiële grondslag onder de Algemene Verordening Gegevensbescherming (GDPR).

GDPR biedt richtlijnen voor het gebruik van persoonsgegevens, wat ook van toepassing is op het trainen van AI-modellen. Onder de GDPR moet elke verwerking van persoonsgegevens een wettelijke basis hebben, en de betrokkenen hebben rechten met betrekking tot hun gegevens, waaronder het recht om geïnformeerd te worden, toegang tot hun gegevens te krijgen, deze te corrigeren, te wissen en bezwaar te maken tegen de verwerking.

Voor het trainen van AI, vooral wanneer persoonsgegevens worden gebruikt, zijn de principes van gegevensminimalisatie, doelbinding en transparantie cruciaal. De verzamelde gegevens moeten toereikend, relevant en beperkt zijn tot wat noodzakelijk is voor de beoogde doeleinden.

Daarnaast moeten individuen geïnformeerd worden over hoe hun gegevens zullen worden gebruikt, inclusief als deze worden gebruikt voor het trainen van AI.

In de context van AI, met name generatieve AI-modellen, vereist de GDPR een wettelijke basis voor gegevensverwerking. Dit kan zijn toestemming van de betrokkenen, uitvoering van een contract, naleving van een wettelijke verplichting, bescherming van vitale belangen, algemeen belang, of gerechtvaardigde belangen van de verwerkingsverantwoordelijke, mits deze niet worden overschreven door de rechten en belangen van de betrokkene.

Conclusie

Hoewel je misschien niet volledig kunt voorkomen dat je gegevens gebruikt worden voor AI-training, kun je wel degelijk stappen nemen om je gegevens beter te beschermen. Informeer jezelf, gebruik opt-out mogelijkheden, pas je privacy-instellingen aan en overweeg het verwijderen van accounts. Door proactief te handelen, kun je de controle over je eigen data terugnemen en ongewild gebruik door AI-bedrijven beperken. Blijf ook op de hoogte van de nieuwste ontwikkelingen en maak gebruik van de beschikbare tools en middelen om je privacy te beschermen.

Kwalitatieve leads genereren dankzij account baded marketing. Ontdek het in onze whitepaper: “Driving Business Growth through Account Based Marketing”.

Download

14 redenen waarom jouw contentmarketing niet werkt

Heb je weinig of zwakke leads, weinig bezoekers, weinig clicks? We sommen in deze whitepaper 14 redenen op waardoor het fout kan lopen en geven tips hoe je dit kan vermijden.