Hoe Meta, Google en anderen 'open-washing' toepassen op generatieve AI
⌂ » Werk & ondernemen » Nijmegen innoveert
In het afgelopen jaar zagen we een sterke toename van generatieve AI-systemen waarvan wordt beweerd dat ze open zijn. Maar hoe open zijn ze in werkelijkheid? Uit nieuw onderzoek blijkt dat bedrijven zoals Meta en Google zich op grote schaal schuldig maken aan 'open-washing': het claimen van openheid terwijl daadwerkelijke controles worden omzeild. De vraag wat in generatieve AI telt als open source wordt extra belangrijk in het licht van de Verordening Kunstmatige Intelligentie van de EU ('EU AI Act') waarin 'open source-modellen' bepaalde uitzonderingen op de regulaties genieten.
Bijna alle grote techbedrijven beweren dat ze 'open' modellen aanbieden. Er zijn er echter maar heel weinig die dat ook echt doen. Andreas Liesenfeld en Mark Dingemanse van het Centrum voor Taalwetenschap van de Radboud Universiteit onderzochten 45 tekst- en tekst-naar-beeldmodellen die zichzelf als open presenteren. Het biedt een grimmig beeld van de vermeende openheid van de huidige generatieve AI. Hun onderzoek werd onlangs gepubliceerd tijdens de ACM Conference on Fairness, Accountability, and Transparency en beschreven in Nature.
Afschermen en controle vermijden
De onderzoekers ontdekten dat bedrijven als Meta, Microsoft en Mistral strategisch gebruik maken van termen als 'open' en 'open source', terwijl ze hun modellen in feite bijna volledig afschermen van onderzoek door wetenschappers en controle door toezichthouders. Termen als 'open' en 'open source' worden vaak gebruikt voor marketingdoeleinden zonder dat er daadwerkelijk zinvolle inzage wordt verleend in de broncode, trainingsgegevens, afstemmingsgegevens of architectuur van systemen.
Voortbouwend op eerder werk namen de onderzoekers meer dan 45 modellen onder de loep, waarbij ze dit keer ook keken naar beeldgeneratoren zoals Stable Diffusion en OpenJourney. Ze stellen vast dat openheid ongelijk verdeeld is en vaak te rooskleurig wordt voorgesteld. Daarentegen ontdekten ze dat kleinere spelers zoals AllenAI (met OLMo) en BigScience Workshop + HuggingFace (met BloomZ) vaak extra moeite doen om hun systemen te documenteren en open te stellen voor nader onderzoek.
EU AI Act
De onlangs geïntroduceerde EU AI Act biedt speciale uitzonderingen voor 'open source-modellen', maar omvat geen duidelijke definitie van de term. Dit maakt open-washing aantrekkelijk: als een model telt als open profiteert de aanbieder van minder strenge eisen en minder controles vanuit de samenleving en de wetenschap. Liesenfeld: 'Het is daarom nog belangrijker dat we duidelijkheid hebben over wat “open” is als het gaat om generatieve AI. We zien openheid niet als een alles-of-nietsfenomeen, maar als samengesteld (bestaand uit meerdere elementen) en gradueel (er zijn verschillende gradaties).'
Hoewel de EU AI Act het onderwerp nu actueel maakt is al langer duidelijk dat openheid essentieel is voor innovatie, wetenschap en samenleving. Het kan ook helpen om te verduidelijken waartoe AI wel en niet in staat is. Dingemanse: 'Als een bedrijf als OpenAI beweert dat hun AI "kan slagen voor het balie-examen " (een speciaal examen voor juristen), is de vraag of dit indrukwekkend is afhankelijk van wat is opgenomen in de trainingsgegevens. OpenAI laat op dit gebied zeker niet het achterste van de tong zien, waarschijnlijk ook om te voorkomen dat het bedrijf zich blootstelt aan mogelijke juridische acties. Door de enorme hoeveelheid trainingsgegevens kunnen ChatGPT en vergelijkbare machines voor woordvoorspelling de meeste examens in "openboekmodus" afleggen, waardoor hun prestaties veel minder indrukwekkend zijn.'
Gids
Dit werk vormt een pleidooi voor zinvolle openheid in AI en brengt een groeiend aantal alternatieven voor ChatGPT aan het licht. Het onderzoek komt kort nadat de Faculteit der Letteren van de Radboud Universiteit een gids heeft uitgebracht over generatieve AI en wetenschappelijke integriteit waarin wordt opgeroepen tot meer kennis over AI onder onderzoekers die overwegen om generatieve AI te gebruiken.