Onder de motorkap van Stable Diffusion

Het AI-model dat de kunst-, design- en fotografie wereld op haar kop zet

Tot voor kort was het ondenkbaar: je geeft een computer een eenvoudige tekstuele opdracht en je krijgt er binnen een paar tellen een prachtig ‘kunstwerk’ voor terug. “An astronaut riding a horse on Mars,” bijvoorbeeld.

Maar medio 2022 kwam het kantelpunt. Ze schoten als paddenstoelen uit de grond: dromerige, surrealistische of juist hyperrealistische afbeeldingen. Niet van de hand van een topfotograaf of kunstenaar, maar gemaakt door ‘gewone’ mensen door middel van één simpel tekstcommando — ook wel prompt genoemd.

Een andere orde van grootte

Aan de basis van deze technologie ligt een AI-model, waarin AI staat voor ‘artificial intelligence,’ ofwel kunstmatige intelligentie. Een model kun je zien als een toepassing met eigen kenmerken en toepassingen. Er zijn talloze modellen, ieder met hun eigen kracht, kenmerken en beperkingen. Een model voor het genereren van afbeeldingen op basis van tekstuele opdrachten noemen we een text-to-image-model. Stable Diffusion is één van de meest geavanceerde modellen van deze soort.

Voordat je een model zoals Stable Diffusion kunt gebruiken, moet het worden getraind op een enorme hoeveelheid informatie. Die berg aan informatie, ook wel een dataset genoemd, is veel groter dan jij en ik ons kunnen voorstellen. Ter illustratie: de dataset waarop SD getraind is (LAION-5B) bestaat uit 5 miljard afbeeldingen, ieder voorzien van een korte omschrijving. Wanneer je als mens iedere afbeelding 3 tellen zou bekijken (en nooit zou slapen) dan zou je hier ruim 90 jaar mee bezig zijn.

Doordat het model zóveel informatie heeft ‘bekeken’ en geanalyseerd, kan het met grote zekerheid voorspellingen doen en associaties maken. Het model leert bijvoorbeeld niet alleen wat de kenmerken van een kat zijn, maar begrijpt ook welke aspecten waarschijnlijk horen bij een Franse kat. Een baret en een gestreept truitje, blijkbaar.

De kunst van de instructie

Stable Diffusion bedenkt niets uit zichzelf. Alles begint bij de instructie, de prompt. Inmiddels wordt er veel gediscussieerd over de beste manier om prompts te schrijven. Deze kunst van het perfectioneren van een prompt heeft zelfs een eigen naam gekregen: ‘prompt craft.’
Een voorbeeld hiervan is het toevoegen van keywords die het model in een bepaalde richting sturen. Met woorden zoals ‘high detail’, ‘dramatic lighting’ en ‘birds-eye perspective’ geef je de afbeelding een duidelijk karakter.

Maar de lessen die het model trekt uit de dataset gaan veel verder dan Franse katten of gedetailleerde omgevingen. Wanneer je als gebruiker nadenkt over de dataset waarop een model getraind is, kun je je prompts nóg slimmer vormgeven.

“Artstation” is een veelgebruikte toevoeging aan prompts. Artstation is een website waarop getalenteerde kunstenaars en illustratoren hun werk delen. De kwaliteit van het beeldmateriaal op deze website is vanzelfsprekend enorm hoog. En die hoge kwaliteit — althans, de visuele kenmerken die jij en ik associeren met hoge kwaliteit — die houden in de ogen van het model verband met het woord “Artstation.” De toevoeging van dat woord heeft over het algemeen dus ‘mooiere’ resultaten als gevolg.

Op deze wijze kun je ook namen van kunstenaars toevoegen om ervoor te zorgen dat de afbeelding in hun herkenbare stijl wordt teruggegeven. Hieronder een voorbeeld van dezelfde prompt, met de toevoeging van drie verschillende artiesten.