Onder de motorkap van Stable Diffusion, het AI-model dat de kunst-, design- en fotografie wereld op haar kop zet


Tot voor kort was het ondenkbaar: je geeft een computer een eenvoudige tekstuele opdracht en je krijgt er binnen een paar tellen een prachtig ‘kunstwerk’ voor terug. “An astronaut riding a horse on Mars,” bijvoorbeeld.

Maar medio 2022 kwam het kantelpunt. Ze schoten als paddenstoelen uit de grond: dromerige, surrealistische of juist hyperrealistische afbeeldingen. Niet van de hand van een topfotograaf of kunstenaar, maar gemaakt door ‘gewone’ mensen door middel van één simpel tekstcommando — ook wel prompt genoemd.

Een andere orde van grootte

Aan de basis van deze technologie ligt een AI-model, waarin AI staat voor ‘artificial intelligence,’ ofwel kunstmatige intelligentie. Een model kun je zien als een toepassing met eigen kenmerken en toepassingen. Er zijn talloze modellen, ieder met hun eigen kracht, kenmerken en beperkingen. Een model voor het genereren van afbeeldingen op basis van tekstuele opdrachten noemen we een text-to-image-model. Stable Diffusion is één van de meest geavanceerde modellen van deze soort.

Voordat je een model zoals Stable Diffusion kunt gebruiken, moet het worden getraind op een enorme hoeveelheid informatie. Die berg aan informatie, ook wel een dataset genoemd, is veel groter dan jij en ik ons kunnen voorstellen. Ter illustratie: de dataset waarop SD getraind is (LAION-5B) bestaat uit 5 miljard afbeeldingen, ieder voorzien van een korte omschrijving. Wanneer je als mens iedere afbeelding 3 tellen zou bekijken (en nooit zou slapen) dan zou je hier ruim 90 jaar mee bezig zijn.

Doordat het model zóveel informatie heeft ‘bekeken’ en geanalyseerd, kan het met grote zekerheid voorspellingen doen en associaties maken. Het model leert bijvoorbeeld niet alleen wat de kenmerken van een kat zijn, maar begrijpt ook welke aspecten waarschijnlijk horen bij een Franse kat. Een baret en een gestreept truitje, blijkbaar.

De kunst van de instructie

Stable Diffusion bedenkt niets uit zichzelf. Alles begint bij de instructie, de prompt. Inmiddels wordt er veel gediscussieerd over de beste manier om prompts te schrijven. Deze kunst van het perfectioneren van een prompt heeft zelfs een eigen naam gekregen: ‘prompt craft.’
Een voorbeeld hiervan is het toevoegen van keywords die het model in een bepaalde richting sturen. Met woorden zoals ‘high detail’, ‘dramatic lighting’ en ‘birds-eye perspective’ geef je de afbeelding een duidelijk karakter.

Maar de lessen die het model trekt uit de dataset gaan veel verder dan Franse katten of gedetailleerde omgevingen. Wanneer je als gebruiker nadenkt over de dataset waarop een model getraind is, kun je je prompts nóg slimmer vormgeven.

“Artstation” is een veelgebruikte toevoeging aan prompts. Artstation is een website waarop getalenteerde kunstenaars en illustratoren hun werk delen. De kwaliteit van het beeldmateriaal op deze website is vanzelfsprekend enorm hoog. En die hoge kwaliteit — althans, de visuele kenmerken die jij en ik associeren met hoge kwaliteit — die houden in de ogen van het model verband met het woord “Artstation.” De toevoeging van dat woord heeft over het algemeen dus ‘mooiere’ resultaten als gevolg.

Op deze wijze kun je ook namen van kunstenaars toevoegen om ervoor te zorgen dat de afbeelding in hun herkenbare stijl wordt teruggegeven. Hieronder een voorbeeld van dezelfde prompt, met de toevoeging van drie verschillende artiesten.

“A cup of coffee on a table, Vincent van Gogh”

 

“A cup of coffee on a table, Pablo Picasso”

 

“A cup of coffee on a table, Greg Rutkowski”

Hoewel Vincent van Gogh en Pablo Picasso hier geen last meer van hebben, kun je je voorstellen dat moderne artiesten zoals Greg Rutkowski hier moeite mee hebben. Hun stijl wordt immers zonder moeite nagebootst, én zonder dat zij hier enige vorm van vergoeding voor krijgen. Een interessante discussie waar we op een later moment dieper op ingaan.

Zelf testen? Op Huggingface — een website waarop open source AI modellen getest en gedeeld kunnen worden — kun je aan de slag met Stable Diffusion:

➡️ Op 8 maart 2023 werd bekend dat er zo’n 80 miljoen afbeelding uit de dataset van Stable Diffusion 3.0 zijn verwijderd, precies om bovengenoemde reden. Hiermee is de zaak nog niet geheel afgedaan, maar het geeft aan dat er weerstand is — en dat er in zekere mate naar geluisterd wordt.

The sky is the limit

Hoewel het verleidelijk is om urenlang te spelen met modellen zoals Stable Diffusion, gaan de praktische toepassingen verder dan het genereren van afbeeldingen.

Out-painting

Op basis van de aanwezige informatie in een afbeelding kan Stable Diffusion extra beeldmateriaal produceren. Zo kun je bijvoorbeeld een foto een stuk hoger maken dan hij eigenlijk is, of een panorama landschap maken op basis van een normale foto.

Maar dat niet alleen: je kunt ook door AI gegenereerde beelden gebruiken om op voort te borduren. Standaard zijn de afbeeldingen die uit Stable Diffusion komen vierkant. Door out-painting te gebruiken, kun je deze vierkante afbeeldingen omtoveren naar een andere beeldverhouding.

➡️ Een goed voorbeeld van hoe out-painting gebruikt kan worden is deze tool van onze eigen hand: Decrop.

In-painting

In het verlengende van out-painting ligt in-painting. In plaats van nieuw beeldmateriaal genereren aan de randen van je canvas, kun je met in-painting stukken van een bestaande afbeelding uitgummen en door Stable Diffusion laten invullen.

Door een extra prompt mee te geven kun je zelfs sturen hoe Stable Diffusion de uitgegumde ruimte invult. Hiermee kun je bijvoorbeeld een glas water op een bureau uitgummen en laten vervangen door een kop koffie.

Image-to-image

Tekstuele prompts kunnen worden aangevuld met afbeeldingen. Hiermee kun je als gebruiker nog beter sturen wat je als resultaat krijgt. De afbeelding die je als input geeft fungeert als een soort schets waaruit Stable Diffusion bepaalde aspecten afleest.

Zo kun je bijvoorbeeld een schets van een stoel meegeven, of de omlijning van rode lippen. Stable Diffusion doet de rest.

Controlnet en andere uitbreidingen

Het open-source karakter van modellen als Stable Diffusion maakt het mogelijk om extra lagen aan intelligentie toe te voegen. Controlnet is daar een voorbeeld van. Deze uitbreiding op Stable Diffusion brengt de mogelijkheden van image-to-image naar het volgende niveau.

Aan de hand van deze techniek wordt het mogelijk om enorm gedetailleerde fotomontages of recreaties te maken, zoals onderstaand voorbeeld van Escher’s glazen bol, of de logo’s van onze klanten verwerkt in een context die bij hun werkveld past.

Stable Diffusion in applicaties

Stable Diffusion kent nu al tal van use cases in bestaande én nieuwe applicaties. Zo ontwikkelden wij de Interior Inspirator: een drag-and-drop interface waarin je je interieur globaal kunt samenstellen. Zodra je blij bent met de opstelling, gaat Stable Diffusion aan de slag om er een fotorealistische weergave van te genereren. Daarnaast maakten we ook Architect Inspirator; waar Controlnet gebruikt wordt om een 3D model te renderen.

In bestaande applicaties gebruiken we Stable Diffusion onder andere om consistente fotografie te genereren voor een food- en lifestyle platform. Hiervoor trainden we het model op bestaande fotografie, zodat de stijl van de nieuwe beelden overeenkomt met de stijl van de originele beelden.

Wanneer we het model niet zelf hadden getraind, dan zouden de foto’s prima zijn, maar niet meer dan dat:

Waar niet? Dát is de vraag

In vrijwel iedere applicatie waarin beeld een rol speelt is Stable Diffusion te implementeren. Voor kleine nuances, voor volledige beeldcreatie, maar in veel gevallen ergens daartussenin. Omdat Stable Diffusion via een API (een soort plug-and-play interface die integraties vereenvoudigt) is het relatief gemakkelijk om op allerlei plekken gebruik te maken van deze nieuwe technologie.

Maar de revolutie rondom kunstmatige intelligentie beperkt zich niet tot beeld alleen. Modellen zoals GPT, van het inmiddels bekende ChatGPT, maken het ook mogelijk om op tekstueel vlak enorme stappen te zetten.

In tandem bieden dit soort modellen dus zoveel opties en mogelijkheden, dat de vraag eigenlijk is: waar kun je het niet voor gebruiken?

Waar gaat het naartoe?

Tot zover de verschillend vormen, kenmerken en toepassingen van Stable Diffusion. Een belangrijke vraag is: wat is de waarde van deze techniek en waar gaat het naartoe?
Er zal een enorme verschuiving plaatsvinden. We zijn nog niet op het punt dat alle bestaande artiesten vervangen kunnen worden. Maar het creëren van visuele content wordt wel een stuk minder tijdrovend, veel gemakkelijker en dus vele malen goedkoper. De verschuiving is daarmee vergelijkbaar met de introductie van de drukpers in de 15e eeuw. Plots kregen veel meer mensen de mogelijkheid om tekst te vereeuwiging en reproduceren, tegen een fractie van de kosten.

Hetzelfde gebeurt nu met beeldmateriaal. Van illustratie tot productfoto (binnenkort ook met levensechte modellen), en over niet al te lange tijd ook bewegend beeld: het is ineens beschikbaar én betaalbaar voor de massa.

De waarde van dit soort toepassingen is dus enorm. Tegelijkertijd keldert de waarde van beeldmateriaal: de inflatie is gigantisch omdat iedereen (in theorie) in staat is om goed beeld te maken.

Hoe zich dat gaat ontwikkelen en wat het betekent voor de kunstenaars, fotografen, illustratoren, animatoren en fotomodellen die hierdoor geraakt worden, dat zal de tijd leren. Onze voorspelling is dat de makers die het omarmen niets te vrezen hebben of zelfs gouden tijden tegemoet gaan. Maar zij die zich ertegen verzetten…

 

Jeroen Peerbolte
Business strategie