Wie funktioniert Bilderstellung durch Künstliche Intelligenz genau? Eine Erklärung am Beispiel von Stable Diffusion

2. Januar 2023 Robert Kneschke 18 Kommentare

Das Jahr 2022 war der Durchbruch der Bilderstellung durch Künstliche Intelligenz (KI), weil Projekte wie Dall‑E, Stable Diffusion oder Midjourney der breiten Öffentlichkeit zugänglich wurden.

Auch ich habe hier im Blog schon einige Beiträge über KI-Bilder geschrieben, aber bisher noch nicht von Grund auf erklärt, wie die KI-Bildgenerierung funktioniert.

Das Thema „Artificial Intelligence“ interpretiert von der KI-Engine Stable Diffusion

Das ist aber essential für das Verständnis der aktuellen Debatten um Urheberrechte, Bilderdiebstahl und die ethischen Auswirkungen der neuen Technik.

Daher hier ein kurzer Exkurs in die Geschichte der KI-Bilderstellung.

Bild-zu-Text-Erkennung

Um 2015 herum lernten maschinell trainierte Algorithmen, Objekte in vorhandenen Bildern zu benennen. Das kennen Fotografen sicher von Lightroom, Google Images oder Facebook, wo die Software oder Webseite automatisch erkennt, welche Dinge grob auf einem Bild sichtbar sind. Zusätzlich lernten die Algorithmen schnell, die beschriebenen Objekte in einen lesbaren Satz umzuwandeln. Aus „Frau, Handy, lachen“ wurde also „Eine lachende Frau am Handy“.

Text-zu-Bild-Erkennung

Findige Forscher dachten nun, dass dieser Prozess auch umkehrbar sein müsste. Sie kombinierten hier – sehr vereinfacht gesprochen – die obige Technologie mit einem Entrauschungsverfahren, welches wiederum mit obiger Technologie auf Genauigkeit getestet wurde.

Im Grunde trainierten sich zwei verschiedene KIs gegenseitig. Die erste KI nahm zufällig erzeugtes Bildrauschen und versuchte, aus der Texteingabe ein Bild zu erzeugen. Die zweite KI versuchte, aus dem erzeugten Bild zu erraten, was darauf erkennbar ist. Wenn die zweite KI der ersten bestätigte, dass sie „die lachende Frau am Handy“ erkannt hat, speicherte sich die erste KI einen Pluspunkt für das Entrauschungsmuster und schlug ein neues vor. Nach vielen Millionen Trainingsrunden wurde die erste KI durch diese Tests immer treffsicherer bei der Umwandlung von Texten zu Bildern.

Massenhafte Text-zu-Bild-Erkennung

Die obere Methode funktioniert zwar prinzipiell, hat aber einen Haken. Sie ist langsam und setzt natürlich irgendwie voraus, dass irgendjemand massenhaft Texteingaben der KI zum Trainieren vorsetzt, damit sie später weiß, welche Begriffe wie bildlich umgesetzt werden.

Forscher nutzten deshalb einen Trick, der heute einer der Grundprobleme bei der Akzeptanz von KI-Bilder-Tools ist: Sie gründeten das „Large-scale Artificial Intelligence Open Network“ (Groß angelegtes offenes Netz für künstliche Intelligenz), kurz LAION.

LAION ist ein gemeinnütziger Verein, welcher massenhaft Daten aus dem Internet sammelt, um damit KIs zu trainieren. Diese Daten werden nach Typ und Qualität sortiert. So gibt es zum Beispiel das „LAION-5B“-Set, welches 5,85 Milliarden Text-Bild-Kombinationen in allen möglichen Sprachen zusammengefasst hat, das „LAION-400M“-Set mit 400 Millionen Text-Bild-Kombinationen in englischer Sprache oder das „LAION-Aesthetics“-Set, welches eine Untergruppe von „LAION-5B“ ist, welches nur ästhetisch ansprechende Bilder enthalten soll.

In der Praxis wurden neben der Bild-URL und der Beschreibung noch andere Kriterien gespeichert, welche ebenfalls durch eine KI erzeugt wurden, wie Qualität der Beschreibung oder wie wahrscheinlich das Bild „NSFW“ (not safe for work) ist, also nicht jugendfrei.

Der Knackpunkt ist hier, dass der Verein also haufenweise Bilder gespeichert hat, um sie der Forschung zugänglich zu machen. Wie soll die KI aber genau wissen, was auf den Bildern zu sehen ist? Dafür nutzten die Forscher die häufig vorhandenen Metadaten, welche Fotografen, Künstler oder SEO-Firmen an die Bilder angehängt hatten, damit Suchmaschinen die Bilder besser einordnen konnten.

Stockfotografen kennen das von der Bildbeschreibung, mit der sie ein Bild zusätzlich mit dessen Text-Äquivalent versehen, damit Bildkunden es über die Suchfunktion der Bildagentur finden können.

Besonderen Wert hatten also die sorgfältig beschrifteten Bilder, die als Futter für das KI-Training genutzt wurden und weiterhin werden.

Die Erstellung vom latenten Raum

Wenn jetzt jemand einen Befehl in eine Bild-KI eingibt, kopiert die KI nicht einfach stumpf Teile existierender Bilder, sondern die Informationen kommen aus dem sogenannten „latenten Raum“ (latent space). Dieser heißt so, weil die Objekte und Konzepte dort „latent“ vorhanden sind. Der Computer weiß, wie etwas generiert wird, macht es aber erst, wenn eine bestimmte Kombination abgerufen wird.

Das KI-Training kann mensch sich ähnlich vorstellen wie Kleinkinder ihre Welt entdecken. Woher wissen Kleinkinder, wenn sie ein Bilderbuch ansehen, dass die gezeichneten Figuren ein Elefant, eine Giraffe und ein Ball sind?

Sie wissen es erst, wenn sie genug verschiedene Versionen dieser Dinge gesehen haben, um die Gemeinsamkeiten abstrahieren zu können. Ein Elefant ist zum Beispiel meist grau und groß, eine Giraffe gelb-gescheckt mit einem langen Hals und ein Ball rund und bunt.

Die KI hat das ebenfalls so gelernt, nur eben an Millionen Bild-Text-Kombinationen. So ruft sie beispielsweise alle Bilder auf, die mit dem Wort „Giraffe“ beschriftet sind, und versucht, die Gemeinsamkeiten zu erkennen. Beim Wort „Ball“ genauso. Am Anfang rät sie einfach, aber je öfter sie es macht, desto mehr erkennt sich bestimmte Muster.

Die KI merkt jedoch, dass beispielsweise Farbe oder Form kein ausreichendes Kriterium für bestimmte Objekte oder Konzepte sind, weil sich diese ändern können. Bälle können zum Beispiel verschiedene Farben haben, Elefanten verschiedene Formen und so weiter. Daher versucht die KI, möglichst viele verschiedene Variablen zu kreieren und die Begriffe in so einem Koordinatensystem zu verorten. Dieses System hat deutlich mehr als drei Dimensionen und wird als der „latente Raum“ bezeichnet.

Er enthält hunderte Variablen und deren Beziehungen zueinander. So entsteht ein multidimensionales Netzwerk aus Beziehungen, ähnlich wie eine „soziale Netzwerkanalyse“. Die Variablen für „Spaghettieis“ würden da zum Beispiel irgendwo zwischen denen für „Eiscreme“ und „Pasta“ liegen, in der Nähe von anderen kalten Objekten wie „Antarktis“ oder „Winter“, fernab von Objekten, welche mit „Härte“ assoziiert sind. Das ist für den menschlichen Geist schwer verständlich, für moderne Computer aber kein Problem.

Vom latenten Raum zur stabilen Diffusion

Wie kriegt mensch aber nun neue Bilder aus diesem latenten Raum? Durch die Texteingabe navigiert der Mensch den Computer zu einer Stelle im multidimensionalen Raumen, wo die Wahrscheinlichkeit am höchsten ist, dass die dortigen Variablen die Begriffe gut abdecken.

Nun kommt wieder das obige Entrauschungsverfahren zum Einsatz. Aus einem zufälligen Bildrauschen schärft der Computer in sehr vielen Durchgängen das Chaos zu einer Anordnung, in welcher Menschen die gewünschten Begriffe erkennen können sollen. Da dieser Prozess zufallsbasiert ist, wird auch mit der gleichen Texteingabe niemals exakt das gleiche Bild entstehen.

Diese zufallsbasierte Pixelstreuung heißt im Lateinischen „Diffusion“ und da das System stabil zwar keine gleichen, aber ähnliche Ergebnisse erzielen kann, nennt sich dieses Verfahren der KI-Bilderstellung „Stable Diffusion“.

Auch wenn die gleiche Texteingabe in ein anderes KI-Modell gegeben wird, werden sich die Ergebnisse unterscheiden, weil das Bild dann durch andere Trainingsdaten in einem anderen „latenten Raum“ erzeugt wurde.

Der bis hier beschriebene Prozess wird gut visuell an einem Beispiel dargestellt in diesem Artikel der Washington Post.

KI-Ablehnung durch Missverständnis

Es gibt einige KI-Gegner, welche die KI-Bilder ablehnen, weil sie fälschlicherweise annehmen, dass die KI-Tools nur eine Art intelligente Bildmontagen-Maschine sind, welche Versatzstücke aus bestehenden Bildschnipseln neu zusammensetzt.

Als „Beweis“ werden hier gerne die manchmal sichtbaren Wasserzeichen genannt, welche erkennbar bestimmten Bildagenturen zugeordnet werden können. Diese ergeben sich jedoch aus der oben genannten Trainingsmethode. Die Agenturbilder sind für LAION besonders wertvoll gewesen, weil diese besonders häufig besonders hochqualitative Beschreibungen zu den Bildern hatten. Stockfotografen waren ja auf treffende Bildbeschreiben angewiesen für häufige Verkäufe. Das erklärt, warum Bilder mit Agenturwasserzeichen besonders häufig für KI-Trainingszwecke genutzt wurden.

Bei besonders „stocklastigen“ Motiven (denke an den „Business-Handshake“) war also die Wahrscheinlichkeit hoch, dass die KI lernte, dass solche Wasserzeichen irgendwie normal seien für das Motiv und dementsprechend „dazugehörten“. Also versucht die KI, diese Wasserzeichen mit zu reproduzieren.

Die rechtlichen Implikationen dieser Methode

Aber auch ohne das obige Missverständnis gibt es genug berechtigte Kritik. So werfen Kritiker der LAION vor, millionenfach die urheberrechtlich geschützten Werke zu Trainingszwecken genutzt zu haben, ohne dass die Künstler dafür irgendwie entschädigt wurden. LAION beruft sich zur Verteidigung darauf, dass sie eine gemeinnützige Organisation (eingetragener deutscher Verein) sei, welche nur zu Forschungszwecken arbeite.

Angesichts der Finanzierung dieses gemeinnützigen Vereins durch kommerzielle Firmen wie u.a. Stability AI, welche die Entstehung des LAION-5B“-Datensets finanziert haben und es letztendlich in ihrer KI „Stable Diffusion“ nutzen, ist das ein wackliges Argument.

KI-Befürworter weisen darauf hin, dass die KI bei ihrem Training im Grunde vergleichbar sei mit dem Vorgehen von Google. Google hatte jahrelang massenhaft urheberrechtlich geschützte Bücher und andere Texte eingescannt, um Ausschnitte davon in deren Dienst „Google Books“ zu nutzen. 2015 urteilte der us-amerikanische oberste Gerichtshof, dass dieses Vorgehen legal und von der „Fair Use“-Klausel gedeckt sei.

Auch die Frage, wie der rechtliche Status der durch die KI erstellten Bilder zu bewerten ist, ist noch völlig offen und wird vermutlich bald von einigen Gerichten geklärt werden müssen.

Die moralischen Probleme vom latenten Raum

Da das KI-Training im latenten Raum quasi ohne menschliche Eingriffe geschah, hat die KI einige Erkenntnisse gewonnen, die wir Menschen problematisch halten könnten.

Bestehende Vorurteile, Fehler oder diskriminierende Praktiken werden von de KI ungefiltert einfach übernommen und danach wiedergegeben. Wer sich bei den KI-Tools beispielsweise Bilder von einem „CEO“ generieren lässt, wird hauptsächlich ältere weiße Männer erhalten, Bilder von „Krankenpflegern“ hingegen werden vor allem weiblich sein. Auch der Fokus auf die englische Sprache schließt viele anderssprachige Kulturen und Traditionen stark aus. Versucht beispielsweise mal ein „Sankt Martin“-Bild durch die KI erzeugen zu lassen…

Stable Diffusion versucht sich an der Darstellung eines „CEO“…

Die KI scheitert an der Darstellung des Begriffs „Sankt Martin“

Branchen im Wandel

Ungeachtet der noch ungelösten rechtlichen und moralischen Probleme der KI-Bilderzeugung hat die Technologie jedoch das Potential, gesamte Branchen auf den Kopf zu stellen, vergleichbar mit der Erfindung des Fotoapparats.

Auch hören die Forscher längst nicht bei der Bilderzeugung auf. Mit „ChatGPT“ gibt es von den DALL-E-Machern schon eine funktionsfähige Chat-KI welche auf Zuruf längere Texte schreibt. Andere Firmen arbeiten an Text-zu-Video-Generatoren, Text-zu-3D-Objekt-Generatoren und so weiter. Werden einige der bestehenden Technologien kombiniert, beispielsweise die Chat-KI mit einer Video-KI und einer Sprach-KI, so könnten auf Knopfdruck bald individualisierte Spielfilme erzeugt werden. Die Entwicklungen hier werden in einem atemberaubenden Tempo veröffentlicht.

Ist die Funktionsweise der generierenden KIs etwas klarer geworden? Was versteht ihr ggf. noch nicht?

18 Gedanken zu „Wie funktioniert Bilderstellung durch Künstliche Intelligenz genau? Eine Erklärung am Beispiel von Stable Diffusion“

Steffen sagt:

2. Januar 2023 um 10:50 Uhr

Ein sehr guter Artikel. Jetzt ist mir auch verständlich geworden, wie die Bildgenerierung funktioniert und dass es sich nicht nur um die Montage von existierenden Bildern handelt.
Der Link zum Beispiel der Washington Post führt (bei mir) allerdings zu einer Spam-Seite, bitte noch korrigieren!
Robert Kneschke sagt:

2. Januar 2023 um 11:34 Uhr

@Steffen: Dnke für den Hinweis, habe nun den Link korrigiert.
Robert sagt:

2. Januar 2023 um 18:47 Uhr

Hallo Robert, wie immer sehr verständlich geschrieben.
Ich finde das Thema sehr interessant.
Gibt es denn schon Programme, mit denen du gearbeitet hast?
Kann man diese KI-Bilder denn dann auch bei Shutterstock und co. einstellen?
Gibt es auch ein Programm, das Bilder nur aus meinen Bilder (also von meinem PC) erstellt?
Danke schon mal und natürlich dir auch ein tollen und erfolgreiches Jahr 2023
Robert Kneschke sagt:

2. Januar 2023 um 21:24 Uhr

@Robert: Ja, ich habe bisher schon mit Stable Diffusion, Dall‑E und Midjourney gearbeitet. Die KI-Bilder kannst Du aktuell z.B. bei Adobe Stock oder Panthermedia einstellen, bei Shutterstock explizit nicht.
Du kannst zwar KIs auch mit eigenen Bildern trainieren, aber in der Regel wird dabei der vorhandene Basis-Datensatz nicht überschrieben, dafür haben die meisten auch selbst nicht genug Bilder, um genug Trainingsdaten zu erzeugen.
Robert Leßmann sagt:

2. Januar 2023 um 21:53 Uhr

Danke für deine schnelle Antwort. Ein echt interessantes Thema.
Ich habe mich in der Zwischenzeit auch mal bisschen belesen. Beim Midjourney kann man wohl auch eine Lizenz/Account erwerben, um die Bilder verkaufen zu können. Bei den Stable Diffusion und Dall‑E habe ich dazu noch nichts gefunden.
Könntest du darüber auch mal ausführlicher berichten?

Ich habe am 30.12. von Shutterstock eine Mail erhalten, da stand drin, das man unter bestimmten Bedingungen KI-Bilder hochladen kann.
Robert Kneschke sagt:

3. Januar 2023 um 13:54 Uhr

@Robert: Ich habe die Email von Shutterstock auch erhalten, aber darin nichts von einem KI-Bilder Upload gelesen.
Kann es sein, dass Du Dich da verlesen hast?
Robert Leßmann sagt:

3. Januar 2023 um 14:23 Uhr

😀 Stimmt, ich hab das falsch verstanden.
Christian Eppelt sagt:

29. Januar 2023 um 14:04 Uhr

Habt Ihr eigentlich als Stockfotografen Shutterstock das Recht eingeräumt eure Arbeitsleistung zum Training ihrer Ki zu nutzen?
Persönlich sehe ich das Risiko für unsere zukünftige Arbeit nicht darin, daß Bilder „einer 9‑köpfigen Medusa im Stil von Van Gogh“ geschaffen werden – sondern eben die doch eher generische Masse, von der wir letztlich leben. Ob das jetzt Stock oder dedizierte Kundenwünsche sind.
Ich habe Unmengen meiner Bilder per „haveibeentrained.com“ auf laion-5b gefunden. Interessanterweise nicht von meiner Webseite und auch nicht von den Seiten meiner Kunden. Vieles stammt aus Bildsammlungen wie picklick oder sogar indischen online shops.
Ich habe den Verein um Löschung meiner Bilder gebeten – und bekam postwendend ein Schreiben einer spezialisierten Anwaltskanzlei .. bei dem Inhalt rollte es mir die Fussnägel hoch.
Laion-5b geht übrigens auf das Forschungszentrum Jülich zurück- wurde also auch mit Steuermitteln finanziert.
Ich persönlich gehe davon aus, alle gestalterischen Berufe, die sich rund um Bilder bewegen, werden ersetzt werden. Ersetzt durch die maschinelle, technische Auswertung unserer Arbeit. Ohne das wir dafür entlihnt wurden und werden.
Alles andere zu glauben wäre naiv – die Werbeabteilung eines meiner Kunden hat bereits an Motiven zur Lehrlingsgewinnung gebastelt …
Grüße Christian
Robert Kneschke sagt:

11. Februar 2023 um 16:06 Uhr

@Christian, ich vermute, dass bisher Stockfotografen eher kein Einverständnis gegeben haben.
Thomas Knauer sagt:

15. Februar 2023 um 15:51 Uhr

Hallo Robert, vielen Dank für den informativen Text!
Ich habe gesehen bzw. hast du es ja auch beschrieben, dass du selbst KI-generierte Bilder bei den Agenturen anbietest.
Meines Wissens nach ist bei allen Tools die Bildauflösung limitiert. Wie machst du das, um auf hohe Auflösungen zu kommen?
Danke und Gruß, Thomas
Robert Kneschke sagt:

16. Februar 2023 um 21:21 Uhr

@Thomas: Ich skaliere die Bilder per KI hoch, z.B. mit Topaz Gigapixel
Thomas Knauer sagt:

17. Februar 2023 um 10:16 Uhr

@Robert: Danke!
Thomas Knauer sagt:

17. Februar 2023 um 17:58 Uhr

Nochmal eine Nachfrage: Die Qualität reicht aus, wenn du beispielsweise ein 1K Bild zu 6K hochskalierst?
Robert Kneschke sagt:

17. Februar 2023 um 19:36 Uhr

@Thomas: So pauschal lässt sich das nicht sagen. Das hängt von Faktoren wie der Qualität und Größe des Eingangsbildes sowie den gewählten und hoffentlich zum Motiv passenden Parametern bei Gigapixel ab. Bei mir klappt es in der Regel ganz gut, meine Input-Bilder sind jedoch oft schon 4K.
Thomas Knauer sagt:

20. Februar 2023 um 10:06 Uhr

Worum mir´s geht, war ja die Frage, wie du KI-Bilder stocktauglich bekommst, wenn die KI diese nur in ca. 1K ausgibt. Zumindest meiner Erkenntnisse nach. Oder gibt es Möglichkeitem, die KI-Bilder schon höher aufgelöst auszugeben, so dass die Skalierung dann nicht mehr ganz so arg ausfallen muss?
Robert Kneschke sagt:

20. Februar 2023 um 14:54 Uhr

@Thomas: Ja, Midjourney kann auch 4K, daher geht das.
Thomas Knauer sagt:

20. Februar 2023 um 16:44 Uhr

Danke!
Sebastian sagt:

22. Februar 2023 um 14:37 Uhr

Hallo Robert,
erst einmal danke für deinen Blog und die ausführlichen Artikel! Echt super! Ich beschäftige mich seit ca. 1 Jahr mit der Stockfotografie und habe mir auch dein Buch gekauft. Auch hier danke für die vielen Tips und Informationen!

Zur eigentlichen Frage: Ich würde auch gerne KI-generierte Bilder auf Adobe Stock etc. hochladen. Mit Stable Diffusion habe ich mich schon beschäftigt (da freie Bildnutzung/Wiederverkauf erlaubt) aber mit den Ergebnissen bin ich bisher nicht so zufrieden, so interessiere ich mich gerade für Alternativen wie Midjourney.

In dem Nutzungsrechtedschungel bist du wahrscheinlich schon mehr durchgedrungen, welche Tools man noch nutzen darf. Soweit ich oben in deinem Kommentar gelesen habe, darf man Bilder, die man mit Dall‑E und Midjourney erstellt hat, auch auf Adobe Stock verkaufen?
Bei Midjourney soweit ich gelesen habe nur, wenn man ein bezahltes Abo hat oder? Verfallen die Rechte am generierten Bild wieder nach Kündigung? Sorry viele Fragen und mir ist bewusst das du keine Rechtsberatung bist ; ) Mir würde die Info reichen, ob ich Midjourney „bedenkenlos“ nutzen kann.
Vielen Dank und liebe Grüße aus Karlsruhe.
Sebastian

Kommentare sind geschlossen.

Bild-​zu-​Text-​Erkennung

Text-​zu-​Bild-​Erkennung

Massenhafte Text-​zu-​Bild-​Erkennung