Schlagwort-Archive: Stable Diffusion

Der große KI-​Upscaler-​Test: Vergleich von Bildqualität, Kosten und mehr

Was ist der aktu­ell bes­te KI-​Upscaler?
Vor weni­gen Tagen hat die KI-​Firma Midjourney einen neu­en Upscaler ver­öf­fent­licht, der deren KI-​Bilder um den Faktor 2 oder 4 ver­grö­ßern kann.

Da ich bis­her ein ande­res Tool genutzt habe, woll­te ich her­aus­fin­den, wie sich die Bildqualität unter­schei­det. Wo ich schon dabei war, habe ich noch paar ande­re Upscaler ver­gli­chen und die Ergebnisse bei Facebook und LinkedIn gepos­tet. Da gab es in den Kommentaren noch wei­te­re Vorschläge, wel­che Upscaler ich berück­sich­ti­gen sollte.

Na gut, dach­te ich mir, dann zie­he ich das eben grö­ßer auf und ver­öf­fent­li­che hier einen umfas­sen­den Test über die Bildqualität und Unterschiede der aktu­ell auf dem Markt erhält­li­chen Upscaler.

Alle Testausschnitte im direk­ten Vergleich (Klicken zum Vergrößern)

Der Testaufbau und das Ausgangsbild

Ich habe mir mit dem KI-​Tool Midjourney ein qua­dra­ti­sches PNG-​Bild einer blon­den Frau gene­rie­ren las­sen mit der Auflösung 1024x1024 Pixel (1,05 Megapixel):

Das Testbild

Dieses Bild habe ich dann mit ver­schie­de­nen Methoden um den Faktor 4 auf 4096x4096 Pixel (16,7 Megapixel) ver­grö­ßern lassen.

Da die Beurteilung der Ergebnisse sub­jek­tiv gefärbt ist und jeder ande­re Maßstäbe an sei­ne Bilder anlegt, ver­öf­fent­li­che ich hier auch die PSD-​Datei der ver­schie­de­nen Ergebnisse als Download, jede Ebene ist sau­ber nach der genutz­ten Upscaler-​Methode benannt.

DOWLOAD-​Link (Dropbox) als gepack­te .rar-​Datei (ACHTUNG: Datei ist 610 MB groß, ent­packt dann 889 MB!) BACKUP-​Link (Wetransfer).

Damit kann jede*r durch das Ein- und Ausblenden der Ebenen in der 100%-Ansicht selbst ent­schei­den, wel­ches Ergebnis ihm/​ihr am meis­ten zusagt.

Für die­sen Blogartikel habe ich einen Bereich des lin­ken Auges aus­ge­schnit­ten, damit hier die 100%-Ansicht (500x500 Pixel) gezeigt wer­den kann. Die Ausschnitte habe ich sau­ber benannt und als JPG (Qualität 10) abge­spei­chert. Der Ausschnitt ist in der Photoshop-​Datei auch als Pfad hinterlegt.

Der große Upscaler-​Test: Die Ergebnisse

1. Midjourney Upscaler

Beginnen wir mit dem Upscaler von Midjourney. Obwohl die­ser erst weni­ge Tage alt ist, gibt es schon zwei Versionen und Midjourney behält sich vor, den Upscaler auch in Zukunft zu verändern/​verbessern:

The ups­ca­ler is subt­le and tri­es to keep details as clo­se as pos­si­ble to the ori­gi­nal image (but may not fix glit­ches or issues with the old image)“

Midjourney Upscaler 4x V1 (18.10.2023)

Die ers­te Version (V1) des Midjourney-​Upscaler bügel­te die Hauttextur ziem­lich glatt, das gan­ze Bild wirkt ins­ge­samt sehr nach 1980er-Jahre-Airbrush-Retusche.

Das Entwickler-​Team nahm sich die Kritik der Community jedoch zu Herzen und schob zwei Tage spä­ter das ers­te Update hinterher:

We’re […] hea­ring everyone’s feed­back that the 4x ups­ca­ler is a bit soft and we’­re loo­king at impro­ve­ments which may fur­ther impro­ve things. This means the ups­ca­ler set­tings may chan­ge sud­den­ly over the next week wit­hout war­ning as we tweak things.
[…]
The V5 4x Upscale now fea­tures impro­ved sharp­ness, and in some cases smal­ler sca­le high fre­quen­cy details“

Dadurch sieht das Ergebnis deut­lich bes­ser aus, die Haare und Wimpern sehen täu­schend echt aus und auch die Hauttextur kann überzeugen:

Midjourney Upscaler 4x V2 (20.10.2023)

Der ers­te gro­ße Nachteil die­ses Upscalers ist logi­scher­wei­se, dass er nur auf KI-​Bilder anwend­bar ist, die direkt in Midjourney erstellt wurden.

Ein wei­te­rer Punkt sind die Kosten: Der 4x Upscaler kos­tet grob 6x soviel GPU-​Minuten wie die Generierung eines 4x4-​Bilder-​Grids. Diese Zeit wird von dem bezahl­ten Minutenkontingent abge­zo­gen, wel­ches die Nutzer je nach Abomodell zur Verfügung haben. Im Standard-​Plan sind das zum Beispiel 15 Stunden pro Monat.

Eine Stunde Rechenzeit kann aktu­ell für 4 USD dazu gekauft wer­den. Ich habe mal geschaut, wie viel Zeit für ein 4x-​Upscale von Midjourney berech­net wird. Beim obi­gen Bild waren das ca. 3 Minuten. Mit einer Stunde Rechenzeit könn­ten damit 20 Bilder hoch­ska­liert wer­den. Bei Kosten von 4 USD/​Stunde wür­de ein Upscale ca. 20 US-​Cent kos­ten. Wer die inklu­si­ven Stunden im Standard- oder Pro-​Plan nutzt, zahlt nur die Hälfte.

2. Topaz Photo AI

Der Upscaler von Topaz Labs war unse­re bis­he­ri­ge bevor­zug­te Upscale-​Methode. Getestet haben wir hier mit der Version 2.0.5.
Topaz Photo AI ist ein recht neu­es Tool, mit dem ver­schie­de­ne KI-​basierte Werkzeuge wie Topaz Gigapixel, Topaz Sharpen etc. zusam­men­ge­fasst wurden.

Topaz Photo AI V2 Upscaler 4x

Die Ergebnisse sehen sehr über­zeu­gend aus, vor allem die Hauttextur ist sehr rea­lis­tisch, die Details wie Wimpern und Haare sind jedoch etwas gröber.

Topaz hat auch eine Funktion namens „Recovering Face“, womit laut Hersteller die Ergebnisse von Gesichtern in gerin­ger bis mitt­le­rer Auflösung deut­lich ver­bes­sert wer­den kann:

Recover Faces dra­ma­ti­cal­ly impro­ves low-​medium qua­li­ty faces.“

Es gibt einen Regler, der stu­fen­los von 0 bis 100% ein­ge­stellt wer­den kann. Bei 25% sieht das Ergebnis so aus:

Topaz Photo AI V2 Upscaler 4x + 25% Recovering Face

Ich fin­de, dass das Gesicht dadurch ein­fach mat­schi­ger wird. Dieser Effekt nimmt mit der Stärke der Recover-​Funktion zu, bei 100% ist das Ergebnis deut­lich unbrauch­ba­rer als ganz ohne die Funktion. Vermutlich liegt das dar­an, dass die Bildqualität vom Ausgangsmaterial schon „zu gut“ für die­se Funktion ist, die der Verbesserung von „low qua­li­ty faces“ die­nen soll.

Ein wei­te­rer Vorteil von Topaz Photo AI ist, dass hier Bilder als Batch bear­bei­tet wer­den kön­nen und neben dem Hochskalieren im glei­chen Arbeitsgang wahl­wei­se auch geschärft, ent­rauscht, farb­lich ange­passt etc. wer­den können.

Mit 199 USD sind die Kosten initi­al recht hoch, dafür kön­nen damit unbe­grenzt Bilder bear­bei­tet wer­den und es gibt regel­mä­ßi­ge Updates. Für Vielnutzer preis­lich die bes­te Wahl. Weiterer Pluspunkt: Es gibt ein Photoshop-​Plugin.

3. Photoshop

Die frü­her übli­che und seit lan­gem ver­füg­ba­re Methode mit Photoshop-Bordmitteln war, ein­fach die Bildgröße hoch­zu­set­zen. Das Ergebnis, getes­tet mit Photoshop 2024 (V25.0), sieht dann so aus:

Photoshop-​Vergrößerung V25 (Berechnung: Automatisch)

Es ist damit sicht­bar mit Abstand das schlech­tes­te Ergebnis, was wenig ver­wun­dert, da hier noch kei­ne KI Hilfestellung leis­tet. Selbst mit dem bekann­ten Kniff, das Bild in 10%-Schritten hoch­zu­ska­lie­ren, war das Ergebnis nur mini­mal bes­ser und reicht trotz­dem nicht an die ande­ren Methoden heran.

In den Kommentaren zu mei­nem ers­ten Test gab es zwei Hinweise, wie ich die Ergebnisse ver­bes­sern könn­te. Der ers­te war, dass sich hin­ter dem Häkchen „Neu berech­nen“ noch eine Auswahlmöglichkeit für „Details erhal­ten 2.0“ verbirgt:

Photoshop-​Vergrößerung V25 (Berechnung: Details erhal­ten 2.0)

Das Ergebnis ist zwar „bes­ser“ und schär­fer, dafür aber mit sicht­ba­ren Artefakten über­sät. Wenn ich den Regler „Rauschen redu­zie­ren“ auf 50% set­ze, ver­schwin­den die Artefakte, aber das Bild sieht etwas weich­ge­zeich­net aus.

Kurz: Der schlech­tes­te Upscaler im Test. Es wun­dert mich etwas, dass hier die Adobe Sensei-​KI noch nicht Einzug gehal­ten hat, aber ver­mut­lich wird das ein Feature sein, was eher frü­her als spä­ter ver­öf­fent­licht wer­den wird.

Jemand mein­te noch, dass sich unter den „Neural Filters“ ein „Superzoom“-Filter ver­ber­ge. Das ist jedoch kein rich­ti­ger „Upscaler“, weil damit das Bild tat­säch­lich „ran­ge­zoomt“ wird, ich ver­lie­re also die Bildmotive am Rand.

Dafür sind die Kosten jedoch unschlag­bar, da jeder mit einem Photoshop-​Abo unbe­grenzt vie­le Bilder hoch­ska­lie­ren kann.

Kurzes Update 23.10.2023: (sam­ple images not included in down­load yet)
Einige Leser wie­sen mich dar­auf hin, dass die „Superzoom“-Funktion doch das gan­ze Bild anzeigt, wenn die Option „Bild > Alles ein­blen­den“ genutzt wird. Zusätzlich gibt es eini­ge Auswahlmöglichkeiten wie z.B. „Gesichtsdaten ver­bes­sern“ und „JPG Artefakte reduzieren“:

Photoshop Neural Filter „Superzoom“ mit „Gesichtsdaten ver­bes­sern“ und „JPG Artefakt-​Reduzierung“ aktiv

Das Ergebnis sieht schon bes­ser als mit der alten Photoshop-​Methode aus und ran­giert damit im obe­ren Mittelfeld. Für die Top-​Liga sind die Bereiche wie Haare oder Wimpern noch etwas zu matschig.

Außerdem bie­tet Adobe in Lightroom oder Camera Raw die „Verbessern“-Option, wel­che eben­falls hoch­ska­liert, aber nur bei Raw-​Dateien funk­tio­nie­ren soll.

4. Luminar Neo

Luminar Neo Hochskalieren 4x

Luminar Neo ist, ähn­lich wie Topaz Labs, ein wei­te­res KI-​gestütztes Tool-​Kit für die Fotobearbeitung mit vie­len Funktionen. Getestet wur­de hier mit der Version 1.14.1.12230 im Upscale Type „Universell“.

Gefühlt wür­de ich sagen, dass das Ergebnis irgend­wo zwi­schen Midjourney und Topaz liegt. Die Details sind etwas grö­ber als bei den ande­ren bei­den Upscalern, die Haut weich­ge­zeich­ne­ter als bei Topaz, aber weni­ger als bei Midjourney.

Luminar Neo Hochskalieren 4x + Gesichtsverstärker AI

Es gibt bei der Hochskalieren-​Funktion noch das optio­na­le Häkchen „Gesichtsverstärker AI“, wel­ches jedoch schlicht gesagt (bis­her) grau­sa­me Ergebnisse lie­fert. Es sieht so aus als wür­de hier ein Geisterbild über dem ande­ren lie­gen. Kurz: Finger weg von dem Häkchen.

Die Kosten von Luminar Neo lie­gen bei 219 Euro für die lebens­lan­ge Nutzung, es gibt aber auch Abo-​Modelle ab 11,95 Euro/​Monat, was sich gut zum Testen eig­net. Dafür bekommt man aber nicht nur die Hochskalieren-​Funktion, son­dern ein brei­tes Bündel an Werkzeugen wie Entrauschen, Schärfen, Lichtmanipulationen, und vie­les mehr. Die Handhabung mit dem sepa­ra­ten Installieren der ver­schie­de­nen Plugins fin­de ich jedoch nicht ganz intuitiv.

5. Pixelcut

Pixelcut ist ein kos­ten­lo­ser Online-​Upscaler, wel­cher bequem via Drag & Drop funktioniert.

Pixelcut Upscaler 4x

Das Ergebnis ist rela­tiv grob, aber bes­ser als Photoshop. Dafür sind die Kosten gleich null. Für Gelegenheitsnutzer also sehr praktisch.

Es ist auch eine Batch-​Nutzung mög­lich, die dann jedoch im „Pixelcut Pro“ 9.99 USD pro Monat oder 59.99 USD im Jahr kos­tet. Dafür ist dann auch eine iPhone/​Android-​App-​Nutzung ent­hal­ten und unbe­grenz­te Hintergrundentfernung.

6. Neural.love

Neural.love ist ein online-​basierter AI-​gestützter HD Portrait-​Generator, der als Leserhinweis sei­nen Eingang in die­sen Test fand.

Der Leistungsumfang reicht von der direk­ten KI-​Bilderstellung über Image-​to-​Image Bildremixe, Portraitrestaurierungen etc. und eben auch ein Upscaler namens „Image Enhance/​Quality Enhance“.

Neural.love Upscaler 4x

Das Ergebnis ist etwas detail­lier­ter als bei Pixelcut, reicht aber von der Schärfe nicht an Topaz oder Midjourney heran.

Neural.love Upscaler 4x + Smart Noise

Es gibt noch die Option, „Smart Noise“ zu akti­vie­ren, was – wie der Name schon ver­mu­ten lässt – ein fei­nes Rauschen über das Bild liegt. In der 100%-Ansicht ist das recht auf­fäl­lig, beim Rauszoomen ist der Eindruck aber posi­ti­ver als ohne das Rauschen.

Das Online-​Tool erfor­dert eine Registrierung per Email und arbei­tet mit einem Credit-​System für die Kosten. Die ers­ten fünf Credits sind frei (also 5x Upscaling), danach kön­nen 300 Credits im Abo für 30 Euro/​Monat oder zeit­lich unbe­grenzt für 57 Euro gekauft wer­den. Das wären dann 10 bzw. 19 Cent pro Upscale.

7. Upscale.media

Upscale.media ist ein wei­te­rer Online-​Upscaler auf Credit-Basis:

Upscale.media 4x Upscaler

Das Ergebnis ran­giert soli­de im Mittelfeld und ist schon gut brauchbar.

Upscale.media 4x Upscaler + Qualität verbessern

Es gibt auch die Option, ein Häkchen bei „Qualität ver­bes­sern“ zu set­zen, doch das scheint das Gegenteil zu bewir­ken. Das Bild ver­liert an Details und die Konturen wer­den unna­tür­lich stark betont. Würde ich nicht empfehlen.

Kosten? Pro Tag sind zwei Uploads ohne Registrierung kos­ten­los mög­lich, nach Registrierung gibt es fünf kos­ten­lo­se Uploads. 100 Credits kos­ten im Abo 19 USD bzw. zeit­lich unbe­grenzt 49 USD, was 19 US-​Cent bzw. 49 US-​Cent pro Upscaling entspricht.

8. Stable Diffusion Upscaler

Auch im quell­of­fe­nen KI-​Generator Stable Diffusion gibt es gleich meh­re­re Upscaler. Hier öff­net sich aber auch die Büchse der Pandora, weil es neben den sie­ben ver­schie­de­nen Upscalern, die im Web-​UI von Automatic111 dabei sind, noch unzäh­li­ge wei­te­re gibt, die auch jeweils noch vie­le ver­schie­de­ne Settings haben.

Allein in der Datenbank OpenModelDB fin­den sich unter „General Upscaler“ 66 ver­schie­de­ne Modelle, die kos­ten­los her­un­ter­ge­la­den und instal­liert wer­den kön­nen und alle ihre Stärken und Schwächen haben.

Um die Sache noch kom­ple­xer zu machen, kön­nen Bilder auch mit­tels der „IMG2IMG“-Methode hoch­ska­liert wer­den, wobei hun­der­te ver­schie­de­ne KI-​Modelle zur Auswahl stehen.

Deshalb habe ich hier nur mal einen inter­nen Upscaler getes­tet, den Upscaler „ESRGAN_​4x“ mit einer GFPGAN visi­bi­li­ty von 0.5.

Stable Diffusion Upscaler ESRGAN_​4x (GFPGAN visi­bi­li­ty 0.5)

Das Ergebnis ist ca. dop­pelt so gut wie die Photoshop-​Methode, aber sicht­bar schlech­ter als die meis­ten ande­ren Upscaler im Test.

Dazu kommt, dass die Geschwindigkeit des Skalierens ganz stark von der lokal ver­wen­de­ten Hardware abhängt. Mit einer RTX 2080-​Grafikkarte dau­er­te das Hochskalieren über 15 Minuten. Wer die Settings noch etwas mehr hoch­dreht, muss expo­nen­ti­ell län­ger warten.

Auch die Bedienung gestal­tet sich kom­plex, da die Modelle gefun­den und run­ter­ge­la­den wer­den müs­sen und für die ver­schie­de­nen Settings kei­ne Anleitung exis­tiert. Ihr wer­det also auf etli­chen Webseiten rum­sur­fen, um euch die emp­foh­le­nen Einstellungen zusam­men­zu­su­chen.
Dafür sind die Kosten fast Null, da alle benö­tig­ten Tools kos­ten­los erhält­lich sind. Ihr zahlt also nur für euren Strom.

Wer mehr Stable Diffusion Upscaler im Vergleich sehen will, fin­det hier einen ähn­li­chen Test.

9. ChaiNNer Upscaler

ChaiNNer ist ein wei­te­rer Tipp aus den Kommentaren. Das ist ein OpenSource-​Projekt, wel­ches ursprüng­lich als KI-​Upscaler gestar­tet ist, mitt­ler­wei­le aber sehr umfang­rei­che Bildverarbeitungsfunktionen bietet.

ChaiNNER ist node-​basiert, was sehr unge­wohnt ist, für die, die es nicht ken­nen, aber wer das Prinzip ver­stan­den hat, kann auf die­se Weise sehr kom­ple­xe Workflow-​Ketten auf­bau­en, die dann mit einem Klick abge­ar­bei­tet wer­den. Der Workflow für das ein­fa­che Hochskalieren sieht dann so aus:

ChaiNNer-​Upscaling-​Workflow (Klicken zum Vergrößern)

Das Programm ist noch in der Alpha-​Phase (ich habe v0.20.2 genutzt) und kos­ten­los für Windows, Mac und Linux erhält­lich. Die Installation erfor­dert etwas Zeit, ist aber in der GitHub-​Anleitung gut beschrieben.

ChainNNer selbst ist genau genom­men gar kein Upscaler, son­dern dient als GUI (gra­fi­sche Benutzeroberfläche) für ande­re OpenSource-​Upscaler auf PyTorch-​Basis. Das heißt, fast alle Upscaler die bei Stable Diffusion inte­griert wer­den kön­nen, sind auch in ChaiNNer nutz­bar. Wie im Bereich „Stable Diffusion“ erwähnt, ste­hen euch also min­des­tens 66 ver­schie­de­ne Möglichkeiten zur Verfügung.

ChaiNNer 4x Upscaler mit Model „Remacri“

Getestet habe ich ChaiNNer mit dem belieb­ten „Remacri“-Modell, wel­ches eine über­zeu­gen­de Kombination aus Schärfe und Struktur lie­fert. Ebenfalls nicht ganz so gut wie Topaz oder Midjourney, dafür kos­ten­los und see­ehr flexibel.

ChaiNNer 4x Upscaler mit Model „UniScale-​Balanced“

Ich habe noch ein wei­te­res Modell getes­tet, das „UniScale-​Balanced“ auf Basis der ESRGAN-​Architektur. Das schnitt jedoch deut­lich schlech­ter ab als „Remacri“.

Noch mal zum Verständnis: In Stable Diffusion und ChaiNNer kön­nen die glei­chen Upscaler-​Modelle ein­ge­setzt wer­den, bei mir lief die Verarbeitung jedoch deut­lich schnel­ler bei ChaiNNer. Dafür gibt es bei Stable Diffusion etwas mehr Einstellmöglichkeiten, die ich auf die Schnelle nicht bei ChaiNNer gefun­den habe.

Das Resultat

Es gibt noch unzäh­li­ge wei­te­re Tools, vor allem online, aber die meis­ten davon ran­gie­ren im Mittelfeld und sind preis­lich ähn­lich angesiedelt.

Von der Bildqualität liegt Midjourney aktu­ell mei­ner Meinung nach stark vor­ne, hat eben aber den gra­vie­ren­den Nachteil, dass damit nur Midjourney-​Bilder hoch­ska­liert wer­den kön­nen. Auch preis­lich ist Midjourney kein Zuckerschlecken, wenn man nicht gera­de eh Stunden übrig hat in deren Abo-Modell.

Für Power-​User, die mehr als 1000 Bilder hoch­ska­lie­ren wol­len, bleibt die Wahl zwi­schen Topaz Photo AI und Luminar Neo preis­lich die bes­se­re Wahl, wobei Topaz in der Bedienung wegen der Automatisierungsmöglichkeiten etwas die Nase vorn hat.

Insgesamt ist die Qualität aber auch sub­jek­tiv behaf­tet und kann sich je nach Motiv oder mit einem Update eines Tools auch wie­der ändern.

Bei den gan­zen, teils kos­ten­lo­sen, Online-​Upscalern soll­tet ihr auch beden­ken, dass ihr eure Daten in frem­de Hände gebt und dem Anbieter ver­trau­en soll­tet, damit ver­trau­lich umzu­ge­hen. Vermutlich wer­den auch die meis­ten die­ser Anbieter unter der Haube eines der unzäh­li­gen OpenSource-​Upscaler lau­fen haben.

Welchen Upscaler nutzt ihr aktu­ell und wel­ches Ergebnis hat euch hier am meis­ten überzeugt?

Die Community-​Test-​Erweiterung

Wer den Test mit eige­nen Modellen oder ande­ren Anbietern erwei­tern will, hat in die­sem Artikel alle not­wen­di­gen Grundlagen: Das 1024x1024-​Ausgangsbild steht oben zum Download zur Verfügung sowie die Photoshop-​Datei mit den Ebenen der Upscaler und der Pfad-​Auswahl für die Ausschnittvergrößerung.

Ihr könnt also ger­ne wei­te­re Methoden tes­ten und das Ergebnis ger­ne in den Kommentaren pos­ten (Bilder bit­te als Link).

DALL- E, Midjourney und Co.: Sind künstlich erzeugte Bilder auf dem Bildermarkt handelbar? Vortrag mit Sebastian Deubelli auf dem PICTAday am 30.03.2023

Am Donnerstag, den 30.03.2023 fin­det der dies­jäh­ri­ge PICTAday in der Alten Kongresshalle in München statt von 10–18 Uhr.

Der PICTAday ist eine ein­mal jähr­lich statt­fin­den­de Networking-​Veranstaltung des renom­mier­ten Branchenverbandes BVPA und fei­ert die­ses Jahr sein 20-​jähriges Bestehen.

Beim PICTAday kön­nen sich Bildagenturen und Dienstleister den Bildeinkäufern prä­sen­tie­ren und letz­te­re sich über Neuigkeiten in der Agenturlandschaft und dem Bildermarkt infor­mie­ren. Der Eintritt ist für Bildeinkäufer kostenfrei.

Auf dem PICTAday fin­den auch die PICTAtalks statt, wo namen­haf­te Branchenexperten neue Impulse zu aktu­el­len Entwicklungen der Bilderbranche und einen Einblick in ihre täg­li­che Arbeit geben.

Von 15–15:45 Uhr wer­de ich dort zusam­men mit dem Fachanwalt für Urheber- und Medienrecht, Sebastian Deubelli von der SLD Intellectual Property Rechtsanwaltsgesellschaft über das Thema „DALL- E, Midjourney und Co.: Sind künst­lich erzeug­te Bilder auf dem Bildermarkt han­del­bar?“ dis­ku­tie­ren:

Die Qualität von künst­lich erzeug­ten Bildern wird bes­ser und bes­ser und stellt längst kein Hindernis für deren all­täg­li­chen Einsatz dar. Aus recht­li­cher Sicht ist vie­les aller­dings noch unklar. Der Talk beschäf­tigt sich ins­be­son­de­re mit der Frage, ob die recht­li­che Unklarheit dem gewohn­ten Handel mit Bildlizenzen im Weg steht und wel­che recht­li­chen aber auch prak­ti­schen Vorkehrungen hier getrof­fen wer­den sollten.“

Der PICTAday ist eine groß­ar­ti­ge Gelegenheit, um sich über die neu­es­ten Entwicklungen auf dem Bildermarkt zu infor­mie­ren, wert­vol­le Kontakte zu knüp­fen und an den hoch­ka­rä­ti­gen Vorträgen teilzunehmen. 

Wir freu­en uns auf eine span­nen­de Diskussion und hof­fen, euch am 30. März 2023 auf dem PICTAday in München zu tref­fen! Weitere Informationen zur Veranstaltung und zur Anmeldung sowie das Anmeldeformular fin­det ihr auf der Webseite des PICTAday.

Wie funktioniert Bilderstellung durch Künstliche Intelligenz genau? Eine Erklärung am Beispiel von Stable Diffusion

Das Jahr 2022 war der Durchbruch der Bilderstellung durch Künstliche Intelligenz (KI), weil Projekte wie Dall‑E, Stable Diffusion oder Midjourney der brei­ten Öffentlichkeit zugäng­lich wurden.

Auch ich habe hier im Blog schon eini­ge Beiträge über KI-​Bilder geschrie­ben, aber bis­her noch nicht von Grund auf erklärt, wie die KI-​Bildgenerierung funktioniert.

Das Thema „Artificial Intelligence“ inter­pre­tiert von der KI-​Engine Stable Diffusion

Das ist aber essen­ti­al für das Verständnis der aktu­el­len Debatten um Urheberrechte, Bilderdiebstahl und die ethi­schen Auswirkungen der neu­en Technik.

Daher hier ein kur­zer Exkurs in die Geschichte der KI-Bilderstellung.

Bild-​zu-​Text-​Erkennung

Um 2015 her­um lern­ten maschi­nell trai­nier­te Algorithmen, Objekte in vor­han­de­nen Bildern zu benen­nen. Das ken­nen Fotografen sicher von Lightroom, Google Images oder Facebook, wo die Software oder Webseite auto­ma­tisch erkennt, wel­che Dinge grob auf einem Bild sicht­bar sind. Zusätzlich lern­ten die Algorithmen schnell, die beschrie­be­nen Objekte in einen les­ba­ren Satz umzu­wan­deln. Aus „Frau, Handy, lachen“ wur­de also „Eine lachen­de Frau am Handy“.

Text-​zu-​Bild-​Erkennung

Findige Forscher dach­ten nun, dass die­ser Prozess auch umkehr­bar sein müss­te. Sie kom­bi­nier­ten hier – sehr ver­ein­facht gespro­chen – die obi­ge Technologie mit einem Entrauschungsverfahren, wel­ches wie­der­um mit obi­ger Technologie auf Genauigkeit getes­tet wurde.

Im Grunde trai­nier­ten sich zwei ver­schie­de­ne KIs gegen­sei­tig. Die ers­te KI nahm zufäl­lig erzeug­tes Bildrauschen und ver­such­te, aus der Texteingabe ein Bild zu erzeu­gen. Die zwei­te KI ver­such­te, aus dem erzeug­ten Bild zu erra­ten, was dar­auf erkenn­bar ist. Wenn die zwei­te KI der ers­ten bestä­tig­te, dass sie „die lachen­de Frau am Handy“ erkannt hat, spei­cher­te sich die ers­te KI einen Pluspunkt für das Entrauschungsmuster und schlug ein neu­es vor. Nach vie­len Millionen Trainingsrunden wur­de die ers­te KI durch die­se Tests immer treff­si­che­rer bei der Umwandlung von Texten zu Bildern.

Massenhafte Text-​zu-​Bild-​Erkennung

Die obe­re Methode funk­tio­niert zwar prin­zi­pi­ell, hat aber einen Haken. Sie ist lang­sam und setzt natür­lich irgend­wie vor­aus, dass irgend­je­mand mas­sen­haft Texteingaben der KI zum Trainieren vor­setzt, damit sie spä­ter weiß, wel­che Begriffe wie bild­lich umge­setzt werden.

Forscher nutz­ten des­halb einen Trick, der heu­te einer der Grundprobleme bei der Akzeptanz von KI-​Bilder-​Tools ist: Sie grün­de­ten das „Large-​scale Artificial Intelligence Open Network“ (Groß ange­leg­tes offe­nes Netz für künst­li­che Intelligenz), kurz LAION.

LAION ist ein gemein­nüt­zi­ger Verein, wel­cher mas­sen­haft Daten aus dem Internet sam­melt, um damit KIs zu trai­nie­ren. Diese Daten wer­den nach Typ und Qualität sor­tiert. So gibt es zum Beispiel das „LAION-​5B“-Set, wel­ches 5,85 Milliarden Text-​Bild-​Kombinationen in allen mög­li­chen Sprachen zusam­men­ge­fasst hat, das „LAION-​400M“-Set mit 400 Millionen Text-​Bild-​Kombinationen in eng­li­scher Sprache oder das „LAION-​Aesthetics“-Set, wel­ches eine Untergruppe von „LAION-​5B“ ist, wel­ches nur ästhe­tisch anspre­chen­de Bilder ent­hal­ten soll.

In der Praxis wur­den neben der Bild-​URL und der Beschreibung noch ande­re Kriterien gespei­chert, wel­che eben­falls durch eine KI erzeugt wur­den, wie Qualität der Beschreibung oder wie wahr­schein­lich das Bild „NSFW“ (not safe for work) ist, also nicht jugendfrei.

Der Knackpunkt ist hier, dass der Verein also hau­fen­wei­se Bilder gespei­chert hat, um sie der Forschung zugäng­lich zu machen. Wie soll die KI aber genau wis­sen, was auf den Bildern zu sehen ist? Dafür nutz­ten die Forscher die häu­fig vor­han­de­nen Metadaten, wel­che Fotografen, Künstler oder SEO-​Firmen an die Bilder ange­hängt hat­ten, damit Suchmaschinen die Bilder bes­ser ein­ord­nen konnten.

Stockfotografen ken­nen das von der Bildbeschreibung, mit der sie ein Bild zusätz­lich mit des­sen Text-​Äquivalent ver­se­hen, damit Bildkunden es über die Suchfunktion der Bildagentur fin­den können.

Besonderen Wert hat­ten also die sorg­fäl­tig beschrif­te­ten Bilder, die als Futter für das KI-​Training genutzt wur­den und wei­ter­hin werden.

Die Erstellung vom latenten Raum

Wenn jetzt jemand einen Befehl in eine Bild-​KI ein­gibt, kopiert die KI nicht ein­fach stumpf Teile exis­tie­ren­der Bilder, son­dern die Informationen kom­men aus dem soge­nann­ten „laten­ten Raum“ (latent space). Dieser heißt so, weil die Objekte und Konzepte dort „latent“ vor­han­den sind. Der Computer weiß, wie etwas gene­riert wird, macht es aber erst, wenn eine bestimm­te Kombination abge­ru­fen wird.

Das KI-​Training kann mensch sich ähn­lich vor­stel­len wie Kleinkinder ihre Welt ent­de­cken. Woher wis­sen Kleinkinder, wenn sie ein Bilderbuch anse­hen, dass die gezeich­ne­ten Figuren ein Elefant, eine Giraffe und ein Ball sind?

Sie wis­sen es erst, wenn sie genug ver­schie­de­ne Versionen die­ser Dinge gese­hen haben, um die Gemeinsamkeiten abs­tra­hie­ren zu kön­nen. Ein Elefant ist zum Beispiel meist grau und groß, eine Giraffe gelb-​gescheckt mit einem lan­gen Hals und ein Ball rund und bunt.

Die KI hat das eben­falls so gelernt, nur eben an Millionen Bild-​Text-​Kombinationen. So ruft sie bei­spiels­wei­se alle Bilder auf, die mit dem Wort „Giraffe“ beschrif­tet sind, und ver­sucht, die Gemeinsamkeiten zu erken­nen. Beim Wort „Ball“ genau­so. Am Anfang rät sie ein­fach, aber je öfter sie es macht, des­to mehr erkennt sich bestimm­te Muster.

Die KI merkt jedoch, dass bei­spiels­wei­se Farbe oder Form kein aus­rei­chen­des Kriterium für bestimm­te Objekte oder Konzepte sind, weil sich die­se ändern kön­nen. Bälle kön­nen zum Beispiel ver­schie­de­ne Farben haben, Elefanten ver­schie­de­ne Formen und so wei­ter. Daher ver­sucht die KI, mög­lichst vie­le ver­schie­de­ne Variablen zu kre­ieren und die Begriffe in so einem Koordinatensystem zu ver­or­ten. Dieses System hat deut­lich mehr als drei Dimensionen und wird als der „laten­te Raum“ bezeichnet.

Er ent­hält hun­der­te Variablen und deren Beziehungen zuein­an­der. So ent­steht ein mul­ti­di­men­sio­na­les Netzwerk aus Beziehungen, ähn­lich wie eine „sozia­le Netzwerkanalyse“. Die Variablen für „Spaghettieis“ wür­den da zum Beispiel irgend­wo zwi­schen denen für „Eiscreme“ und „Pasta“ lie­gen, in der Nähe von ande­ren kal­ten Objekten wie „Antarktis“ oder „Winter“, fern­ab von Objekten, wel­che mit „Härte“ asso­zi­iert sind. Das ist für den mensch­li­chen Geist schwer ver­ständ­lich, für moder­ne Computer aber kein Problem.

Vom latenten Raum zur stabilen Diffusion

Wie kriegt mensch aber nun neue Bilder aus die­sem laten­ten Raum? Durch die Texteingabe navi­giert der Mensch den Computer zu einer Stelle im mul­ti­di­men­sio­na­len Raumen, wo die Wahrscheinlichkeit am höchs­ten ist, dass die dor­ti­gen Variablen die Begriffe gut abdecken.

Nun kommt wie­der das obi­ge Entrauschungsverfahren zum Einsatz. Aus einem zufäl­li­gen Bildrauschen schärft der Computer in sehr vie­len Durchgängen das Chaos zu einer Anordnung, in wel­cher Menschen die gewünsch­ten Begriffe erken­nen kön­nen sol­len. Da die­ser Prozess zufalls­ba­siert ist, wird auch mit der glei­chen Texteingabe nie­mals exakt das glei­che Bild entstehen.

Diese zufalls­ba­sier­te Pixelstreuung heißt im Lateinischen „Diffusion“ und da das System sta­bil zwar kei­ne glei­chen, aber ähn­li­che Ergebnisse erzie­len kann, nennt sich die­ses Verfahren der KI-​Bilderstellung „Stable Diffusion“.

Auch wenn die glei­che Texteingabe in ein ande­res KI-​Modell gege­ben wird, wer­den sich die Ergebnisse unter­schei­den, weil das Bild dann durch ande­re Trainingsdaten in einem ande­ren „laten­ten Raum“ erzeugt wurde.

Der bis hier beschrie­be­ne Prozess wird gut visu­ell an einem Beispiel dar­ge­stellt in die­sem Artikel der Washington Post.

KI-​Ablehnung durch Missverständnis

Es gibt eini­ge KI-​Gegner, wel­che die KI-​Bilder ableh­nen, weil sie fälsch­li­cher­wei­se anneh­men, dass die KI-​Tools nur eine Art intel­li­gen­te Bildmontagen-​Maschine sind, wel­che Versatzstücke aus bestehen­den Bildschnipseln neu zusammensetzt.

Als „Beweis“ wer­den hier ger­ne die manch­mal sicht­ba­ren Wasserzeichen genannt, wel­che erkenn­bar bestimm­ten Bildagenturen zuge­ord­net wer­den kön­nen. Diese erge­ben sich jedoch aus der oben genann­ten Trainingsmethode. Die Agenturbilder sind für LAION beson­ders wert­voll gewe­sen, weil die­se beson­ders häu­fig beson­ders hoch­qua­li­ta­ti­ve Beschreibungen zu den Bildern hat­ten. Stockfotografen waren ja auf tref­fen­de Bildbeschreiben ange­wie­sen für häu­fi­ge Verkäufe. Das erklärt, war­um Bilder mit Agenturwasserzeichen beson­ders häu­fig für KI-​Trainingszwecke genutzt wurden.

Bei beson­ders „stock­las­ti­gen“ Motiven (den­ke an den „Business-​Handshake“) war also die Wahrscheinlichkeit hoch, dass die KI lern­te, dass sol­che Wasserzeichen irgend­wie nor­mal sei­en für das Motiv und dem­entspre­chend „dazu­ge­hör­ten“. Also ver­sucht die KI, die­se Wasserzeichen mit zu reproduzieren.

Die rechtlichen Implikationen dieser Methode

Aber auch ohne das obi­ge Missverständnis gibt es genug berech­tig­te Kritik. So wer­fen Kritiker der LAION vor, mil­lio­nen­fach die urhe­ber­recht­lich geschütz­ten Werke zu Trainingszwecken genutzt zu haben, ohne dass die Künstler dafür irgend­wie ent­schä­digt wur­den. LAION beruft sich zur Verteidigung dar­auf, dass sie eine gemein­nüt­zi­ge Organisation (ein­ge­tra­ge­ner deut­scher Verein) sei, wel­che nur zu Forschungszwecken arbeite.

Angesichts der Finanzierung die­ses gemein­nüt­zi­gen Vereins durch kom­mer­zi­el­le Firmen wie u.a. Stability AI, wel­che die Entstehung des LAION-5B“-Datensets finan­ziert haben und es letzt­end­lich in ihrer KI „Stable Diffusion“ nut­zen, ist das ein wack­li­ges Argument.

KI-​Befürworter wei­sen dar­auf hin, dass die KI bei ihrem Training im Grunde ver­gleich­bar sei mit dem Vorgehen von Google. Google hat­te jah­re­lang mas­sen­haft urhe­ber­recht­lich geschütz­te Bücher und ande­re Texte ein­ge­scannt, um Ausschnitte davon in deren Dienst „Google Books“ zu nut­zen. 2015 urteil­te der us-​amerikanische obers­te Gerichtshof, dass die­ses Vorgehen legal und von der „Fair Use“-Klausel gedeckt sei.

Auch die Frage, wie der recht­li­che Status der durch die KI erstell­ten Bilder zu bewer­ten ist, ist noch völ­lig offen und wird ver­mut­lich bald von eini­gen Gerichten geklärt wer­den müssen.

Die moralischen Probleme vom latenten Raum

Da das KI-​Training im laten­ten Raum qua­si ohne mensch­li­che Eingriffe geschah, hat die KI eini­ge Erkenntnisse gewon­nen, die wir Menschen pro­ble­ma­tisch hal­ten könnten.

Bestehende Vorurteile, Fehler oder dis­kri­mi­nie­ren­de Praktiken wer­den von de KI unge­fil­tert ein­fach über­nom­men und danach wie­der­ge­ge­ben. Wer sich bei den KI-​Tools bei­spiels­wei­se Bilder von einem „CEO“ gene­rie­ren lässt, wird haupt­säch­lich älte­re wei­ße Männer erhal­ten, Bilder von „Krankenpflegern“ hin­ge­gen wer­den vor allem weib­lich sein. Auch der Fokus auf die eng­li­sche Sprache schließt vie­le anders­spra­chi­ge Kulturen und Traditionen stark aus. Versucht bei­spiels­wei­se mal ein „Sankt Martin“-Bild durch die KI erzeu­gen zu lassen…

Stable Diffusion ver­sucht sich an der Darstellung eines „CEO“…
…und einer Krankenschwester („nur­se“)
Die KI schei­tert an der Darstellung des Begriffs „Sankt Martin“

Branchen im Wandel

Ungeachtet der noch unge­lös­ten recht­li­chen und mora­li­schen Probleme der KI-​Bilderzeugung hat die Technologie jedoch das Potential, gesam­te Branchen auf den Kopf zu stel­len, ver­gleich­bar mit der Erfindung des Fotoapparats.

Auch hören die Forscher längst nicht bei der Bilderzeugung auf. Mit „ChatGPT“ gibt es von den DALL-​E-​Machern schon eine funk­ti­ons­fä­hi­ge Chat-​KI wel­che auf Zuruf län­ge­re Texte schreibt. Andere Firmen arbei­ten an Text-​zu-​Video-​Generatoren, Text-​zu-​3D-​Objekt-​Generatoren und so wei­ter. Werden eini­ge der bestehen­den Technologien kom­bi­niert, bei­spiels­wei­se die Chat-​KI mit einer Video-​KI und einer Sprach-​KI, so könn­ten auf Knopfdruck bald indi­vi­dua­li­sier­te Spielfilme erzeugt wer­den. Die Entwicklungen hier wer­den in einem atem­be­rau­ben­den Tempo veröffentlicht.

Ist die Funktionsweise der gene­rie­ren­den KIs etwas kla­rer gewor­den? Was ver­steht ihr ggf. noch nicht?