Schlagwort-Archive: Midjourney

Bildbearbeitung, Künstliche Intelligenz, Tutorials

Ausführliches Tutorial: Interaktive 360°-KI-Bilder mit Midjourney erstellen

15. Februar 2024 Robert Kneschke Ein Kommentar

Auf meiner Facebook-Seite hatte ich hier kürzlich gefragt, wie groß das Interesse sei, die Erstellung von solchen interaktiven 360°-Bildern zu lernen:

Da der Andrang groß war, gibt es heute das komplette Tutorial, wie ihr diese 360-Grad-Bilder selbst erstellen und anzeigen lassen könnt. Klickt gerne mit der Maus auf das Bild, um die Ansicht zu ändern oder unten rechts auf das „VR“-Symbol, um das Gleiche im Vollbild-Modus zu machen.

1. Die Bilderstellung

Zuerst braucht ihr dafür natürlich Zugang zu einem Generativen KI-Programm. Ich arbeite bevorzugt mit Midjourney, aber getestet habe ich es auch mit Dall‑E 3 und prinzipiell sollte es – je nach Qualität des KI-Generators – auch mit anderen Tools wie Adobe Firefly oder Stable Diffusion funktionieren.

Als Prompt habe ich bei Midjourney diesen hier verwendet (die eckige Klammer sollte weggelassen werden, mehr dazu unten):

/imagine 360° equirectangular photograph of [an empty futuristic spaceship commando room interior] –ar 2:1 –v 6.0 –style raw

Wichtig sind hier vor allem die ersten beiden Begriffe 360° und die gleichwinklige Projektion (equirectangular projection) sowie das Seitenverhältnis von 2:1, welches im Midjourney-Prompt durch das Parameter-Kürzel –ar definiert wird.

Bei der gleichwinkligen Projektion wird diese aus einem einzigen Bild zusammengesetzt, wobei der horizontale Winkel 360° und der vertikale 180° beträgt. Daher sollte das Seitenverhältnis 2:1 sein, um unnötige Verzerrungen zu vermeiden. Adobe Firefly kommt z.B. nur bis zum Seitenverhältnis 16:9, weshalb die Ergebnisse weniger überzeugend aussehen.

Die Versionsnummer (v6) und der Style (raw) sind Geschmackssache und können variiert werden. Ich habe diese gewählt, weil sie aktuell die beste Renderqualität (v6) liefern bei realistisch anmutendem Ergebnis (raw).

Statt des Raumschiff-Prompts in der eckigen Klammer könnt ihr natürlich eurer Fantasie freien Lauf lassen. Beim oben verlinkten Facebook-Post lautete der Prompt zum Beispiel:

/imagine 360° equirectangular photograph of the rainforest –v 6.0 –ar 2:1 –style raw

Ihr könnt aber auch deutlich elaborierter in eurer Beschreibung werden, wenn ihr wollt.

Midjourney zeigt euch dann vier Auswahlmöglichkeiten an. Hier solltet ihr bei der Wahl eures Favoriten schon darauf achten, ob die linke und rechte Bildkante sich halbwegs dazu eignen, miteinander verbunden zu werden.

Im obigen Beispiel habe ich mit einem roten Pfeil markiert, wo die KI einen Lichteinfall gerendert hat, der sich nicht auf der rechten Kante wiederfindet. Das würde die optische Illusion zerstören. Beim oberen linken Bild sind oben und unten schwarze Balken, die ebenfalls störend sind. Daher habe ich mich für das Bild links unten entschieden.

Hinweis: Es gibt in Midjourney auch den Parameter „–tile“, der dafür sorgen soll, dass die Bilder nahtlos kachelbar sind, was für unsere Zwecke erst mal prinzipiell gut klingt. Manchmal funktioniert es auch gut, aber leider achtet Midjourney dann auch darauf, dass die obere und untere Kante zusammenpassen, was bei Außenaufnahme, wo oben Himmel und unten Erde ist, selten gute Ergebnisse bringt. Bei Innenaufnahmen ist die Trefferquote höher. Daher: Einfach mal testen.

Das fertige Bild wird mit „U3“ vergrößert (upscaling) und dann noch mal „Upscale (Subtle)“ vergrößert. Damit haben wir schon eine Auflösung von 1536x3072 Pixeln. Wer will, kann diese Auflösung mit einer der hier aufgezählten Upscale-Methoden noch weiter erhöhen. Das Raumschiff-Bild habe ich mit Topaz Photo AI auf 3072x6144 Pixel vergrößert.

Wie schon oben erwähnt, funktioniert es prinzipiell auch mit ChatGPT, wenn auch das Seitenverhältnis nicht korrekt als 2:1 ausgegeben wurde und die fertige Auflösung geringer ist:

2. Die Bildbearbeitung

Das fertige PNG-Bild öffne ich nun in Photoshop und wähle den Befehl „Verschiebungseffekt“ (unter Filter/Sonstige Filter):

Im sich öffnenen Menüfenster gebe ich nun „horionzal +1000 Pixel nach rechts“ ein. Wichtig ist, dass unten die Option „Durch verschobenen Teil ersetzen“ aktiv ist.

Damit verschiebt sich das Bild um eintausend Pixel nach rechts und wir sehen auch im Screenshot schon, wo die Nahtkante unseres Bildes ist. Diese können wir mit den Photop-Bordmitteln wie „generatives Entfernen“, „generatives Füllen“ und den altbekannten Stempel-Werkzeugen bearbeiten, bis die Kante nicht mehr so stark erkennbar ist. Tipp: Einfach den Übergang komplett mit dem rechteckigen Auswahlwerkzeug markieren und „Generatives Füllen“ anklicken, wirkt oft wahre Wunder.

Hier meine bearbeitete Version:

Zusätzlich könnt ihr natürlich je nach Belieben das Bild vom Farbton, Kontrast etc. anpassen oder andere Bildbereiche verbessern, entfernen oder austauschen.

Wenn ihr fertig seid, könnt ihr den „Verschiebungseffekt“ in die andere Richtung (also ‑1000) anwenden, damit das Bild wieder in seine Ausgangsposition verschoben wird.

Das ist nicht unbedingt notwendig, aber die meisten 360°-Anzeigen nutzen die Bildmitte als Startpunkt, welcher dadurch von uns beeinflusst werden kann.

Das fertige Bild sollte als JPG abgespeichert werden.

3. Die Bild-Metadaten

Damit Tools unser Bild nun auch als „echtes“ 360°-Bild erkennen, müssen wir manuell Metadaten hinzufügen, welche durch 360°-Kameras erzeugt werden. Wir täuschen damit quasi vor, unser KI-Bild sei mit einer richtigen Kamera aufgenommen worden.

Das sind die notwendigen Metadaten:

-xmp:ProjectionType=equirectangular
-xmp:CroppedAreaLeftPixels=0
-xmp:CroppedAreaTopPixels=0
-xmp:CroppedAreaImageWidthPixels=3072
-xmp:CroppedAreaImageHeightPixels=1536
-xmp:FullPanoWidthPixels=3072
-xmp:FullPanoHeightPixels=1536
-xmp:UsePanoramaViewer=true

Die Pixelwerte können (und sollten) natürlich abweichen, wenn euer Bild andere Pixelmaße aufweist.

Damit ihr nicht wie der letzte Höhlenmensch in eure EXIF-Daten eingreifen müsst, gibt es verschiedene Offline- und Online-Tools, welche das für euch übernehmen.

Ich nutze selbst gerne den „Exif Fixer Online“. Dieser unterstützt JPG-Bilder bis zu 15 MB. Nach dem Hochladen des Bildes erhaltet ihr einen Link, wo ihr die „gefixte“ Version mit den korrekten Metadaten runterladen könnt:

WICHTIG: Damit die Datei als 360°-Bild ausgelesen werden kann, müssen diese Metadaten intakt bleiben. Das Versenden der Datei mit Whatsapp oder Email etc. kann dazu führen, dass diese Metadaten wieder gelöscht werden und das Bild nicht interaktiv angezeigt werden kann.

4. Die Anzeige

Kommen wir zur Belohnung für unsere Mühen. Damit wir das 360°-Bild anzeigen lassen können, müssen wir es irgendwo hochladen, wo diese Art der Anzeige unterstützt wird.

Hier im Blog habe ich auf die Schnelle das kostenlose Plugin „Algori 360 Image“ installiert, es gibt aber auch etliche andere.

Eine andere Möglichkeit ist das Hochladen des Bildes bei Facebook oder Google Photos. Zusätzlich gibt es hier eine Liste von weiteren Apps, welche diese 360°-Anzeige unterstützen.

5. Galerie und Material zum Testen

Wer sehen will, dass das oben kein Glückgriff war, sondern auch mehrmals funktioniert, kann sich hier meine „360° KI-Bilder“-Galerie auf Facebook ansehen.

Wer gerade keinen Zugriff auf einen KI-Generator hat, kann sich die Rohdaten für die Galerie-Bilder hier runterladen, direkt ohne Bildbearbeitung aus Midjourney exportiert. Die jeweiligen Prompts findet ihr in den Metadaten in der Bildbeschreibung oder in der Facebook-Galerie.

Wichtiger Hinweis: Die Bilder sind die rohen Ausgangsbilder, es müssen also weiterhin die Schritte 2–4 durchlaufen werden, wenn die Bilder 360°-tauglich werden sollen. Alternativ könnt ihr die Bilder direkt in der Galerie ansehen.

Bildbearbeitung, Künstliche Intelligenz

Der große KI-Upscaler-Test: Vergleich von Bildqualität, Kosten und mehr

23. Oktober 2023 Robert Kneschke 19 Kommentare

Was ist der aktuell beste KI-Upscaler?
Vor wenigen Tagen hat die KI-Firma Midjourney einen neuen Upscaler veröffentlicht, der deren KI-Bilder um den Faktor 2 oder 4 vergrößern kann.

Da ich bisher ein anderes Tool genutzt habe, wollte ich herausfinden, wie sich die Bildqualität unterscheidet. Wo ich schon dabei war, habe ich noch paar andere Upscaler verglichen und die Ergebnisse bei Facebook und LinkedIn gepostet. Da gab es in den Kommentaren noch weitere Vorschläge, welche Upscaler ich berücksichtigen sollte.

Na gut, dachte ich mir, dann ziehe ich das eben größer auf und veröffentliche hier einen umfassenden Test über die Bildqualität und Unterschiede der aktuell auf dem Markt erhältlichen Upscaler.

Alle Testausschnitte im direkten Vergleich (Klicken zum Vergrößern)

Der Testaufbau und das Ausgangsbild

Ich habe mir mit dem KI-Tool Midjourney ein quadratisches PNG-Bild einer blonden Frau generieren lassen mit der Auflösung 1024x1024 Pixel (1,05 Megapixel):

Dieses Bild habe ich dann mit verschiedenen Methoden um den Faktor 4 auf 4096x4096 Pixel (16,7 Megapixel) vergrößern lassen.

Da die Beurteilung der Ergebnisse subjektiv gefärbt ist und jeder andere Maßstäbe an seine Bilder anlegt, veröffentliche ich hier auch die PSD-Datei der verschiedenen Ergebnisse als Download, jede Ebene ist sauber nach der genutzten Upscaler-Methode benannt.

DOWLOAD-Link (Dropbox) als gepackte .rar-Datei (ACHTUNG: Datei ist 610 MB groß, entpackt dann 889 MB!) BACKUP-Link (Wetransfer).

Damit kann jede*r durch das Ein- und Ausblenden der Ebenen in der 100%-Ansicht selbst entscheiden, welches Ergebnis ihm/ihr am meisten zusagt.

Für diesen Blogartikel habe ich einen Bereich des linken Auges ausgeschnitten, damit hier die 100%-Ansicht (500x500 Pixel) gezeigt werden kann. Die Ausschnitte habe ich sauber benannt und als JPG (Qualität 10) abgespeichert. Der Ausschnitt ist in der Photoshop-Datei auch als Pfad hinterlegt.

Der große Upscaler-Test: Die Ergebnisse

1. Midjourney Upscaler

Beginnen wir mit dem Upscaler von Midjourney. Obwohl dieser erst wenige Tage alt ist, gibt es schon zwei Versionen und Midjourney behält sich vor, den Upscaler auch in Zukunft zu verändern/verbessern:

„The upscaler is subtle and tries to keep details as close as possible to the original image (but may not fix glitches or issues with the old image)“

Die erste Version (V1) des Midjourney-Upscaler bügelte die Hauttextur ziemlich glatt, das ganze Bild wirkt insgesamt sehr nach 1980er-Jahre-Airbrush-Retusche.

Das Entwickler-Team nahm sich die Kritik der Community jedoch zu Herzen und schob zwei Tage später das erste Update hinterher:

„We’re […] hearing everyone’s feedback that the 4x upscaler is a bit soft and we’re looking at improvements which may further improve things. This means the upscaler settings may change suddenly over the next week without warning as we tweak things.
[…]
The V5 4x Upscale now features improved sharpness, and in some cases smaller scale high frequency details“

Dadurch sieht das Ergebnis deutlich besser aus, die Haare und Wimpern sehen täuschend echt aus und auch die Hauttextur kann überzeugen:

Der erste große Nachteil dieses Upscalers ist logischerweise, dass er nur auf KI-Bilder anwendbar ist, die direkt in Midjourney erstellt wurden.

Ein weiterer Punkt sind die Kosten: Der 4x Upscaler kostet grob 6x soviel GPU-Minuten wie die Generierung eines 4x4-Bilder-Grids. Diese Zeit wird von dem bezahlten Minutenkontingent abgezogen, welches die Nutzer je nach Abomodell zur Verfügung haben. Im Standard-Plan sind das zum Beispiel 15 Stunden pro Monat.

Eine Stunde Rechenzeit kann aktuell für 4 USD dazu gekauft werden. Ich habe mal geschaut, wie viel Zeit für ein 4x-Upscale von Midjourney berechnet wird. Beim obigen Bild waren das ca. 3 Minuten. Mit einer Stunde Rechenzeit könnten damit 20 Bilder hochskaliert werden. Bei Kosten von 4 USD/Stunde würde ein Upscale ca. 20 US-Cent kosten. Wer die inklusiven Stunden im Standard- oder Pro-Plan nutzt, zahlt nur die Hälfte.

2. Topaz Photo AI

Der Upscaler von Topaz Labs war unsere bisherige bevorzugte Upscale-Methode. Getestet haben wir hier mit der Version 2.0.5.
Topaz Photo AI ist ein recht neues Tool, mit dem verschiedene KI-basierte Werkzeuge wie Topaz Gigapixel, Topaz Sharpen etc. zusammengefasst wurden.

Die Ergebnisse sehen sehr überzeugend aus, vor allem die Hauttextur ist sehr realistisch, die Details wie Wimpern und Haare sind jedoch etwas gröber.

Topaz hat auch eine Funktion namens „Recovering Face“, womit laut Hersteller die Ergebnisse von Gesichtern in geringer bis mittlerer Auflösung deutlich verbessert werden kann:

„Recover Faces dramatically improves low-medium quality faces.“

Es gibt einen Regler, der stufenlos von 0 bis 100% eingestellt werden kann. Bei 25% sieht das Ergebnis so aus:

Topaz Photo AI V2 Upscaler 4x + 25% Recovering Face

Ich finde, dass das Gesicht dadurch einfach matschiger wird. Dieser Effekt nimmt mit der Stärke der Recover-Funktion zu, bei 100% ist das Ergebnis deutlich unbrauchbarer als ganz ohne die Funktion. Vermutlich liegt das daran, dass die Bildqualität vom Ausgangsmaterial schon „zu gut“ für diese Funktion ist, die der Verbesserung von „low quality faces“ dienen soll.

Ein weiterer Vorteil von Topaz Photo AI ist, dass hier Bilder als Batch bearbeitet werden können und neben dem Hochskalieren im gleichen Arbeitsgang wahlweise auch geschärft, entrauscht, farblich angepasst etc. werden können.

Mit 199 USD sind die Kosten initial recht hoch, dafür können damit unbegrenzt Bilder bearbeitet werden und es gibt regelmäßige Updates. Für Vielnutzer preislich die beste Wahl. Weiterer Pluspunkt: Es gibt ein Photoshop-Plugin.

3. Photoshop

Die früher übliche und seit langem verfügbare Methode mit Photoshop-Bordmitteln war, einfach die Bildgröße hochzusetzen. Das Ergebnis, getestet mit Photoshop 2024 (V25.0), sieht dann so aus:

Photoshop-Vergrößerung V25 (Berechnung: Automatisch)

Es ist damit sichtbar mit Abstand das schlechteste Ergebnis, was wenig verwundert, da hier noch keine KI Hilfestellung leistet. Selbst mit dem bekannten Kniff, das Bild in 10%-Schritten hochzuskalieren, war das Ergebnis nur minimal besser und reicht trotzdem nicht an die anderen Methoden heran.

In den Kommentaren zu meinem ersten Test gab es zwei Hinweise, wie ich die Ergebnisse verbessern könnte. Der erste war, dass sich hinter dem Häkchen „Neu berechnen“ noch eine Auswahlmöglichkeit für „Details erhalten 2.0“ verbirgt:

Photoshop-Vergrößerung V25 (Berechnung: Details erhalten 2.0)

Das Ergebnis ist zwar „besser“ und schärfer, dafür aber mit sichtbaren Artefakten übersät. Wenn ich den Regler „Rauschen reduzieren“ auf 50% setze, verschwinden die Artefakte, aber das Bild sieht etwas weichgezeichnet aus.

Kurz: Der schlechteste Upscaler im Test. Es wundert mich etwas, dass hier die Adobe Sensei-KI noch nicht Einzug gehalten hat, aber vermutlich wird das ein Feature sein, was eher früher als später veröffentlicht werden wird.

Jemand meinte noch, dass sich unter den „Neural Filters“ ein „Superzoom“-Filter verberge. Das ist jedoch kein richtiger „Upscaler“, weil damit das Bild tatsächlich „rangezoomt“ wird, ich verliere also die Bildmotive am Rand.

Dafür sind die Kosten jedoch unschlagbar, da jeder mit einem Photoshop-Abo unbegrenzt viele Bilder hochskalieren kann.

Kurzes Update 23.10.2023: (sample images not included in download yet)
Einige Leser wiesen mich darauf hin, dass die „Superzoom“-Funktion doch das ganze Bild anzeigt, wenn die Option „Bild > Alles einblenden“ genutzt wird. Zusätzlich gibt es einige Auswahlmöglichkeiten wie z.B. „Gesichtsdaten verbessern“ und „JPG Artefakte reduzieren“:

Photoshop Neural Filter „Superzoom“ mit „Gesichtsdaten verbessern“ und „JPG Artefakt-Reduzierung“ aktiv

Das Ergebnis sieht schon besser als mit der alten Photoshop-Methode aus und rangiert damit im oberen Mittelfeld. Für die Top-Liga sind die Bereiche wie Haare oder Wimpern noch etwas zu matschig.

Außerdem bietet Adobe in Lightroom oder Camera Raw die „Verbessern“-Option, welche ebenfalls hochskaliert, aber nur bei Raw-Dateien funktionieren soll.

4. Luminar Neo

Luminar Neo ist, ähnlich wie Topaz Labs, ein weiteres KI-gestütztes Tool-Kit für die Fotobearbeitung mit vielen Funktionen. Getestet wurde hier mit der Version 1.14.1.12230 im Upscale Type „Universell“.

Gefühlt würde ich sagen, dass das Ergebnis irgendwo zwischen Midjourney und Topaz liegt. Die Details sind etwas gröber als bei den anderen beiden Upscalern, die Haut weichgezeichneter als bei Topaz, aber weniger als bei Midjourney.

Luminar Neo Hochskalieren 4x + Gesichtsverstärker AI

Es gibt bei der Hochskalieren-Funktion noch das optionale Häkchen „Gesichtsverstärker AI“, welches jedoch schlicht gesagt (bisher) grausame Ergebnisse liefert. Es sieht so aus als würde hier ein Geisterbild über dem anderen liegen. Kurz: Finger weg von dem Häkchen.

Die Kosten von Luminar Neo liegen bei 219 Euro für die lebenslange Nutzung, es gibt aber auch Abo-Modelle ab 11,95 Euro/Monat, was sich gut zum Testen eignet. Dafür bekommt man aber nicht nur die Hochskalieren-Funktion, sondern ein breites Bündel an Werkzeugen wie Entrauschen, Schärfen, Lichtmanipulationen, und vieles mehr. Die Handhabung mit dem separaten Installieren der verschiedenen Plugins finde ich jedoch nicht ganz intuitiv.

5. Pixelcut

Pixelcut ist ein kostenloser Online-Upscaler, welcher bequem via Drag & Drop funktioniert.

Das Ergebnis ist relativ grob, aber besser als Photoshop. Dafür sind die Kosten gleich null. Für Gelegenheitsnutzer also sehr praktisch.

Es ist auch eine Batch-Nutzung möglich, die dann jedoch im „Pixelcut Pro“ 9.99 USD pro Monat oder 59.99 USD im Jahr kostet. Dafür ist dann auch eine iPhone/Android-App-Nutzung enthalten und unbegrenzte Hintergrundentfernung.

6. Neural.love

Neural.love ist ein online-basierter AI-gestützter HD Portrait-Generator, der als Leserhinweis seinen Eingang in diesen Test fand.

Der Leistungsumfang reicht von der direkten KI-Bilderstellung über Image-to-Image Bildremixe, Portraitrestaurierungen etc. und eben auch ein Upscaler namens „Image Enhance/Quality Enhance“.

Das Ergebnis ist etwas detaillierter als bei Pixelcut, reicht aber von der Schärfe nicht an Topaz oder Midjourney heran.

Es gibt noch die Option, „Smart Noise“ zu aktivieren, was – wie der Name schon vermuten lässt – ein feines Rauschen über das Bild liegt. In der 100%-Ansicht ist das recht auffällig, beim Rauszoomen ist der Eindruck aber positiver als ohne das Rauschen.

Das Online-Tool erfordert eine Registrierung per Email und arbeitet mit einem Credit-System für die Kosten. Die ersten fünf Credits sind frei (also 5x Upscaling), danach können 300 Credits im Abo für 30 Euro/Monat oder zeitlich unbegrenzt für 57 Euro gekauft werden. Das wären dann 10 bzw. 19 Cent pro Upscale.

7. Upscale.media

Upscale.media ist ein weiterer Online-Upscaler auf Credit-Basis:

Das Ergebnis rangiert solide im Mittelfeld und ist schon gut brauchbar.

Upscale.media 4x Upscaler + Qualität verbessern

Es gibt auch die Option, ein Häkchen bei „Qualität verbessern“ zu setzen, doch das scheint das Gegenteil zu bewirken. Das Bild verliert an Details und die Konturen werden unnatürlich stark betont. Würde ich nicht empfehlen.

Kosten? Pro Tag sind zwei Uploads ohne Registrierung kostenlos möglich, nach Registrierung gibt es fünf kostenlose Uploads. 100 Credits kosten im Abo 19 USD bzw. zeitlich unbegrenzt 49 USD, was 19 US-Cent bzw. 49 US-Cent pro Upscaling entspricht.

8. Stable Diffusion Upscaler

Auch im quelloffenen KI-Generator Stable Diffusion gibt es gleich mehrere Upscaler. Hier öffnet sich aber auch die Büchse der Pandora, weil es neben den sieben verschiedenen Upscalern, die im Web-UI von Automatic111 dabei sind, noch unzählige weitere gibt, die auch jeweils noch viele verschiedene Settings haben.

Allein in der Datenbank OpenModelDB finden sich unter „General Upscaler“ 66 verschiedene Modelle, die kostenlos heruntergeladen und installiert werden können und alle ihre Stärken und Schwächen haben.

Um die Sache noch komplexer zu machen, können Bilder auch mittels der „IMG2IMG“-Methode hochskaliert werden, wobei hunderte verschiedene KI-Modelle zur Auswahl stehen.

Deshalb habe ich hier nur mal einen internen Upscaler getestet, den Upscaler „ESRGAN_4x“ mit einer GFPGAN visibility von 0.5.

Stable Diffusion Upscaler ESRGAN_4x (GFPGAN visibility 0.5)

Das Ergebnis ist ca. doppelt so gut wie die Photoshop-Methode, aber sichtbar schlechter als die meisten anderen Upscaler im Test.

Dazu kommt, dass die Geschwindigkeit des Skalierens ganz stark von der lokal verwendeten Hardware abhängt. Mit einer RTX 2080-Grafikkarte dauerte das Hochskalieren über 15 Minuten. Wer die Settings noch etwas mehr hochdreht, muss exponentiell länger warten.

Auch die Bedienung gestaltet sich komplex, da die Modelle gefunden und runtergeladen werden müssen und für die verschiedenen Settings keine Anleitung existiert. Ihr werdet also auf etlichen Webseiten rumsurfen, um euch die empfohlenen Einstellungen zusammenzusuchen.
Dafür sind die Kosten fast Null, da alle benötigten Tools kostenlos erhältlich sind. Ihr zahlt also nur für euren Strom.

Wer mehr Stable Diffusion Upscaler im Vergleich sehen will, findet hier einen ähnlichen Test.

9. ChaiNNer Upscaler

ChaiNNer ist ein weiterer Tipp aus den Kommentaren. Das ist ein OpenSource-Projekt, welches ursprünglich als KI-Upscaler gestartet ist, mittlerweile aber sehr umfangreiche Bildverarbeitungsfunktionen bietet.

ChaiNNER ist node-basiert, was sehr ungewohnt ist, für die, die es nicht kennen, aber wer das Prinzip verstanden hat, kann auf diese Weise sehr komplexe Workflow-Ketten aufbauen, die dann mit einem Klick abgearbeitet werden. Der Workflow für das einfache Hochskalieren sieht dann so aus:

ChaiNNer-Upscaling-Workflow (Klicken zum Vergrößern)

Das Programm ist noch in der Alpha-Phase (ich habe v0.20.2 genutzt) und kostenlos für Windows, Mac und Linux erhältlich. Die Installation erfordert etwas Zeit, ist aber in der GitHub-Anleitung gut beschrieben.

ChainNNer selbst ist genau genommen gar kein Upscaler, sondern dient als GUI (grafische Benutzeroberfläche) für andere OpenSource-Upscaler auf PyTorch-Basis. Das heißt, fast alle Upscaler die bei Stable Diffusion integriert werden können, sind auch in ChaiNNer nutzbar. Wie im Bereich „Stable Diffusion“ erwähnt, stehen euch also mindestens 66 verschiedene Möglichkeiten zur Verfügung.

ChaiNNer 4x Upscaler mit Model „Remacri“

Getestet habe ich ChaiNNer mit dem beliebten „Remacri“-Modell, welches eine überzeugende Kombination aus Schärfe und Struktur liefert. Ebenfalls nicht ganz so gut wie Topaz oder Midjourney, dafür kostenlos und seeehr flexibel.

ChaiNNer 4x Upscaler mit Model „UniScale-Balanced“

Ich habe noch ein weiteres Modell getestet, das „UniScale-Balanced“ auf Basis der ESRGAN-Architektur. Das schnitt jedoch deutlich schlechter ab als „Remacri“.

Noch mal zum Verständnis: In Stable Diffusion und ChaiNNer können die gleichen Upscaler-Modelle eingesetzt werden, bei mir lief die Verarbeitung jedoch deutlich schneller bei ChaiNNer. Dafür gibt es bei Stable Diffusion etwas mehr Einstellmöglichkeiten, die ich auf die Schnelle nicht bei ChaiNNer gefunden habe.

Das Resultat

Es gibt noch unzählige weitere Tools, vor allem online, aber die meisten davon rangieren im Mittelfeld und sind preislich ähnlich angesiedelt.

Von der Bildqualität liegt Midjourney aktuell meiner Meinung nach stark vorne, hat eben aber den gravierenden Nachteil, dass damit nur Midjourney-Bilder hochskaliert werden können. Auch preislich ist Midjourney kein Zuckerschlecken, wenn man nicht gerade eh Stunden übrig hat in deren Abo-Modell.

Für Power-User, die mehr als 1000 Bilder hochskalieren wollen, bleibt die Wahl zwischen Topaz Photo AI und Luminar Neo preislich die bessere Wahl, wobei Topaz in der Bedienung wegen der Automatisierungsmöglichkeiten etwas die Nase vorn hat.

Insgesamt ist die Qualität aber auch subjektiv behaftet und kann sich je nach Motiv oder mit einem Update eines Tools auch wieder ändern.

Bei den ganzen, teils kostenlosen, Online-Upscalern solltet ihr auch bedenken, dass ihr eure Daten in fremde Hände gebt und dem Anbieter vertrauen solltet, damit vertraulich umzugehen. Vermutlich werden auch die meisten dieser Anbieter unter der Haube eines der unzähligen OpenSource-Upscaler laufen haben.

Welchen Upscaler nutzt ihr aktuell und welches Ergebnis hat euch hier am meisten überzeugt?

Die Community-Test-Erweiterung

Wer den Test mit eigenen Modellen oder anderen Anbietern erweitern will, hat in diesem Artikel alle notwendigen Grundlagen: Das 1024x1024-Ausgangsbild steht oben zum Download zur Verfügung sowie die Photoshop-Datei mit den Ebenen der Upscaler und der Pfad-Auswahl für die Ausschnittvergrößerung.

Ihr könnt also gerne weitere Methoden testen und das Ergebnis gerne in den Kommentaren posten (Bilder bitte als Link).

Internet-Funde, Künstliche Intelligenz

Instagram-Account automatisiert mittels KI betreiben (ein Selbstexperiment)

15. Juli 2023 Robert Kneschke 7 Kommentare

Mein Instagram-Account @rkneschke besteht seit über zehn Jahren, aber bisher habe ich ihn eher stiefmütterlich behandelt.

Zu sehen gab es dort auch fast nie Auszüge meiner professionellen Arbeit, sondern eher Bilder, die privat enstanden sind, ein Sammelsurium aus abstraktem Minimalismus, Food, Landschaften, Konzertfotos und Drohnenaufnahmen (bis ich diese geschrottet habe).

Aktueller Screenshot von meinem Instagram-Account

Seit ich mich vor einem Jahr stark auf die Bilderstellung mittels generativer KI fokussiert habe, stand die Frage im Raum, ob diese beeindruckenden KI-Bilder sich eignen würden, um damit – mehr oder weniger automatisiert – Social-Media-Accounts zu betreiben.

Da mein Instagram-Kanal sowieso nur sporadisch gefüllt wurde von mir, habe ich vor drei Monaten ein Experiment gestartet.

Der Aufbau vom Instagram-KI-Experiment

Ich habe meinen Instagram-Kanal seit dem 16.4.2023 ausschließlich mit komplett KI-generierten Inhalten gefüllt. Das Ganze sollte möglichst zeitsparend vonstatten gehen, mein Ablauf war daher:

Die Text-KI ChatGPT nach einem Haufen trendiger Instagram-Motive fragen.
Diese Motive automatisiert per Bild-KI Midjourney in Bilder umwandeln lassen.
Die schönsten Bilder raussuchen und unbearbeitet zu Instagram hochladen.
Die Bildbeschreibung und Hashtags automatisiert durch ChatGPT generieren lassen basierend auf der Bildbeschreibung, die in Schritt 1 generiert wurde.
Optional: Um noch mehr Zeit zu sparen, ab und zu einige Instagram-Beiträge im Voraus mit der Instagram-App planen.

Alle KI-Bilder wurden in den Hashtags und der Bildbeschreibung als solche ausgewiesen.

Das Ziel vom Experiment

Ich wollte mit dem Experiment testen, was mit meinem Instagram-Account passiert, wenn ich diesen komplett auf KI-basierte Bilder umstelle.

Werde ich Follower gewinnen oder verlieren?
Wird sich meine Reichweite erhöhen oder verringern?
Spare ich Zeit mit dieser Art der Content-Erstellung?
Wie reagieren meine bisherigen Follower?

Die Ergebnisse in Zahlen

Das Wichtigste zuerst. Wie ihr an der Übersicht in den Instagram-Insights sehen könnt, liegen alle Messwerte im grünen Bereich.

Begonnen habe ich das Experiment Mitte April 2023 mit 1216 Followern, aktuell liege ich bei 1227, das entspricht einem Plus von 0,9%. Nicht viel, aber immerhin kein Verlust.

Ich konnte 634% mehr Konten erreichen und 478% mehr Konten haben mit meinem Kanal interagiert. Dazu muss ich jedoch fairerweise sagen, dass ich im Vergleichszeitraum der drei Monate vorher (also Januar bis April 2023) nur ein Bild gepostet hatte, diese Werte also viel höher als normal ausfallen.

Wie ihr am obigen Diagramm sehen könnt, ist auch die Zahl der Nicht-Follower relativ hoch, auf jeden Fall deutlich höher als vor dem Experiment. Das liegt vermutlich daran, dass ich durch die vielen neuen verschiedenen Motive auch ganz unterschiedliche Hashtags anbringen konnte, die außerhalb meiner „Instagram-Follower-Bubble“ lagen.

Was jedoch auf jeden Fall stark gefallen ist, ist die Zeit, die ich zur Erstellung eines Posts benötigte. In den 10 Jahren zuvor, habe ich ca. 55 Bilder pro Jahr hochgeladen, also gut ein Bild pro Woche. Im Experimentzeitraum habe ich allein fast 60 Bilder hochgeladen, also ca. 5 pro Woche.

Die Kommentare zu den Bildern waren gemischt. Einige positiv, einige kritisch, aber insgesamt alles im Rahmen. Ich vermute, dass die radikalen KI-Gegner schnell ihr Abo gekündigt haben, dafür jedoch einige neue Fans dazu gekommen sind.

Wer an der genaueren Entwicklung des Kanals interessiert ist, kann sich die Statistiken hier bei Social Blade anschauen:

Persönliche Anmerkungen und Fazit

Ich hatte ehrlich gesagt schlimmere Ergebnisse befürchtet und dachte, dass vielleicht viele meiner Fans, die eher aus dem Fotografie-Lager kommen, angesichts dieser KI-Bilder-Flut frustriert sind und davonlaufen.

Das hat sich zum Glück nicht bewahrheitet und die leichten Verluste konnten durch neue KI-Fans mehr als ausgeglichen werden.

Insgesamt ist das Experiment natürlich wissenschaftlich gesehen kaum haltbar, da zum Beispiel der Vergleichszeitraum vorher nicht repräsentativ ist. Da hatte ich fast nichts gepostet, weshalb die Engagement-Rate logischerweise auf einem sehr niedrigen Level lag.

Auch die Bildauswahl ist eher zufällig. Ich habe viele atemberaubende Naturbilder, einige Menschenbilder und niedliche Tiermotive gepostet. Alles quer durch den Gemüsegarten. Vermutlich ist das für den Aufbau einer speziellen Zielgruppe eher unpassend, aber da ich auch vorher eher motivisch gesehen Querbeet unterwegs war, passt das hier.

Interessant fand ich die Möglichkeit, mittels neuer Motive und die entsprechenden Hashtags ganz andere Zielgruppen ansprechen zu können, welche mir bisher noch nicht folgen.

Das ist sicher für Accounts, welche professionelle Ziele verfolgen und ihre Reichweite erhöhen wollen, ein sehr spannender Aspekt.

Beeindruckend war und ist aber auch das Zusammenspiel von ChatGPT und Midjourney, welches die Zeit für die Content-Erstellung stark reduziert hat, was natürlich die Motivation erhöht, überhaupt mehr zu posten.

Wie geht es weiter?

Ich werde auf meinem Instagram-Kanal weiter KI-Inhalte posten. Ob ich inhaltlich mich mehr auf bestimmte Motive konzentriere oder einfach die Bilder zeige, die mir gefallen, muss ich noch entscheiden. Wer es direkt wissen will, folgt bitte am besten einfach meinem Instagram-Account @rkneschke hier.

In der Zwischenzeit habe ich heute für mein Seitenprojekt „www.eis-machen.de“ ebenfalls einen Instagram-Account gestartet. Unter @eiscremeparty werde ich nur KI-Bilder zum Thema Eiscreme posten. Wer daran Interesse hat, kann dem Kanal ebenfalls gerne folgen.

Was sagt ihr?
Was könnte ich noch testen?

Ankündigung, Künstliche Intelligenz

DALL- E, Midjourney und Co.: Sind künstlich erzeugte Bilder auf dem Bildermarkt handelbar? Vortrag mit Sebastian Deubelli auf dem PICTAday am 30.03.2023

23. Februar 2023 Robert Kneschke 2 Kommentare

Am Donnerstag, den 30.03.2023 findet der diesjährige PICTAday in der Alten Kongresshalle in München statt von 10–18 Uhr.

Der PICTAday ist eine einmal jährlich stattfindende Networking-Veranstaltung des renommierten Branchenverbandes BVPA und feiert dieses Jahr sein 20-jähriges Bestehen.

Beim PICTAday können sich Bildagenturen und Dienstleister den Bildeinkäufern präsentieren und letztere sich über Neuigkeiten in der Agenturlandschaft und dem Bildermarkt informieren. Der Eintritt ist für Bildeinkäufer kostenfrei.

Auf dem PICTAday finden auch die PICTAtalks statt, wo namenhafte Branchenexperten neue Impulse zu aktuellen Entwicklungen der Bilderbranche und einen Einblick in ihre tägliche Arbeit geben.

Von 15–15:45 Uhr werde ich dort zusammen mit dem Fachanwalt für Urheber- und Medienrecht, Sebastian Deubelli von der SLD Intellectual Property Rechtsanwaltsgesellschaft über das Thema „DALL- E, Midjourney und Co.: Sind künstlich erzeugte Bilder auf dem Bildermarkt handelbar?“ diskutieren:

„Die Qualität von künstlich erzeugten Bildern wird besser und besser und stellt längst kein Hindernis für deren alltäglichen Einsatz dar. Aus rechtlicher Sicht ist vieles allerdings noch unklar. Der Talk beschäftigt sich insbesondere mit der Frage, ob die rechtliche Unklarheit dem gewohnten Handel mit Bildlizenzen im Weg steht und welche rechtlichen aber auch praktischen Vorkehrungen hier getroffen werden sollten.“

Der PICTAday ist eine großartige Gelegenheit, um sich über die neuesten Entwicklungen auf dem Bildermarkt zu informieren, wertvolle Kontakte zu knüpfen und an den hochkarätigen Vorträgen teilzunehmen.

Wir freuen uns auf eine spannende Diskussion und hoffen, euch am 30. März 2023 auf dem PICTAday in München zu treffen! Weitere Informationen zur Veranstaltung und zur Anmeldung sowie das Anmeldeformular findet ihr auf der Webseite des PICTAday.

Bildagenturen, Künstliche Intelligenz, Technik

Bildagenturen wie Shutterstock und Getty Images verbannen KI-Bilder aus ihrem Portfolio

22. September 2022 Robert Kneschke 3 Kommentare

Kurz hintereinander haben sowohl Shutterstock als auch Getty Images mit deren Tochter-Agentur iStock angekündigt, keine KI-Bilder mehr annehmen zu wollen.

Ki-Bild (Dall‑E 2) von einem Roboter, der ein Bild malt

Angesichts der steigenden Popularität von KI-Software zur Bild-Generierung wie Dall‑E 2, Stable Diffusion, Midjourney und Konsorten sowie der verbesserten Bildqualität dieser Tools gab es in den letzten Monaten einen starken Anstieg von KI-Bildern im Portfolio von Bildagenturen.

Email, die an iStock/Getty-Fotografen ging

Nun haben zumindest die beiden großen Platzhirsche Shutterstock und Getty Images die Reißleine gezogen und angekündigt, keine KI-Bilder mehr annehmen zu wollen.

Als Grund werden in einer Email von Getty Images „unadressierte rechtliche Fragen mit Hinblick auf die zugrunde liegenden Bilder und Metadaten, die zum Training der KI genutzt worden sind“ angegeben.

Auch Shutterstock formuliert in einer Email an ausgewählte Kontributoren ähnliche Bedenken:

Email von Shutterstock an einige Kontributoren

Hier werden „rechtliche Implikationen“ als Grund dafür genannt, dass etliche KI-Bilder der angeschriebenen Personen gelöscht wurden und es wird geschrieben, dass Shutterstock „keine maschinengenerierten Inhalte akzeptieren“ würde gemäß Sektion 13.d/f ihrer Nutzungsbedingungen.

Ich bin mir zwar nicht ganz sicher, ob sie da wirklich die richtigen Absätze rausgesucht haben, aber grundsätzlich steht es Shutterstock natürlich frei, solche Regeln aufzustellen, wenn sie der Meinung sind, dass sie hilfreich seien.

Zeitgleich experimentiert Shutterstock aber selbst schon mit künstlicher Intelligenz. So bietet deren neues Projekt „Predict“ Kunden die Möglichkeit, mittels KI erkennen zu können, welche Bilder für welche Zwecke am passendsten sein sollen. Shutterstock schreibt:

„Was performt besser?
Diese wiederkehrende Frage ist mit Predict viel einfacher zu beantworten. Die App nutzt KI, um die Stärken und Schwächen individueller Assets speziell für Ihre Anforderungen zu analysieren. Predict sagt Ihnen, WARUM ein empfohlener Inhalt voraussichtlich gut performt, damit Sie selbstbewusst kreativ werden können.“

Nach einer kostenlosen Testphase wollen sie sich diese Informationen natürlich bezahlen lassen.

Getty Images versucht ebenfalls seit Januar 2022, die Vorteile der KI für sich auf eine andere Weise zu nutzen. So veröffentlichte die Agentur einen neuen Modelvertrag, der jetzt unter anderem einen neuen Passus enthält, mit dem sich das Model bereit erklärt, dass die Bilder zum Trainieren von Künstlicher Intelligenz genutzt werden dürfen:

„Ich erkläre mich ferner damit einverstanden, dass der Inhalt mit anderen Bildern, Texten, Grafiken, Filmen, Audio- und audiovisuellen Werken kombiniert und zur Entwicklung und Verbesserung von maschinellen Lernalgorithmen, künstlicher Intelligenz und anderen Technologien bearbeitet und genutzt werden darf.“

Auch bei der deutschen Bildagentur Westend61 werden die KI-Bilder als hoch problematisch angesehen und aus rechtlichen Gründen sollten diese momentan nicht akzeptiert werden. Mehr Informationen dazu sollen folgen.

Einige Online-Kunst-Communities wie Newgrounds, Inkblot Art und Fur Affinity haben ebenfalls das Hochladen von KI-Werken untersagt oder eingeschränkt.

Währenddessen arbeitet die britische Gesetzgebung schon an Änderungen, um den neuen KI-Entwicklungen Rechnung zu tragen.

Diese Bildlöschungen folgen einige Wochen nach der Veröffentlichung eines Teils des KI-Trainings-Datensatzes mit rund 12 Mio. Bildern von den insgesamt über 2,3 Milliarden Trainingsbildern. Dieser Trainingsdatensatz der Organisation LAION wurde zum Beispiel für das Anlernen der KI von NightCafe, Midjourney und Stable Diffusion genutzt.

In der Veröffentlichung wurde unter anderem deutlich, dass zum Lernen auch große Bildbestände der Bildagenturen benutzt wurden. So waren von den ausgewerteten 12 Mio. Bildern mindestens 497.000 von 123rf, 171.000 von Adobe Stock/Fotolia, 117.000 von PhotoShelter, 35.000 von Dreamstime, 23.000 von iStock, 22.000 von Unsplash, 15.000 von Getty Images, 10.000 von VectorStock, 10.000 von Shutterstock und so weiter. Die Dunkelziffer dürfte hier weit höher sein, da viele dort gekaufte Bilder auf Kundenwebseiten nicht immer als von einer Agentur kommend erkennbar sind.

Ich bin unsicher, ob diese Entscheidung so klug ist. Denn solche Verbote könnten dazu führen, dass sich die KI-Szene andere „Ökosysteme“ aufbaut. So gibt es beispielsweise mit PromptBase schon eine Webseite, wo Anbieter auf einem Marktplatz „Prompts“ für KI-Systeme verkaufen können. Prompts sind die Texteingaben, die zur Bilderstellung (noch) nötig sind und die Anbieter garantieren mit ihren Prompts ähnliche Ergebnisse wie die, die sie im Marktplatz vorzeigen. Im Kern ist das schon eine Art neuer Bildagentur, bei der die Leute nicht die Bilder direkt kaufen, sondern die Option, sich sehr ähnliche Bilder selbst gratis generieren zu können.

Außerdem erhöhen solche Einschränkungen wie das Verbot von KI-Bildern in den bestehenden Bildagenturen nur die Wahrscheinlichkeit, dass ein neues Start-Up eine neue Bildagentur aufmacht, welche offensiv einfach nur noch KI-generiertes Material verkauft.

Mit der Webseite Lexica gibt es auch schon eine Art „Open Source“-Community für KI-Bilder, wo Nutzer sich mehrere Millionen mit Stable Diffusion erstellte Bilder anschauen, durchsuchen und sehen können, welche Prompts zur Erstellung genutzt wurden. Von der Möglichkeit, diese Bilder direkt zur Lizenzierung anzubieten, ist es dann nur noch ein kleiner Schritt.

Während die großen Bildagenturen einen Abwehrkampf gegen die KI-Bilder beginnen, fangen andere Start-Ups längst an, mittels KI aus Text-Prompts ganze Video-Sequenzen zu erstellen.

Was diese KI-Entwicklung für die (Stock-)Fotografen selbst bedeutet, werde ich hoffentlich bald in einem eigenen Artikel beleuchten.

Wie seht ihr das?
Bringen Verbote von KI-Bildern etwas?