Archiv der Kategorie: Künstliche Intelligenz

Das Geheimnis hinter dem Hype-​Text2Video KI-​Generator Sora von OpenAI

Seit Tagen ist in der KI-​Welt kaum von etwas ande­rem die Rede als den beein­dru­cken­den Ergebnissen von Sora.

Sora ist der Name des kürz­lich hier vor­ge­stell­ten Text2Video-​Generators der Firma OpenAI, wel­che auch schon den Text2Bild-​Generator Dall‑E und das Text2Text-​Generator ChatGPT ver­öf­fent­licht hat.

Standbild aus einem Sora-​Video [Montage]

Mit Sora kön­nen durch simp­le Texteingaben hoch­auf­lö­sen­de Videos von bis zu einer Minute Länge gene­riert werden.

Einen Überblick über die Ergebnisse fin­det ihr hau­fen­wei­se, ent­we­der auf der Sora-​Seite direkt oder bei YouTube, zum Beispiel in die­sem Video:

Ki-​Videos, mit­tels Sora von OpenAI generiert

Auf der offi­zi­el­len Webseite wird lang und breit über die Sicherheit des Tools gere­det und ger­ne erwähnt, dass geplant sei, den C2PA-Metadaten-​Standard zur Erkennung von KI-​generierten Inhalten zu unter­stüt­zen. Auffällig ist aber, dass ande­re Informationen fehlen.

Das Geheimnis der Trainingsdaten

Auffällig ist, dass an kei­ner Stelle der Vorstellung von Sora dar­auf ein­ge­gan­gen wird, wie genau das KI-​Tool trai­niert wur­de. Welche Daten wur­den dafür verwendet?

Im tech­ni­schen Report fin­det sich nur der lapi­da­re Satz:
“[…] we train text-​conditional dif­fu­si­on models joint­ly on vide­os and images of varia­ble dura­ti­ons, reso­lu­ti­ons and aspect ratios.“

Ach? Ja, das war uns allen klar, aber wel­che Videos und Bilder habt ihr dafür nun genau benutzt?

In der Vergangenheit hat sich OpenAI nicht mit Ruhm bekle­ckert, wenn es um Rücksicht auf Urheberrechte bei Trainingsdaten ging.

Das „Opt-​Out“, um zu ver­hin­dern, dass Bilder für Dall‑E trai­niert wer­den, ist berüch­tigt und wur­de auch viel zu spät ein­ge­führt. Dall‑E 2 wur­de laut die­ser GitHub-​Seite unter ande­rem auch mit Hilfe des Vereins LAION e.V. trai­niert, wel­chen ich selbst gera­de wegen Urheberrechtsverletzung ver­kla­ge.

Auch beim zwei­ten Produkt von OpenAI, ChatGPT, liegt die Sache ähn­lich. OpenAI wird gera­de von der Zeitung New York Times ver­klagt, weil urhe­ber­recht­lich geschütz­te Trainingsdaten der Zeitung für das KI-​Training von ChatGPT benutzt wor­den seien.

Bei einer Zeugenanhörung von OpenAI durch das Oberhaus des bri­ti­schen Parlaments fiel sei­tens OpenAI auch der fol­gen­schwe­re Satz:

Because copy­right today covers vir­tual­ly every sort of human expression–including blog posts, pho­to­graphs, forum posts, scraps of soft­ware code, and govern­ment documents–it would be impos­si­ble to train today’s lea­ding AI models wit­hout using copy­righ­ted mate­ri­als. Limiting trai­ning data to public domain books and dra­wings crea­ted more than a cen­tu­ry ago might yield an inte­res­t­ing expe­ri­ment, but would not pro­vi­de AI sys­tems that meet the needs of today’s citizens“

Frei über­setzt: Ohne den Zugriff auf urhe­ber­recht­lich geschütz­te Trainingsdaten könn­ten wir unse­re Tools nicht anbieten.

Genau wegen die­sem bis­her schon bekann­ten rück­sichts­lo­sen Umgang mit Urheberrechten muss eine Frage viel lau­ter gestellt werden:

Welche Videos und Bilder wur­den für das Training der Sora-​KI verwendet?

Die Wahrscheinlichkeit ist sehr hoch, dass auch hier – ähn­lich wie beim Training von Dall‑E und ChatGPT urhe­ber­recht­lich geschütz­te Videos (und Bilder) zum Einsatz kamen.

Selbst Wasserzeichen in Videos sind für KI-​Entwickler schon lan­ge kein Hindernis mehr. Schon 2017 hat Google selbst eine Technik vor­ge­stellt, mit der Wasserzeichen aus Bildern ent­fernt wer­den können.

Auch der LAION-​Verein bie­tet auf GitHub ein kos­ten­lo­ses Tool für die „Wasserzeichen-​Erkennung“ an. Von der Erkennung zur Entfernung ist es für geüb­te Programmierer dann nur noch ein klei­ner Schritt, über den aus recht­li­chen Gründen nicht so ger­ne öffent­lich gere­det wird.
Manchmal aber doch:

Aus dem #video-​generation Kanal des Discord-​Servers von LAION
Aus dem #video-​generation Kanal des Discord-​Servers von LAION

Bei LAION wird zwar an einem eige­nen Text2Video-​Generator namens phena­ki gear­bei­tet, die tech­ni­schen Details des Trainings sind denen von Sora aber sehr ähn­lich, soweit ich das beur­tei­len kann.

Die Wahrscheinlichkeit, dass OpenAI daher mit der glei­chen Rücksichtslosigkeit wie LAION gegen­über Urhebern beim KI-​Training vor­geht, hal­te ich für hoch, zumal die bis­he­ri­gen Aussagen und Handlungen von OpenAI lei­der nicht geeig­net sind, Zweifel zu zerstreuen.

Beim gan­zen Hype vom SORA und dem Staunen über die tol­len Ergebnisse soll­te nicht ver­ges­sen wer­den zu fra­gen, wel­che (Video-)Künstler beim Training betei­ligt waren.

Ausführliches Tutorial: Interaktive 360°-KI-Bilder mit Midjourney erstellen

Auf mei­ner Facebook-​Seite hat­te ich hier kürz­lich gefragt, wie groß das Interesse sei, die Erstellung von sol­chen inter­ak­ti­ven 360°-Bildern zu lernen:

Da der Andrang groß war, gibt es heu­te das kom­plet­te Tutorial, wie ihr die­se 360-​Grad-​Bilder selbst erstel­len und anzei­gen las­sen könnt. Klickt ger­ne mit der Maus auf das Bild, um die Ansicht zu ändern oder unten rechts auf das „VR“-Symbol, um das Gleiche im Vollbild-​Modus zu machen.

1. Die Bilderstellung

Zuerst braucht ihr dafür natür­lich Zugang zu einem Generativen KI-​Programm. Ich arbei­te bevor­zugt mit Midjourney, aber getes­tet habe ich es auch mit Dall‑E 3 und prin­zi­pi­ell soll­te es – je nach Qualität des KI-​Generators – auch mit ande­ren Tools wie Adobe Firefly oder Stable Diffusion funktionieren.

Als Prompt habe ich bei Midjourney die­sen hier ver­wen­det (die ecki­ge Klammer soll­te weg­ge­las­sen wer­den, mehr dazu unten):

/​imagine 360° equi­rec­tan­gu­lar pho­to­graph of [an emp­ty futu­ristic space­ship com­man­do room inte­ri­or] –ar 2:1 –v 6.0 –style raw

Wichtig sind hier vor allem die ers­ten bei­den Begriffe 360° und die gleich­wink­li­ge Projektion (equi­rec­tan­gu­lar pro­jec­tion) sowie das Seitenverhältnis von 2:1, wel­ches im Midjourney-​Prompt durch das Parameter-​Kürzel –ar defi­niert wird.

Bei der gleich­wink­li­gen Projektion wird die­se aus einem ein­zi­gen Bild zusam­men­ge­setzt, wobei der hori­zon­ta­le Winkel 360° und der ver­ti­ka­le 180° beträgt. Daher soll­te das Seitenverhältnis 2:1 sein, um unnö­ti­ge Verzerrungen zu ver­mei­den. Adobe Firefly kommt z.B. nur bis zum Seitenverhältnis 16:9, wes­halb die Ergebnisse weni­ger über­zeu­gend aussehen.

Die Versionsnummer (v6) und der Style (raw) sind Geschmackssache und kön­nen vari­iert wer­den. Ich habe die­se gewählt, weil sie aktu­ell die bes­te Renderqualität (v6) lie­fern bei rea­lis­tisch anmu­ten­dem Ergebnis (raw).

Statt des Raumschiff-​Prompts in der ecki­gen Klammer könnt ihr natür­lich eurer Fantasie frei­en Lauf las­sen. Beim oben ver­link­ten Facebook-​Post lau­te­te der Prompt zum Beispiel:

/​imagine 360° equi­rec­tan­gu­lar pho­to­graph of the rain­fo­rest –v 6.0 –ar 2:1 –style raw

Ihr könnt aber auch deut­lich ela­bo­rier­ter in eurer Beschreibung wer­den, wenn ihr wollt.

Midjourney zeigt euch dann vier Auswahlmöglichkeiten an. Hier soll­tet ihr bei der Wahl eures Favoriten schon dar­auf ach­ten, ob die lin­ke und rech­te Bildkante sich halb­wegs dazu eig­nen, mit­ein­an­der ver­bun­den zu werden.

Die vier Ergebnisse des ers­ten Prompts

Im obi­gen Beispiel habe ich mit einem roten Pfeil mar­kiert, wo die KI einen Lichteinfall ger­en­dert hat, der sich nicht auf der rech­ten Kante wie­der­fin­det. Das wür­de die opti­sche Illusion zer­stö­ren. Beim obe­ren lin­ken Bild sind oben und unten schwar­ze Balken, die eben­falls stö­rend sind. Daher habe ich mich für das Bild links unten entschieden.

Hinweis: Es gibt in Midjourney auch den Parameter „–tile“, der dafür sor­gen soll, dass die Bilder naht­los kachel­bar sind, was für unse­re Zwecke erst mal prin­zi­pi­ell gut klingt. Manchmal funk­tio­niert es auch gut, aber lei­der ach­tet Midjourney dann auch dar­auf, dass die obe­re und unte­re Kante zusam­men­pas­sen, was bei Außenaufnahme, wo oben Himmel und unten Erde ist, sel­ten gute Ergebnisse bringt. Bei Innenaufnahmen ist die Trefferquote höher. Daher: Einfach mal testen.

Das fer­ti­ge Bild wird mit „U3“ ver­grö­ßert (ups­ca­ling) und dann noch mal „Upscale (Subtle)“ ver­grö­ßert. Damit haben wir schon eine Auflösung von 1536x3072 Pixeln. Wer will, kann die­se Auflösung mit einer der hier auf­ge­zähl­ten Upscale-​Methoden noch wei­ter erhö­hen. Das Raumschiff-​Bild habe ich mit Topaz Photo AI auf 3072x6144 Pixel vergrößert.

Wie schon oben erwähnt, funk­tio­niert es prin­zi­pi­ell auch mit ChatGPT, wenn auch das Seitenverhältnis nicht kor­rekt als 2:1 aus­ge­ge­ben wur­de und die fer­ti­ge Auflösung gerin­ger ist:

2. Die Bildbearbeitung

Das fer­ti­ge PNG-​Bild öff­ne ich nun in Photoshop und wäh­le den Befehl „Verschiebungseffekt“ (unter Filter/​Sonstige Filter):

Im sich öff­ne­nen Menüfenster gebe ich nun „hori­on­zal +1000 Pixel nach rechts“ ein. Wichtig ist, dass unten die Option „Durch ver­scho­be­nen Teil erset­zen“ aktiv ist.

Damit ver­schiebt sich das Bild um ein­tau­send Pixel nach rechts und wir sehen auch im Screenshot schon, wo die Nahtkante unse­res Bildes ist. Diese kön­nen wir mit den Photop-​Bordmitteln wie „gene­ra­ti­ves Entfernen“, „gene­ra­ti­ves Füllen“ und den alt­be­kann­ten Stempel-​Werkzeugen bear­bei­ten, bis die Kante nicht mehr so stark erkenn­bar ist. Tipp: Einfach den Übergang kom­plett mit dem recht­ecki­gen Auswahlwerkzeug mar­kie­ren und „Generatives Füllen“ ankli­cken, wirkt oft wah­re Wunder.

Hier mei­ne bear­bei­te­te Version:

Zusätzlich könnt ihr natür­lich je nach Belieben das Bild vom Farbton, Kontrast etc. anpas­sen oder ande­re Bildbereiche ver­bes­sern, ent­fer­nen oder austauschen.

Wenn ihr fer­tig seid, könnt ihr den „Verschiebungseffekt“ in die ande­re Richtung (also ‑1000) anwen­den, damit das Bild wie­der in sei­ne Ausgangsposition ver­scho­ben wird.

Das ist nicht unbe­dingt not­wen­dig, aber die meis­ten 360°-Anzeigen nut­zen die Bildmitte als Startpunkt, wel­cher dadurch von uns beein­flusst wer­den kann.

Das fer­ti­ge Bild soll­te als JPG abge­spei­chert werden.

3. Die Bild-Metadaten

Damit Tools unser Bild nun auch als „ech­tes“ 360°-Bild erken­nen, müs­sen wir manu­ell Metadaten hin­zu­fü­gen, wel­che durch 360°-Kameras erzeugt wer­den. Wir täu­schen damit qua­si vor, unser KI-​Bild sei mit einer rich­ti­gen Kamera auf­ge­nom­men worden.

Das sind die not­wen­di­gen Metadaten:

-xmp:ProjectionType=equirectangular
-xmp:CroppedAreaLeftPixels=0
-xmp:CroppedAreaTopPixels=0
-xmp:CroppedAreaImageWidthPixels=3072
-xmp:CroppedAreaImageHeightPixels=1536
-xmp:FullPanoWidthPixels=3072
-xmp:FullPanoHeightPixels=1536
-xmp:UsePanoramaViewer=true

Die Pixelwerte kön­nen (und soll­ten) natür­lich abwei­chen, wenn euer Bild ande­re Pixelmaße aufweist.

Damit ihr nicht wie der letz­te Höhlenmensch in eure EXIF-​Daten ein­grei­fen müsst, gibt es ver­schie­de­ne Offline- und Online-​Tools, wel­che das für euch übernehmen.

Ich nut­ze selbst ger­ne den „Exif Fixer Online“. Dieser unter­stützt JPG-​Bilder bis zu 15 MB. Nach dem Hochladen des Bildes erhal­tet ihr einen Link, wo ihr die „gefix­te“ Version mit den kor­rek­ten Metadaten run­ter­la­den könnt:

WICHTIG: Damit die Datei als 360°-Bild aus­ge­le­sen wer­den kann, müs­sen die­se Metadaten intakt blei­ben. Das Versenden der Datei mit Whatsapp oder Email etc. kann dazu füh­ren, dass die­se Metadaten wie­der gelöscht wer­den und das Bild nicht inter­ak­tiv ange­zeigt wer­den kann.

4. Die Anzeige

Kommen wir zur Belohnung für unse­re Mühen. Damit wir das 360°-Bild anzei­gen las­sen kön­nen, müs­sen wir es irgend­wo hoch­la­den, wo die­se Art der Anzeige unter­stützt wird.

Hier im Blog habe ich auf die Schnelle das kos­ten­lo­se Plugin Algori 360 Image“ instal­liert, es gibt aber auch etli­che ande­re.

Eine ande­re Möglichkeit ist das Hochladen des Bildes bei Facebook oder Google Photos. Zusätzlich gibt es hier eine Liste von wei­te­ren Apps, wel­che die­se 360°-Anzeige unterstützen.

5. Galerie und Material zum Testen

Wer sehen will, dass das oben kein Glückgriff war, son­dern auch mehr­mals funk­tio­niert, kann sich hier mei­ne „360° KI-Bilder“-Galerie auf Facebook ansehen.

Wer gera­de kei­nen Zugriff auf einen KI-​Generator hat, kann sich die Rohdaten für die Galerie-​Bilder hier run­ter­la­den, direkt ohne Bildbearbeitung aus Midjourney expor­tiert. Die jewei­li­gen Prompts fin­det ihr in den Metadaten in der Bildbeschreibung oder in der Facebook-Galerie.

Wichtiger Hinweis: Die Bilder sind die rohen Ausgangsbilder, es müs­sen also wei­ter­hin die Schritte 2–4 durch­lau­fen wer­den, wenn die Bilder 360°-tauglich wer­den sol­len. Alternativ könnt ihr die Bilder direkt in der Galerie ansehen.

Gerichtstermin im Verfahren gegen LAION e.V. wegen Urheberrechtsverletzung steht fest

Meine Klage gegen den deut­schen Verein LAION e.V., wel­cher unter ande­rem Trainingsdatensätze für KI-​Anwendungen bereit­stellt, hat welt­weit für viel Aufmerksamkeit gesorgt.

Da es auch regel­mä­ßig vie­le Anfragen zum aktu­el­len Stand des Verfahren gibt, hier ein kur­zes Update.

Den Hintergrund für das Einreichen mei­ner Klage könnt ihr hier und hier aus­führ­lich in mei­nen Blogartikeln nachlesen.

Kurz gefasst befin­den sich etli­che mei­ner Fotos im Datensatz „LAION 5B“. Anhand eines kon­kre­ten Fotos als Beispiel for­de­re ich Unterlassung und Auskunft über den Nutzungsumfang, da ich der Meinung bin, dass die Verwendung des Fotos für das Trainieren des Datensatzes eine urhe­ber­recht­lich rele­van­te Vervielfältigung darstellt.

Der Verein LAION e.V. sieht das natur­ge­mäß anders, wie in den bei­den zitier­ten Blogartikeln gut erkenn­bar ist. Daher blieb uns nur die Möglichkeit des Klagewegs.

Zeitlicher Ablauf der Klage:

  • 27.04.2023: Klage ein­ge­reicht beim Landgericht Hamburg
  • 28.06.2023: Verfügung des Landgericht Hamburg, der Verein kann Verteidigungsbereitschaft anzei­gen und Klage erwidern
  • 01.08.2023: LAION e.V. reicht Klageerwiderung ein
  • 20.09.2023: Stellungnahme mei­nes Anwalts zur Klageerwiderung
  • 25.04.2024 um 15:00 Uhr: Gerichtstermin vor dem Landgericht Hamburg

Das Landgericht Hamburg hat also in ca. einem hal­ben Jahr den Gerichtstermin ange­setzt, in dem dann münd­lich wei­ter über die Klage ver­han­delt wer­den wird. Das Verfahren ist öffent­lich. Hier die aktu­el­le Zusammenfassung des Falls durch die mich ver­tre­ten­de Kanzlei SLD.

Andere aktuelle Klagen im KI-Bereich

Ich bin jedoch nicht der ein­zi­ge, wel­cher sich dar­an stört, dass sei­ne urhe­ber­recht­lich geschütz­ten Werke ohne Nachfragen oder Entlohnung durch KI-​Firmen ver­wer­tet werden.

In den USA läuft aktu­ell die­se Sammeklage drei­er Künstlerinnen gegen Stability AI, Midjourney und DeviantArt.

Die US-​Komikerin Sarah Silverman klagt der­zeit zusam­men mit zwei ande­ren Autoren gegen den ChatGPT-​Betreiber OpenAI und den Facebook-​Mutterkonzern Meta wegen der Verwendung eini­ger ihrer Bücher in den KI-Trainingsdaten.

Auch gegen Google läuft die­se Klage wegen der uner­laub­ten Verwendung von Daten für das KI-Training.

Schon län­ger bekannt ist die Klage der Bildagentur Getty Images gegen Stability AI wegen deren Verwendung von Bildern im KI-Trainingsdatensatz.

Praxis Online-​Workshop: „KI in der Berufsfotografie“ mit Silke Güldner am 26.01.2024

Schon drei Mal haben Silke Güldner und ich zusam­men in Hamburg einen ganz­tä­ti­gen Praxis-​Workshop zum Thema „KI in der Berufsfotografie“ gegeben.

Jedes Mal war der Workshop schnell aus­ge­bucht und über unse­re Social-​Media-​Kanäle erreich­te uns oft der Wunsch, ob wir das Ganze auch online anbie­ten würden.

Deshalb wird der vier­te Workshop nun online statt­fin­den am Freitag, den 26.01.2024.

Seit andert­halb Jahren beschäf­ti­ge ich mich nun schon inten­siv mit der Bilderstellung durch Künstliche Intelligenz. Zusammen mit mei­nem Team habe ich mitt­ler­wei­le ein Portfolio von über 7000 KI-​Bildern, wel­che ich bei Bildagenturen anbiete.

Die Neugier und der Lernwunsch bei Kreativen im Bereich KI sind wei­ter­hin hoch und daher freue ich mich, zusam­men mit der Fotografenberaterin Silke Güldner erst­ma­lig den ganz­tä­gi­gen Praxis Online-​Workshop zum Thema „KI in der Berufsfotografie“ anbie­ten zu können:

Hintergründe & Möglichkeiten der KI-​Tools in der foto­gra­fi­schen Praxis mit KI-​Experte & Fotograf Robert Kneschke und Fotografenberaterin Silke Güldner 

Der Workshop bie­tet eine ein­zig­ar­ti­ge Gelegenheit, um tie­fer in die Welt der künst­li­chen Intelligenz ein­zu­tau­chen und ihre Anwendungsmöglichkeiten in der Fotografie zu ent­de­cken. Hier ler­nen Profi- und Nachwuchsfotografen die Funktionsweise und ver­schie­de­nen KI-​Tools ken­nen, kön­nen die­se im prak­ti­schen Teil selbst aus­pro­bie­ren und die­se für ihre eige­ne Positionierung im Markt reflek­tie­ren. Durch Diskussionen und den Austausch mit der Gruppe und den Referenten erhal­ten sie dar­über hin­aus auch Feedback und Inspirationen für ihre künf­ti­ge Arbeit und die Kommunikation mit ihren Kunden. Am Ende des Workshops sind die Teilnehmer bes­tens vor­be­rei­tet, um die Entwicklungen und Herausforderungen im Kontext von KI und Fotografie zu ver­ste­hen und zukünf­ti­ge Möglichkeiten zu nutzen.

Inhalte 

Einführung KI 

  • Wie funk­tio­niert KI-Bilderstellung 
  • Vorstellung der Tools Stable Diffusion, Dall‑E 3, Midjourney, Firefly 
  • Anwendungsmöglichkeiten, Unterschiede und Motivbeispiele 

Praxis Teil 1 

  • Anhand der Teilnehmer-​Portfolios spre­chen wir über Möglichkeiten, die KI für die eige­nen Ziele bie­ten kann und wann kon­ven­tio­nel­le Fotografie der bes­se­re Weg ist 
  • Portfolio Vorstellung der Teilnehmenden 
  • Vorteile und Nutzen von kon­ven­tio­nel­ler Fotografie gegen­über KI-​Lösungen in der Kundenberatung 

Praxis Teil 2 

  • Hands On & Live Demos 
  • Testen der KI-​Tools am Beispiel von Midjourney
  • Erläuterung von Prompt-​Engineering, In- and Outpainting 
  • Tools für den KI Workflow 
  • Überblick der Nutzungsmöglichkeiten & Best Practice Beispiele

Meta Themen 

  • Rechtliche & mora­li­sche Probleme der KI-Nutzung 
  • Veränderung der Berufsfotografie & Einfluss auf die Preisfindung 
  • Ausblick & Kooperationsmöglichkeiten“

Der Workshop wird am Freitag, den 26.01.2025 online statt­fin­den, mehr Informationen zur Veranstaltung fin­det ihr hier auf der Webseite des Veranstalters Photo+Medienforum Kiel.

Die Teilnehmer*innen ist begrenzt, also zögert nicht, euch bei Interesse recht­zei­tig euren Platz zu sichern.

Ich freue mich auf euch!

Der große KI-​Upscaler-​Test: Vergleich von Bildqualität, Kosten und mehr

Was ist der aktu­ell bes­te KI-​Upscaler?
Vor weni­gen Tagen hat die KI-​Firma Midjourney einen neu­en Upscaler ver­öf­fent­licht, der deren KI-​Bilder um den Faktor 2 oder 4 ver­grö­ßern kann.

Da ich bis­her ein ande­res Tool genutzt habe, woll­te ich her­aus­fin­den, wie sich die Bildqualität unter­schei­det. Wo ich schon dabei war, habe ich noch paar ande­re Upscaler ver­gli­chen und die Ergebnisse bei Facebook und LinkedIn gepos­tet. Da gab es in den Kommentaren noch wei­te­re Vorschläge, wel­che Upscaler ich berück­sich­ti­gen sollte.

Na gut, dach­te ich mir, dann zie­he ich das eben grö­ßer auf und ver­öf­fent­li­che hier einen umfas­sen­den Test über die Bildqualität und Unterschiede der aktu­ell auf dem Markt erhält­li­chen Upscaler.

Alle Testausschnitte im direk­ten Vergleich (Klicken zum Vergrößern)

Der Testaufbau und das Ausgangsbild

Ich habe mir mit dem KI-​Tool Midjourney ein qua­dra­ti­sches PNG-​Bild einer blon­den Frau gene­rie­ren las­sen mit der Auflösung 1024x1024 Pixel (1,05 Megapixel):

Das Testbild

Dieses Bild habe ich dann mit ver­schie­de­nen Methoden um den Faktor 4 auf 4096x4096 Pixel (16,7 Megapixel) ver­grö­ßern lassen.

Da die Beurteilung der Ergebnisse sub­jek­tiv gefärbt ist und jeder ande­re Maßstäbe an sei­ne Bilder anlegt, ver­öf­fent­li­che ich hier auch die PSD-​Datei der ver­schie­de­nen Ergebnisse als Download, jede Ebene ist sau­ber nach der genutz­ten Upscaler-​Methode benannt.

DOWLOAD-​Link (Dropbox) als gepack­te .rar-​Datei (ACHTUNG: Datei ist 610 MB groß, ent­packt dann 889 MB!) BACKUP-​Link (Wetransfer).

Damit kann jede*r durch das Ein- und Ausblenden der Ebenen in der 100%-Ansicht selbst ent­schei­den, wel­ches Ergebnis ihm/​ihr am meis­ten zusagt.

Für die­sen Blogartikel habe ich einen Bereich des lin­ken Auges aus­ge­schnit­ten, damit hier die 100%-Ansicht (500x500 Pixel) gezeigt wer­den kann. Die Ausschnitte habe ich sau­ber benannt und als JPG (Qualität 10) abge­spei­chert. Der Ausschnitt ist in der Photoshop-​Datei auch als Pfad hinterlegt.

Der große Upscaler-​Test: Die Ergebnisse

1. Midjourney Upscaler

Beginnen wir mit dem Upscaler von Midjourney. Obwohl die­ser erst weni­ge Tage alt ist, gibt es schon zwei Versionen und Midjourney behält sich vor, den Upscaler auch in Zukunft zu verändern/​verbessern:

The ups­ca­ler is subt­le and tri­es to keep details as clo­se as pos­si­ble to the ori­gi­nal image (but may not fix glit­ches or issues with the old image)“

Midjourney Upscaler 4x V1 (18.10.2023)

Die ers­te Version (V1) des Midjourney-​Upscaler bügel­te die Hauttextur ziem­lich glatt, das gan­ze Bild wirkt ins­ge­samt sehr nach 1980er-Jahre-Airbrush-Retusche.

Das Entwickler-​Team nahm sich die Kritik der Community jedoch zu Herzen und schob zwei Tage spä­ter das ers­te Update hinterher:

We’re […] hea­ring everyone’s feed­back that the 4x ups­ca­ler is a bit soft and we’­re loo­king at impro­ve­ments which may fur­ther impro­ve things. This means the ups­ca­ler set­tings may chan­ge sud­den­ly over the next week wit­hout war­ning as we tweak things.
[…]
The V5 4x Upscale now fea­tures impro­ved sharp­ness, and in some cases smal­ler sca­le high fre­quen­cy details“

Dadurch sieht das Ergebnis deut­lich bes­ser aus, die Haare und Wimpern sehen täu­schend echt aus und auch die Hauttextur kann überzeugen:

Midjourney Upscaler 4x V2 (20.10.2023)

Der ers­te gro­ße Nachteil die­ses Upscalers ist logi­scher­wei­se, dass er nur auf KI-​Bilder anwend­bar ist, die direkt in Midjourney erstellt wurden.

Ein wei­te­rer Punkt sind die Kosten: Der 4x Upscaler kos­tet grob 6x soviel GPU-​Minuten wie die Generierung eines 4x4-​Bilder-​Grids. Diese Zeit wird von dem bezahl­ten Minutenkontingent abge­zo­gen, wel­ches die Nutzer je nach Abomodell zur Verfügung haben. Im Standard-​Plan sind das zum Beispiel 15 Stunden pro Monat.

Eine Stunde Rechenzeit kann aktu­ell für 4 USD dazu gekauft wer­den. Ich habe mal geschaut, wie viel Zeit für ein 4x-​Upscale von Midjourney berech­net wird. Beim obi­gen Bild waren das ca. 3 Minuten. Mit einer Stunde Rechenzeit könn­ten damit 20 Bilder hoch­ska­liert wer­den. Bei Kosten von 4 USD/​Stunde wür­de ein Upscale ca. 20 US-​Cent kos­ten. Wer die inklu­si­ven Stunden im Standard- oder Pro-​Plan nutzt, zahlt nur die Hälfte.

2. Topaz Photo AI

Der Upscaler von Topaz Labs war unse­re bis­he­ri­ge bevor­zug­te Upscale-​Methode. Getestet haben wir hier mit der Version 2.0.5.
Topaz Photo AI ist ein recht neu­es Tool, mit dem ver­schie­de­ne KI-​basierte Werkzeuge wie Topaz Gigapixel, Topaz Sharpen etc. zusam­men­ge­fasst wurden.

Topaz Photo AI V2 Upscaler 4x

Die Ergebnisse sehen sehr über­zeu­gend aus, vor allem die Hauttextur ist sehr rea­lis­tisch, die Details wie Wimpern und Haare sind jedoch etwas gröber.

Topaz hat auch eine Funktion namens „Recovering Face“, womit laut Hersteller die Ergebnisse von Gesichtern in gerin­ger bis mitt­le­rer Auflösung deut­lich ver­bes­sert wer­den kann:

Recover Faces dra­ma­ti­cal­ly impro­ves low-​medium qua­li­ty faces.“

Es gibt einen Regler, der stu­fen­los von 0 bis 100% ein­ge­stellt wer­den kann. Bei 25% sieht das Ergebnis so aus:

Topaz Photo AI V2 Upscaler 4x + 25% Recovering Face

Ich fin­de, dass das Gesicht dadurch ein­fach mat­schi­ger wird. Dieser Effekt nimmt mit der Stärke der Recover-​Funktion zu, bei 100% ist das Ergebnis deut­lich unbrauch­ba­rer als ganz ohne die Funktion. Vermutlich liegt das dar­an, dass die Bildqualität vom Ausgangsmaterial schon „zu gut“ für die­se Funktion ist, die der Verbesserung von „low qua­li­ty faces“ die­nen soll.

Ein wei­te­rer Vorteil von Topaz Photo AI ist, dass hier Bilder als Batch bear­bei­tet wer­den kön­nen und neben dem Hochskalieren im glei­chen Arbeitsgang wahl­wei­se auch geschärft, ent­rauscht, farb­lich ange­passt etc. wer­den können.

Mit 199 USD sind die Kosten initi­al recht hoch, dafür kön­nen damit unbe­grenzt Bilder bear­bei­tet wer­den und es gibt regel­mä­ßi­ge Updates. Für Vielnutzer preis­lich die bes­te Wahl. Weiterer Pluspunkt: Es gibt ein Photoshop-​Plugin.

3. Photoshop

Die frü­her übli­che und seit lan­gem ver­füg­ba­re Methode mit Photoshop-Bordmitteln war, ein­fach die Bildgröße hoch­zu­set­zen. Das Ergebnis, getes­tet mit Photoshop 2024 (V25.0), sieht dann so aus:

Photoshop-​Vergrößerung V25 (Berechnung: Automatisch)

Es ist damit sicht­bar mit Abstand das schlech­tes­te Ergebnis, was wenig ver­wun­dert, da hier noch kei­ne KI Hilfestellung leis­tet. Selbst mit dem bekann­ten Kniff, das Bild in 10%-Schritten hoch­zu­ska­lie­ren, war das Ergebnis nur mini­mal bes­ser und reicht trotz­dem nicht an die ande­ren Methoden heran.

In den Kommentaren zu mei­nem ers­ten Test gab es zwei Hinweise, wie ich die Ergebnisse ver­bes­sern könn­te. Der ers­te war, dass sich hin­ter dem Häkchen „Neu berech­nen“ noch eine Auswahlmöglichkeit für „Details erhal­ten 2.0“ verbirgt:

Photoshop-​Vergrößerung V25 (Berechnung: Details erhal­ten 2.0)

Das Ergebnis ist zwar „bes­ser“ und schär­fer, dafür aber mit sicht­ba­ren Artefakten über­sät. Wenn ich den Regler „Rauschen redu­zie­ren“ auf 50% set­ze, ver­schwin­den die Artefakte, aber das Bild sieht etwas weich­ge­zeich­net aus.

Kurz: Der schlech­tes­te Upscaler im Test. Es wun­dert mich etwas, dass hier die Adobe Sensei-​KI noch nicht Einzug gehal­ten hat, aber ver­mut­lich wird das ein Feature sein, was eher frü­her als spä­ter ver­öf­fent­licht wer­den wird.

Jemand mein­te noch, dass sich unter den „Neural Filters“ ein „Superzoom“-Filter ver­ber­ge. Das ist jedoch kein rich­ti­ger „Upscaler“, weil damit das Bild tat­säch­lich „ran­ge­zoomt“ wird, ich ver­lie­re also die Bildmotive am Rand.

Dafür sind die Kosten jedoch unschlag­bar, da jeder mit einem Photoshop-​Abo unbe­grenzt vie­le Bilder hoch­ska­lie­ren kann.

Kurzes Update 23.10.2023: (sam­ple images not included in down­load yet)
Einige Leser wie­sen mich dar­auf hin, dass die „Superzoom“-Funktion doch das gan­ze Bild anzeigt, wenn die Option „Bild > Alles ein­blen­den“ genutzt wird. Zusätzlich gibt es eini­ge Auswahlmöglichkeiten wie z.B. „Gesichtsdaten ver­bes­sern“ und „JPG Artefakte reduzieren“:

Photoshop Neural Filter „Superzoom“ mit „Gesichtsdaten ver­bes­sern“ und „JPG Artefakt-​Reduzierung“ aktiv

Das Ergebnis sieht schon bes­ser als mit der alten Photoshop-​Methode aus und ran­giert damit im obe­ren Mittelfeld. Für die Top-​Liga sind die Bereiche wie Haare oder Wimpern noch etwas zu matschig.

Außerdem bie­tet Adobe in Lightroom oder Camera Raw die „Verbessern“-Option, wel­che eben­falls hoch­ska­liert, aber nur bei Raw-​Dateien funk­tio­nie­ren soll.

4. Luminar Neo

Luminar Neo Hochskalieren 4x

Luminar Neo ist, ähn­lich wie Topaz Labs, ein wei­te­res KI-​gestütztes Tool-​Kit für die Fotobearbeitung mit vie­len Funktionen. Getestet wur­de hier mit der Version 1.14.1.12230 im Upscale Type „Universell“.

Gefühlt wür­de ich sagen, dass das Ergebnis irgend­wo zwi­schen Midjourney und Topaz liegt. Die Details sind etwas grö­ber als bei den ande­ren bei­den Upscalern, die Haut weich­ge­zeich­ne­ter als bei Topaz, aber weni­ger als bei Midjourney.

Luminar Neo Hochskalieren 4x + Gesichtsverstärker AI

Es gibt bei der Hochskalieren-​Funktion noch das optio­na­le Häkchen „Gesichtsverstärker AI“, wel­ches jedoch schlicht gesagt (bis­her) grau­sa­me Ergebnisse lie­fert. Es sieht so aus als wür­de hier ein Geisterbild über dem ande­ren lie­gen. Kurz: Finger weg von dem Häkchen.

Die Kosten von Luminar Neo lie­gen bei 219 Euro für die lebens­lan­ge Nutzung, es gibt aber auch Abo-​Modelle ab 11,95 Euro/​Monat, was sich gut zum Testen eig­net. Dafür bekommt man aber nicht nur die Hochskalieren-​Funktion, son­dern ein brei­tes Bündel an Werkzeugen wie Entrauschen, Schärfen, Lichtmanipulationen, und vie­les mehr. Die Handhabung mit dem sepa­ra­ten Installieren der ver­schie­de­nen Plugins fin­de ich jedoch nicht ganz intuitiv.

5. Pixelcut

Pixelcut ist ein kos­ten­lo­ser Online-​Upscaler, wel­cher bequem via Drag & Drop funktioniert.

Pixelcut Upscaler 4x

Das Ergebnis ist rela­tiv grob, aber bes­ser als Photoshop. Dafür sind die Kosten gleich null. Für Gelegenheitsnutzer also sehr praktisch.

Es ist auch eine Batch-​Nutzung mög­lich, die dann jedoch im „Pixelcut Pro“ 9.99 USD pro Monat oder 59.99 USD im Jahr kos­tet. Dafür ist dann auch eine iPhone/​Android-​App-​Nutzung ent­hal­ten und unbe­grenz­te Hintergrundentfernung.

6. Neural.love

Neural.love ist ein online-​basierter AI-​gestützter HD Portrait-​Generator, der als Leserhinweis sei­nen Eingang in die­sen Test fand.

Der Leistungsumfang reicht von der direk­ten KI-​Bilderstellung über Image-​to-​Image Bildremixe, Portraitrestaurierungen etc. und eben auch ein Upscaler namens „Image Enhance/​Quality Enhance“.

Neural.love Upscaler 4x

Das Ergebnis ist etwas detail­lier­ter als bei Pixelcut, reicht aber von der Schärfe nicht an Topaz oder Midjourney heran.

Neural.love Upscaler 4x + Smart Noise

Es gibt noch die Option, „Smart Noise“ zu akti­vie­ren, was – wie der Name schon ver­mu­ten lässt – ein fei­nes Rauschen über das Bild liegt. In der 100%-Ansicht ist das recht auf­fäl­lig, beim Rauszoomen ist der Eindruck aber posi­ti­ver als ohne das Rauschen.

Das Online-​Tool erfor­dert eine Registrierung per Email und arbei­tet mit einem Credit-​System für die Kosten. Die ers­ten fünf Credits sind frei (also 5x Upscaling), danach kön­nen 300 Credits im Abo für 30 Euro/​Monat oder zeit­lich unbe­grenzt für 57 Euro gekauft wer­den. Das wären dann 10 bzw. 19 Cent pro Upscale.

7. Upscale.media

Upscale.media ist ein wei­te­rer Online-​Upscaler auf Credit-Basis:

Upscale.media 4x Upscaler

Das Ergebnis ran­giert soli­de im Mittelfeld und ist schon gut brauchbar.

Upscale.media 4x Upscaler + Qualität verbessern

Es gibt auch die Option, ein Häkchen bei „Qualität ver­bes­sern“ zu set­zen, doch das scheint das Gegenteil zu bewir­ken. Das Bild ver­liert an Details und die Konturen wer­den unna­tür­lich stark betont. Würde ich nicht empfehlen.

Kosten? Pro Tag sind zwei Uploads ohne Registrierung kos­ten­los mög­lich, nach Registrierung gibt es fünf kos­ten­lo­se Uploads. 100 Credits kos­ten im Abo 19 USD bzw. zeit­lich unbe­grenzt 49 USD, was 19 US-​Cent bzw. 49 US-​Cent pro Upscaling entspricht.

8. Stable Diffusion Upscaler

Auch im quell­of­fe­nen KI-​Generator Stable Diffusion gibt es gleich meh­re­re Upscaler. Hier öff­net sich aber auch die Büchse der Pandora, weil es neben den sie­ben ver­schie­de­nen Upscalern, die im Web-​UI von Automatic111 dabei sind, noch unzäh­li­ge wei­te­re gibt, die auch jeweils noch vie­le ver­schie­de­ne Settings haben.

Allein in der Datenbank OpenModelDB fin­den sich unter „General Upscaler“ 66 ver­schie­de­ne Modelle, die kos­ten­los her­un­ter­ge­la­den und instal­liert wer­den kön­nen und alle ihre Stärken und Schwächen haben.

Um die Sache noch kom­ple­xer zu machen, kön­nen Bilder auch mit­tels der „IMG2IMG“-Methode hoch­ska­liert wer­den, wobei hun­der­te ver­schie­de­ne KI-​Modelle zur Auswahl stehen.

Deshalb habe ich hier nur mal einen inter­nen Upscaler getes­tet, den Upscaler „ESRGAN_​4x“ mit einer GFPGAN visi­bi­li­ty von 0.5.

Stable Diffusion Upscaler ESRGAN_​4x (GFPGAN visi­bi­li­ty 0.5)

Das Ergebnis ist ca. dop­pelt so gut wie die Photoshop-​Methode, aber sicht­bar schlech­ter als die meis­ten ande­ren Upscaler im Test.

Dazu kommt, dass die Geschwindigkeit des Skalierens ganz stark von der lokal ver­wen­de­ten Hardware abhängt. Mit einer RTX 2080-​Grafikkarte dau­er­te das Hochskalieren über 15 Minuten. Wer die Settings noch etwas mehr hoch­dreht, muss expo­nen­ti­ell län­ger warten.

Auch die Bedienung gestal­tet sich kom­plex, da die Modelle gefun­den und run­ter­ge­la­den wer­den müs­sen und für die ver­schie­de­nen Settings kei­ne Anleitung exis­tiert. Ihr wer­det also auf etli­chen Webseiten rum­sur­fen, um euch die emp­foh­le­nen Einstellungen zusam­men­zu­su­chen.
Dafür sind die Kosten fast Null, da alle benö­tig­ten Tools kos­ten­los erhält­lich sind. Ihr zahlt also nur für euren Strom.

Wer mehr Stable Diffusion Upscaler im Vergleich sehen will, fin­det hier einen ähn­li­chen Test.

9. ChaiNNer Upscaler

ChaiNNer ist ein wei­te­rer Tipp aus den Kommentaren. Das ist ein OpenSource-​Projekt, wel­ches ursprüng­lich als KI-​Upscaler gestar­tet ist, mitt­ler­wei­le aber sehr umfang­rei­che Bildverarbeitungsfunktionen bietet.

ChaiNNER ist node-​basiert, was sehr unge­wohnt ist, für die, die es nicht ken­nen, aber wer das Prinzip ver­stan­den hat, kann auf die­se Weise sehr kom­ple­xe Workflow-​Ketten auf­bau­en, die dann mit einem Klick abge­ar­bei­tet wer­den. Der Workflow für das ein­fa­che Hochskalieren sieht dann so aus:

ChaiNNer-​Upscaling-​Workflow (Klicken zum Vergrößern)

Das Programm ist noch in der Alpha-​Phase (ich habe v0.20.2 genutzt) und kos­ten­los für Windows, Mac und Linux erhält­lich. Die Installation erfor­dert etwas Zeit, ist aber in der GitHub-​Anleitung gut beschrieben.

ChainNNer selbst ist genau genom­men gar kein Upscaler, son­dern dient als GUI (gra­fi­sche Benutzeroberfläche) für ande­re OpenSource-​Upscaler auf PyTorch-​Basis. Das heißt, fast alle Upscaler die bei Stable Diffusion inte­griert wer­den kön­nen, sind auch in ChaiNNer nutz­bar. Wie im Bereich „Stable Diffusion“ erwähnt, ste­hen euch also min­des­tens 66 ver­schie­de­ne Möglichkeiten zur Verfügung.

ChaiNNer 4x Upscaler mit Model „Remacri“

Getestet habe ich ChaiNNer mit dem belieb­ten „Remacri“-Modell, wel­ches eine über­zeu­gen­de Kombination aus Schärfe und Struktur lie­fert. Ebenfalls nicht ganz so gut wie Topaz oder Midjourney, dafür kos­ten­los und see­ehr flexibel.

ChaiNNer 4x Upscaler mit Model „UniScale-​Balanced“

Ich habe noch ein wei­te­res Modell getes­tet, das „UniScale-​Balanced“ auf Basis der ESRGAN-​Architektur. Das schnitt jedoch deut­lich schlech­ter ab als „Remacri“.

Noch mal zum Verständnis: In Stable Diffusion und ChaiNNer kön­nen die glei­chen Upscaler-​Modelle ein­ge­setzt wer­den, bei mir lief die Verarbeitung jedoch deut­lich schnel­ler bei ChaiNNer. Dafür gibt es bei Stable Diffusion etwas mehr Einstellmöglichkeiten, die ich auf die Schnelle nicht bei ChaiNNer gefun­den habe.

Das Resultat

Es gibt noch unzäh­li­ge wei­te­re Tools, vor allem online, aber die meis­ten davon ran­gie­ren im Mittelfeld und sind preis­lich ähn­lich angesiedelt.

Von der Bildqualität liegt Midjourney aktu­ell mei­ner Meinung nach stark vor­ne, hat eben aber den gra­vie­ren­den Nachteil, dass damit nur Midjourney-​Bilder hoch­ska­liert wer­den kön­nen. Auch preis­lich ist Midjourney kein Zuckerschlecken, wenn man nicht gera­de eh Stunden übrig hat in deren Abo-Modell.

Für Power-​User, die mehr als 1000 Bilder hoch­ska­lie­ren wol­len, bleibt die Wahl zwi­schen Topaz Photo AI und Luminar Neo preis­lich die bes­se­re Wahl, wobei Topaz in der Bedienung wegen der Automatisierungsmöglichkeiten etwas die Nase vorn hat.

Insgesamt ist die Qualität aber auch sub­jek­tiv behaf­tet und kann sich je nach Motiv oder mit einem Update eines Tools auch wie­der ändern.

Bei den gan­zen, teils kos­ten­lo­sen, Online-​Upscalern soll­tet ihr auch beden­ken, dass ihr eure Daten in frem­de Hände gebt und dem Anbieter ver­trau­en soll­tet, damit ver­trau­lich umzu­ge­hen. Vermutlich wer­den auch die meis­ten die­ser Anbieter unter der Haube eines der unzäh­li­gen OpenSource-​Upscaler lau­fen haben.

Welchen Upscaler nutzt ihr aktu­ell und wel­ches Ergebnis hat euch hier am meis­ten überzeugt?

Die Community-​Test-​Erweiterung

Wer den Test mit eige­nen Modellen oder ande­ren Anbietern erwei­tern will, hat in die­sem Artikel alle not­wen­di­gen Grundlagen: Das 1024x1024-​Ausgangsbild steht oben zum Download zur Verfügung sowie die Photoshop-​Datei mit den Ebenen der Upscaler und der Pfad-​Auswahl für die Ausschnittvergrößerung.

Ihr könnt also ger­ne wei­te­re Methoden tes­ten und das Ergebnis ger­ne in den Kommentaren pos­ten (Bilder bit­te als Link).