Schlagwort-Archive: AI

Panthermedia erlaubt jetzt auch den Upload von KI-Bildern

Nur gut zwei Wochen nach der Bekanntgabe von Adobe, dass Adobe Stock nun durch Künstliche Intelligenz erzeug­te Bilder akzep­tie­re, hat auch die Bildagentur Panthermedia bekannt gege­ben, dass sie nun KI-​Material annehmen.

Der Newsletter von Panthermedia im Wortlaut

Die Voraussetzungen lesen sich im Grunde fast iden­tisch wie die von Adobe Stock, mit der Ausnahme, dass die Bilder im Titel statt des Hinweises „Generative AI“ nun „AI gene­ra­ted image“ ent­hal­ten sollen.

Da drängt sich etwas der Verdacht auf, dass hier ein­fach die Entscheidung von Adobe Stock nach­ge­ahmt wur­de, was ich aber inhalt­lich begrü­ßens­wert finde.

Unter dem Reiter „KI-​Bilder“ fin­den sich auf der Startseite von Panthermedia jedoch bis­her nur knapp 2.500 künst­lich erzeug­te Portraits, wel­che vor unge­fähr einem Jahr vor­ge­stellt wur­den. Das kann sich natür­lich bald ändern.

Wie funktioniert Bilderstellung durch Künstliche Intelligenz genau? Eine Erklärung am Beispiel von Stable Diffusion

Das Jahr 2022 war der Durchbruch der Bilderstellung durch Künstliche Intelligenz (KI), weil Projekte wie Dall‑E, Stable Diffusion oder Midjourney der brei­ten Öffentlichkeit zugäng­lich wurden.

Auch ich habe hier im Blog schon eini­ge Beiträge über KI-​Bilder geschrie­ben, aber bis­her noch nicht von Grund auf erklärt, wie die KI-​Bildgenerierung funktioniert.

Das Thema „Artificial Intelligence“ inter­pre­tiert von der KI-​Engine Stable Diffusion

Das ist aber essen­ti­al für das Verständnis der aktu­el­len Debatten um Urheberrechte, Bilderdiebstahl und die ethi­schen Auswirkungen der neu­en Technik.

Daher hier ein kur­zer Exkurs in die Geschichte der KI-Bilderstellung.

Bild-​zu-​Text-​Erkennung

Um 2015 her­um lern­ten maschi­nell trai­nier­te Algorithmen, Objekte in vor­han­de­nen Bildern zu benen­nen. Das ken­nen Fotografen sicher von Lightroom, Google Images oder Facebook, wo die Software oder Webseite auto­ma­tisch erkennt, wel­che Dinge grob auf einem Bild sicht­bar sind. Zusätzlich lern­ten die Algorithmen schnell, die beschrie­be­nen Objekte in einen les­ba­ren Satz umzu­wan­deln. Aus „Frau, Handy, lachen“ wur­de also „Eine lachen­de Frau am Handy“.

Text-​zu-​Bild-​Erkennung

Findige Forscher dach­ten nun, dass die­ser Prozess auch umkehr­bar sein müss­te. Sie kom­bi­nier­ten hier – sehr ver­ein­facht gespro­chen – die obi­ge Technologie mit einem Entrauschungsverfahren, wel­ches wie­der­um mit obi­ger Technologie auf Genauigkeit getes­tet wurde.

Im Grunde trai­nier­ten sich zwei ver­schie­de­ne KIs gegen­sei­tig. Die ers­te KI nahm zufäl­lig erzeug­tes Bildrauschen und ver­such­te, aus der Texteingabe ein Bild zu erzeu­gen. Die zwei­te KI ver­such­te, aus dem erzeug­ten Bild zu erra­ten, was dar­auf erkenn­bar ist. Wenn die zwei­te KI der ers­ten bestä­tig­te, dass sie „die lachen­de Frau am Handy“ erkannt hat, spei­cher­te sich die ers­te KI einen Pluspunkt für das Entrauschungsmuster und schlug ein neu­es vor. Nach vie­len Millionen Trainingsrunden wur­de die ers­te KI durch die­se Tests immer treff­si­che­rer bei der Umwandlung von Texten zu Bildern.

Massenhafte Text-​zu-​Bild-​Erkennung

Die obe­re Methode funk­tio­niert zwar prin­zi­pi­ell, hat aber einen Haken. Sie ist lang­sam und setzt natür­lich irgend­wie vor­aus, dass irgend­je­mand mas­sen­haft Texteingaben der KI zum Trainieren vor­setzt, damit sie spä­ter weiß, wel­che Begriffe wie bild­lich umge­setzt werden.

Forscher nutz­ten des­halb einen Trick, der heu­te einer der Grundprobleme bei der Akzeptanz von KI-​Bilder-​Tools ist: Sie grün­de­ten das „Large-​scale Artificial Intelligence Open Network“ (Groß ange­leg­tes offe­nes Netz für künst­li­che Intelligenz), kurz LAION.

LAION ist ein gemein­nüt­zi­ger Verein, wel­cher mas­sen­haft Daten aus dem Internet sam­melt, um damit KIs zu trai­nie­ren. Diese Daten wer­den nach Typ und Qualität sor­tiert. So gibt es zum Beispiel das „LAION-​5B“-Set, wel­ches 5,85 Milliarden Text-​Bild-​Kombinationen in allen mög­li­chen Sprachen zusam­men­ge­fasst hat, das „LAION-​400M“-Set mit 400 Millionen Text-​Bild-​Kombinationen in eng­li­scher Sprache oder das „LAION-​Aesthetics“-Set, wel­ches eine Untergruppe von „LAION-​5B“ ist, wel­ches nur ästhe­tisch anspre­chen­de Bilder ent­hal­ten soll.

In der Praxis wur­den neben der Bild-​URL und der Beschreibung noch ande­re Kriterien gespei­chert, wel­che eben­falls durch eine KI erzeugt wur­den, wie Qualität der Beschreibung oder wie wahr­schein­lich das Bild „NSFW“ (not safe for work) ist, also nicht jugendfrei.

Der Knackpunkt ist hier, dass der Verein also hau­fen­wei­se Bilder gespei­chert hat, um sie der Forschung zugäng­lich zu machen. Wie soll die KI aber genau wis­sen, was auf den Bildern zu sehen ist? Dafür nutz­ten die Forscher die häu­fig vor­han­de­nen Metadaten, wel­che Fotografen, Künstler oder SEO-​Firmen an die Bilder ange­hängt hat­ten, damit Suchmaschinen die Bilder bes­ser ein­ord­nen konnten.

Stockfotografen ken­nen das von der Bildbeschreibung, mit der sie ein Bild zusätz­lich mit des­sen Text-​Äquivalent ver­se­hen, damit Bildkunden es über die Suchfunktion der Bildagentur fin­den können.

Besonderen Wert hat­ten also die sorg­fäl­tig beschrif­te­ten Bilder, die als Futter für das KI-​Training genutzt wur­den und wei­ter­hin werden.

Die Erstellung vom latenten Raum

Wenn jetzt jemand einen Befehl in eine Bild-​KI ein­gibt, kopiert die KI nicht ein­fach stumpf Teile exis­tie­ren­der Bilder, son­dern die Informationen kom­men aus dem soge­nann­ten „laten­ten Raum“ (latent space). Dieser heißt so, weil die Objekte und Konzepte dort „latent“ vor­han­den sind. Der Computer weiß, wie etwas gene­riert wird, macht es aber erst, wenn eine bestimm­te Kombination abge­ru­fen wird.

Das KI-​Training kann mensch sich ähn­lich vor­stel­len wie Kleinkinder ihre Welt ent­de­cken. Woher wis­sen Kleinkinder, wenn sie ein Bilderbuch anse­hen, dass die gezeich­ne­ten Figuren ein Elefant, eine Giraffe und ein Ball sind?

Sie wis­sen es erst, wenn sie genug ver­schie­de­ne Versionen die­ser Dinge gese­hen haben, um die Gemeinsamkeiten abs­tra­hie­ren zu kön­nen. Ein Elefant ist zum Beispiel meist grau und groß, eine Giraffe gelb-​gescheckt mit einem lan­gen Hals und ein Ball rund und bunt.

Die KI hat das eben­falls so gelernt, nur eben an Millionen Bild-​Text-​Kombinationen. So ruft sie bei­spiels­wei­se alle Bilder auf, die mit dem Wort „Giraffe“ beschrif­tet sind, und ver­sucht, die Gemeinsamkeiten zu erken­nen. Beim Wort „Ball“ genau­so. Am Anfang rät sie ein­fach, aber je öfter sie es macht, des­to mehr erkennt sich bestimm­te Muster.

Die KI merkt jedoch, dass bei­spiels­wei­se Farbe oder Form kein aus­rei­chen­des Kriterium für bestimm­te Objekte oder Konzepte sind, weil sich die­se ändern kön­nen. Bälle kön­nen zum Beispiel ver­schie­de­ne Farben haben, Elefanten ver­schie­de­ne Formen und so wei­ter. Daher ver­sucht die KI, mög­lichst vie­le ver­schie­de­ne Variablen zu kre­ieren und die Begriffe in so einem Koordinatensystem zu ver­or­ten. Dieses System hat deut­lich mehr als drei Dimensionen und wird als der „laten­te Raum“ bezeichnet.

Er ent­hält hun­der­te Variablen und deren Beziehungen zuein­an­der. So ent­steht ein mul­ti­di­men­sio­na­les Netzwerk aus Beziehungen, ähn­lich wie eine „sozia­le Netzwerkanalyse“. Die Variablen für „Spaghettieis“ wür­den da zum Beispiel irgend­wo zwi­schen denen für „Eiscreme“ und „Pasta“ lie­gen, in der Nähe von ande­ren kal­ten Objekten wie „Antarktis“ oder „Winter“, fern­ab von Objekten, wel­che mit „Härte“ asso­zi­iert sind. Das ist für den mensch­li­chen Geist schwer ver­ständ­lich, für moder­ne Computer aber kein Problem.

Vom latenten Raum zur stabilen Diffusion

Wie kriegt mensch aber nun neue Bilder aus die­sem laten­ten Raum? Durch die Texteingabe navi­giert der Mensch den Computer zu einer Stelle im mul­ti­di­men­sio­na­len Raumen, wo die Wahrscheinlichkeit am höchs­ten ist, dass die dor­ti­gen Variablen die Begriffe gut abdecken.

Nun kommt wie­der das obi­ge Entrauschungsverfahren zum Einsatz. Aus einem zufäl­li­gen Bildrauschen schärft der Computer in sehr vie­len Durchgängen das Chaos zu einer Anordnung, in wel­cher Menschen die gewünsch­ten Begriffe erken­nen kön­nen sol­len. Da die­ser Prozess zufalls­ba­siert ist, wird auch mit der glei­chen Texteingabe nie­mals exakt das glei­che Bild entstehen.

Diese zufalls­ba­sier­te Pixelstreuung heißt im Lateinischen „Diffusion“ und da das System sta­bil zwar kei­ne glei­chen, aber ähn­li­che Ergebnisse erzie­len kann, nennt sich die­ses Verfahren der KI-​Bilderstellung „Stable Diffusion“.

Auch wenn die glei­che Texteingabe in ein ande­res KI-​Modell gege­ben wird, wer­den sich die Ergebnisse unter­schei­den, weil das Bild dann durch ande­re Trainingsdaten in einem ande­ren „laten­ten Raum“ erzeugt wurde.

Der bis hier beschrie­be­ne Prozess wird gut visu­ell an einem Beispiel dar­ge­stellt in die­sem Artikel der Washington Post.

KI-​Ablehnung durch Missverständnis

Es gibt eini­ge KI-​Gegner, wel­che die KI-​Bilder ableh­nen, weil sie fälsch­li­cher­wei­se anneh­men, dass die KI-​Tools nur eine Art intel­li­gen­te Bildmontagen-​Maschine sind, wel­che Versatzstücke aus bestehen­den Bildschnipseln neu zusammensetzt.

Als „Beweis“ wer­den hier ger­ne die manch­mal sicht­ba­ren Wasserzeichen genannt, wel­che erkenn­bar bestimm­ten Bildagenturen zuge­ord­net wer­den kön­nen. Diese erge­ben sich jedoch aus der oben genann­ten Trainingsmethode. Die Agenturbilder sind für LAION beson­ders wert­voll gewe­sen, weil die­se beson­ders häu­fig beson­ders hoch­qua­li­ta­ti­ve Beschreibungen zu den Bildern hat­ten. Stockfotografen waren ja auf tref­fen­de Bildbeschreiben ange­wie­sen für häu­fi­ge Verkäufe. Das erklärt, war­um Bilder mit Agenturwasserzeichen beson­ders häu­fig für KI-​Trainingszwecke genutzt wurden.

Bei beson­ders „stock­las­ti­gen“ Motiven (den­ke an den „Business-​Handshake“) war also die Wahrscheinlichkeit hoch, dass die KI lern­te, dass sol­che Wasserzeichen irgend­wie nor­mal sei­en für das Motiv und dem­entspre­chend „dazu­ge­hör­ten“. Also ver­sucht die KI, die­se Wasserzeichen mit zu reproduzieren.

Die rechtlichen Implikationen dieser Methode

Aber auch ohne das obi­ge Missverständnis gibt es genug berech­tig­te Kritik. So wer­fen Kritiker der LAION vor, mil­lio­nen­fach die urhe­ber­recht­lich geschütz­ten Werke zu Trainingszwecken genutzt zu haben, ohne dass die Künstler dafür irgend­wie ent­schä­digt wur­den. LAION beruft sich zur Verteidigung dar­auf, dass sie eine gemein­nüt­zi­ge Organisation (ein­ge­tra­ge­ner deut­scher Verein) sei, wel­che nur zu Forschungszwecken arbeite.

Angesichts der Finanzierung die­ses gemein­nüt­zi­gen Vereins durch kom­mer­zi­el­le Firmen wie u.a. Stability AI, wel­che die Entstehung des LAION-5B“-Datensets finan­ziert haben und es letzt­end­lich in ihrer KI „Stable Diffusion“ nut­zen, ist das ein wack­li­ges Argument.

KI-​Befürworter wei­sen dar­auf hin, dass die KI bei ihrem Training im Grunde ver­gleich­bar sei mit dem Vorgehen von Google. Google hat­te jah­re­lang mas­sen­haft urhe­ber­recht­lich geschütz­te Bücher und ande­re Texte ein­ge­scannt, um Ausschnitte davon in deren Dienst „Google Books“ zu nut­zen. 2015 urteil­te der us-​amerikanische obers­te Gerichtshof, dass die­ses Vorgehen legal und von der „Fair Use“-Klausel gedeckt sei.

Auch die Frage, wie der recht­li­che Status der durch die KI erstell­ten Bilder zu bewer­ten ist, ist noch völ­lig offen und wird ver­mut­lich bald von eini­gen Gerichten geklärt wer­den müssen.

Die moralischen Probleme vom latenten Raum

Da das KI-​Training im laten­ten Raum qua­si ohne mensch­li­che Eingriffe geschah, hat die KI eini­ge Erkenntnisse gewon­nen, die wir Menschen pro­ble­ma­tisch hal­ten könnten.

Bestehende Vorurteile, Fehler oder dis­kri­mi­nie­ren­de Praktiken wer­den von de KI unge­fil­tert ein­fach über­nom­men und danach wie­der­ge­ge­ben. Wer sich bei den KI-​Tools bei­spiels­wei­se Bilder von einem „CEO“ gene­rie­ren lässt, wird haupt­säch­lich älte­re wei­ße Männer erhal­ten, Bilder von „Krankenpflegern“ hin­ge­gen wer­den vor allem weib­lich sein. Auch der Fokus auf die eng­li­sche Sprache schließt vie­le anders­spra­chi­ge Kulturen und Traditionen stark aus. Versucht bei­spiels­wei­se mal ein „Sankt Martin“-Bild durch die KI erzeu­gen zu lassen…

Stable Diffusion ver­sucht sich an der Darstellung eines „CEO“…
…und einer Krankenschwester („nur­se“)
Die KI schei­tert an der Darstellung des Begriffs „Sankt Martin“

Branchen im Wandel

Ungeachtet der noch unge­lös­ten recht­li­chen und mora­li­schen Probleme der KI-​Bilderzeugung hat die Technologie jedoch das Potential, gesam­te Branchen auf den Kopf zu stel­len, ver­gleich­bar mit der Erfindung des Fotoapparats.

Auch hören die Forscher längst nicht bei der Bilderzeugung auf. Mit „ChatGPT“ gibt es von den DALL-​E-​Machern schon eine funk­ti­ons­fä­hi­ge Chat-​KI wel­che auf Zuruf län­ge­re Texte schreibt. Andere Firmen arbei­ten an Text-​zu-​Video-​Generatoren, Text-​zu-​3D-​Objekt-​Generatoren und so wei­ter. Werden eini­ge der bestehen­den Technologien kom­bi­niert, bei­spiels­wei­se die Chat-​KI mit einer Video-​KI und einer Sprach-​KI, so könn­ten auf Knopfdruck bald indi­vi­dua­li­sier­te Spielfilme erzeugt wer­den. Die Entwicklungen hier wer­den in einem atem­be­rau­ben­den Tempo veröffentlicht.

Ist die Funktionsweise der gene­rie­ren­den KIs etwas kla­rer gewor­den? Was ver­steht ihr ggf. noch nicht?

Panthermedia stellt erste Kollektion computergenerierter Personenbilder vor

Vor weni­gen Tagen prä­sen­tier­te die deut­sche Bildagentur Panthermedia in Zusammenarbeit mit dem Unternehmen vAIsual die „syn­the­ti­sche Portrait Kollektion“, das heißt, eine Sammlung von Portraitbildern, wel­che durch einen Computer erzeugt wurden.

Über die dahin­ter lie­gen­de Technik hat­te ich im September 2019 etwas aus­führ­li­cher in dem Artikel „100.000 kos­ten­lo­se com­pu­ter­ge­nerier­te Portraits: Das Ende der Model-​Fotografie?“ berich­tet. Gut zwei Jahre spä­ter schei­nen also eini­ge mei­ner dama­li­gen Gedankenspiele Realität zu werden.

Aktuell umfasst die Kollektion ca. 400 Bilder, es sol­len aber bei 1000 Bilder sein. Die Auswahl der durch eine KI (Künstliche Intelligenz) erzeug­ten Bilder muss noch manu­ell vor­ge­nom­men wer­den, „da nicht alle gene­rier­ten Bilder markt­fä­hig sind“, wie Panthermedia-​Geschäftsführer Tomas Speight sagt. Wer durch die Kollektion stö­bern will, kann auf der Panthermedia-​Webseite in der Kopfzeile auf „Synths“ kli­cken.

Drei Beispiele der syn­the­tisch erstell­ten Portraits bei Panthermedia

Die Portraits wer­den wahl­wei­se vor einem wei­ßen oder einem grü­nen Hintergrund ange­bo­ten. Später sol­len auch Bilder aus ande­ren Themenbereichen fol­gen. Mit aktiv in der KI-​Firma vAIsual sind übri­gens die Stock-​Veteranen und Branchenkenner Mark Milstein und Lee Torrens.

Die Bilder sind aktu­ell nicht in Abonnements oder Bildpaketen erhält­lich. Sie sind in zwei Größen erhält­lich, die Web-​Größe kos­tet zur Zeit 29,90 Euro, die Größe XXL 69,90 Euro, wobei XXL hier auch nur gut 2 Megapixel bedeu­tet, was die Nutzungen im Print-​Bereich noch etwas einschränkt.

Das Hauptkriterium für die Entscheidung, ein künst­li­ches Bild zu nut­zen, soll laut Panthermedia der nicht mehr not­wen­di­ge Modelvertrag sein:

Neben dem fas­zi­nie­ren­den Kunstaspekt ist der Hauptvorteil von KI-​generierten Bilder, dass kei­ne Model-​Releases erfor­der­lich sind. Die gezeig­ten Personen exis­tie­ren in der Realität gar nicht. Die Fotos haben somit kei­ne der Einschränkungen wie sie in Bezug auf die Abbildung von rea­len mensch­li­chen Modellen bestehen. Dies eröff­net ganz neue Möglichkeiten für eine siche­re Nutzung bei sen­si­blen Inhalten, bei­spiels­wei­se aus den Bereichen Pharma, Medizin und ande­re sen­si­ti­ven Themen, die tra­di­tio­nell nicht von Model-​Release-​Bildern abge­deckt wer­den.
Auch bei redak­tio­nel­len Themen ist dies ein gro­ßer Vorteil im Hinblick auf die Rechte abge­bil­de­ten Personen nach der DSGVO. Ein wei­te­rer wich­ti­ger Punkt in die­sem Zusammenhang ist, dass die­se KI-​generierten Bilder als Set für das Training ande­rer KI-​Anwendungen lizen­ziert wer­den können.“

Daher gel­ten für die Bildnutzung auch die aktu­el­len Panthermedia-​Nutzungsbedingungen mit der Ausnahme, dass eine Bandbreite an „Sensitive Issues“ zuge­las­sen ist.

Offene Fragen

Mit die­sem Quantensprung tau­chen nun auch neue recht­li­che und mora­li­sche Fragen auf, die sich ver­mut­lich erst nach einer Weile klä­ren las­sen werden.

Wie schon in mei­nem Artikel von vor zwei Jahren erwähnt, sind hier vor allem das Persönlichkeitsrecht und das Missbrauchspotential zu erwäh­nen.

Selbst wenn die Portraits digi­tal erstellt wur­den, kön­nen sie trotz­dem Bilder gene­rie­ren, die ech­ten, real exis­tie­ren­den Personen sehr ähn­lich sehen. Auch wird es mit sol­chen Bildern für Betrüger und Scammer leich­ter, sich einen per­sön­li­chen Anstrich zu geben, aber trotz­dem anonym zu bleiben.

Und wer hat das Urheberrecht, wenn die Bilder digi­tal von einer Maschine erzeugt wur­den? Was pas­siert also, wenn jemand die­se Bilder ohne Bezahlung benut­zen wür­de? Kann die Agentur Nutzungshonorare einklagen?

Gefahr für Fotografen?

Vor zwei Jahren war ich ent­spannt, dass der aktu­el­le Stand der Technik Stockfotografen nicht gefähr­lich wäre. Das gilt mitt­ler­wei­le nur noch mit Einschränkungen. Zum einen hat sich die Bildauflösung von 1 auf 2 Megapixel ver­dop­pelt. Das ist abso­lut gese­hen zwar immer noch recht wenig, aber schon eine deut­li­che Steigerung.

Weggefallen ist nun jedoch offen­sicht­lich die Einschränkung, dass die gene­rier­ten Portraits nicht kom­mer­zi­ell genutzt wer­den dür­fen, was die Bedrohung für Portraitfotografen mas­siv steigert.

Für Stockfotografen blei­ben auch im Portraitbereich zwar noch sehr vie­le Bereiche, wel­che die KI aktu­ell nicht abde­cken kann, aber ich ver­mu­te, dass die­se Bereiche im Laufe der Zeit wei­ter schrump­fen werden.

Ein klei­ner Hoffnungsschimmer ist aktu­ell, dass die Verschlagwortung momen­tan mehr als dürf­tig ist: So ent­hält das obi­ge Bild nur die neun Suchbegriffe:

adult, fema­le, girl, half length, model, release, requi­red, woman, young“

Diese wider­spre­chen sich einer­seits (girl/​adult) und sind auch nicht sehr akku­rat (young) und wich­ti­ge ande­re Schlagwörter wie die Ethnie, der Gefühlsausdruck und so wei­ter feh­len völ­lig. Das kann sich mit etwas Motivation sei­tens der Bildagentur jedoch schnell ändern.

Was sagt ihr zu der neu­en Kollektion?

100.000 kostenlose computergenerierte Portraits: Das Ende der Model-Fotografie?

Die Firma icons8 hat gera­de etwas Bahnbrechendes gemacht: Sie hat 100.000 durch künst­li­che Intelligenz erstell­te Portraits kos­ten­frei zur Nutzung bereit gestellt.

Die künst­li­che Intelligenz brauch­te etwas zum „Trainieren“, um zu erken­nen, wann ein Ergebnis mensch­lich genug aus­sah und wann nicht. Dafür hat die Firma nach eige­nen Angaben inner­halb von drei Jahren 29.000 Portraits von 69 Models aufgenommen.

Die fer­ti­gen com­pu­ter­ge­nerier­ten Fotos wer­den auf der Webseite https://generated.photos/ kos­ten­frei zum Download und zur Nutzung ange­bo­ten im Format 1024x1024 Pixel, also 1 Megapixel. Bei den 100.000 Bildern sind eini­ge dabei, die erkenn­bar „fake“ sind, weil der Computer selt­sa­me Artefakte an komi­schen Stellen gene­riert hat und oft sind bei lan­gen Haaren die Enden falsch, wie wenn man wild in Photoshop mit dem Klonstempel Amok gelau­fen wäre oder das Verflüssigen-​Tool nicht rich­tig beherrscht.

Alles AI-​basierte künst­li­che Gesichter von generated.photos

Das soll aber nicht dar­über hin­weg täu­schen, dass vie­le der Bilder nicht mehr von einem ech­ten Foto zu unter­schei­den sind. Geplant ist in Zukunft sogar eine Art Tool, mit der Nutzer (ver­mut­lich gegen Gebühr) auf Knopfdruck sich selbst Portraits gene­rie­ren und dabei Kriterien wie Geschlecht, Alter, Stimmung, Blickwinkel etc. selbst beein­flus­sen können.

In die­sem Video stellt sich das Projekt kurz selbst vor:

Hier als Beispiel eini­ge Bilder von https://generated.photos, die tat­säch­lich so rea­lis­tisch sind, dass kaum vor­stell­bar ist, dass sie kei­ne Fotos sind (Klicken zum Vergrößern):

Wer eben­falls mal stö­bern will, kann die Webseite https://100k-faces.glitch.me/ auf­ru­fen. Bei jedem neu­en Laden der Seite wird zufäl­lig eins der 100.000 Gesichter gezeigt.

Wie dürfen die Bilder genutzt werden?

Laut der Webseite dür­fen die Bilder für jeg­li­che („wha­te­ver“) Nutzung ver­wen­det wer­den, zum Beispiel für Präsentationen, Projekte, Mock-​Ups, Avatare auf Webseiten, Newsletter, Arbeitsblätter etc., vor­aus­ge­setzt, es wird ein Link auf deren Webseite gesetzt. Konkreter erklärt es der Chefdesigner bei icons8, Konstantin Zhabinskiy hier:

If you plan to use pho­to on your web­site, set a link to Generated Photos on all pages whe­re you use our con­tent. If you use it on most pages, a link in your foo­ter is fine. Desktop and Mobile apps should have a link in the About dia­log or Settings. Also, plea­se cre­dit our work in your App Store or Google Play descrip­ti­on (some­thing like „Photos by Generated Photos“ is fine).“

In den klein­ge­druck­ten Nutzungsbedingungen auf der Seite steht unter Punkt 3.2 jedoch, dass kei­ne „kom­mer­zi­el­le Nutzung“ erlaubt sei und gene­rell vie­le Einschränkungen gel­ten, wie zum Beispiel dass die Lizenz sei­tens der Betreiber jeder­zeit ent­zo­gen wer­den kann und dann jedes Material, egal ob digi­tal oder gedruckt, zer­stört wer­den muss:

Das wider­spricht sich jedoch mit den öffent­li­chen Äußerungen der Firma, wes­halb ich per Email um eine Stellungnahme gebe­ten habe, auf die ich lei­der noch kei­ne Antwort habe.

In deren FAQ wird dar­auf hin­ge­wie­sen, dass das Verfassen von Nutzungsrechten für Produkte künst­li­cher Intelligenz eine Neuheit ist, wes­halb sie sich das Ändern die­ser Nutzungsbedingungen jeder­zeit vor­be­hal­ten. Wenn man kurz dar­über nach­denkt, ist es logisch: Mit wel­chem Recht soll­te jemand das Urheberrecht an Werken bean­spru­chen, die er nicht selbst geschaf­fen hat? Das wird noch Stoff für juris­ti­sche Auseinandersetzungen liefern.

Andere Projekte mit künstlichen Personenbildern

Die Webseite generated.photo ist weder die ein­zi­ge noch die ers­te Seite, die künst­lich erzeug­te Gesichter prä­sen­tiert. So gibt es seit einer Weile die Seite www.thispersondoesnotexist.com, wel­che das glei­che GAN („Generative Adversarial Network“)-Modell als Grundlage wie generated.photo nutzt. Hier eine sehr aus­führ­li­che Erklärung, wie die­se GAN funktionieren.

Eine ande­re Webseite ist www.artificialtalent.co, bei der Modefotos gegen Bezahlung mit künst­lich erzeug­ten Gesichtern „auf­ge­hübscht“ wer­den kön­nen, um mehr Kleidung zu verkaufen.

Eine gro­ße Sammlung sol­cher AI-​basierten Webseiten, nicht nur für Personenbilder, lie­fert die­se Webseite.

Was bedeuten diese Projekt für die Stockfotografie?

Kurzfristig sind sie noch kei­ne Bedrohung für Stockfotografen. Erstens funk­tio­niert die­se Technik aktu­ell nur bei Portraits und die Auflösung ist mit 1 MP etwas beschränkt. Der Ausschuss ist, wie man beim Durchblättern der 100.000 Bilder sehen kann, noch ziem­lich groß, auch wenn erstaun­li­che Ergebnisse dar­un­ter sind. Außerdem ist nur eine pri­va­te Nutzung erlaubt, wes­halb Werbetreibende wei­ter­hin auf Stockmaterial zurück­grei­fen müssen.

Mittelfristig sehe ich jedoch durch­aus die Möglichkeit, dass ein Teil der Nutzung zu den com­pu­ter­ge­nerier­ten Bildern abwan­dert. Erstens sind die­se künst­li­chen Intelligenzen schnell lern­fä­hig, was zu expo­nen­ti­ell bes­ser wer­den­den Ergebnissen und stei­gen­den Bildauflösungen füh­ren soll­te. Die Technik wur­de immer­hin erst 2014 vor­ge­stellt und kann nun schon glaub­wür­di­ge Gesichter generieren.

Außerdem funk­tio­niert die Technik nicht nur bei Menschen, auch Landschaften las­sen sich so digi­tal erzeu­gen, wie die­se inter­ak­ti­ve Demo von Nvidia zeigt. Selbst für Inneneinrichtungen gibt es schon eine Webseite, bei der Leute ein Foto ihrer Wohnung hoch­la­den kön­nen und die AI rich­tet die­se vir­tu­ell neu ein.

Die Gefahr für Stockfotografen besteht dar­in, dass ihre Bilder oft sehr gene­risch und aus­tausch­bar sind, bei­des also Attribute, wel­che per­fekt für com­pu­ter­ge­nerier­te Ansätze sind.

No Model Release, no problem?

Wie bei etli­chen neu­en Technologien zei­gen sich Gefahren lei­der erst, wenn die­se eine Weile im Einsatz sind. Deshalb beto­nen eini­ge Forscher aus die­sem Gebiet, dass die ethi­sche Komponente nicht unter­schätzt wer­den darf. Das heißt im Klartext: Die erzeug­ten Bilder basie­ren auf ech­ten Fotos: Wird die AI nur mit schö­nen, kau­ka­si­schen jun­gen Gesichtern trai­niert, wer­den auch die Ergebnisse schön, jung und weiß sein. Nur wer genü­gend Diversität im Ausgangsmaterial hat, kann die­se auch vom Computer erzeu­gen lassen.

Eine wei­te­re, bis­her nicht erwähn­te Gefahr, sehe ich in den Persönlichkeitsrechten. Klar, die abge­bil­de­ten Personen haben kei­ne Persönlichkeitsrechte. Wer sich eine Weile durch die Beispiele klickt, wird jedoch mer­ken, dass ihm etli­che Gesichter irgend­wie bekannt und ver­traut vor­kom­men. Es kann ja sein, dass der Computer Gesichter gene­riert, die in echt leben­den Menschen wie aus dem Gesicht geschnit­ten aus­se­hen. Sollten die­se Menschen dann nicht das Persönlichkeitsrecht an den AI-​Bildern haben, wenn sie mit denen ver­wech­selt wer­den kön­nen?
Man könn­te den Vergleich zu ein­ei­igen Zwillingen zie­hen: Hat der eine das Recht, dem ande­ren abzu­spre­chen, für bestimm­te Produkte oder Meinungen zu werben?

Generell ist das Missbrauchspotential die­ser Technik sehr hoch, man den­ke nur an aus­ge­dach­te Testimonials, gefälsch­te Social Media Accounts und so wei­ter. Vor allem in Kombination mit ande­ren Techniken wie „Deep Fakes“, bei der Videos Gesichter ande­rer Personen erhal­ten oder Adobe #VoCo, wo Stimmen ande­rer Personen mani­pu­liert wer­den kön­nen, erge­ben sich vie­le Möglichkeiten, die sehr dazu geeig­net sind, das Vertrauen von Menschen in digi­ta­le Inhalte zu unter­gra­ben. Wie so oft sind Pornos Vorreiter die­ser neu­en Technologie: Schon heu­te gibt es eini­ge Webseiten, auf der Gesichter von Berühmtheiten in Pornofilme mon­tiert werden.

Was sagt ihr zu die­ser Entwicklung?

Im Test: Photoshop-​Plugin „AV Bros. Puzzle Pro“

Was macht gute Programme noch bes­ser? Zusätzliche Plugins! Das gilt für Firefox und Thunderbird genau­so wie für Das Bildbearbeitungsprogramm Adobe Photoshop.

Diesmal möch­te ich den Photoshop-​Filter „Puzzle Pro 3.1″* von der Firma AV Bros. vor­stel­len. Dieses Plugin erlaubt es, sehr unter­schied­li­che und viel­fäl­ti­ge Puzzle-​Formen zu erstel­len, die dann in Photoshop als pixel­ba­sier­te Datei oder einem Vektor-​Programm wie Adobe Illustrator als Vektor-​Pfade genutzt wer­den können.


Das klingt kom­pli­ziert und ist es manch­mal auch. Deshalb von vor­ne: Vor der Nutzung muss das Programm im Plugin-​Ordner von Photoshop instal­liert wer­den. Das geschieht durch das Installationsprogramm auto­ma­tisch un pro­blem­frei. Hier fällt jedoch schon auf, dass da Designer am Werk waren. Selten habe ich eine coo­le­re Benutzeroberfläche eines Installers gesehen.


Das ist etwas für das Auge, nicht wahr? Auch die eigent­li­che Benutzeroberfläche des Plugins „Puzzle Pro“ sieht durch­ge­stylt aus (Klicken zum Vergrößern):

Anhand die­ses Screenshots lässt sich auch gut die Funktionsweise des Plugins erklä­ren. Es besteht aus zwei Fenstern. Links ist das Layout-​Fenster, rechts das „Schneide-​Fenster“. Im Schneide-​Fenster wird die Form der „Noppen“ der Puzzle-​Stücke defi­niert. Es ste­hen etli­che „klas­si­sche“ Formen zur Auswahl wie im Bild oder auch Pfeile, Herzen, Spiralen und ande­re. Natürlich ist es mög­lich, sei­ne eige­nen Formen zu impor­tie­ren und abzuspeichern.

Mit den bei­den „Flip“-Buttons kann der Nutzer ent­schei­den, ob er die Noppen hori­zon­tal oder ver­ti­kal spie­geln will. Im lin­ken Layout-​Fenster kann er aus­wäh­len, wel­che der Noppen gespie­gelt wer­den sol­len. Der Nutzer kann jede ein­zel­ne Noppe manu­ell anwäh­len. Es gibt zusätz­lich auch die Möglichkeit, über das obe­re „Select“-Menü nur ver­ti­ka­le, nur hori­zon­ta­le oder zufäl­li­ge Noppen zu mar­kie­ren oder eine bestehen­de Auswahl umzu­keh­ren. Auch die Größe der Noppen kann – ent­we­der für alle oder wie­der für aus­ge­wähl­te Noppen – ange­passt wer­den. Das glei­che gilt für die Dicke der Zwischenräume zwi­schen den ein­zel­nen Puzzle-Stücken.

Mit dem Schieberegler „Rows“ und „Columns“ wird bestimmt, wie vie­le Puzzle-​Teile in einer Reihe und Spalte vor­han­den sein sollen.

Links kann das Layout des Puzzles all­ge­mein ver­än­dert wer­den. Im Ansichtsfenster in der Mitte kann jede Ecke (mit dem blau­en Viereck mar­kiert) belie­big gezo­gen oder gestaucht wer­den. Die ein­zeln anwähl­ba­ren Noppen kön­nen je nach Wunsch auch gelöscht wer­den, um ein­zel­ne grö­ße­re Puzzle-​Stücke zu erhal­ten. Der „Randomize“-Schieber unten links ver­schiebt die blau­en Vierecke je nach Belieben ver­schie­den stark, um etwas Varianz in das ansons­ten mono­to­ne Muster zu brin­gen. Der Button rechts davon schiebt das Gitter in die Starteinstellung zurück, falls einem die Zufallsbewegung nicht gefal­len sollte.

Sowohl die gewähl­ten Noppen als auch das gesam­te Gitternetz kann eben­falls gespei­chert und wie­der impor­tiert wer­den. Wenn einem ein Puzzle gefällt, gibt es meh­re­re Möglichkeiten:

Durch den Druck auf den roten „Cut“-Button wird das gewähl­te Puzzle „geschnit­ten“. Dann öff­net sich ein drit­tes Editierfenster, der „Puzzle-​Modus“, wel­ches dem Layout-​Fenster sehr ähn­lich sieht.


Hier kön­nen am fer­ti­gen Puzzle-​Bild Einstellungen wie die Stärke der schrä­gen Kanten (Bevel-​Effekt), Farbton-​Sättigung, Kontrast, Weichzeichner, Bewegungsunschärfe, Kantenumrisse und mehr ein­ge­stellt wer­den. Diese Knöpfe fin­de ich jedoch meist unnö­tig, da jeder Nutzer das im fer­ti­gen Bild mit Photoshop bes­ser und genau­er ein­stel­len kann, wenn er mit Ebenen umge­hen kann. Eine sehr hilf­rei­che Funktion ist hier jedoch auch ver­steckt, die das Plugin von ein­fa­chen Puzzle-​Abbildern abhebt: Der Image-​Overlay-​Effekt.

Ich kann mir zum Beispiel eine Puzzle-​Maske auf eine neue, trans­pa­ren­te Ebene legen und dann dar­un­ter grob ver­schie­de­ne Bilder auf meh­re­ren Ebenen anord­nen. Wenn ich danach das „Puzzle Pro“-Plugin wie­der öff­ne, sind die letz­ten Einstellungen immer noch aktiv. Klicke ich dann auf „Image Overlay“, schnei­det mir das Plugin die ein­zel­nen Bilder pass­ge­nau in die ein­zel­nen Puzzle-​Stücke. Das Ganze könn­te dann so aussehen:


Es ist auch mög­lich, sich die ein­zel­nen Puzzle-​Teile auf ein­zel­ne Ebenen aus­ge­ben zu las­sen und sie nach­träg­lich zu bewe­gen, aus­zu­blen­den oder anders anzu­ord­nen. Möglich wäre zum Beispiel sowas hier:


Wie ihr seht, habe ich hier auch die Möglichkeit genutzt, ver­schie­de­ne Puzzle-​Flächen zu grö­ße­ren Stücken zusam­men­zu­fas­sen und nur den Mittelteil in ein­zel­nen Teilen zu behalten.

Die Bedienung des Plugins ist trotz des schi­cken Designs lei­der nicht immer intui­tiv, weil es so vie­le Einstellungsmöglichkeiten gibt, die manch­mal in einer bestimm­ten Reihenfolge defi­niert wer­den müs­sen, um ein gewünsch­tes Ergebnis zu erzie­len. Vor allem bei den auf­wän­di­ge­ren Projekten muss das Plugin teil­wei­se mehr­mals geöff­net und mit den gespei­cher­ten Einstellungen auf ver­schie­de­ne Ebenen ange­wen­det wer­den, um einen coo­len Look zu erzie­len. Wer die beein­dru­cken­den Ergebnisse der Firmen-​Galerie nach­ma­chen will, braucht des­halb etwas Einübungszeit, Geduld und soll­te auch die Online-​Tutorials minu­ti­ös befolgen.

Was das Plugin aber erst rich­tig mäch­tig macht, ist die Export-​Funktion. Möglich sind grund­sätz­lich zwei ver­schie­de­ne Export-​Arten. Pixelbasiert und Vektorbasiert. Pixelbasiert bedeu­tet, dass ich mir das fer­ti­ge Puzzle-​Bild als eine gesam­te Ebene oder – hier wird es span­nend – als neu­es Bild mit jedem Puzzle-​Stück auf einer eige­nen Ebene expor­tie­ren las­sen kann – ent­we­der als PSD-​Datei oder als PNG-​Datei. Die Ebenen wer­den auch gleich sinn­voll mit der Angabe der Reihe und Spalte jedes ein­zel­nen Puzzlestücks benannt, sodaß schnell klar ist, wel­ches Teil an wel­cher Stelle liegt. Mit die­ser Technik und etwas Kreativität las­sen sich dann span­nen­de Bilder krei­ie­ren. So habe ich mit für das Puzzle-​Wort oben die Fläche in ein­zel­nen Ebenen gene­rie­ren las­sen, ver­schie­de­ne Teile so aus­ge­blen­det, dass der Rest das Wort Puzzle ergibt und ein­zel­ne Stücke etwas verschoben.

Auch ande­re Muster oder Kombinationen wie bei die­sem Herz-​Bild sind damit möglich:

Das Ganze gibt es auch ohne Portrait in der Mitte* oder als inver­tier­tes Herz*. Wer sehen will, was ich mit den drei Puzzle-​Stücken aus den obi­gen Screenshots ange­stellt habe, sieht hier mein Ergebnis:


Neben dem pixel­ba­sier­ten Export ist auch ein vek­tor­ba­sier­ter Export mög­lich. Dabei kön­nen ent­we­der das gesam­te Puzzle-​Layout oder ein­zel­ne mar­kier­te Noppen als EPS-​Datei oder AI-​Datei gespei­chert wer­den, um sie in Vektor-​Programmen oder 3D-​Programmen wei­ter­zu­ver­wen­den. Ich habe mir den Umweg gespart und bie­te die EPS-​Datei direkt zum Verkauf* an.

Hier kom­men wir auch zu der Frage: Wozu brau­che ich das? Was habe ich davon?

Das Plugin ist ide­al für alle, wel­che nicht nur den Look eines Puzzles, son­dern auch des­sen Feel in Photoshop nut­zen wol­len. Durch die Export-​Funktionen kann jedes ein­zel­ne Puzzle-​Teil so gescho­ben oder bear­bei­tet wer­den als läge es mit den ande­ren hun­der­ten Teilen auf einem Tisch. Das Puzzle-​Plugin kann auch zur Illustration abs­trak­ter Themen wie „Social Media“* oder „SEO“* (Suchmaschinenoptimierung) zweck­ent­frem­det wer­den. Bei den letz­te­ren bei­den ver­link­ten Bildern habe ich übri­gens die im Plugin ent­hal­te­nen Pfeilspitzen als Noppenform gewählt. Ich habe noch eini­ge Ideen, wie ich mei­ne Fotos mit den vom Plugin gene­rier­ten Puzzle-​Teilen kom­bi­nie­ren kann, um wei­te­re ver­kaufs­fä­hi­ge Bilder zu erhalten.

Der Kaufpreis für das „Puzzle Pro“-Plugin beträgt stol­ze 39,95 Euro. Bei Fotolia habe ich von den gezeig­ten Bildern bis­her noch nichts ver­kauft, aber bei Shutterstock hat­te ich inner­halb einer Woche ein Zehntel des Kaufpreises wie­der drin und hat­te nur zwei der hier gezeig­ten Fotos bis­her hoch­ge­la­den. Deshalb bin ich zuver­sicht­lich, dass ich auch den Rest ein­spie­len werde.

Wer das Plugin über die­sen Link hier kauft, erhält übri­gens 10% Rabatt beim Kauf. Alternativ könnt ihr beim Kauf im Feld „Coupon Code“ das Wort „ALLTAG10“ ein­ge­ben, um die 10% Rabatt zu erhal­ten. Das Plugin ist für Windows (32- und 64-​Bit-​Version) und für Mac erhältlich.

Was sind eure krea­ti­ven Lieblings-​Plugin für Photoshop? Welche nutzt ihr (außer Entrauschungs- oder Scharfzeichnungs-​Plugins) am meisten?

* Affiliate-​Link (Ihr erhal­tet 10% Rabatt und ich erhal­te eine klei­ne Provision beim Kauf)