Nur gut zwei Wochen nach der Bekanntgabe von Adobe, dass Adobe Stock nun durch Künstliche Intelligenz erzeugte Bilder akzeptiere, hat auch die Bildagentur Panthermedia bekannt gegeben, dass sie nun KI-Material annehmen.
Der Newsletter von Panthermedia im Wortlaut
Die Voraussetzungen lesen sich im Grunde fast identisch wie die von Adobe Stock, mit der Ausnahme, dass die Bilder im Titel statt des Hinweises „Generative AI“ nun „AI generated image“ enthalten sollen.
Da drängt sich etwas der Verdacht auf, dass hier einfach die Entscheidung von Adobe Stock nachgeahmt wurde, was ich aber inhaltlich begrüßenswert finde.
Unter dem Reiter „KI-Bilder“ finden sich auf der Startseite von Panthermedia jedoch bisher nur knapp 2.500 künstlich erzeugte Portraits, welche vor ungefähr einem Jahr vorgestellt wurden. Das kann sich natürlich bald ändern.
Das Jahr 2022 war der Durchbruch der Bilderstellung durch Künstliche Intelligenz (KI), weil Projekte wie Dall‑E, Stable Diffusion oder Midjourney der breiten Öffentlichkeit zugänglich wurden.
Auch ich habe hier im Blog schon einige Beiträge über KI-Bilder geschrieben, aber bisher noch nicht von Grund auf erklärt, wie die KI-Bildgenerierung funktioniert.
Das Thema „Artificial Intelligence“ interpretiert von der KI-Engine Stable Diffusion
Das ist aber essential für das Verständnis der aktuellen Debatten um Urheberrechte, Bilderdiebstahl und die ethischen Auswirkungen der neuen Technik.
Daher hier ein kurzer Exkurs in die Geschichte der KI-Bilderstellung.
Bild-zu-Text-Erkennung
Um 2015 herum lernten maschinell trainierte Algorithmen, Objekte in vorhandenen Bildern zu benennen. Das kennen Fotografen sicher von Lightroom, Google Images oder Facebook, wo die Software oder Webseite automatisch erkennt, welche Dinge grob auf einem Bild sichtbar sind. Zusätzlich lernten die Algorithmen schnell, die beschriebenen Objekte in einen lesbaren Satz umzuwandeln. Aus „Frau, Handy, lachen“ wurde also „Eine lachende Frau am Handy“.
Text-zu-Bild-Erkennung
Findige Forscher dachten nun, dass dieser Prozess auch umkehrbar sein müsste. Sie kombinierten hier – sehr vereinfacht gesprochen – die obige Technologie mit einem Entrauschungsverfahren, welches wiederum mit obiger Technologie auf Genauigkeit getestet wurde.
Im Grunde trainierten sich zwei verschiedene KIs gegenseitig. Die erste KI nahm zufällig erzeugtes Bildrauschen und versuchte, aus der Texteingabe ein Bild zu erzeugen. Die zweite KI versuchte, aus dem erzeugten Bild zu erraten, was darauf erkennbar ist. Wenn die zweite KI der ersten bestätigte, dass sie „die lachende Frau am Handy“ erkannt hat, speicherte sich die erste KI einen Pluspunkt für das Entrauschungsmuster und schlug ein neues vor. Nach vielen Millionen Trainingsrunden wurde die erste KI durch diese Tests immer treffsicherer bei der Umwandlung von Texten zu Bildern.
Massenhafte Text-zu-Bild-Erkennung
Die obere Methode funktioniert zwar prinzipiell, hat aber einen Haken. Sie ist langsam und setzt natürlich irgendwie voraus, dass irgendjemand massenhaft Texteingaben der KI zum Trainieren vorsetzt, damit sie später weiß, welche Begriffe wie bildlich umgesetzt werden.
Forscher nutzten deshalb einen Trick, der heute einer der Grundprobleme bei der Akzeptanz von KI-Bilder-Tools ist: Sie gründeten das „Large-scale Artificial Intelligence Open Network“ (Groß angelegtes offenes Netz für künstliche Intelligenz), kurz LAION.
LAION ist ein gemeinnütziger Verein, welcher massenhaft Daten aus dem Internet sammelt, um damit KIs zu trainieren. Diese Daten werden nach Typ und Qualität sortiert. So gibt es zum Beispiel das „LAION-5B“-Set, welches 5,85 Milliarden Text-Bild-Kombinationen in allen möglichen Sprachen zusammengefasst hat, das „LAION-400M“-Set mit 400 Millionen Text-Bild-Kombinationen in englischer Sprache oder das „LAION-Aesthetics“-Set, welches eine Untergruppe von „LAION-5B“ ist, welches nur ästhetisch ansprechende Bilder enthalten soll.
In der Praxis wurden neben der Bild-URL und der Beschreibung noch andere Kriterien gespeichert, welche ebenfalls durch eine KI erzeugt wurden, wie Qualität der Beschreibung oder wie wahrscheinlich das Bild „NSFW“ (not safe for work) ist, also nicht jugendfrei.
Der Knackpunkt ist hier, dass der Verein also haufenweise Bilder gespeichert hat, um sie der Forschung zugänglich zu machen. Wie soll die KI aber genau wissen, was auf den Bildern zu sehen ist? Dafür nutzten die Forscher die häufig vorhandenen Metadaten, welche Fotografen, Künstler oder SEO-Firmen an die Bilder angehängt hatten, damit Suchmaschinen die Bilder besser einordnen konnten.
Stockfotografen kennen das von der Bildbeschreibung, mit der sie ein Bild zusätzlich mit dessen Text-Äquivalent versehen, damit Bildkunden es über die Suchfunktion der Bildagentur finden können.
Besonderen Wert hatten also die sorgfältig beschrifteten Bilder, die als Futter für das KI-Training genutzt wurden und weiterhin werden.
Die Erstellung vom latenten Raum
Wenn jetzt jemand einen Befehl in eine Bild-KI eingibt, kopiert die KI nicht einfach stumpf Teile existierender Bilder, sondern die Informationen kommen aus dem sogenannten „latenten Raum“ (latent space). Dieser heißt so, weil die Objekte und Konzepte dort „latent“ vorhanden sind. Der Computer weiß, wie etwas generiert wird, macht es aber erst, wenn eine bestimmte Kombination abgerufen wird.
Das KI-Training kann mensch sich ähnlich vorstellen wie Kleinkinder ihre Welt entdecken. Woher wissen Kleinkinder, wenn sie ein Bilderbuch ansehen, dass die gezeichneten Figuren ein Elefant, eine Giraffe und ein Ball sind?
Sie wissen es erst, wenn sie genug verschiedene Versionen dieser Dinge gesehen haben, um die Gemeinsamkeiten abstrahieren zu können. Ein Elefant ist zum Beispiel meist grau und groß, eine Giraffe gelb-gescheckt mit einem langen Hals und ein Ball rund und bunt.
Die KI hat das ebenfalls so gelernt, nur eben an Millionen Bild-Text-Kombinationen. So ruft sie beispielsweise alle Bilder auf, die mit dem Wort „Giraffe“ beschriftet sind, und versucht, die Gemeinsamkeiten zu erkennen. Beim Wort „Ball“ genauso. Am Anfang rät sie einfach, aber je öfter sie es macht, desto mehr erkennt sich bestimmte Muster.
Die KI merkt jedoch, dass beispielsweise Farbe oder Form kein ausreichendes Kriterium für bestimmte Objekte oder Konzepte sind, weil sich diese ändern können. Bälle können zum Beispiel verschiedene Farben haben, Elefanten verschiedene Formen und so weiter. Daher versucht die KI, möglichst viele verschiedene Variablen zu kreieren und die Begriffe in so einem Koordinatensystem zu verorten. Dieses System hat deutlich mehr als drei Dimensionen und wird als der „latente Raum“ bezeichnet.
Er enthält hunderte Variablen und deren Beziehungen zueinander. So entsteht ein multidimensionales Netzwerk aus Beziehungen, ähnlich wie eine „soziale Netzwerkanalyse“. Die Variablen für „Spaghettieis“ würden da zum Beispiel irgendwo zwischen denen für „Eiscreme“ und „Pasta“ liegen, in der Nähe von anderen kalten Objekten wie „Antarktis“ oder „Winter“, fernab von Objekten, welche mit „Härte“ assoziiert sind. Das ist für den menschlichen Geist schwer verständlich, für moderne Computer aber kein Problem.
Vom latenten Raum zur stabilen Diffusion
Wie kriegt mensch aber nun neue Bilder aus diesem latenten Raum? Durch die Texteingabe navigiert der Mensch den Computer zu einer Stelle im multidimensionalen Raumen, wo die Wahrscheinlichkeit am höchsten ist, dass die dortigen Variablen die Begriffe gut abdecken.
Nun kommt wieder das obige Entrauschungsverfahren zum Einsatz. Aus einem zufälligen Bildrauschen schärft der Computer in sehr vielen Durchgängen das Chaos zu einer Anordnung, in welcher Menschen die gewünschten Begriffe erkennen können sollen. Da dieser Prozess zufallsbasiert ist, wird auch mit der gleichen Texteingabe niemals exakt das gleiche Bild entstehen.
Diese zufallsbasierte Pixelstreuung heißt im Lateinischen „Diffusion“ und da das System stabil zwar keine gleichen, aber ähnliche Ergebnisse erzielen kann, nennt sich dieses Verfahren der KI-Bilderstellung „Stable Diffusion“.
Auch wenn die gleiche Texteingabe in ein anderes KI-Modell gegeben wird, werden sich die Ergebnisse unterscheiden, weil das Bild dann durch andere Trainingsdaten in einem anderen „latenten Raum“ erzeugt wurde.
Es gibt einige KI-Gegner, welche die KI-Bilder ablehnen, weil sie fälschlicherweise annehmen, dass die KI-Tools nur eine Art intelligente Bildmontagen-Maschine sind, welche Versatzstücke aus bestehenden Bildschnipseln neu zusammensetzt.
Als „Beweis“ werden hier gerne die manchmal sichtbaren Wasserzeichen genannt, welche erkennbar bestimmten Bildagenturen zugeordnet werden können. Diese ergeben sich jedoch aus der oben genannten Trainingsmethode. Die Agenturbilder sind für LAION besonders wertvoll gewesen, weil diese besonders häufig besonders hochqualitative Beschreibungen zu den Bildern hatten. Stockfotografen waren ja auf treffende Bildbeschreiben angewiesen für häufige Verkäufe. Das erklärt, warum Bilder mit Agenturwasserzeichen besonders häufig für KI-Trainingszwecke genutzt wurden.
Bei besonders „stocklastigen“ Motiven (denke an den „Business-Handshake“) war also die Wahrscheinlichkeit hoch, dass die KI lernte, dass solche Wasserzeichen irgendwie normal seien für das Motiv und dementsprechend „dazugehörten“. Also versucht die KI, diese Wasserzeichen mit zu reproduzieren.
Die rechtlichen Implikationen dieser Methode
Aber auch ohne das obige Missverständnis gibt es genug berechtigte Kritik. So werfen Kritiker der LAION vor, millionenfach die urheberrechtlich geschützten Werke zu Trainingszwecken genutzt zu haben, ohne dass die Künstler dafür irgendwie entschädigt wurden. LAION beruft sich zur Verteidigung darauf, dass sie eine gemeinnützige Organisation (eingetragener deutscher Verein) sei, welche nur zu Forschungszwecken arbeite.
Angesichts der Finanzierung dieses gemeinnützigen Vereins durch kommerzielle Firmen wie u.a. Stability AI, welche die Entstehung des LAION-5B“-Datensets finanziert haben und es letztendlich in ihrer KI „Stable Diffusion“ nutzen, ist das ein wackliges Argument.
KI-Befürworter weisen darauf hin, dass die KI bei ihrem Training im Grunde vergleichbar sei mit dem Vorgehen von Google. Google hatte jahrelang massenhaft urheberrechtlich geschützte Bücher und andere Texte eingescannt, um Ausschnitte davon in deren Dienst „Google Books“ zu nutzen. 2015 urteilte der us-amerikanische oberste Gerichtshof, dass dieses Vorgehen legal und von der „Fair Use“-Klausel gedeckt sei.
Auch die Frage, wie der rechtliche Status der durch die KI erstellten Bilder zu bewerten ist, ist noch völlig offen und wird vermutlich bald von einigen Gerichten geklärt werden müssen.
Die moralischen Probleme vom latenten Raum
Da das KI-Training im latenten Raum quasi ohne menschliche Eingriffe geschah, hat die KI einige Erkenntnisse gewonnen, die wir Menschen problematisch halten könnten.
Bestehende Vorurteile, Fehler oder diskriminierende Praktiken werden von de KI ungefiltert einfach übernommen und danach wiedergegeben. Wer sich bei den KI-Tools beispielsweise Bilder von einem „CEO“ generieren lässt, wird hauptsächlich ältere weiße Männer erhalten, Bilder von „Krankenpflegern“ hingegen werden vor allem weiblich sein. Auch der Fokus auf die englische Sprache schließt viele anderssprachige Kulturen und Traditionen stark aus. Versucht beispielsweise mal ein „Sankt Martin“-Bild durch die KI erzeugen zu lassen…
Stable Diffusion versucht sich an der Darstellung eines „CEO“…
…und einer Krankenschwester („nurse“)
Die KI scheitert an der Darstellung des Begriffs „Sankt Martin“
Branchen im Wandel
Ungeachtet der noch ungelösten rechtlichen und moralischen Probleme der KI-Bilderzeugung hat die Technologie jedoch das Potential, gesamte Branchen auf den Kopf zu stellen, vergleichbar mit der Erfindung des Fotoapparats.
Auch hören die Forscher längst nicht bei der Bilderzeugung auf. Mit „ChatGPT“ gibt es von den DALL-E-Machern schon eine funktionsfähige Chat-KI welche auf Zuruf längere Texte schreibt. Andere Firmen arbeiten an Text-zu-Video-Generatoren, Text-zu-3D-Objekt-Generatoren und so weiter. Werden einige der bestehenden Technologien kombiniert, beispielsweise die Chat-KI mit einer Video-KI und einer Sprach-KI, so könnten auf Knopfdruck bald individualisierte Spielfilme erzeugt werden. Die Entwicklungen hier werden in einem atemberaubenden Tempo veröffentlicht.
Ist die Funktionsweise der generierenden KIs etwas klarer geworden? Was versteht ihr ggf. noch nicht?
Vor wenigen Tagen präsentierte die deutsche Bildagentur Panthermedia in Zusammenarbeit mit dem Unternehmen vAIsual die „synthetische Portrait Kollektion“, das heißt, eine Sammlung von Portraitbildern, welche durch einen Computer erzeugt wurden.
Aktuell umfasst die Kollektion ca. 400 Bilder, es sollen aber bei 1000 Bilder sein. Die Auswahl der durch eine KI (Künstliche Intelligenz) erzeugten Bilder muss noch manuell vorgenommen werden, „da nicht alle generierten Bilder marktfähig sind“, wie Panthermedia-Geschäftsführer Tomas Speight sagt. Wer durch die Kollektion stöbern will, kann auf der Panthermedia-Webseite in der Kopfzeile auf „Synths“ klicken.
Drei Beispiele der synthetisch erstellten Portraits bei Panthermedia
Die Portraits werden wahlweise vor einem weißen oder einem grünen Hintergrund angeboten. Später sollen auch Bilder aus anderen Themenbereichen folgen. Mit aktiv in der KI-Firma vAIsual sind übrigens die Stock-Veteranen und Branchenkenner Mark Milstein und Lee Torrens.
Die Bilder sind aktuell nicht in Abonnements oder Bildpaketen erhältlich. Sie sind in zwei Größen erhältlich, die Web-Größe kostet zur Zeit 29,90 Euro, die Größe XXL 69,90 Euro, wobei XXL hier auch nur gut 2 Megapixel bedeutet, was die Nutzungen im Print-Bereich noch etwas einschränkt.
Das Hauptkriterium für die Entscheidung, ein künstliches Bild zu nutzen, soll laut Panthermedia der nicht mehr notwendige Modelvertrag sein:
„Neben dem faszinierenden Kunstaspekt ist der Hauptvorteil von KI-generierten Bilder, dass keine Model-Releases erforderlich sind. Die gezeigten Personen existieren in der Realität gar nicht. Die Fotos haben somit keine der Einschränkungen wie sie in Bezug auf die Abbildung von realen menschlichen Modellen bestehen. Dies eröffnet ganz neue Möglichkeiten für eine sichere Nutzung bei sensiblen Inhalten, beispielsweise aus den Bereichen Pharma, Medizin und andere sensitiven Themen, die traditionell nicht von Model-Release-Bildern abgedeckt werden. Auch bei redaktionellen Themen ist dies ein großer Vorteil im Hinblick auf die Rechte abgebildeten Personen nach der DSGVO. Ein weiterer wichtiger Punkt in diesem Zusammenhang ist, dass diese KI-generierten Bilder als Set für das Training anderer KI-Anwendungen lizenziert werden können.“
Daher gelten für die Bildnutzung auch die aktuellen Panthermedia-Nutzungsbedingungen mit der Ausnahme, dass eine Bandbreite an „Sensitive Issues“ zugelassen ist.
Offene Fragen
Mit diesem Quantensprung tauchen nun auch neue rechtliche und moralische Fragen auf, die sich vermutlich erst nach einer Weile klären lassen werden.
Wie schon in meinem Artikel von vor zwei Jahren erwähnt, sind hier vor allem das Persönlichkeitsrecht und das Missbrauchspotential zu erwähnen.
Selbst wenn die Portraits digital erstellt wurden, können sie trotzdem Bilder generieren, die echten, real existierenden Personen sehr ähnlich sehen. Auch wird es mit solchen Bildern für Betrüger und Scammer leichter, sich einen persönlichen Anstrich zu geben, aber trotzdem anonym zu bleiben.
Und wer hat das Urheberrecht, wenn die Bilder digital von einer Maschine erzeugt wurden? Was passiert also, wenn jemand diese Bilder ohne Bezahlung benutzen würde? Kann die Agentur Nutzungshonorare einklagen?
Gefahr für Fotografen?
Vor zwei Jahren war ich entspannt, dass der aktuelle Stand der Technik Stockfotografen nicht gefährlich wäre. Das gilt mittlerweile nur noch mit Einschränkungen. Zum einen hat sich die Bildauflösung von 1 auf 2 Megapixel verdoppelt. Das ist absolut gesehen zwar immer noch recht wenig, aber schon eine deutliche Steigerung.
Weggefallen ist nun jedoch offensichtlich die Einschränkung, dass die generierten Portraits nicht kommerziell genutzt werden dürfen, was die Bedrohung für Portraitfotografen massiv steigert.
Für Stockfotografen bleiben auch im Portraitbereich zwar noch sehr viele Bereiche, welche die KI aktuell nicht abdecken kann, aber ich vermute, dass diese Bereiche im Laufe der Zeit weiter schrumpfen werden.
Ein kleiner Hoffnungsschimmer ist aktuell, dass die Verschlagwortung momentan mehr als dürftig ist: So enthält das obige Bild nur die neun Suchbegriffe:
Diese widersprechen sich einerseits (girl/adult) und sind auch nicht sehr akkurat (young) und wichtige andere Schlagwörter wie die Ethnie, der Gefühlsausdruck und so weiter fehlen völlig. Das kann sich mit etwas Motivation seitens der Bildagentur jedoch schnell ändern.
Die Firma icons8 hat gerade etwas Bahnbrechendes gemacht: Sie hat 100.000 durch künstliche Intelligenz erstellte Portraits kostenfrei zur Nutzung bereit gestellt.
Die künstliche Intelligenz brauchte etwas zum „Trainieren“, um zu erkennen, wann ein Ergebnis menschlich genug aussah und wann nicht. Dafür hat die Firma nach eigenen Angaben innerhalb von drei Jahren 29.000 Portraits von 69 Models aufgenommen.
Die fertigen computergenerierten Fotos werden auf der Webseite https://generated.photos/ kostenfrei zum Download und zur Nutzung angeboten im Format 1024x1024 Pixel, also 1 Megapixel. Bei den 100.000 Bildern sind einige dabei, die erkennbar „fake“ sind, weil der Computer seltsame Artefakte an komischen Stellen generiert hat und oft sind bei langen Haaren die Enden falsch, wie wenn man wild in Photoshop mit dem Klonstempel Amok gelaufen wäre oder das Verflüssigen-Tool nicht richtig beherrscht.
Alles AI-basierte künstliche Gesichter von generated.photos
Das soll aber nicht darüber hinweg täuschen, dass viele der Bilder nicht mehr von einem echten Foto zu unterscheiden sind. Geplant ist in Zukunft sogar eine Art Tool, mit der Nutzer (vermutlich gegen Gebühr) auf Knopfdruck sich selbst Portraits generieren und dabei Kriterien wie Geschlecht, Alter, Stimmung, Blickwinkel etc. selbst beeinflussen können.
In diesem Video stellt sich das Projekt kurz selbst vor:
Hier als Beispiel einige Bilder von https://generated.photos, die tatsächlich so realistisch sind, dass kaum vorstellbar ist, dass sie keine Fotos sind (Klicken zum Vergrößern):
Wer ebenfalls mal stöbern will, kann die Webseite https://100k-faces.glitch.me/ aufrufen. Bei jedem neuen Laden der Seite wird zufällig eins der 100.000 Gesichter gezeigt.
Wie dürfen die Bilder genutzt werden?
Laut der Webseite dürfen die Bilder für jegliche („whatever“) Nutzung verwendet werden, zum Beispiel für Präsentationen, Projekte, Mock-Ups, Avatare auf Webseiten, Newsletter, Arbeitsblätter etc., vorausgesetzt, es wird ein Link auf deren Webseite gesetzt. Konkreter erklärt es der Chefdesigner bei icons8, Konstantin Zhabinskiy hier:
„If you plan to use photo on your website, set a link to Generated Photos on all pages where you use our content. If you use it on most pages, a link in your footer is fine. Desktop and Mobile apps should have a link in the About dialog or Settings. Also, please credit our work in your App Store or Google Play description (something like „Photos by Generated Photos“ is fine).“
In den kleingedruckten Nutzungsbedingungen auf der Seite steht unter Punkt 3.2 jedoch, dass keine „kommerzielle Nutzung“ erlaubt sei und generell viele Einschränkungen gelten, wie zum Beispiel dass die Lizenz seitens der Betreiber jederzeit entzogen werden kann und dann jedes Material, egal ob digital oder gedruckt, zerstört werden muss:
Das widerspricht sich jedoch mit den öffentlichen Äußerungen der Firma, weshalb ich per Email um eine Stellungnahme gebeten habe, auf die ich leider noch keine Antwort habe.
In deren FAQ wird darauf hingewiesen, dass das Verfassen von Nutzungsrechten für Produkte künstlicher Intelligenz eine Neuheit ist, weshalb sie sich das Ändern dieser Nutzungsbedingungen jederzeit vorbehalten. Wenn man kurz darüber nachdenkt, ist es logisch: Mit welchem Recht sollte jemand das Urheberrecht an Werken beanspruchen, die er nicht selbst geschaffen hat? Das wird noch Stoff für juristische Auseinandersetzungen liefern.
Eine andere Webseite ist www.artificialtalent.co, bei der Modefotos gegen Bezahlung mit künstlich erzeugten Gesichtern „aufgehübscht“ werden können, um mehr Kleidung zu verkaufen.
Eine große Sammlung solcher AI-basierten Webseiten, nicht nur für Personenbilder, liefert diese Webseite.
Was bedeuten diese Projekt für die Stockfotografie?
Kurzfristig sind sie noch keine Bedrohung für Stockfotografen. Erstens funktioniert diese Technik aktuell nur bei Portraits und die Auflösung ist mit 1 MP etwas beschränkt. Der Ausschuss ist, wie man beim Durchblättern der 100.000 Bilder sehen kann, noch ziemlich groß, auch wenn erstaunliche Ergebnisse darunter sind. Außerdem ist nur eine private Nutzung erlaubt, weshalb Werbetreibende weiterhin auf Stockmaterial zurückgreifen müssen.
Mittelfristig sehe ich jedoch durchaus die Möglichkeit, dass ein Teil der Nutzung zu den computergenerierten Bildern abwandert. Erstens sind diese künstlichen Intelligenzen schnell lernfähig, was zu exponentiell besser werdenden Ergebnissen und steigenden Bildauflösungen führen sollte. Die Technik wurde immerhin erst 2014 vorgestellt und kann nun schon glaubwürdige Gesichter generieren.
Außerdem funktioniert die Technik nicht nur bei Menschen, auch Landschaften lassen sich so digital erzeugen, wie diese interaktive Demo von Nvidia zeigt. Selbst für Inneneinrichtungen gibt es schon eine Webseite, bei der Leute ein Foto ihrer Wohnung hochladen können und die AI richtet diese virtuell neu ein.
Die Gefahr für Stockfotografen besteht darin, dass ihre Bilder oft sehr generisch und austauschbar sind, beides also Attribute, welche perfekt für computergenerierte Ansätze sind.
No Model Release, no problem?
Wie bei etlichen neuen Technologien zeigen sich Gefahren leider erst, wenn diese eine Weile im Einsatz sind. Deshalb betonen einige Forscher aus diesem Gebiet, dass die ethische Komponente nicht unterschätzt werden darf. Das heißt im Klartext: Die erzeugten Bilder basieren auf echten Fotos: Wird die AI nur mit schönen, kaukasischen jungen Gesichtern trainiert, werden auch die Ergebnisse schön, jung und weiß sein. Nur wer genügend Diversität im Ausgangsmaterial hat, kann diese auch vom Computer erzeugen lassen.
Eine weitere, bisher nicht erwähnte Gefahr, sehe ich in den Persönlichkeitsrechten. Klar, die abgebildeten Personen haben keine Persönlichkeitsrechte. Wer sich eine Weile durch die Beispiele klickt, wird jedoch merken, dass ihm etliche Gesichter irgendwie bekannt und vertraut vorkommen. Es kann ja sein, dass der Computer Gesichter generiert, die in echt lebenden Menschen wie aus dem Gesicht geschnitten aussehen. Sollten diese Menschen dann nicht das Persönlichkeitsrecht an den AI-Bildern haben, wenn sie mit denen verwechselt werden können? Man könnte den Vergleich zu eineiigen Zwillingen ziehen: Hat der eine das Recht, dem anderen abzusprechen, für bestimmte Produkte oder Meinungen zu werben?
Generell ist das Missbrauchspotential dieser Technik sehr hoch, man denke nur an ausgedachte Testimonials, gefälschte Social Media Accounts und so weiter. Vor allem in Kombination mit anderen Techniken wie „Deep Fakes“, bei der Videos Gesichter anderer Personen erhalten oder Adobe #VoCo, wo Stimmen anderer Personen manipuliert werden können, ergeben sich viele Möglichkeiten, die sehr dazu geeignet sind, das Vertrauen von Menschen in digitale Inhalte zu untergraben. Wie so oft sind Pornos Vorreiter dieser neuen Technologie: Schon heute gibt es einige Webseiten, auf der Gesichter von Berühmtheiten in Pornofilme montiert werden.
Was macht gute Programme noch besser? Zusätzliche Plugins! Das gilt für Firefox und Thunderbird genauso wie für Das Bildbearbeitungsprogramm Adobe Photoshop.
Diesmal möchte ich den Photoshop-Filter „Puzzle Pro 3.1″* von der Firma AV Bros. vorstellen. Dieses Plugin erlaubt es, sehr unterschiedliche und vielfältige Puzzle-Formen zu erstellen, die dann in Photoshop als pixelbasierte Datei oder einem Vektor-Programm wie Adobe Illustrator als Vektor-Pfade genutzt werden können.
Das klingt kompliziert und ist es manchmal auch. Deshalb von vorne: Vor der Nutzung muss das Programm im Plugin-Ordner von Photoshop installiert werden. Das geschieht durch das Installationsprogramm automatisch un problemfrei. Hier fällt jedoch schon auf, dass da Designer am Werk waren. Selten habe ich eine coolere Benutzeroberfläche eines Installers gesehen.
Das ist etwas für das Auge, nicht wahr? Auch die eigentliche Benutzeroberfläche des Plugins „Puzzle Pro“ sieht durchgestylt aus (Klicken zum Vergrößern):
Anhand dieses Screenshots lässt sich auch gut die Funktionsweise des Plugins erklären. Es besteht aus zwei Fenstern. Links ist das Layout-Fenster, rechts das „Schneide-Fenster“. Im Schneide-Fenster wird die Form der „Noppen“ der Puzzle-Stücke definiert. Es stehen etliche „klassische“ Formen zur Auswahl wie im Bild oder auch Pfeile, Herzen, Spiralen und andere. Natürlich ist es möglich, seine eigenen Formen zu importieren und abzuspeichern.
Mit den beiden „Flip“-Buttons kann der Nutzer entscheiden, ob er die Noppen horizontal oder vertikal spiegeln will. Im linken Layout-Fenster kann er auswählen, welche der Noppen gespiegelt werden sollen. Der Nutzer kann jede einzelne Noppe manuell anwählen. Es gibt zusätzlich auch die Möglichkeit, über das obere „Select“-Menü nur vertikale, nur horizontale oder zufällige Noppen zu markieren oder eine bestehende Auswahl umzukehren. Auch die Größe der Noppen kann – entweder für alle oder wieder für ausgewählte Noppen – angepasst werden. Das gleiche gilt für die Dicke der Zwischenräume zwischen den einzelnen Puzzle-Stücken.
Mit dem Schieberegler „Rows“ und „Columns“ wird bestimmt, wie viele Puzzle-Teile in einer Reihe und Spalte vorhanden sein sollen.
Links kann das Layout des Puzzles allgemein verändert werden. Im Ansichtsfenster in der Mitte kann jede Ecke (mit dem blauen Viereck markiert) beliebig gezogen oder gestaucht werden. Die einzeln anwählbaren Noppen können je nach Wunsch auch gelöscht werden, um einzelne größere Puzzle-Stücke zu erhalten. Der „Randomize“-Schieber unten links verschiebt die blauen Vierecke je nach Belieben verschieden stark, um etwas Varianz in das ansonsten monotone Muster zu bringen. Der Button rechts davon schiebt das Gitter in die Starteinstellung zurück, falls einem die Zufallsbewegung nicht gefallen sollte.
Sowohl die gewählten Noppen als auch das gesamte Gitternetz kann ebenfalls gespeichert und wieder importiert werden. Wenn einem ein Puzzle gefällt, gibt es mehrere Möglichkeiten:
Durch den Druck auf den roten „Cut“-Button wird das gewählte Puzzle „geschnitten“. Dann öffnet sich ein drittes Editierfenster, der „Puzzle-Modus“, welches dem Layout-Fenster sehr ähnlich sieht.
Hier können am fertigen Puzzle-Bild Einstellungen wie die Stärke der schrägen Kanten (Bevel-Effekt), Farbton-Sättigung, Kontrast, Weichzeichner, Bewegungsunschärfe, Kantenumrisse und mehr eingestellt werden. Diese Knöpfe finde ich jedoch meist unnötig, da jeder Nutzer das im fertigen Bild mit Photoshop besser und genauer einstellen kann, wenn er mit Ebenen umgehen kann. Eine sehr hilfreiche Funktion ist hier jedoch auch versteckt, die das Plugin von einfachen Puzzle-Abbildern abhebt: Der Image-Overlay-Effekt.
Ich kann mir zum Beispiel eine Puzzle-Maske auf eine neue, transparente Ebene legen und dann darunter grob verschiedene Bilder auf mehreren Ebenen anordnen. Wenn ich danach das „Puzzle Pro“-Plugin wieder öffne, sind die letzten Einstellungen immer noch aktiv. Klicke ich dann auf „Image Overlay“, schneidet mir das Plugin die einzelnen Bilder passgenau in die einzelnen Puzzle-Stücke. Das Ganze könnte dann so aussehen:
Es ist auch möglich, sich die einzelnen Puzzle-Teile auf einzelne Ebenen ausgeben zu lassen und sie nachträglich zu bewegen, auszublenden oder anders anzuordnen. Möglich wäre zum Beispiel sowas hier:
Wie ihr seht, habe ich hier auch die Möglichkeit genutzt, verschiedene Puzzle-Flächen zu größeren Stücken zusammenzufassen und nur den Mittelteil in einzelnen Teilen zu behalten.
Die Bedienung des Plugins ist trotz des schicken Designs leider nicht immer intuitiv, weil es so viele Einstellungsmöglichkeiten gibt, die manchmal in einer bestimmten Reihenfolge definiert werden müssen, um ein gewünschtes Ergebnis zu erzielen. Vor allem bei den aufwändigeren Projekten muss das Plugin teilweise mehrmals geöffnet und mit den gespeicherten Einstellungen auf verschiedene Ebenen angewendet werden, um einen coolen Look zu erzielen. Wer die beeindruckenden Ergebnisse der Firmen-Galerie nachmachen will, braucht deshalb etwas Einübungszeit, Geduld und sollte auch die Online-Tutorials minutiös befolgen.
Was das Plugin aber erst richtig mächtig macht, ist die Export-Funktion. Möglich sind grundsätzlich zwei verschiedene Export-Arten. Pixelbasiert und Vektorbasiert. Pixelbasiert bedeutet, dass ich mir das fertige Puzzle-Bild als eine gesamte Ebene oder – hier wird es spannend – als neues Bild mit jedem Puzzle-Stück auf einer eigenen Ebene exportieren lassen kann – entweder als PSD-Datei oder als PNG-Datei. Die Ebenen werden auch gleich sinnvoll mit der Angabe der Reihe und Spalte jedes einzelnen Puzzlestücks benannt, sodaß schnell klar ist, welches Teil an welcher Stelle liegt. Mit dieser Technik und etwas Kreativität lassen sich dann spannende Bilder kreiieren. So habe ich mit für das Puzzle-Wort oben die Fläche in einzelnen Ebenen generieren lassen, verschiedene Teile so ausgeblendet, dass der Rest das Wort Puzzle ergibt und einzelne Stücke etwas verschoben.
Auch andere Muster oder Kombinationen wie bei diesem Herz-Bild sind damit möglich:
Das Ganze gibt es auch ohne Portrait in der Mitte* oder als invertiertes Herz*. Wer sehen will, was ich mit den drei Puzzle-Stücken aus den obigen Screenshots angestellt habe, sieht hier mein Ergebnis:
Neben dem pixelbasierten Export ist auch ein vektorbasierter Export möglich. Dabei können entweder das gesamte Puzzle-Layout oder einzelne markierte Noppen als EPS-Datei oder AI-Datei gespeichert werden, um sie in Vektor-Programmen oder 3D-Programmen weiterzuverwenden. Ich habe mir den Umweg gespart und biete die EPS-Datei direkt zum Verkauf* an.
Hier kommen wir auch zu der Frage: Wozu brauche ich das? Was habe ich davon?
Das Plugin ist ideal für alle, welche nicht nur den Look eines Puzzles, sondern auch dessen Feel in Photoshop nutzen wollen. Durch die Export-Funktionen kann jedes einzelne Puzzle-Teil so geschoben oder bearbeitet werden als läge es mit den anderen hunderten Teilen auf einem Tisch. Das Puzzle-Plugin kann auch zur Illustration abstrakter Themen wie „Social Media“* oder „SEO“* (Suchmaschinenoptimierung) zweckentfremdet werden. Bei den letzteren beiden verlinkten Bildern habe ich übrigens die im Plugin enthaltenen Pfeilspitzen als Noppenform gewählt. Ich habe noch einige Ideen, wie ich meine Fotos mit den vom Plugin generierten Puzzle-Teilen kombinieren kann, um weitere verkaufsfähige Bilder zu erhalten.
Der Kaufpreis für das „Puzzle Pro“-Plugin beträgt stolze 39,95 Euro. Bei Fotolia habe ich von den gezeigten Bildern bisher noch nichts verkauft, aber bei Shutterstock hatte ich innerhalb einer Woche ein Zehntel des Kaufpreises wieder drin und hatte nur zwei der hier gezeigten Fotos bisher hochgeladen. Deshalb bin ich zuversichtlich, dass ich auch den Rest einspielen werde.
Wer das Plugin über diesen Link hier kauft, erhält übrigens 10% Rabatt beim Kauf. Alternativ könnt ihr beim Kauf im Feld „Coupon Code“ das Wort „ALLTAG10“ eingeben, um die 10% Rabatt zu erhalten. Das Plugin ist für Windows (32- und 64-Bit-Version) und für Mac erhältlich.
Was sind eure kreativen Lieblings-Plugin für Photoshop? Welche nutzt ihr (außer Entrauschungs- oder Scharfzeichnungs-Plugins) am meisten? * Affiliate-Link (Ihr erhaltet 10% Rabatt und ich erhalte eine kleine Provision beim Kauf)