Nur gut zwei Wochen nach der Bekanntgabe von Adobe, dass Adobe Stock nun durch Künstliche Intelligenz erzeugte Bilder akzeptiere, hat auch die Bildagentur Panthermedia bekannt gegeben, dass sie nun KI-Material annehmen.
Die Voraussetzungen lesen sich im Grunde fast identisch wie die von Adobe Stock, mit der Ausnahme, dass die Bilder im Titel statt des Hinweises „Generative AI“ nun „AI generated image“ enthalten sollen.
Da drängt sich etwas der Verdacht auf, dass hier einfach die Entscheidung von Adobe Stock nachgeahmt wurde, was ich aber inhaltlich begrüßenswert finde.
Unter dem Reiter „KI-Bilder“ finden sich auf der Startseite von Panthermedia jedoch bisher nur knapp 2.500 künstlich erzeugte Portraits, welche vor ungefähr einem Jahr vorgestellt wurden. Das kann sich natürlich bald ändern.
Das Jahr 2022 war der Durchbruch der Bilderstellung durch Künstliche Intelligenz (KI), weil Projekte wie Dall‑E, Stable Diffusion oder Midjourney der breiten Öffentlichkeit zugänglich wurden.
Auch ich habe hier im Blog schon einige Beiträge über KI-Bilder geschrieben, aber bisher noch nicht von Grund auf erklärt, wie die KI-Bildgenerierung funktioniert.
Das ist aber essential für das Verständnis der aktuellen Debatten um Urheberrechte, Bilderdiebstahl und die ethischen Auswirkungen der neuen Technik.
Daher hier ein kurzer Exkurs in die Geschichte der KI-Bilderstellung.
Bild-zu-Text-Erkennung
Um 2015 herum lernten maschinell trainierte Algorithmen, Objekte in vorhandenen Bildern zu benennen. Das kennen Fotografen sicher von Lightroom, Google Images oder Facebook, wo die Software oder Webseite automatisch erkennt, welche Dinge grob auf einem Bild sichtbar sind. Zusätzlich lernten die Algorithmen schnell, die beschriebenen Objekte in einen lesbaren Satz umzuwandeln. Aus „Frau, Handy, lachen“ wurde also „Eine lachende Frau am Handy“.
Text-zu-Bild-Erkennung
Findige Forscher dachten nun, dass dieser Prozess auch umkehrbar sein müsste. Sie kombinierten hier – sehr vereinfacht gesprochen – die obige Technologie mit einem Entrauschungsverfahren, welches wiederum mit obiger Technologie auf Genauigkeit getestet wurde.
Im Grunde trainierten sich zwei verschiedene KIs gegenseitig. Die erste KI nahm zufällig erzeugtes Bildrauschen und versuchte, aus der Texteingabe ein Bild zu erzeugen. Die zweite KI versuchte, aus dem erzeugten Bild zu erraten, was darauf erkennbar ist. Wenn die zweite KI der ersten bestätigte, dass sie „die lachende Frau am Handy“ erkannt hat, speicherte sich die erste KI einen Pluspunkt für das Entrauschungsmuster und schlug ein neues vor. Nach vielen Millionen Trainingsrunden wurde die erste KI durch diese Tests immer treffsicherer bei der Umwandlung von Texten zu Bildern.
Massenhafte Text-zu-Bild-Erkennung
Die obere Methode funktioniert zwar prinzipiell, hat aber einen Haken. Sie ist langsam und setzt natürlich irgendwie voraus, dass irgendjemand massenhaft Texteingaben der KI zum Trainieren vorsetzt, damit sie später weiß, welche Begriffe wie bildlich umgesetzt werden.
Forscher nutzten deshalb einen Trick, der heute einer der Grundprobleme bei der Akzeptanz von KI-Bilder-Tools ist: Sie gründeten das „Large-scale Artificial Intelligence Open Network“ (Groß angelegtes offenes Netz für künstliche Intelligenz), kurz LAION.
LAION ist ein gemeinnütziger Verein, welcher massenhaft Daten aus dem Internet sammelt, um damit KIs zu trainieren. Diese Daten werden nach Typ und Qualität sortiert. So gibt es zum Beispiel das „LAION-5B“-Set, welches 5,85 Milliarden Text-Bild-Kombinationen in allen möglichen Sprachen zusammengefasst hat, das „LAION-400M“-Set mit 400 Millionen Text-Bild-Kombinationen in englischer Sprache oder das „LAION-Aesthetics“-Set, welches eine Untergruppe von „LAION-5B“ ist, welches nur ästhetisch ansprechende Bilder enthalten soll.
In der Praxis wurden neben der Bild-URL und der Beschreibung noch andere Kriterien gespeichert, welche ebenfalls durch eine KI erzeugt wurden, wie Qualität der Beschreibung oder wie wahrscheinlich das Bild „NSFW“ (not safe for work) ist, also nicht jugendfrei.
Der Knackpunkt ist hier, dass der Verein also haufenweise Bilder gespeichert hat, um sie der Forschung zugänglich zu machen. Wie soll die KI aber genau wissen, was auf den Bildern zu sehen ist? Dafür nutzten die Forscher die häufig vorhandenen Metadaten, welche Fotografen, Künstler oder SEO-Firmen an die Bilder angehängt hatten, damit Suchmaschinen die Bilder besser einordnen konnten.
Stockfotografen kennen das von der Bildbeschreibung, mit der sie ein Bild zusätzlich mit dessen Text-Äquivalent versehen, damit Bildkunden es über die Suchfunktion der Bildagentur finden können.
Besonderen Wert hatten also die sorgfältig beschrifteten Bilder, die als Futter für das KI-Training genutzt wurden und weiterhin werden.
Die Erstellung vom latenten Raum
Wenn jetzt jemand einen Befehl in eine Bild-KI eingibt, kopiert die KI nicht einfach stumpf Teile existierender Bilder, sondern die Informationen kommen aus dem sogenannten „latenten Raum“ (latent space). Dieser heißt so, weil die Objekte und Konzepte dort „latent“ vorhanden sind. Der Computer weiß, wie etwas generiert wird, macht es aber erst, wenn eine bestimmte Kombination abgerufen wird.
Das KI-Training kann mensch sich ähnlich vorstellen wie Kleinkinder ihre Welt entdecken. Woher wissen Kleinkinder, wenn sie ein Bilderbuch ansehen, dass die gezeichneten Figuren ein Elefant, eine Giraffe und ein Ball sind?
Sie wissen es erst, wenn sie genug verschiedene Versionen dieser Dinge gesehen haben, um die Gemeinsamkeiten abstrahieren zu können. Ein Elefant ist zum Beispiel meist grau und groß, eine Giraffe gelb-gescheckt mit einem langen Hals und ein Ball rund und bunt.
Die KI hat das ebenfalls so gelernt, nur eben an Millionen Bild-Text-Kombinationen. So ruft sie beispielsweise alle Bilder auf, die mit dem Wort „Giraffe“ beschriftet sind, und versucht, die Gemeinsamkeiten zu erkennen. Beim Wort „Ball“ genauso. Am Anfang rät sie einfach, aber je öfter sie es macht, desto mehr erkennt sich bestimmte Muster.
Die KI merkt jedoch, dass beispielsweise Farbe oder Form kein ausreichendes Kriterium für bestimmte Objekte oder Konzepte sind, weil sich diese ändern können. Bälle können zum Beispiel verschiedene Farben haben, Elefanten verschiedene Formen und so weiter. Daher versucht die KI, möglichst viele verschiedene Variablen zu kreieren und die Begriffe in so einem Koordinatensystem zu verorten. Dieses System hat deutlich mehr als drei Dimensionen und wird als der „latente Raum“ bezeichnet.
Er enthält hunderte Variablen und deren Beziehungen zueinander. So entsteht ein multidimensionales Netzwerk aus Beziehungen, ähnlich wie eine „soziale Netzwerkanalyse“. Die Variablen für „Spaghettieis“ würden da zum Beispiel irgendwo zwischen denen für „Eiscreme“ und „Pasta“ liegen, in der Nähe von anderen kalten Objekten wie „Antarktis“ oder „Winter“, fernab von Objekten, welche mit „Härte“ assoziiert sind. Das ist für den menschlichen Geist schwer verständlich, für moderne Computer aber kein Problem.
Vom latenten Raum zur stabilen Diffusion
Wie kriegt mensch aber nun neue Bilder aus diesem latenten Raum? Durch die Texteingabe navigiert der Mensch den Computer zu einer Stelle im multidimensionalen Raumen, wo die Wahrscheinlichkeit am höchsten ist, dass die dortigen Variablen die Begriffe gut abdecken.
Nun kommt wieder das obige Entrauschungsverfahren zum Einsatz. Aus einem zufälligen Bildrauschen schärft der Computer in sehr vielen Durchgängen das Chaos zu einer Anordnung, in welcher Menschen die gewünschten Begriffe erkennen können sollen. Da dieser Prozess zufallsbasiert ist, wird auch mit der gleichen Texteingabe niemals exakt das gleiche Bild entstehen.
Diese zufallsbasierte Pixelstreuung heißt im Lateinischen „Diffusion“ und da das System stabil zwar keine gleichen, aber ähnliche Ergebnisse erzielen kann, nennt sich dieses Verfahren der KI-Bilderstellung „Stable Diffusion“.
Auch wenn die gleiche Texteingabe in ein anderes KI-Modell gegeben wird, werden sich die Ergebnisse unterscheiden, weil das Bild dann durch andere Trainingsdaten in einem anderen „latenten Raum“ erzeugt wurde.
Es gibt einige KI-Gegner, welche die KI-Bilder ablehnen, weil sie fälschlicherweise annehmen, dass die KI-Tools nur eine Art intelligente Bildmontagen-Maschine sind, welche Versatzstücke aus bestehenden Bildschnipseln neu zusammensetzt.
Als „Beweis“ werden hier gerne die manchmal sichtbaren Wasserzeichen genannt, welche erkennbar bestimmten Bildagenturen zugeordnet werden können. Diese ergeben sich jedoch aus der oben genannten Trainingsmethode. Die Agenturbilder sind für LAION besonders wertvoll gewesen, weil diese besonders häufig besonders hochqualitative Beschreibungen zu den Bildern hatten. Stockfotografen waren ja auf treffende Bildbeschreiben angewiesen für häufige Verkäufe. Das erklärt, warum Bilder mit Agenturwasserzeichen besonders häufig für KI-Trainingszwecke genutzt wurden.
Bei besonders „stocklastigen“ Motiven (denke an den „Business-Handshake“) war also die Wahrscheinlichkeit hoch, dass die KI lernte, dass solche Wasserzeichen irgendwie normal seien für das Motiv und dementsprechend „dazugehörten“. Also versucht die KI, diese Wasserzeichen mit zu reproduzieren.
Die rechtlichen Implikationen dieser Methode
Aber auch ohne das obige Missverständnis gibt es genug berechtigte Kritik. So werfen Kritiker der LAION vor, millionenfach die urheberrechtlich geschützten Werke zu Trainingszwecken genutzt zu haben, ohne dass die Künstler dafür irgendwie entschädigt wurden. LAION beruft sich zur Verteidigung darauf, dass sie eine gemeinnützige Organisation (eingetragener deutscher Verein) sei, welche nur zu Forschungszwecken arbeite.
Angesichts der Finanzierung dieses gemeinnützigen Vereins durch kommerzielle Firmen wie u.a. Stability AI, welche die Entstehung des LAION-5B“-Datensets finanziert haben und es letztendlich in ihrer KI „Stable Diffusion“ nutzen, ist das ein wackliges Argument.
KI-Befürworter weisen darauf hin, dass die KI bei ihrem Training im Grunde vergleichbar sei mit dem Vorgehen von Google. Google hatte jahrelang massenhaft urheberrechtlich geschützte Bücher und andere Texte eingescannt, um Ausschnitte davon in deren Dienst „Google Books“ zu nutzen. 2015 urteilte der us-amerikanische oberste Gerichtshof, dass dieses Vorgehen legal und von der „Fair Use“-Klausel gedeckt sei.
Auch die Frage, wie der rechtliche Status der durch die KI erstellten Bilder zu bewerten ist, ist noch völlig offen und wird vermutlich bald von einigen Gerichten geklärt werden müssen.
Die moralischen Probleme vom latenten Raum
Da das KI-Training im latenten Raum quasi ohne menschliche Eingriffe geschah, hat die KI einige Erkenntnisse gewonnen, die wir Menschen problematisch halten könnten.
Bestehende Vorurteile, Fehler oder diskriminierende Praktiken werden von de KI ungefiltert einfach übernommen und danach wiedergegeben. Wer sich bei den KI-Tools beispielsweise Bilder von einem „CEO“ generieren lässt, wird hauptsächlich ältere weiße Männer erhalten, Bilder von „Krankenpflegern“ hingegen werden vor allem weiblich sein. Auch der Fokus auf die englische Sprache schließt viele anderssprachige Kulturen und Traditionen stark aus. Versucht beispielsweise mal ein „Sankt Martin“-Bild durch die KI erzeugen zu lassen…
Branchen im Wandel
Ungeachtet der noch ungelösten rechtlichen und moralischen Probleme der KI-Bilderzeugung hat die Technologie jedoch das Potential, gesamte Branchen auf den Kopf zu stellen, vergleichbar mit der Erfindung des Fotoapparats.
Auch hören die Forscher längst nicht bei der Bilderzeugung auf. Mit „ChatGPT“ gibt es von den DALL-E-Machern schon eine funktionsfähige Chat-KI welche auf Zuruf längere Texte schreibt. Andere Firmen arbeiten an Text-zu-Video-Generatoren, Text-zu-3D-Objekt-Generatoren und so weiter. Werden einige der bestehenden Technologien kombiniert, beispielsweise die Chat-KI mit einer Video-KI und einer Sprach-KI, so könnten auf Knopfdruck bald individualisierte Spielfilme erzeugt werden. Die Entwicklungen hier werden in einem atemberaubenden Tempo veröffentlicht.
Ist die Funktionsweise der generierenden KIs etwas klarer geworden? Was versteht ihr ggf. noch nicht?
Der Standpunkt von Adobe Stock ist dabei deutlich liberaler als der der anderen Agenturen: Adobe akzeptiert ab sofort offiziell Illustrationen, die mit generativen KI-Modellen erstellt wurden – oder einfacher: KI-generierte Bilder.
Die neuen Einreichungsrichtlinien sollen sicherstellen, dass die Nutzer KI-Inhalte korrekt und verantwortungsvoll verwenden. Diese Richtlinien können vollständig hier nachgelesen werden.
Hier einige der wichtigsten Punkte: Dabei gehört zuerst die Markierung des betroffenen Materials. Neue KI-Bilder sollen von den Anbietern im Titel und in den Schlagworten mit „Generative AI“ gekennzeichnet werden, damit Kunden diese als solche erkennen können.
Alle KI-Bilder, auch wenn sie fotorealistisch aussehen, sollen als „Illustration“ eingereicht werden. Die Nutzungsbedingungen der verwendeten KI-Engine müssen natürlich die vollen kommerziellen Rechte gewähren. Hier gilt es das Kleingedruckte zu lesen und auf eventuelle Änderungen zu achten.
Weiterhin sind – wie schon bisher – Einreichungen nicht zulässig, die Inhalte von Dritten enthalten, wie z. B. erkennbare Gesichter oder Warenzeichen (wie Marken oder Logos) oder sogar Stile anderer Künstler.
Vor allem letzteres ist vermutlich in der Praxis schwer abgrenzbar, aber immerhin wird der Versuch unternommen.
Wenn erkennbare Personen (z.B. Prominente) in den KI-Bildern enthalten sind oder geschützte Plätze oder Orte, wird dafür ein Model Release bzw. Property Release verlangt oder die Bilder können eben nicht eingereicht werden (auch nicht als „redaktionelles Material“). Eine lange Liste der bekannten Einschränkungen gibt es hier als Übersicht.
Für altgediente Stock-Lieferanten ist das nichts Neues, aber da durch die neuen KI-Tools noch mal eine ganz andere Nutzergruppe plötzlich auf dem Stock-Markt mitmacht, ist es sicher sinnvoll, darauf noch mal ausdrücklich hinzuweisen.
Weitere Pläne von Adobe in Richtung KI-Bilderstellung
Auf der „Adobe Max 2022“ Konferenz vor einigen Wochen hatte einige weitere KI-bezogene Ankündigungen gemacht. Zum einen arbeitet Adobe an einer neuen digitalen Provenance-Technologie, die alle relevanten Details über die Quelle einer Mediendatei direkt in die Datei einbezieht. Diese Technologie wurde von der Content Authenticity Initiative (CAI) entwickelt, die das Unternehmen ebenfalls gegründet hat und von der es hofft, dass sie zu einem Branchenstandard wird.
Zum anderen gab Adobe bekannt, an einer eigenen KI-Software zu arbeiten, die bald in die Creative-Cloud-Apps wie Adobe Express und Photoshop integriert werden soll. Einige beeindruckende Demos gibt es in diesem Video (ab Minute 1:30 geht es los, für die ganz Ungeduldigen):
Viele der Features, z.B. das In-Painting oder Out-Painting gibt es auch bei den frei verfügbaren KI-Tools wie Stable Diffusion, aber die Einbettung direkt in Photoshop macht die Bedienung noch mal deutlich komfortabler und intuitiver.
Was sagt ihr zu den neuen Richtlinien? Gibt es etwas, was euch im Bereich „Bilderstellung durch Künstliche Intelligenz“ besonders interessiert? Welche Fragen brennen auch unter den Nägeln?
Die weltgrößte Bildagentur Getty Images hatte wie Shutterstock vor einer Weile untersagt, KI-Bilder in deren Portfolio hochzuladen. Nachdem Shutterstock danach angekündigt hatte, den Kunden selbst die Möglichkeit zu geben, KI-Bilder zu generieren, zog Getty Images nun mit einer ähnlichen Ankündigung nach.
Getty Images wird in Zukunft mit der Firma BRIA kooperieren. BRIA eine junge israelische Firma, welche erst 2020 gegründet und von einigen Finanzinvestoren unterstützt wird.
BRIA ist eine Firma, welche sich auf die Entwicklung von generativen KI-Tools spezialisiert hat. Die Firma arbeitet an einer Plattform, welche sich auf die Anpassung von Bildersuchen und Generierung von Bildern und Videos konzentriert.
Die Pressemitteilung selbst strotzt nur so vor leeren Worthülsen. Beispiele gefällig?
„Ziel ist es, Kreativen die Möglichkeit zu geben, ihre Bilder mithilfe intuitiver KI-Tools auf der Plattform von Getty Images an ihre spezifischen Bedürfnisse anzupassen.“
oder:
„Getty Images wird Funktionen einführen, die den Nutzern Zugang zu hochmodernen, ethischen, generativen KI-gesteuerten Tools geben, die ihre Kreativität erweitern und ihre Effizienz verbessern.“
So geht das eine ganze Seite lang, wer will, kann die Mitteilung hier im Original lesen.
Das Demo-Video von BRIA bei YouTube zeigt immerhin etwas mehr, was deren KI leisten können soll:
Auf der Bria.ia-Webseite gibt es weitere Promo-Videos, welche zeigen, wie bei einem Foto Hintergründe ausgetauscht werden, der Gesichtsausdruck oder die Haare eines Models verändert werden und dann das ganze Bild animiert wird. Auch wird aus einem Bild ein animiertes Video generiert und so weiter.
Es ist jetzt nur eine reine Vermutung meinerseits, aber ich kann mir sehr gut vorstellen, dass Getty Images den Kunden genau solche Features anbieten will. Natürlich gegen einen Aufpreis, den sich Getty komplett in die eigene Tasche stecken wird. Bzw. mit BRIA teilen wird, aber vermutlich nicht mit den Fotografen. Hoffen wir, dass ich mich irre, denn in der oben zitierten Pressemitteilung wird auch betont, wie wichtig „ethische Standard“ sind und wie sehr die Firmen „geistiges Eigentum respektieren“.
Meine geplanten Artikel zu den neusten KI-Entwicklungen sind noch nicht mal fertig, da platzen ständig aufregende Neuigkeiten herein. Die Nachricht vom 25.10.2022 von Shutterstock kann ich hier aber nicht ignorieren, da sie einen wilden Mix von Konsequenzen nach sich zieht, den ich hier vermutlich nur ansatzweise beleuchten kann.
Aber versuchen wir es der Reihe nach: Shutterstock hat vor wenigen Tagen diese Pressemitteilung veröffentlicht, in der die Firma die Partnerschaft mit dem Unternehmen OpenAI verkündet, welche hinter dem KI-Tool DALL‑E stecken. Hinter OpenAI stecken übrigens u.a. Elon Musk als Gründer und Microsoft als Investor.
Zeitgleich gab es eine Rundmail an alle Shutterstock-Anbieter, in der zusätzlich zur obigen Information eine ebenso wichtige weitere Nachricht steckte: Shutterstock will keine KI-generierten Inhalte mehr auf ihrem Marktplatz anbieten, mit der Begründung, dass „die Urheberschaft nicht einer einzelnen Person zugeordnet werden kann, wie es für die Lizenzierung von Rechten erforderlich ist“.
Oder hier im Hilfebereich von Shutterstock noch ausführlicher begründet: „KI-generierte Inhalte dürfen nicht auf Shutterstock hochgeladen werden, da KI-Inhaltsgenerierungsmodelle das geistige Eigentum vieler Künstler und ihrer Inhalte nutzen, was bedeutet, dass das Eigentum an KI-generierten Inhalten nicht einer Einzelperson zugewiesen werden kann und stattdessen alle Künstler entschädigt werden müssen, die an der Erstellung jedes neuen Inhalts beteiligt waren“.
Diese Kombination von Aussagen wirft so viele Fragen auf, dass ich gar nicht weiß, wo ich anfangen soll.
Gehen wir mal in der Zeit etwas zurück: Shutterstock kooperiert schon seit 2021 mit der Firma OpenAI, indem OpenAI Shutterstock-Bilder lizenziert hat, um das Tool DALL‑E zu trainieren. Der CEO von OpenAI, Sam Altman, sagt dazu in der Pressemitteilung:
„Die Daten, die wir von Shutterstock lizenziert haben, waren entscheidend für das Training von DALL‑E. Wir freuen uns, dass Shutterstock seinen Kunden die DALL-E-Bilder als eine der ersten Anwendungen über unsere API zur Verfügung stellt, und wir freuen uns auf künftige Kooperationen, wenn künstliche Intelligenz ein integraler Bestandteil der kreativen Arbeitsabläufe von Künstlern wird.“
In wenigen Monaten sollen Shutterstock-Kunden in der Lage sein, mit Hilfe von OpenAI direkt auf der Shutterstock-Webseite durch Texteingabe Bilder selbst generieren zu können.
Im Gegenzug dafür sollen die Shutterstock-Anbieter für die Rolle, die ihre Inhalte bei der Entwicklung dieser Technologie gespielt haben, entschädigt werden.
Die erste Frage hier ist doch: Wurden die Shutterstock-Anbieter auch für die Trainingsdaten, die seit 2021 von OpenAI lizenziert wurden, entschädigt?
Die zweite Frage ist: Haben die Künstler, auf deren Eigentum Shutterstock angeblich so viel Wert lege, damals überhaupt zugestimmt, dass ihre Bilder für Trainingszwecke genutzt werden dürfen?
Die dritte Frage ist logischerweise: Wie viele Bruchteile von US-Cents sollen die Anbieter als „Entschädigung“ erhalten?
Ich könnte jetzt eine Weile mit solchen Fragen weitermachen, aber betrachten wir erst mal andere Perspektiven.
Die Kunden-Sicht
Aus Kundensicht erschließt sich nicht sofort, warum sie KI-Bilder bei Shutterstock – sehr vermutlich gegen Geld – generieren sollten, wenn sie es bei OpenAI auch kostenlos machen können. Jeden Monat gibt es bei DALL‑E 2 kostenlos 15 Credits für je Bilderstellungen (1 Credit pro Bild), 115 weitere Credits kosten dann 15 USD, also ca. 13 US-Cent pro Bild.
Es könnte auch sein, dass Shutterstock diesen Preis noch mal unterbieten will.
Darüber hinaus gibt es aber gänzlich kostenlose KI-Tools wie Stable Diffusion (und passende GUIs), mit der Nutzer ihre Bilder komplett gratis erstellen können.
Der Vorteil wäre maximal, wenn Kunden mit Shutterstock eine Firma haben, die für eventuelle (rechtliche?) Probleme haften könnte. Ansonsten spekuliert Shutterstock vielleicht darauf, dass es genug Bestandskunden gibt, welche sich nicht die Mühe machen (wollen), sich bei einer Plattform wie Dall‑E 2 zu registrieren, um dort die Gratis-KI-Bilder zu nutzen.
Die Agentur-Sicht
Aus Sicht von Shutterstock ist es natürlich clever: Warum sollten sie diese nervigen Bildlieferanten bezahlen müssen, wenn sie den Kunden auch ohne den Umweg über die Fotografen Bilder verkaufen können?
Das geht natürlich nur, wenn gleichzeitig den Anbietern verboten wird, KI-generierte Bilder selbst zum Verkauf anzubieten, denn immerhin will das ja die Agentur übernehmen. Warum die angeblichen rechtlichen Risiken, welche als Grund für das Upload-Verbot vorgeschoben werden, plötzlich nicht mehr gegeben sind, wenn Shutterstock die KI-Bilder generiert, erschließt sich nicht ganz. Dazu später mehr.
Das Verbot ist augenscheinlich vor allem dazu da, um mehr Kunden zur agentureigenen KI-Generierung zu bewegen.
Zwar hat Shutterstock schon „Entschädigungen“ für die Shutterstock-Künstler angeboten, deren Werke zum Training der KI benutzt werden, aber machen wir uns nichts vor: Das werden pro Bild maximal etliche Stellen hinter dem Komma sein und auch in der Summe deutlich weniger sein als die Verluste, welche die Anbieter erleiden werden, weil Kunden keine Bilder aus dem Portfolio kaufen, sondern sich welche generieren lassen und die Fotografen auch selbst keine KI-Bilder verkaufen dürfen.
Zur Erinnerung: Als Getty Images 2013 einen Deal mit Pinterest machte, um die Getty-Fotografen für deren Bildnutzungen auf Pinterest zu entschädigen, erhielten diese zum Beispiel 0,00062 USD für das „weltweite Recht, Metadaten ihres Bildes auf Pinterest anzuzeigen und zu nutzen“, während Getty selbst sich immerhin noch 0,00411 USD in die Tasche steckte. Anders gerechnet: Bei 1000 Bildnutzungen waren das für den Fotografen 62 Cent und für Getty Images aber 4,11 USD.
Die Konkurrenz ist zudem groß: Auch Microsoft will DALL‑E in deren Suchmaschine Bing integrieren und hat eine neue App namens „Designer“, die Produkt- oder Firmennamen und die dazu passenden Bilder oder Logos generieren können soll.
Die Anbieter-Sicht
Für Shutterstock-Anbieter sind diese Nachrichten ausnahmslos schlecht. Die „Entschädigung“ ist ein armseliges Feigenblatt, hinter dem Shutterstock die Marginalisierung ihrer Lieferanten versteckt. In der Pressemitteilung wird ständig von „Ethik“ und „Verantwortung“ geredet, aber damit ist nicht die Rücksicht auf die Anbieter gemeint, sondern auf die der Shutterstock-Aktionäre.
Shutterstock hat halt endlich einen Weg gefunden, die lästigen 20% Fotografen-Kommissionen auch noch loszuwerden, um es lapidar zu formulieren.
Die genannte „Entschädigung“ soll aus einem „Contributor Fund“ kommen und alle sechs Monate ausgezahlt werden. Als Einnahmen dafür sollen sowohl die Lizenzgebühren für die KI-Inhalte als auch Einnahmen aus Datenverkäufen gezählt werden. Der Anteil für die Anbieter soll proportional sein zum Volumen ihrer Inhalte in den Datensätzen.
Wie das kontrolliert oder überprüft werden soll, ist auch völlig schleierhaft und vermutlich unmöglich ohne die Offenlegung des kompletten Datensatzes.
Wenn Shutterstock und Getty Images keine KI-Bilder haben wollen, wird es aber weiterhin genug andere Agenturen geben, welche diese mit Kusshand annehmen. Es drängen jetzt schon die ersten Bildagenturen auf den Markt wie StockAI, welche nur KI-Bilder anbieten und diese natürlich auch generieren können.
Die Künstler-Sicht
In der o.g. Pressemitteilung heißt es zum Schluss:
„Und in einem wichtigen Bestreben, die IP-Rechte seiner Künstler, Fotografen und Schöpfer zu schützen, ist Shutterstock weiterhin führend in der Entwicklung von Richtlinien und Verfahren und setzt Methoden ein, um sicherzustellen, dass Nutzungsrechte und ordnungsgemäße Lizenzen für alle vorgestellten Inhalte – einschließlich KI-generierter Inhalte – gesichert sind.“
DALL‑E wurde mit über 12 Milliarden Text/Bild-Kombinationen trainiert, während Shutterstock gerade mal 424 Millionen Bilder online hat. Das heißt im Umkehrschluss, der größte Teil des Trainings wurden mit Bildern von Künstlern gemacht, die nicht bei Shutterstock sind. Das ganze Gerede vom „Schützen von IP-Rechten“ bezieht sich aber nur auf die Shutterstock-Anbieter, der große Rest kann zusehen, wie für die KI-Trainings „entschädigt“ wird.
Das zeigt auch gut die Heuchelei von Shutterstock. Angeblich weil bei KI-Inhalten alle Künstler entschädigt werden müssten, dürfen Anbieter keine KI-Inhalte hochladen, aber wenn Shutterstock selbst via API einen Zugang zu OpenAI’s DALL‑E anbietet, werden ebenfalls nicht alle Künstler entschädigt.
Die rechtliche Sicht
Ist die Entschädigung von Künstlern, deren Werke für das KI-Training benutzt wurden, rechtlich gesehen überhaupt notwendig? Ich weiß es ehrlich gesagt nicht. Einige meinen, das sei eine klassische „fair use“-Nutzung, andere sehen es nicht so.
Mal angenommen, rechtlich wäre eine Entschädigung nicht notwendig: Dann fallen Shutterstocks Argumente, warum sie keine KI-Bilder annehmen wollen, in sich zusammen.
Wenn eine Entschädigung rechtlich aber doch notwendig wäre: Dann ist vollkommen unbegreiflich, warum sich diese erstens nur auf Shutterstock-Künstler beschränken sollte (und nicht z.B. auf Künstler wie Greg Rutkowski) und zweitens warum diese nicht stattfindet, wenn Bilder direkt bei DALL‑E generiert werden statt über deren API zu Shutterstock.
Es ist also so oder so ein großes unlogisches Konstrukt, welches sich am besten dadurch erklärt, dass es Shutterstock eben nicht um die Belange der Künstler, sondern nur um den eigenen Profit geht.
Spannend auch, dass der Getty Images-CEO Craig Peters KI-Bilder u.a. deshalb in seiner Agentur verbietet, weil sie rechtliche Probleme für die Kunden mit sich bringen könnten. Warum das anders sein soll, wenn Shutterstock Kunden KI-Bilder generieren lässt, ist ein großes Rätsel.
Eine mögliche Lösung wäre, dass die OpenAI-KI ausschließlich auf Shutterstock-Bildern trainiert wurde, für die sowohl Shutterstock die Einwilligung aller Rechteinhaber zum Training hatte als auch OpenAI diese Rechte lizenziert habe. In den aktuellen Shutterstock-AGB von 2020 steht beispielsweise, dass Shutterstock das Recht zur Bildanalyse unterlizenzieren darf. Aber selbst wenn OpenAI jedes einzelne Bild aus der Shutterstock-Datenbank lizenziert habe, würde das bei vermutlich weitem nicht ausreichen, um als alleinige Datenbasis für das KI-Training zu dienen.
Aber vielleicht liege ich damit auch falsch und es ist sogar ein Vorteil, weil die Shutterstock-Bilder alle eine hohe Auflösung haben und im Vergleich zu anderen Bildern meist recht gut verschlagwortet sind.
Auch die EU hat im Blick, dass die Künstliche Intelligenz gefährlich sein könnte und arbeitet an einer „KI-Verordnung“. Ob solche Verordnungen aber den aktuellen Graubereich der Legalität von urheberrechtlich geschützten Werken für KI-Trainingszwecke regulieren werden, bleibt abzuwarten.
Die politische Sicht
Shutterstock wurde 2019 von den eigenen Mitarbeitern kritisiert, dass die Agentur in China Suchbegriffe wie „Flagge Taiwans“, „Diktator“, „Präsident Xi“ oder „Regenschirm“ gesperrt habe.
Sehr spannend ist hier jetzt die Frage, ob diese Begriffe dann auch bei der KI-Generierung in China gesperrt sein werden oder nicht.
Auch andere Begriffe, zum Beispiel sexueller oder gewaltverherrlichender Natur, könnten gesperrt werden, um sich weniger Haftungsfragen aussetzen zu müssen.
Die technische Sicht
Viele der genannten Tools sind aktuell noch im Beta-Stadium und sie entwickeln sie unglaublich rasant. Es ist vermutlich nur eine Frage der Zeit, bis Methoden wie das In- und Outpainting von DALL‑E 2 auch in Grafikprogramm wie Adobe Photoshop Einzug halten werden oder es WordPress-Plugins geben wird, welche auf Knopfdruck zum Artikeltext passende Bilder generieren.
Auch das Trainieren der KI zum Generieren vom eigenen Gesicht (oder das von Kundengesichtern) ist jetzt schon möglich und wird bald sicher noch einfacher machbar sein.
Was noch?
Ganz wilde Zeiten also mit viel Unsicherheit, Abwehrreaktionen etablierter Künstler, rechtlichen Grauzonen, dem Zusammenbruch bestehender und Aufbau neuer Geschäftsmodelle und mittendrin Bildagenturen, Fotografen und KI-Anbieter.
Es gibt noch etliche Aspekte, die hier nicht untergebracht werden konnte, das kommt bestimmt bald in einem weiteren Artikel.