Schlagwort-Archive: KI

Panthermedia erlaubt jetzt auch den Upload von KI-Bildern

Nur gut zwei Wochen nach der Bekanntgabe von Adobe, dass Adobe Stock nun durch Künstliche Intelligenz erzeug­te Bilder akzep­tie­re, hat auch die Bildagentur Panthermedia bekannt gege­ben, dass sie nun KI-​Material annehmen.

Der Newsletter von Panthermedia im Wortlaut

Die Voraussetzungen lesen sich im Grunde fast iden­tisch wie die von Adobe Stock, mit der Ausnahme, dass die Bilder im Titel statt des Hinweises „Generative AI“ nun „AI gene­ra­ted image“ ent­hal­ten sollen.

Da drängt sich etwas der Verdacht auf, dass hier ein­fach die Entscheidung von Adobe Stock nach­ge­ahmt wur­de, was ich aber inhalt­lich begrü­ßens­wert finde.

Unter dem Reiter „KI-​Bilder“ fin­den sich auf der Startseite von Panthermedia jedoch bis­her nur knapp 2.500 künst­lich erzeug­te Portraits, wel­che vor unge­fähr einem Jahr vor­ge­stellt wur­den. Das kann sich natür­lich bald ändern.

Wie funktioniert Bilderstellung durch Künstliche Intelligenz genau? Eine Erklärung am Beispiel von Stable Diffusion

Das Jahr 2022 war der Durchbruch der Bilderstellung durch Künstliche Intelligenz (KI), weil Projekte wie Dall‑E, Stable Diffusion oder Midjourney der brei­ten Öffentlichkeit zugäng­lich wurden.

Auch ich habe hier im Blog schon eini­ge Beiträge über KI-​Bilder geschrie­ben, aber bis­her noch nicht von Grund auf erklärt, wie die KI-​Bildgenerierung funktioniert.

Das Thema „Artificial Intelligence“ inter­pre­tiert von der KI-​Engine Stable Diffusion

Das ist aber essen­ti­al für das Verständnis der aktu­el­len Debatten um Urheberrechte, Bilderdiebstahl und die ethi­schen Auswirkungen der neu­en Technik.

Daher hier ein kur­zer Exkurs in die Geschichte der KI-Bilderstellung.

Bild-​zu-​Text-​Erkennung

Um 2015 her­um lern­ten maschi­nell trai­nier­te Algorithmen, Objekte in vor­han­de­nen Bildern zu benen­nen. Das ken­nen Fotografen sicher von Lightroom, Google Images oder Facebook, wo die Software oder Webseite auto­ma­tisch erkennt, wel­che Dinge grob auf einem Bild sicht­bar sind. Zusätzlich lern­ten die Algorithmen schnell, die beschrie­be­nen Objekte in einen les­ba­ren Satz umzu­wan­deln. Aus „Frau, Handy, lachen“ wur­de also „Eine lachen­de Frau am Handy“.

Text-​zu-​Bild-​Erkennung

Findige Forscher dach­ten nun, dass die­ser Prozess auch umkehr­bar sein müss­te. Sie kom­bi­nier­ten hier – sehr ver­ein­facht gespro­chen – die obi­ge Technologie mit einem Entrauschungsverfahren, wel­ches wie­der­um mit obi­ger Technologie auf Genauigkeit getes­tet wurde.

Im Grunde trai­nier­ten sich zwei ver­schie­de­ne KIs gegen­sei­tig. Die ers­te KI nahm zufäl­lig erzeug­tes Bildrauschen und ver­such­te, aus der Texteingabe ein Bild zu erzeu­gen. Die zwei­te KI ver­such­te, aus dem erzeug­ten Bild zu erra­ten, was dar­auf erkenn­bar ist. Wenn die zwei­te KI der ers­ten bestä­tig­te, dass sie „die lachen­de Frau am Handy“ erkannt hat, spei­cher­te sich die ers­te KI einen Pluspunkt für das Entrauschungsmuster und schlug ein neu­es vor. Nach vie­len Millionen Trainingsrunden wur­de die ers­te KI durch die­se Tests immer treff­si­che­rer bei der Umwandlung von Texten zu Bildern.

Massenhafte Text-​zu-​Bild-​Erkennung

Die obe­re Methode funk­tio­niert zwar prin­zi­pi­ell, hat aber einen Haken. Sie ist lang­sam und setzt natür­lich irgend­wie vor­aus, dass irgend­je­mand mas­sen­haft Texteingaben der KI zum Trainieren vor­setzt, damit sie spä­ter weiß, wel­che Begriffe wie bild­lich umge­setzt werden.

Forscher nutz­ten des­halb einen Trick, der heu­te einer der Grundprobleme bei der Akzeptanz von KI-​Bilder-​Tools ist: Sie grün­de­ten das „Large-​scale Artificial Intelligence Open Network“ (Groß ange­leg­tes offe­nes Netz für künst­li­che Intelligenz), kurz LAION.

LAION ist ein gemein­nüt­zi­ger Verein, wel­cher mas­sen­haft Daten aus dem Internet sam­melt, um damit KIs zu trai­nie­ren. Diese Daten wer­den nach Typ und Qualität sor­tiert. So gibt es zum Beispiel das „LAION-​5B“-Set, wel­ches 5,85 Milliarden Text-​Bild-​Kombinationen in allen mög­li­chen Sprachen zusam­men­ge­fasst hat, das „LAION-​400M“-Set mit 400 Millionen Text-​Bild-​Kombinationen in eng­li­scher Sprache oder das „LAION-​Aesthetics“-Set, wel­ches eine Untergruppe von „LAION-​5B“ ist, wel­ches nur ästhe­tisch anspre­chen­de Bilder ent­hal­ten soll.

In der Praxis wur­den neben der Bild-​URL und der Beschreibung noch ande­re Kriterien gespei­chert, wel­che eben­falls durch eine KI erzeugt wur­den, wie Qualität der Beschreibung oder wie wahr­schein­lich das Bild „NSFW“ (not safe for work) ist, also nicht jugendfrei.

Der Knackpunkt ist hier, dass der Verein also hau­fen­wei­se Bilder gespei­chert hat, um sie der Forschung zugäng­lich zu machen. Wie soll die KI aber genau wis­sen, was auf den Bildern zu sehen ist? Dafür nutz­ten die Forscher die häu­fig vor­han­de­nen Metadaten, wel­che Fotografen, Künstler oder SEO-​Firmen an die Bilder ange­hängt hat­ten, damit Suchmaschinen die Bilder bes­ser ein­ord­nen konnten.

Stockfotografen ken­nen das von der Bildbeschreibung, mit der sie ein Bild zusätz­lich mit des­sen Text-​Äquivalent ver­se­hen, damit Bildkunden es über die Suchfunktion der Bildagentur fin­den können.

Besonderen Wert hat­ten also die sorg­fäl­tig beschrif­te­ten Bilder, die als Futter für das KI-​Training genutzt wur­den und wei­ter­hin werden.

Die Erstellung vom latenten Raum

Wenn jetzt jemand einen Befehl in eine Bild-​KI ein­gibt, kopiert die KI nicht ein­fach stumpf Teile exis­tie­ren­der Bilder, son­dern die Informationen kom­men aus dem soge­nann­ten „laten­ten Raum“ (latent space). Dieser heißt so, weil die Objekte und Konzepte dort „latent“ vor­han­den sind. Der Computer weiß, wie etwas gene­riert wird, macht es aber erst, wenn eine bestimm­te Kombination abge­ru­fen wird.

Das KI-​Training kann mensch sich ähn­lich vor­stel­len wie Kleinkinder ihre Welt ent­de­cken. Woher wis­sen Kleinkinder, wenn sie ein Bilderbuch anse­hen, dass die gezeich­ne­ten Figuren ein Elefant, eine Giraffe und ein Ball sind?

Sie wis­sen es erst, wenn sie genug ver­schie­de­ne Versionen die­ser Dinge gese­hen haben, um die Gemeinsamkeiten abs­tra­hie­ren zu kön­nen. Ein Elefant ist zum Beispiel meist grau und groß, eine Giraffe gelb-​gescheckt mit einem lan­gen Hals und ein Ball rund und bunt.

Die KI hat das eben­falls so gelernt, nur eben an Millionen Bild-​Text-​Kombinationen. So ruft sie bei­spiels­wei­se alle Bilder auf, die mit dem Wort „Giraffe“ beschrif­tet sind, und ver­sucht, die Gemeinsamkeiten zu erken­nen. Beim Wort „Ball“ genau­so. Am Anfang rät sie ein­fach, aber je öfter sie es macht, des­to mehr erkennt sich bestimm­te Muster.

Die KI merkt jedoch, dass bei­spiels­wei­se Farbe oder Form kein aus­rei­chen­des Kriterium für bestimm­te Objekte oder Konzepte sind, weil sich die­se ändern kön­nen. Bälle kön­nen zum Beispiel ver­schie­de­ne Farben haben, Elefanten ver­schie­de­ne Formen und so wei­ter. Daher ver­sucht die KI, mög­lichst vie­le ver­schie­de­ne Variablen zu kre­ieren und die Begriffe in so einem Koordinatensystem zu ver­or­ten. Dieses System hat deut­lich mehr als drei Dimensionen und wird als der „laten­te Raum“ bezeichnet.

Er ent­hält hun­der­te Variablen und deren Beziehungen zuein­an­der. So ent­steht ein mul­ti­di­men­sio­na­les Netzwerk aus Beziehungen, ähn­lich wie eine „sozia­le Netzwerkanalyse“. Die Variablen für „Spaghettieis“ wür­den da zum Beispiel irgend­wo zwi­schen denen für „Eiscreme“ und „Pasta“ lie­gen, in der Nähe von ande­ren kal­ten Objekten wie „Antarktis“ oder „Winter“, fern­ab von Objekten, wel­che mit „Härte“ asso­zi­iert sind. Das ist für den mensch­li­chen Geist schwer ver­ständ­lich, für moder­ne Computer aber kein Problem.

Vom latenten Raum zur stabilen Diffusion

Wie kriegt mensch aber nun neue Bilder aus die­sem laten­ten Raum? Durch die Texteingabe navi­giert der Mensch den Computer zu einer Stelle im mul­ti­di­men­sio­na­len Raumen, wo die Wahrscheinlichkeit am höchs­ten ist, dass die dor­ti­gen Variablen die Begriffe gut abdecken.

Nun kommt wie­der das obi­ge Entrauschungsverfahren zum Einsatz. Aus einem zufäl­li­gen Bildrauschen schärft der Computer in sehr vie­len Durchgängen das Chaos zu einer Anordnung, in wel­cher Menschen die gewünsch­ten Begriffe erken­nen kön­nen sol­len. Da die­ser Prozess zufalls­ba­siert ist, wird auch mit der glei­chen Texteingabe nie­mals exakt das glei­che Bild entstehen.

Diese zufalls­ba­sier­te Pixelstreuung heißt im Lateinischen „Diffusion“ und da das System sta­bil zwar kei­ne glei­chen, aber ähn­li­che Ergebnisse erzie­len kann, nennt sich die­ses Verfahren der KI-​Bilderstellung „Stable Diffusion“.

Auch wenn die glei­che Texteingabe in ein ande­res KI-​Modell gege­ben wird, wer­den sich die Ergebnisse unter­schei­den, weil das Bild dann durch ande­re Trainingsdaten in einem ande­ren „laten­ten Raum“ erzeugt wurde.

Der bis hier beschrie­be­ne Prozess wird gut visu­ell an einem Beispiel dar­ge­stellt in die­sem Artikel der Washington Post.

KI-​Ablehnung durch Missverständnis

Es gibt eini­ge KI-​Gegner, wel­che die KI-​Bilder ableh­nen, weil sie fälsch­li­cher­wei­se anneh­men, dass die KI-​Tools nur eine Art intel­li­gen­te Bildmontagen-​Maschine sind, wel­che Versatzstücke aus bestehen­den Bildschnipseln neu zusammensetzt.

Als „Beweis“ wer­den hier ger­ne die manch­mal sicht­ba­ren Wasserzeichen genannt, wel­che erkenn­bar bestimm­ten Bildagenturen zuge­ord­net wer­den kön­nen. Diese erge­ben sich jedoch aus der oben genann­ten Trainingsmethode. Die Agenturbilder sind für LAION beson­ders wert­voll gewe­sen, weil die­se beson­ders häu­fig beson­ders hoch­qua­li­ta­ti­ve Beschreibungen zu den Bildern hat­ten. Stockfotografen waren ja auf tref­fen­de Bildbeschreiben ange­wie­sen für häu­fi­ge Verkäufe. Das erklärt, war­um Bilder mit Agenturwasserzeichen beson­ders häu­fig für KI-​Trainingszwecke genutzt wurden.

Bei beson­ders „stock­las­ti­gen“ Motiven (den­ke an den „Business-​Handshake“) war also die Wahrscheinlichkeit hoch, dass die KI lern­te, dass sol­che Wasserzeichen irgend­wie nor­mal sei­en für das Motiv und dem­entspre­chend „dazu­ge­hör­ten“. Also ver­sucht die KI, die­se Wasserzeichen mit zu reproduzieren.

Die rechtlichen Implikationen dieser Methode

Aber auch ohne das obi­ge Missverständnis gibt es genug berech­tig­te Kritik. So wer­fen Kritiker der LAION vor, mil­lio­nen­fach die urhe­ber­recht­lich geschütz­ten Werke zu Trainingszwecken genutzt zu haben, ohne dass die Künstler dafür irgend­wie ent­schä­digt wur­den. LAION beruft sich zur Verteidigung dar­auf, dass sie eine gemein­nüt­zi­ge Organisation (ein­ge­tra­ge­ner deut­scher Verein) sei, wel­che nur zu Forschungszwecken arbeite.

Angesichts der Finanzierung die­ses gemein­nüt­zi­gen Vereins durch kom­mer­zi­el­le Firmen wie u.a. Stability AI, wel­che die Entstehung des LAION-5B“-Datensets finan­ziert haben und es letzt­end­lich in ihrer KI „Stable Diffusion“ nut­zen, ist das ein wack­li­ges Argument.

KI-​Befürworter wei­sen dar­auf hin, dass die KI bei ihrem Training im Grunde ver­gleich­bar sei mit dem Vorgehen von Google. Google hat­te jah­re­lang mas­sen­haft urhe­ber­recht­lich geschütz­te Bücher und ande­re Texte ein­ge­scannt, um Ausschnitte davon in deren Dienst „Google Books“ zu nut­zen. 2015 urteil­te der us-​amerikanische obers­te Gerichtshof, dass die­ses Vorgehen legal und von der „Fair Use“-Klausel gedeckt sei.

Auch die Frage, wie der recht­li­che Status der durch die KI erstell­ten Bilder zu bewer­ten ist, ist noch völ­lig offen und wird ver­mut­lich bald von eini­gen Gerichten geklärt wer­den müssen.

Die moralischen Probleme vom latenten Raum

Da das KI-​Training im laten­ten Raum qua­si ohne mensch­li­che Eingriffe geschah, hat die KI eini­ge Erkenntnisse gewon­nen, die wir Menschen pro­ble­ma­tisch hal­ten könnten.

Bestehende Vorurteile, Fehler oder dis­kri­mi­nie­ren­de Praktiken wer­den von de KI unge­fil­tert ein­fach über­nom­men und danach wie­der­ge­ge­ben. Wer sich bei den KI-​Tools bei­spiels­wei­se Bilder von einem „CEO“ gene­rie­ren lässt, wird haupt­säch­lich älte­re wei­ße Männer erhal­ten, Bilder von „Krankenpflegern“ hin­ge­gen wer­den vor allem weib­lich sein. Auch der Fokus auf die eng­li­sche Sprache schließt vie­le anders­spra­chi­ge Kulturen und Traditionen stark aus. Versucht bei­spiels­wei­se mal ein „Sankt Martin“-Bild durch die KI erzeu­gen zu lassen…

Stable Diffusion ver­sucht sich an der Darstellung eines „CEO“…
…und einer Krankenschwester („nur­se“)
Die KI schei­tert an der Darstellung des Begriffs „Sankt Martin“

Branchen im Wandel

Ungeachtet der noch unge­lös­ten recht­li­chen und mora­li­schen Probleme der KI-​Bilderzeugung hat die Technologie jedoch das Potential, gesam­te Branchen auf den Kopf zu stel­len, ver­gleich­bar mit der Erfindung des Fotoapparats.

Auch hören die Forscher längst nicht bei der Bilderzeugung auf. Mit „ChatGPT“ gibt es von den DALL-​E-​Machern schon eine funk­ti­ons­fä­hi­ge Chat-​KI wel­che auf Zuruf län­ge­re Texte schreibt. Andere Firmen arbei­ten an Text-​zu-​Video-​Generatoren, Text-​zu-​3D-​Objekt-​Generatoren und so wei­ter. Werden eini­ge der bestehen­den Technologien kom­bi­niert, bei­spiels­wei­se die Chat-​KI mit einer Video-​KI und einer Sprach-​KI, so könn­ten auf Knopfdruck bald indi­vi­dua­li­sier­te Spielfilme erzeugt wer­den. Die Entwicklungen hier wer­den in einem atem­be­rau­ben­den Tempo veröffentlicht.

Ist die Funktionsweise der gene­rie­ren­den KIs etwas kla­rer gewor­den? Was ver­steht ihr ggf. noch nicht?

Adobe Stock gibt Richtlinien für das Hochladen von KI-​generierten Bildern bekannt

Nach Getty Images und Shutterstock gab nun Adobe Stock als drit­te gro­ße Bildagentur ihre neu­en Richtlinien über den Umgang mit KI-​Bildern heraus.

Der Standpunkt von Adobe Stock ist dabei deut­lich libe­ra­ler als der der ande­ren Agenturen: Adobe akzep­tiert ab sofort offi­zi­ell Illustrationen, die mit gene­ra­ti­ven KI-​Modellen erstellt wur­den – oder ein­fa­cher: KI-​generierte Bilder. 

Eins mei­ner KI-​Bilder bei Adobe Stock

Die neu­en Einreichungsrichtlinien sol­len sicher­stel­len, dass die Nutzer KI-​Inhalte kor­rekt und ver­ant­wor­tungs­voll ver­wen­den. Diese Richtlinien kön­nen voll­stän­dig hier nach­ge­le­sen werden. 

Hier eini­ge der wich­tigs­ten Punkte:
Dabei gehört zuerst die Markierung des betrof­fe­nen Materials. Neue KI-​Bilder sol­len von den Anbietern im Titel und in den Schlagworten mit „Generative AI“ gekenn­zeich­net wer­den, damit Kunden die­se als sol­che erken­nen können.

Alle KI-​Bilder, auch wenn sie foto­rea­lis­tisch aus­se­hen, sol­len als „Illustration“ ein­ge­reicht wer­den. Die Nutzungsbedingungen der ver­wen­de­ten KI-​Engine müs­sen natür­lich die vol­len kom­mer­zi­el­len Rechte gewäh­ren. Hier gilt es das Kleingedruckte zu lesen und auf even­tu­el­le Änderungen zu achten.

Weiterhin sind – wie schon bis­her – Einreichungen nicht zuläs­sig, die Inhalte von Dritten ent­hal­ten, wie z. B. erkenn­ba­re Gesichter oder Warenzeichen (wie Marken oder Logos) oder sogar Stile ande­rer Künstler.

Vor allem letz­te­res ist ver­mut­lich in der Praxis schwer abgrenz­bar, aber immer­hin wird der Versuch unternommen.

Wenn erkenn­ba­re Personen (z.B. Prominente) in den KI-​Bildern ent­hal­ten sind oder geschütz­te Plätze oder Orte, wird dafür ein Model Release bzw. Property Release ver­langt oder die Bilder kön­nen eben nicht ein­ge­reicht wer­den (auch nicht als „redak­tio­nel­les Material“). Eine lan­ge Liste der bekann­ten Einschränkungen gibt es hier als Übersicht.

Für alt­ge­dien­te Stock-​Lieferanten ist das nichts Neues, aber da durch die neu­en KI-​Tools noch mal eine ganz ande­re Nutzergruppe plötz­lich auf dem Stock-​Markt mit­macht, ist es sicher sinn­voll, dar­auf noch mal aus­drück­lich hinzuweisen.

Weitere Pläne von Adobe in Richtung KI-Bilderstellung

Auf der „Adobe Max 2022“ Konferenz vor eini­gen Wochen hat­te eini­ge wei­te­re KI-​bezogene Ankündigungen gemacht. Zum einen arbei­tet Adobe an einer neu­en digi­ta­len Provenance-​Technologie, die alle rele­van­ten Details über die Quelle einer Mediendatei direkt in die Datei ein­be­zieht. Diese Technologie wur­de von der Content Authenticity Initiative (CAI) ent­wi­ckelt, die das Unternehmen eben­falls gegrün­det hat und von der es hofft, dass sie zu einem Branchenstandard wird. 

Zum ande­ren gab Adobe bekannt, an einer eige­nen KI-​Software zu arbei­ten, die bald in die Creative-​Cloud-​Apps wie Adobe Express und Photoshop inte­griert wer­den soll. Einige beein­dru­cken­de Demos gibt es in die­sem Video (ab Minute 1:30 geht es los, für die ganz Ungeduldigen):

Viele der Features, z.B. das In-​Painting oder Out-​Painting gibt es auch bei den frei ver­füg­ba­ren KI-​Tools wie Stable Diffusion, aber die Einbettung direkt in Photoshop macht die Bedienung noch mal deut­lich kom­for­ta­bler und intuitiver.

Was sagt ihr zu den neu­en Richtlinien?
Gibt es etwas, was euch im Bereich „Bilderstellung durch Künstliche Intelligenz“ beson­ders inter­es­siert? Welche Fragen bren­nen auch unter den Nägeln?

Getty Images kündigt ebenfalls KI-​Tools für Bildnutzer an in Zusammenarbeit mit BRIA

Die welt­größ­te Bildagentur Getty Images hat­te wie Shutterstock vor einer Weile unter­sagt, KI-​Bilder in deren Portfolio hoch­zu­la­den. Nachdem Shutterstock danach ange­kün­digt hat­te, den Kunden selbst die Möglichkeit zu geben, KI-​Bilder zu gene­rie­ren, zog Getty Images nun mit einer ähn­li­chen Ankündigung nach.

Getty Images wird in Zukunft mit der Firma BRIA koope­rie­ren. BRIA eine jun­ge israe­li­sche Firma, wel­che erst 2020 gegrün­det und von eini­gen Finanzinvestoren unter­stützt wird.

Ich habe den Absatz „deve­lo­ping tools that harness the power of AI and demo­cra­ti­ze the crea­ti­ve pro­cess“ aus der Pressemitteilung genom­men und einer KI über­ge­ben, wel­che dar­aus obi­ges Bild gene­riert hat

BRIA ist eine Firma, wel­che sich auf die Entwicklung von gene­ra­ti­ven KI-​Tools spe­zia­li­siert hat. Die Firma arbei­tet an einer Plattform, wel­che sich auf die Anpassung von Bildersuchen und Generierung von Bildern und Videos konzentriert.

Die Pressemitteilung selbst strotzt nur so vor lee­ren Worthülsen. Beispiele gefällig?

Ziel ist es, Kreativen die Möglichkeit zu geben, ihre Bilder mit­hil­fe intui­ti­ver KI-​Tools auf der Plattform von Getty Images an ihre spe­zi­fi­schen Bedürfnisse anzupassen.“

oder:

Getty Images wird Funktionen ein­füh­ren, die den Nutzern Zugang zu hoch­mo­der­nen, ethi­schen, gene­ra­ti­ven KI-​gesteuerten Tools geben, die ihre Kreativität erwei­tern und ihre Effizienz verbessern.“

So geht das eine gan­ze Seite lang, wer will, kann die Mitteilung hier im Original lesen.

Das Demo-​Video von BRIA bei YouTube zeigt immer­hin etwas mehr, was deren KI leis­ten kön­nen soll:

Auf der Bria.ia-Webseite gibt es wei­te­re Promo-​Videos, wel­che zei­gen, wie bei einem Foto Hintergründe aus­ge­tauscht wer­den, der Gesichtsausdruck oder die Haare eines Models ver­än­dert wer­den und dann das gan­ze Bild ani­miert wird. Auch wird aus einem Bild ein ani­mier­tes Video gene­riert und so weiter.

Es ist jetzt nur eine rei­ne Vermutung mei­ner­seits, aber ich kann mir sehr gut vor­stel­len, dass Getty Images den Kunden genau sol­che Features anbie­ten will. Natürlich gegen einen Aufpreis, den sich Getty kom­plett in die eige­ne Tasche ste­cken wird. Bzw. mit BRIA tei­len wird, aber ver­mut­lich nicht mit den Fotografen. Hoffen wir, dass ich mich irre, denn in der oben zitier­ten Pressemitteilung wird auch betont, wie wich­tig „ethi­sche Standard“ sind und wie sehr die Firmen „geis­ti­ges Eigentum respek­tie­ren“.

Shutterstock verbietet Upload von KI-​Bildern und will gleichzeitig selbst KI-​Bilder anbieten

Meine geplan­ten Artikel zu den neus­ten KI-​Entwicklungen sind noch nicht mal fer­tig, da plat­zen stän­dig auf­re­gen­de Neuigkeiten her­ein. Die Nachricht vom 25.10.2022 von Shutterstock kann ich hier aber nicht igno­rie­ren, da sie einen wil­den Mix von Konsequenzen nach sich zieht, den ich hier ver­mut­lich nur ansatz­wei­se beleuch­ten kann.

Aber ver­su­chen wir es der Reihe nach: Shutterstock hat vor weni­gen Tagen die­se Pressemitteilung ver­öf­fent­licht, in der die Firma die Partnerschaft mit dem Unternehmen OpenAI ver­kün­det, wel­che hin­ter dem KI-​Tool DALL‑E ste­cken. Hinter OpenAI ste­cken übri­gens u.a. Elon Musk als Gründer und Microsoft als Investor.

Bild von DALL‑E 2 gene­riert mit der Beschreibung „A tor­na­do made of cash hit­ting a government building“

Zeitgleich gab es eine Rundmail an alle Shutterstock-​Anbieter, in der zusätz­lich zur obi­gen Information eine eben­so wich­ti­ge wei­te­re Nachricht steck­te: Shutterstock will kei­ne KI-​generierten Inhalte mehr auf ihrem Marktplatz anbie­ten, mit der Begründung, dass „die Urheberschaft nicht einer ein­zel­nen Person zuge­ord­net wer­den kann, wie es für die Lizenzierung von Rechten erfor­der­lich ist“.

Oder hier im Hilfebereich von Shutterstock noch aus­führ­li­cher begrün­det: „KI-​generierte Inhalte dür­fen nicht auf Shutterstock hoch­ge­la­den wer­den, da KI-​Inhaltsgenerierungsmodelle das geis­ti­ge Eigentum vie­ler Künstler und ihrer Inhalte nut­zen, was bedeu­tet, dass das Eigentum an KI-​generierten Inhalten nicht einer Einzelperson zuge­wie­sen wer­den kann und statt­des­sen alle Künstler ent­schä­digt wer­den müs­sen, die an der Erstellung jedes neu­en Inhalts betei­ligt waren“.

Diese Kombination von Aussagen wirft so vie­le Fragen auf, dass ich gar nicht weiß, wo ich anfan­gen soll.

Gehen wir mal in der Zeit etwas zurück: Shutterstock koope­riert schon seit 2021 mit der Firma OpenAI, indem OpenAI Shutterstock-​Bilder lizen­ziert hat, um das Tool DALL‑E zu trai­nie­ren. Der CEO von OpenAI, Sam Altman, sagt dazu in der Pressemitteilung:

Die Daten, die wir von Shutterstock lizen­ziert haben, waren ent­schei­dend für das Training von DALL‑E. Wir freu­en uns, dass Shutterstock sei­nen Kunden die DALL-​E-​Bilder als eine der ers­ten Anwendungen über unse­re API zur Verfügung stellt, und wir freu­en uns auf künf­ti­ge Kooperationen, wenn künst­li­che Intelligenz ein inte­gra­ler Bestandteil der krea­ti­ven Arbeitsabläufe von Künstlern wird.“

In weni­gen Monaten sol­len Shutterstock-​Kunden in der Lage sein, mit Hilfe von OpenAI direkt auf der Shutterstock-​Webseite durch Texteingabe Bilder selbst gene­rie­ren zu können.

Im Gegenzug dafür sol­len die Shutterstock-​Anbieter für die Rolle, die ihre Inhalte bei der Entwicklung die­ser Technologie gespielt haben, ent­schä­digt werden.

Die ers­te Frage hier ist doch: Wurden die Shutterstock-​Anbieter auch für die Trainingsdaten, die seit 2021 von OpenAI lizen­ziert wur­den, entschädigt?

Die zwei­te Frage ist: Haben die Künstler, auf deren Eigentum Shutterstock angeb­lich so viel Wert lege, damals über­haupt zuge­stimmt, dass ihre Bilder für Trainingszwecke genutzt wer­den dürfen?

Die drit­te Frage ist logi­scher­wei­se: Wie vie­le Bruchteile von US-​Cents sol­len die Anbieter als „Entschädigung“ erhal­ten?

Ich könn­te jetzt eine Weile mit sol­chen Fragen wei­ter­ma­chen, aber betrach­ten wir erst mal ande­re Perspektiven.

Die Kunden-​Sicht

Aus Kundensicht erschließt sich nicht sofort, war­um sie KI-​Bilder bei Shutterstock – sehr ver­mut­lich gegen Geld – gene­rie­ren soll­ten, wenn sie es bei OpenAI auch kos­ten­los machen kön­nen. Jeden Monat gibt es bei DALL‑E 2 kos­ten­los 15 Credits für je Bilderstellungen (1 Credit pro Bild), 115 wei­te­re Credits kos­ten dann 15 USD, also ca. 13 US-​Cent pro Bild.

Es könn­te auch sein, dass Shutterstock die­sen Preis noch mal unter­bie­ten will.

Darüber hin­aus gibt es aber gänz­lich kos­ten­lo­se KI-​Tools wie Stable Diffusion (und pas­sen­de GUIs), mit der Nutzer ihre Bilder kom­plett gra­tis erstel­len können.

Der Vorteil wäre maxi­mal, wenn Kunden mit Shutterstock eine Firma haben, die für even­tu­el­le (recht­li­che?) Probleme haf­ten könn­te. Ansonsten spe­ku­liert Shutterstock viel­leicht dar­auf, dass es genug Bestandskunden gibt, wel­che sich nicht die Mühe machen (wol­len), sich bei einer Plattform wie Dall‑E 2 zu regis­trie­ren, um dort die Gratis-​KI-​Bilder zu nutzen.

Die Agentur-​Sicht

Aus Sicht von Shutterstock ist es natür­lich cle­ver: Warum soll­ten sie die­se ner­vi­gen Bildlieferanten bezah­len müs­sen, wenn sie den Kunden auch ohne den Umweg über die Fotografen Bilder ver­kau­fen können?

Das geht natür­lich nur, wenn gleich­zei­tig den Anbietern ver­bo­ten wird, KI-​generierte Bilder selbst zum Verkauf anzu­bie­ten, denn immer­hin will das ja die Agentur über­neh­men. Warum die angeb­li­chen recht­li­chen Risiken, wel­che als Grund für das Upload-​Verbot vor­ge­scho­ben wer­den, plötz­lich nicht mehr gege­ben sind, wenn Shutterstock die KI-​Bilder gene­riert, erschließt sich nicht ganz. Dazu spä­ter mehr.

Das Verbot ist augen­schein­lich vor allem dazu da, um mehr Kunden zur agen­tur­ei­ge­nen KI-​Generierung zu bewegen.

Zwar hat Shutterstock schon „Entschädigungen“ für die Shutterstock-​Künstler ange­bo­ten, deren Werke zum Training der KI benutzt wer­den, aber machen wir uns nichts vor: Das wer­den pro Bild maxi­mal etli­che Stellen hin­ter dem Komma sein und auch in der Summe deut­lich weni­ger sein als die Verluste, wel­che die Anbieter erlei­den wer­den, weil Kunden kei­ne Bilder aus dem Portfolio kau­fen, son­dern sich wel­che gene­rie­ren las­sen und die Fotografen auch selbst kei­ne KI-​Bilder ver­kau­fen dürfen.

Zur Erinnerung: Als Getty Images 2013 einen Deal mit Pinterest mach­te, um die Getty-​Fotografen für deren Bildnutzungen auf Pinterest zu ent­schä­di­gen, erhiel­ten die­se zum Beispiel 0,00062 USD für das „welt­wei­te Recht, Metadaten ihres Bildes auf Pinterest anzu­zei­gen und zu nut­zen“, wäh­rend Getty selbst sich immer­hin noch 0,00411 USD in die Tasche steck­te. Anders gerech­net: Bei 1000 Bildnutzungen waren das für den Fotografen 62 Cent und für Getty Images aber 4,11 USD.

Die Konkurrenz ist zudem groß: Auch Microsoft will DALL‑E in deren Suchmaschine Bing inte­grie­ren und hat eine neue App namens „Designer“, die Produkt- oder Firmennamen und die dazu pas­sen­den Bilder oder Logos gene­rie­ren kön­nen soll.

Bild von Stable Diffusion gene­riert mit der Beschreibung „A tor­na­do made of cash hit­ting a government building“

Die Anbieter-​Sicht

Für Shutterstock-​Anbieter sind die­se Nachrichten aus­nahms­los schlecht. Die „Entschädigung“ ist ein arm­se­li­ges Feigenblatt, hin­ter dem Shutterstock die Marginalisierung ihrer Lieferanten ver­steckt. In der Pressemitteilung wird stän­dig von „Ethik“ und „Verantwortung“ gere­det, aber damit ist nicht die Rücksicht auf die Anbieter gemeint, son­dern auf die der Shutterstock-Aktionäre.

Shutterstock hat halt end­lich einen Weg gefun­den, die läs­ti­gen 20% Fotografen-​Kommissionen auch noch los­zu­wer­den, um es lapi­dar zu formulieren.

Die genann­te „Entschädigung“ soll aus einem „Contributor Fund“ kom­men und alle sechs Monate aus­ge­zahlt wer­den. Als Einnahmen dafür sol­len sowohl die Lizenzgebühren für die KI-​Inhalte als auch Einnahmen aus Datenverkäufen gezählt wer­den. Der Anteil für die Anbieter soll pro­por­tio­nal sein zum Volumen ihrer Inhalte in den Datensätzen.

Wie das kon­trol­liert oder über­prüft wer­den soll, ist auch völ­lig schlei­er­haft und ver­mut­lich unmög­lich ohne die Offenlegung des kom­plet­ten Datensatzes.

Wenn Shutterstock und Getty Images kei­ne KI-​Bilder haben wol­len, wird es aber wei­ter­hin genug ande­re Agenturen geben, wel­che die­se mit Kusshand anneh­men. Es drän­gen jetzt schon die ers­ten Bildagenturen auf den Markt wie StockAI, wel­che nur KI-​Bilder anbie­ten und die­se natür­lich auch gene­rie­ren können.

Die Künstler-​Sicht

In der o.g. Pressemitteilung heißt es zum Schluss:

Und in einem wich­ti­gen Bestreben, die IP-​Rechte sei­ner Künstler, Fotografen und Schöpfer zu schüt­zen, ist Shutterstock wei­ter­hin füh­rend in der Entwicklung von Richtlinien und Verfahren und setzt Methoden ein, um sicher­zu­stel­len, dass Nutzungsrechte und ord­nungs­ge­mä­ße Lizenzen für alle vor­ge­stell­ten Inhalte – ein­schließ­lich KI-​generierter Inhalte – gesi­chert sind.“

DALL‑E wur­de mit über 12 Milliarden Text/​Bild-​Kombinationen trai­niert, wäh­rend Shutterstock gera­de mal 424 Millionen Bilder online hat. Das heißt im Umkehrschluss, der größ­te Teil des Trainings wur­den mit Bildern von Künstlern gemacht, die nicht bei Shutterstock sind. Das gan­ze Gerede vom „Schützen von IP-​Rechten“ bezieht sich aber nur auf die Shutterstock-​Anbieter, der gro­ße Rest kann zuse­hen, wie für die KI-​Trainings „ent­schä­digt“ wird.

Das zeigt auch gut die Heuchelei von Shutterstock. Angeblich weil bei KI-​Inhalten alle Künstler ent­schä­digt wer­den müss­ten, dür­fen Anbieter kei­ne KI-​Inhalte hoch­la­den, aber wenn Shutterstock selbst via API einen Zugang zu OpenAI’s DALL‑E anbie­tet, wer­den eben­falls nicht alle Künstler entschädigt.

Die rechtliche Sicht

Ist die Entschädigung von Künstlern, deren Werke für das KI-​Training benutzt wur­den, recht­lich gese­hen über­haupt not­wen­dig? Ich weiß es ehr­lich gesagt nicht. Einige mei­nen, das sei eine klas­si­sche „fair use“-Nutzung, ande­re sehen es nicht so.

Mal ange­nom­men, recht­lich wäre eine Entschädigung nicht not­wen­dig: Dann fal­len Shutterstocks Argumente, war­um sie kei­ne KI-​Bilder anneh­men wol­len, in sich zusammen.

Wenn eine Entschädigung recht­lich aber doch not­wen­dig wäre: Dann ist voll­kom­men unbe­greif­lich, war­um sich die­se ers­tens nur auf Shutterstock-​Künstler beschrän­ken soll­te (und nicht z.B. auf Künstler wie Greg Rutkowski) und zwei­tens war­um die­se nicht statt­fin­det, wenn Bilder direkt bei DALL‑E gene­riert wer­den statt über deren API zu Shutterstock.

Es ist also so oder so ein gro­ßes unlo­gi­sches Konstrukt, wel­ches sich am bes­ten dadurch erklärt, dass es Shutterstock eben nicht um die Belange der Künstler, son­dern nur um den eige­nen Profit geht.

Spannend auch, dass der Getty Images-CEO Craig Peters KI-​Bilder u.a. des­halb in sei­ner Agentur ver­bie­tet, weil sie recht­li­che Probleme für die Kunden mit sich brin­gen könn­ten. Warum das anders sein soll, wenn Shutterstock Kunden KI-​Bilder gene­rie­ren lässt, ist ein gro­ßes Rätsel.

Eine mög­li­che Lösung wäre, dass die OpenAI-​KI aus­schließ­lich auf Shutterstock-​Bildern trai­niert wur­de, für die sowohl Shutterstock die Einwilligung aller Rechteinhaber zum Training hat­te als auch OpenAI die­se Rechte lizen­ziert habe. In den aktu­el­len Shutterstock-​AGB von 2020 steht bei­spiels­wei­se, dass Shutterstock das Recht zur Bildanalyse unter­li­zen­zie­ren darf. Aber selbst wenn OpenAI jedes ein­zel­ne Bild aus der Shutterstock-​Datenbank lizen­ziert habe, wür­de das bei ver­mut­lich wei­tem nicht aus­rei­chen, um als allei­ni­ge Datenbasis für das KI-​Training zu dienen.

Aber viel­leicht lie­ge ich damit auch falsch und es ist sogar ein Vorteil, weil die Shutterstock-​Bilder alle eine hohe Auflösung haben und im Vergleich zu ande­ren Bildern meist recht gut ver­schlag­wor­tet sind.

Auch die EU hat im Blick, dass die Künstliche Intelligenz gefähr­lich sein könn­te und arbei­tet an einer „KI-​Verordnung“. Ob sol­che Verordnungen aber den aktu­el­len Graubereich der Legalität von urhe­ber­recht­lich geschütz­ten Werken für KI-​Trainingszwecke regu­lie­ren wer­den, bleibt abzuwarten.

Bild von Midjourney gene­riert mit der Beschreibung „A tor­na­do made of cash hit­ting a government building“

Die politische Sicht

Shutterstock wur­de 2019 von den eige­nen Mitarbeitern kri­ti­siert, dass die Agentur in China Suchbegriffe wie „Flagge Taiwans“, „Diktator“, „Präsident Xi“ oder „Regenschirm“ gesperrt habe.

Sehr span­nend ist hier jetzt die Frage, ob die­se Begriffe dann auch bei der KI-​Generierung in China gesperrt sein wer­den oder nicht.

Auch ande­re Begriffe, zum Beispiel sexu­el­ler oder gewalt­ver­herr­li­chen­der Natur, könn­ten gesperrt wer­den, um sich weni­ger Haftungsfragen aus­set­zen zu müssen.

Die technische Sicht

Viele der genann­ten Tools sind aktu­ell noch im Beta-​Stadium und sie ent­wi­ckeln sie unglaub­lich rasant. Es ist ver­mut­lich nur eine Frage der Zeit, bis Methoden wie das In- und Outpainting von DALL‑E 2 auch in Grafikprogramm wie Adobe Photoshop Einzug hal­ten wer­den oder es WordPress-Plugins geben wird, wel­che auf Knopfdruck zum Artikeltext pas­sen­de Bilder generieren.

Auch das Trainieren der KI zum Generieren vom eige­nen Gesicht (oder das von Kundengesichtern) ist jetzt schon mög­lich und wird bald sicher noch ein­fa­cher mach­bar sein.

Was noch?

Ganz wil­de Zeiten also mit viel Unsicherheit, Abwehrreaktionen eta­blier­ter Künstler, recht­li­chen Grauzonen, dem Zusammenbruch bestehen­der und Aufbau neu­er Geschäftsmodelle und mit­ten­drin Bildagenturen, Fotografen und KI-Anbieter.

Es gibt noch etli­che Aspekte, die hier nicht unter­ge­bracht wer­den konn­te, das kommt bestimmt bald in einem wei­te­ren Artikel. 

Was denkt ihr darüber?