Schlagwort-Archive: Künstliche Intelligenz

Ankündigung: Praxis-​Workshop „KI in der Berufsfotografie“ zusammen mit Silke Güldner am 02. Juni 2023 in Hamburg

Bilderstellung durch Künstliche Intelligenz führt zu tief­grei­fen­den Umwälzungen in der Kreativbranche und seit fast einem Jahr beschäf­ti­ge ich mich inten­siv mit die­sem Thema.

Zusammen mit mei­nem Team habe ich mitt­ler­wei­le ein Portfolio von über 3000 KI-​Bildern, wel­che ich bei Bildagenturen anbiete.

Die Neugier und der Lernwunsch bei Kreativen im Bereich KI sind hoch und daher freue ich mich, zusam­men mit der Fotografenberaterin Silke Güldner erst­ma­lig einen ganz­tä­gi­gen Praxis-​Workshop zum Thema „KI in der Berufsfotografie“ anbie­ten zu können:

Hintergründe & Möglichkeiten der KI-​Tools in der foto­gra­fi­schen Praxis mit KI-​Experte & Fotograf Robert Kneschke und Fotografenberaterin Silke Güldner 

Der Workshop bie­tet eine ein­zig­ar­ti­ge Gelegenheit, um tie­fer in die Welt der künst­li­chen Intelligenz ein­zu­tau­chen und ihre Anwendungsmöglichkeiten in der Fotografie zu ent­de­cken. Hier ler­nen Profi- und Nachwuchsfotografen die Funktionsweise und ver­schie­de­nen KI-​Tools ken­nen, kön­nen die­se im prak­ti­schen Teil selbst aus­pro­bie­ren und die­se für ihre eige­ne Positionierung im Markt reflek­tie­ren. Durch Diskussionen und den Austausch mit der Gruppe und den Referenten erhal­ten sie dar­über hin­aus auch Feedback und Inspirationen für ihre künf­ti­ge Arbeit und die Kommunikation mit ihren Kunden. Am Ende des Workshops sind die Teilnehmer bes­tens vor­be­rei­tet, um die Entwicklungen und Herausforderungen im Kontext von KI und Fotografie zu ver­ste­hen und zukünf­ti­ge Möglichkeiten zu nutzen.

Inhalte 

Einführung KI 

  • Wie funk­tio­niert KI-Bilderstellung 
  • Vorstellung der Tools Stable Diffusion, Dall‑E 2, Midjourney, Google Imagen 
  • Anwendungsmöglichkeiten, Unterschiede und Motivbeispiele 

Praxis Teil 1 

  • Anhand der Teilnehmer-​Portfolios spre­chen wir über Möglichkeiten, die KI für die eige­nen Ziele bie­ten kann und wann kon­ven­tio­nel­le Fotografie der bes­se­re Weg ist 
  • Portfolio Vorstellung der Teilnehmenden 
  • Vorteile und Nutzen von kon­ven­tio­nel­ler Fotografie gegen­über KI-​Lösungen in der Kundenberatung 

Praxis Teil 2 

  • Hands On & Live Demos 
  • Testen der KI-Tools 
  • Erläuterung von Prompt-​Engineering, In- and Outpainting 
  • Tools für den KI Workflow 
  • Überblick der Nutzungsmöglichkeiten & Best Practice Beispiele

Meta Themen 

  • Rechtliche & mora­li­sche Probleme der KI-Nutzung 
  • Veränderung der Berufsfotografie & Einfluss auf die Preisfindung 
  • Ausblick & Kooperationsmöglichkeiten“

Der Workshop wird am Freitag, den 02.06.2023 in Hamburg statt­fin­den, mehr Informationen zur Veranstaltung fin­det ihr hier auf der Webseite des Veranstalters Photo+Medienforum Kiel.

Die Teilnehmer*innen ist auf 8 begrenzt, also zögert nicht, euch bei Interesse recht­zei­tig euren Platz zu sichern.

Ich freue mich auf euch!

LAION-​Verein droht Urhebern, die ihre Daten aus KI-​Trainingssatz nehmen wollen mit Schadensersatzansprüchen

Letzten Monat hat­te ich in die­sem Artikel erklärt, wie die Künstliche Intelligenz am Beispiel von Stable Diffusion funktioniert.

Darin kam der Verein LAION e.V. zur Sprache, wel­cher etli­che rie­si­ge Datenpakete anbie­tet, mit wel­chen KIs trai­niert wer­den. Eines die­ser Pakete heißt z.B. LAION 5B, weil es ca. 5,85 Millarden („5,85 Billions“ im Englischen, daher 5B) Datensätze umfasst.

Ein Datensatz besteht zum Beispiel aus der URL zu einer Bilddatei, der dazu­ge­hö­ri­gen Bildbeschreibung, den Bildmaßen in Pixeln, der ver­wen­de­ten Sprache sowie eini­ger ande­rer Faktoren.

Anfangs war weni­gen Leuten bekannt, wel­che Bilder genau im Datenset ent­hal­ten waren. Aber die Künstler Mat Dryhurst, Holly Herndon und Jordan Meyer grün­de­ten die Firma Spawning, wel­che wie­der­um die Webseite „Have I Been Trained?“ ins Leben riefen.

Dort kön­nen Leute – ver­ein­facht erklärt – die oben genann­ten Bildbeschreibungen durch­su­chen, um zu sehen, wel­che Bilder in den KI-​Trainingssets ent­hal­ten sind.

Viele Urheber nutz­ten die Webseite und fan­den wenig über­ra­schend vie­le Treffer. Auch aus mei­nem Portfolio konn­te ich nach einer kur­zen Stichprobe hau­fen­wei­se Bilder fin­den, haupt­säch­lich mit Wasserzeichen aus den Bildagentur-​Portfolios, aber auch von Kundenseiten oder Webseiten, die selbst ille­gal Bildersammlungen anbieten:

Haufenweise Links zu mei­nen Fotos aus mei­nem Shutterstock-​Portfolio im LAION-Datensatz

In den Kommentaren eines mei­ner Social Media-​Profile las ich den Hinweis eines Fotografen, dass der den Verein LAION gebe­ten hat­te, sei­ne Werke aus den Trainingsdaten zu neh­men und als Antwort mit Schadensersatzansprüchen bedroht wur­de, soll­te er auf sei­nem Anliegen beharren.

Das kam mir wie eine wil­de Geschichte vor, bis ich die Fakten über­prüf­te. Ich nahm Einsicht in den Schriftsatz der Anwaltskanzlei und schick­te am 13.02.2023 selbst eine Anfrage an LAION e.V. per Email mit der Bitte, mei­ne Werke aus dem Trainingssatz zu entfernen.

Nur einen Tag spä­ter erhielt ich am 14.02.2023 tat­säch­lich Post („vor­ab per Email“) von der Hannover Anwaltskanzlei „Heidrich Rechtsanwälte“ im Auftrag von LAION e.V., übri­gens fast wort­gleich mit dem Schreiben, wel­ches ich von dem ande­ren Fotografen wei­ter­ge­lei­tet bekom­men habe.

In dem Schreiben heißt es:

Sehr geehr­ter Herr Kneschke,

hier­mit zei­gen wir an, dass wir die recht­li­chen Interessen des LAION e.V., Herman-​Lange-​Weg 6, 21035 Hamburg, ver­tre­ten. Die ord­nungs­ge­mä­ße Bevollmächtigung wird anwalt­lich versichert.

Grund unse­res Schreibens ist Ihre E‑Mail vom 13. Februar 2023 an unse­re Mandantin, wel­che uns die­se zur Beantwortung vor­ge­legt hat.

  1. Bei unse­rer Mandantin han­delt es sich um einen im Vereinsregister ein­ge­tra­ge­nen, nicht-​gewinnorientierten Verein, der es sich zur Aufgabe gemacht hat, selbst­ler­nen­de Algorithmen im Sinne künst­li­cher Intelligenz fort­zu­ent­wi­ckeln und der brei­ten Öffentlichkeit zur Verfügung zu stel­len. Die Vereinsmitglieder sowie der Vorstand sind im Rahmen der Vereinsarbeit ehren­amt­lich for­schend tätig.

    Unsere Mandantin hat bereits im Sommer 2022 umfang­reich Rechtsrat zu ver­schie­de­nen Problemstellungen – ins­be­son­de­re urhe­ber­recht­li­chen Implikationen – im Zusammenhang mit ihrer Tätigkeit auf dem Gebiet der Erforschung von Kl-​gestützten Bildgenerierungsmodellen ein­ge­holt. Unserer Mandantin war es von Anfang an wich­tig, dass im Rahmen ihrer Tätigkeit kei­ne Rechte Dritter ver­letzt wer­den. Unsere Mandantin hält sich aus­nahms­los an die bestehen­den gesetz­li­chen Vorgaben, ins­be­son­de­re aus dem Urheber- und Datenschutzrecht.
  2. Unsere Mandantin unter­hält ledig­lich eine Datenbank, die Links zu im Internet öffent­lich abruf­ba­ren Bilddateien ent­hält. Sie kann zwar nicht aus­schlie­ßen, dass in der Datenbank auch Links zu Bildern ent­hal­ten sind, deren Urheber Sie sind. Da unse­re Mandantin aber jeden­falls kei­ne der von Ihnen monier­ten Fotografien spei­chert, besteht Ihrerseits auch kein Anspruch auf Löschung. Es exis­tie­ren bei unse­rer Mandantin schlicht kei­ne Bilder, die gelöscht wer­den könn­ten.

    Das Bereitstellen von Links stellt nach der höchst­rich­ter­li­chen Rechtsprechung auch kei­ne Verletzung von Urheberrechten dar. Das Bereitstellen eines Links dient ledig­lich dem Auffinden eines ohne­hin im Internet abruf­ba­ren Inhalts. Der hin­ter einem Link ste­hen­de Inhalt kann auch nur an der ver­link­ten Stelle und nicht andern­orts abge­ru­fen wer­den, sodass ins­be­son­de­re kei­ne Vervielfältigung im Sinne des Urheberrechts vor­liegt. Unsere Mandantin trägt kei­ne Verantwortung für die Inhalte auf ande­ren Websites.
  3. Auf Nutzungen Ihrer Werke durch Dritte hat unse­re Mandantin natur­ge­mäß kei­nen Einfluss. Eine Nutzung durch Dritte wird aber ohne­hin auch nicht erst durch unse­re Mandantin ermög­licht. Die von unse­rer Mandantin ver­link­ten Bildinhalte sind frei im Internet abruf­bar. Sofern Sie eine rechts­ver­let­zen­de Nutzung durch Dritte fest­stel­len, müs­sen Sie sich an die­se Personen wenden.
  4. Ihre Fristsetzung betrach­ten wir daher als gegen­stands­los. Wir wei­sen außer­dem dar­auf hin, dass unse­re Mandantin gemäߧ 97a Abs. 4 UrhG Schadenersatzansprüche gel­tend machen kann, wenn die­se unbe­rech­tigt urhe­be­recht­lich in Anspruch genom­men wird.

    Wir hof­fen, dass wir Ihre Bedenken mit unse­ren Ausführungen aus­räu­men konn­ten und ste­hen Ihnen für Rückfragen gern zur Verfügung.“

Ja, ihr lest das voll­kom­men rich­tig. Urhebern, die nicht wol­len, dass ihr Werke für Trainingszwecke benutzt wer­den, wer­den Schadensersatzansprüche angedroht.

Die rest­li­chen Aussagen im Schreiben las­sen einen eben­falls etwas ver­wun­dert zurück. Die angeb­li­che Gemeinnützigkeit eines Vereins, wel­cher unter ande­rem von einer Firma wie Stability AI mit­fi­nan­ziert wird, wel­che wie­der­um von den Ergebnissen des Vereins kom­mer­zi­ell pro­fi­tiert, hat min­des­tens ein „Geschmäckle“, was mei­ner Meinung nach danach riecht, hier absicht­lich eine Konstruktion zu bau­en, wel­che Haftungsfragen aus­la­gern soll.

Auch das „ledig­li­che Unterhalten einer Datenbank“ ist hier mei­ner Meinung nach etwas zu kurz gegrif­fen, da neben den oben genann­ten Datenpunkten auch Daten wie „simi­la­ri­ty“, „pwa­ter­mark“ oder „punsafe“ ent­hal­ten, wel­che nicht ein­fach aus­ge­le­sen, son­dern erstellt wer­den müs­sen, was ver­mut­lich zumin­dest eine tem­po­ra­re Speicherung der Bilddaten erfor­dert haben wird. Das legt auch die­se Infografik nahe, in der erklärt wird, das die Bilder und Daten „her­un­ter­ge­la­den“ wurden:

Das sind im Detail aber auch Vermutungen, wel­che wahr­schein­lich bei einem Gerichtsprozess geklärt wer­den müssen.

Genau so einen Prozess wer­de ich nun anstre­ben, um die Frage rich­ter­lich klä­ren zu las­sen, ob das Vorgehen tat­säch­lich recht­lich so ein­wand­frei ist, wie die Anwaltskanzlei behauptet.

Falls ihr als Urheber eben­falls eini­ge eurer Werke im Datensatz von LAION fin­det und viel­leicht auch Post von obi­ger Anwaltskanzlei erhal­ten wollt, fin­det ihr die Emailadresse für eure Anfrage zur Datenlöschung hier im Impressum von LAION e.V..

Panthermedia erlaubt jetzt auch den Upload von KI-Bildern

Nur gut zwei Wochen nach der Bekanntgabe von Adobe, dass Adobe Stock nun durch Künstliche Intelligenz erzeug­te Bilder akzep­tie­re, hat auch die Bildagentur Panthermedia bekannt gege­ben, dass sie nun KI-​Material annehmen.

Der Newsletter von Panthermedia im Wortlaut

Die Voraussetzungen lesen sich im Grunde fast iden­tisch wie die von Adobe Stock, mit der Ausnahme, dass die Bilder im Titel statt des Hinweises „Generative AI“ nun „AI gene­ra­ted image“ ent­hal­ten sollen.

Da drängt sich etwas der Verdacht auf, dass hier ein­fach die Entscheidung von Adobe Stock nach­ge­ahmt wur­de, was ich aber inhalt­lich begrü­ßens­wert finde.

Unter dem Reiter „KI-​Bilder“ fin­den sich auf der Startseite von Panthermedia jedoch bis­her nur knapp 2.500 künst­lich erzeug­te Portraits, wel­che vor unge­fähr einem Jahr vor­ge­stellt wur­den. Das kann sich natür­lich bald ändern.

Wie funktioniert Bilderstellung durch Künstliche Intelligenz genau? Eine Erklärung am Beispiel von Stable Diffusion

Das Jahr 2022 war der Durchbruch der Bilderstellung durch Künstliche Intelligenz (KI), weil Projekte wie Dall‑E, Stable Diffusion oder Midjourney der brei­ten Öffentlichkeit zugäng­lich wurden.

Auch ich habe hier im Blog schon eini­ge Beiträge über KI-​Bilder geschrie­ben, aber bis­her noch nicht von Grund auf erklärt, wie die KI-​Bildgenerierung funktioniert.

Das Thema „Artificial Intelligence“ inter­pre­tiert von der KI-​Engine Stable Diffusion

Das ist aber essen­ti­al für das Verständnis der aktu­el­len Debatten um Urheberrechte, Bilderdiebstahl und die ethi­schen Auswirkungen der neu­en Technik.

Daher hier ein kur­zer Exkurs in die Geschichte der KI-Bilderstellung.

Bild-​zu-​Text-​Erkennung

Um 2015 her­um lern­ten maschi­nell trai­nier­te Algorithmen, Objekte in vor­han­de­nen Bildern zu benen­nen. Das ken­nen Fotografen sicher von Lightroom, Google Images oder Facebook, wo die Software oder Webseite auto­ma­tisch erkennt, wel­che Dinge grob auf einem Bild sicht­bar sind. Zusätzlich lern­ten die Algorithmen schnell, die beschrie­be­nen Objekte in einen les­ba­ren Satz umzu­wan­deln. Aus „Frau, Handy, lachen“ wur­de also „Eine lachen­de Frau am Handy“.

Text-​zu-​Bild-​Erkennung

Findige Forscher dach­ten nun, dass die­ser Prozess auch umkehr­bar sein müss­te. Sie kom­bi­nier­ten hier – sehr ver­ein­facht gespro­chen – die obi­ge Technologie mit einem Entrauschungsverfahren, wel­ches wie­der­um mit obi­ger Technologie auf Genauigkeit getes­tet wurde.

Im Grunde trai­nier­ten sich zwei ver­schie­de­ne KIs gegen­sei­tig. Die ers­te KI nahm zufäl­lig erzeug­tes Bildrauschen und ver­such­te, aus der Texteingabe ein Bild zu erzeu­gen. Die zwei­te KI ver­such­te, aus dem erzeug­ten Bild zu erra­ten, was dar­auf erkenn­bar ist. Wenn die zwei­te KI der ers­ten bestä­tig­te, dass sie „die lachen­de Frau am Handy“ erkannt hat, spei­cher­te sich die ers­te KI einen Pluspunkt für das Entrauschungsmuster und schlug ein neu­es vor. Nach vie­len Millionen Trainingsrunden wur­de die ers­te KI durch die­se Tests immer treff­si­che­rer bei der Umwandlung von Texten zu Bildern.

Massenhafte Text-​zu-​Bild-​Erkennung

Die obe­re Methode funk­tio­niert zwar prin­zi­pi­ell, hat aber einen Haken. Sie ist lang­sam und setzt natür­lich irgend­wie vor­aus, dass irgend­je­mand mas­sen­haft Texteingaben der KI zum Trainieren vor­setzt, damit sie spä­ter weiß, wel­che Begriffe wie bild­lich umge­setzt werden.

Forscher nutz­ten des­halb einen Trick, der heu­te einer der Grundprobleme bei der Akzeptanz von KI-​Bilder-​Tools ist: Sie grün­de­ten das „Large-​scale Artificial Intelligence Open Network“ (Groß ange­leg­tes offe­nes Netz für künst­li­che Intelligenz), kurz LAION.

LAION ist ein gemein­nüt­zi­ger Verein, wel­cher mas­sen­haft Daten aus dem Internet sam­melt, um damit KIs zu trai­nie­ren. Diese Daten wer­den nach Typ und Qualität sor­tiert. So gibt es zum Beispiel das „LAION-​5B“-Set, wel­ches 5,85 Milliarden Text-​Bild-​Kombinationen in allen mög­li­chen Sprachen zusam­men­ge­fasst hat, das „LAION-​400M“-Set mit 400 Millionen Text-​Bild-​Kombinationen in eng­li­scher Sprache oder das „LAION-​Aesthetics“-Set, wel­ches eine Untergruppe von „LAION-​5B“ ist, wel­ches nur ästhe­tisch anspre­chen­de Bilder ent­hal­ten soll.

In der Praxis wur­den neben der Bild-​URL und der Beschreibung noch ande­re Kriterien gespei­chert, wel­che eben­falls durch eine KI erzeugt wur­den, wie Qualität der Beschreibung oder wie wahr­schein­lich das Bild „NSFW“ (not safe for work) ist, also nicht jugendfrei.

Der Knackpunkt ist hier, dass der Verein also hau­fen­wei­se Bilder gespei­chert hat, um sie der Forschung zugäng­lich zu machen. Wie soll die KI aber genau wis­sen, was auf den Bildern zu sehen ist? Dafür nutz­ten die Forscher die häu­fig vor­han­de­nen Metadaten, wel­che Fotografen, Künstler oder SEO-​Firmen an die Bilder ange­hängt hat­ten, damit Suchmaschinen die Bilder bes­ser ein­ord­nen konnten.

Stockfotografen ken­nen das von der Bildbeschreibung, mit der sie ein Bild zusätz­lich mit des­sen Text-​Äquivalent ver­se­hen, damit Bildkunden es über die Suchfunktion der Bildagentur fin­den können.

Besonderen Wert hat­ten also die sorg­fäl­tig beschrif­te­ten Bilder, die als Futter für das KI-​Training genutzt wur­den und wei­ter­hin werden.

Die Erstellung vom latenten Raum

Wenn jetzt jemand einen Befehl in eine Bild-​KI ein­gibt, kopiert die KI nicht ein­fach stumpf Teile exis­tie­ren­der Bilder, son­dern die Informationen kom­men aus dem soge­nann­ten „laten­ten Raum“ (latent space). Dieser heißt so, weil die Objekte und Konzepte dort „latent“ vor­han­den sind. Der Computer weiß, wie etwas gene­riert wird, macht es aber erst, wenn eine bestimm­te Kombination abge­ru­fen wird.

Das KI-​Training kann mensch sich ähn­lich vor­stel­len wie Kleinkinder ihre Welt ent­de­cken. Woher wis­sen Kleinkinder, wenn sie ein Bilderbuch anse­hen, dass die gezeich­ne­ten Figuren ein Elefant, eine Giraffe und ein Ball sind?

Sie wis­sen es erst, wenn sie genug ver­schie­de­ne Versionen die­ser Dinge gese­hen haben, um die Gemeinsamkeiten abs­tra­hie­ren zu kön­nen. Ein Elefant ist zum Beispiel meist grau und groß, eine Giraffe gelb-​gescheckt mit einem lan­gen Hals und ein Ball rund und bunt.

Die KI hat das eben­falls so gelernt, nur eben an Millionen Bild-​Text-​Kombinationen. So ruft sie bei­spiels­wei­se alle Bilder auf, die mit dem Wort „Giraffe“ beschrif­tet sind, und ver­sucht, die Gemeinsamkeiten zu erken­nen. Beim Wort „Ball“ genau­so. Am Anfang rät sie ein­fach, aber je öfter sie es macht, des­to mehr erkennt sich bestimm­te Muster.

Die KI merkt jedoch, dass bei­spiels­wei­se Farbe oder Form kein aus­rei­chen­des Kriterium für bestimm­te Objekte oder Konzepte sind, weil sich die­se ändern kön­nen. Bälle kön­nen zum Beispiel ver­schie­de­ne Farben haben, Elefanten ver­schie­de­ne Formen und so wei­ter. Daher ver­sucht die KI, mög­lichst vie­le ver­schie­de­ne Variablen zu kre­ieren und die Begriffe in so einem Koordinatensystem zu ver­or­ten. Dieses System hat deut­lich mehr als drei Dimensionen und wird als der „laten­te Raum“ bezeichnet.

Er ent­hält hun­der­te Variablen und deren Beziehungen zuein­an­der. So ent­steht ein mul­ti­di­men­sio­na­les Netzwerk aus Beziehungen, ähn­lich wie eine „sozia­le Netzwerkanalyse“. Die Variablen für „Spaghettieis“ wür­den da zum Beispiel irgend­wo zwi­schen denen für „Eiscreme“ und „Pasta“ lie­gen, in der Nähe von ande­ren kal­ten Objekten wie „Antarktis“ oder „Winter“, fern­ab von Objekten, wel­che mit „Härte“ asso­zi­iert sind. Das ist für den mensch­li­chen Geist schwer ver­ständ­lich, für moder­ne Computer aber kein Problem.

Vom latenten Raum zur stabilen Diffusion

Wie kriegt mensch aber nun neue Bilder aus die­sem laten­ten Raum? Durch die Texteingabe navi­giert der Mensch den Computer zu einer Stelle im mul­ti­di­men­sio­na­len Raumen, wo die Wahrscheinlichkeit am höchs­ten ist, dass die dor­ti­gen Variablen die Begriffe gut abdecken.

Nun kommt wie­der das obi­ge Entrauschungsverfahren zum Einsatz. Aus einem zufäl­li­gen Bildrauschen schärft der Computer in sehr vie­len Durchgängen das Chaos zu einer Anordnung, in wel­cher Menschen die gewünsch­ten Begriffe erken­nen kön­nen sol­len. Da die­ser Prozess zufalls­ba­siert ist, wird auch mit der glei­chen Texteingabe nie­mals exakt das glei­che Bild entstehen.

Diese zufalls­ba­sier­te Pixelstreuung heißt im Lateinischen „Diffusion“ und da das System sta­bil zwar kei­ne glei­chen, aber ähn­li­che Ergebnisse erzie­len kann, nennt sich die­ses Verfahren der KI-​Bilderstellung „Stable Diffusion“.

Auch wenn die glei­che Texteingabe in ein ande­res KI-​Modell gege­ben wird, wer­den sich die Ergebnisse unter­schei­den, weil das Bild dann durch ande­re Trainingsdaten in einem ande­ren „laten­ten Raum“ erzeugt wurde.

Der bis hier beschrie­be­ne Prozess wird gut visu­ell an einem Beispiel dar­ge­stellt in die­sem Artikel der Washington Post.

KI-​Ablehnung durch Missverständnis

Es gibt eini­ge KI-​Gegner, wel­che die KI-​Bilder ableh­nen, weil sie fälsch­li­cher­wei­se anneh­men, dass die KI-​Tools nur eine Art intel­li­gen­te Bildmontagen-​Maschine sind, wel­che Versatzstücke aus bestehen­den Bildschnipseln neu zusammensetzt.

Als „Beweis“ wer­den hier ger­ne die manch­mal sicht­ba­ren Wasserzeichen genannt, wel­che erkenn­bar bestimm­ten Bildagenturen zuge­ord­net wer­den kön­nen. Diese erge­ben sich jedoch aus der oben genann­ten Trainingsmethode. Die Agenturbilder sind für LAION beson­ders wert­voll gewe­sen, weil die­se beson­ders häu­fig beson­ders hoch­qua­li­ta­ti­ve Beschreibungen zu den Bildern hat­ten. Stockfotografen waren ja auf tref­fen­de Bildbeschreiben ange­wie­sen für häu­fi­ge Verkäufe. Das erklärt, war­um Bilder mit Agenturwasserzeichen beson­ders häu­fig für KI-​Trainingszwecke genutzt wurden.

Bei beson­ders „stock­las­ti­gen“ Motiven (den­ke an den „Business-​Handshake“) war also die Wahrscheinlichkeit hoch, dass die KI lern­te, dass sol­che Wasserzeichen irgend­wie nor­mal sei­en für das Motiv und dem­entspre­chend „dazu­ge­hör­ten“. Also ver­sucht die KI, die­se Wasserzeichen mit zu reproduzieren.

Die rechtlichen Implikationen dieser Methode

Aber auch ohne das obi­ge Missverständnis gibt es genug berech­tig­te Kritik. So wer­fen Kritiker der LAION vor, mil­lio­nen­fach die urhe­ber­recht­lich geschütz­ten Werke zu Trainingszwecken genutzt zu haben, ohne dass die Künstler dafür irgend­wie ent­schä­digt wur­den. LAION beruft sich zur Verteidigung dar­auf, dass sie eine gemein­nüt­zi­ge Organisation (ein­ge­tra­ge­ner deut­scher Verein) sei, wel­che nur zu Forschungszwecken arbeite.

Angesichts der Finanzierung die­ses gemein­nüt­zi­gen Vereins durch kom­mer­zi­el­le Firmen wie u.a. Stability AI, wel­che die Entstehung des LAION-5B“-Datensets finan­ziert haben und es letzt­end­lich in ihrer KI „Stable Diffusion“ nut­zen, ist das ein wack­li­ges Argument.

KI-​Befürworter wei­sen dar­auf hin, dass die KI bei ihrem Training im Grunde ver­gleich­bar sei mit dem Vorgehen von Google. Google hat­te jah­re­lang mas­sen­haft urhe­ber­recht­lich geschütz­te Bücher und ande­re Texte ein­ge­scannt, um Ausschnitte davon in deren Dienst „Google Books“ zu nut­zen. 2015 urteil­te der us-​amerikanische obers­te Gerichtshof, dass die­ses Vorgehen legal und von der „Fair Use“-Klausel gedeckt sei.

Auch die Frage, wie der recht­li­che Status der durch die KI erstell­ten Bilder zu bewer­ten ist, ist noch völ­lig offen und wird ver­mut­lich bald von eini­gen Gerichten geklärt wer­den müssen.

Die moralischen Probleme vom latenten Raum

Da das KI-​Training im laten­ten Raum qua­si ohne mensch­li­che Eingriffe geschah, hat die KI eini­ge Erkenntnisse gewon­nen, die wir Menschen pro­ble­ma­tisch hal­ten könnten.

Bestehende Vorurteile, Fehler oder dis­kri­mi­nie­ren­de Praktiken wer­den von de KI unge­fil­tert ein­fach über­nom­men und danach wie­der­ge­ge­ben. Wer sich bei den KI-​Tools bei­spiels­wei­se Bilder von einem „CEO“ gene­rie­ren lässt, wird haupt­säch­lich älte­re wei­ße Männer erhal­ten, Bilder von „Krankenpflegern“ hin­ge­gen wer­den vor allem weib­lich sein. Auch der Fokus auf die eng­li­sche Sprache schließt vie­le anders­spra­chi­ge Kulturen und Traditionen stark aus. Versucht bei­spiels­wei­se mal ein „Sankt Martin“-Bild durch die KI erzeu­gen zu lassen…

Stable Diffusion ver­sucht sich an der Darstellung eines „CEO“…
…und einer Krankenschwester („nur­se“)
Die KI schei­tert an der Darstellung des Begriffs „Sankt Martin“

Branchen im Wandel

Ungeachtet der noch unge­lös­ten recht­li­chen und mora­li­schen Probleme der KI-​Bilderzeugung hat die Technologie jedoch das Potential, gesam­te Branchen auf den Kopf zu stel­len, ver­gleich­bar mit der Erfindung des Fotoapparats.

Auch hören die Forscher längst nicht bei der Bilderzeugung auf. Mit „ChatGPT“ gibt es von den DALL-​E-​Machern schon eine funk­ti­ons­fä­hi­ge Chat-​KI wel­che auf Zuruf län­ge­re Texte schreibt. Andere Firmen arbei­ten an Text-​zu-​Video-​Generatoren, Text-​zu-​3D-​Objekt-​Generatoren und so wei­ter. Werden eini­ge der bestehen­den Technologien kom­bi­niert, bei­spiels­wei­se die Chat-​KI mit einer Video-​KI und einer Sprach-​KI, so könn­ten auf Knopfdruck bald indi­vi­dua­li­sier­te Spielfilme erzeugt wer­den. Die Entwicklungen hier wer­den in einem atem­be­rau­ben­den Tempo veröffentlicht.

Ist die Funktionsweise der gene­rie­ren­den KIs etwas kla­rer gewor­den? Was ver­steht ihr ggf. noch nicht?

Adobe Stock gibt Richtlinien für das Hochladen von KI-​generierten Bildern bekannt

Nach Getty Images und Shutterstock gab nun Adobe Stock als drit­te gro­ße Bildagentur ihre neu­en Richtlinien über den Umgang mit KI-​Bildern heraus.

Der Standpunkt von Adobe Stock ist dabei deut­lich libe­ra­ler als der der ande­ren Agenturen: Adobe akzep­tiert ab sofort offi­zi­ell Illustrationen, die mit gene­ra­ti­ven KI-​Modellen erstellt wur­den – oder ein­fa­cher: KI-​generierte Bilder. 

Eins mei­ner KI-​Bilder bei Adobe Stock

Die neu­en Einreichungsrichtlinien sol­len sicher­stel­len, dass die Nutzer KI-​Inhalte kor­rekt und ver­ant­wor­tungs­voll ver­wen­den. Diese Richtlinien kön­nen voll­stän­dig hier nach­ge­le­sen werden. 

Hier eini­ge der wich­tigs­ten Punkte:
Dabei gehört zuerst die Markierung des betrof­fe­nen Materials. Neue KI-​Bilder sol­len von den Anbietern im Titel und in den Schlagworten mit „Generative AI“ gekenn­zeich­net wer­den, damit Kunden die­se als sol­che erken­nen können.

Alle KI-​Bilder, auch wenn sie foto­rea­lis­tisch aus­se­hen, sol­len als „Illustration“ ein­ge­reicht wer­den. Die Nutzungsbedingungen der ver­wen­de­ten KI-​Engine müs­sen natür­lich die vol­len kom­mer­zi­el­len Rechte gewäh­ren. Hier gilt es das Kleingedruckte zu lesen und auf even­tu­el­le Änderungen zu achten.

Weiterhin sind – wie schon bis­her – Einreichungen nicht zuläs­sig, die Inhalte von Dritten ent­hal­ten, wie z. B. erkenn­ba­re Gesichter oder Warenzeichen (wie Marken oder Logos) oder sogar Stile ande­rer Künstler.

Vor allem letz­te­res ist ver­mut­lich in der Praxis schwer abgrenz­bar, aber immer­hin wird der Versuch unternommen.

Wenn erkenn­ba­re Personen (z.B. Prominente) in den KI-​Bildern ent­hal­ten sind oder geschütz­te Plätze oder Orte, wird dafür ein Model Release bzw. Property Release ver­langt oder die Bilder kön­nen eben nicht ein­ge­reicht wer­den (auch nicht als „redak­tio­nel­les Material“). Eine lan­ge Liste der bekann­ten Einschränkungen gibt es hier als Übersicht.

Für alt­ge­dien­te Stock-​Lieferanten ist das nichts Neues, aber da durch die neu­en KI-​Tools noch mal eine ganz ande­re Nutzergruppe plötz­lich auf dem Stock-​Markt mit­macht, ist es sicher sinn­voll, dar­auf noch mal aus­drück­lich hinzuweisen.

Weitere Pläne von Adobe in Richtung KI-Bilderstellung

Auf der „Adobe Max 2022“ Konferenz vor eini­gen Wochen hat­te eini­ge wei­te­re KI-​bezogene Ankündigungen gemacht. Zum einen arbei­tet Adobe an einer neu­en digi­ta­len Provenance-​Technologie, die alle rele­van­ten Details über die Quelle einer Mediendatei direkt in die Datei ein­be­zieht. Diese Technologie wur­de von der Content Authenticity Initiative (CAI) ent­wi­ckelt, die das Unternehmen eben­falls gegrün­det hat und von der es hofft, dass sie zu einem Branchenstandard wird. 

Zum ande­ren gab Adobe bekannt, an einer eige­nen KI-​Software zu arbei­ten, die bald in die Creative-​Cloud-​Apps wie Adobe Express und Photoshop inte­griert wer­den soll. Einige beein­dru­cken­de Demos gibt es in die­sem Video (ab Minute 1:30 geht es los, für die ganz Ungeduldigen):

Viele der Features, z.B. das In-​Painting oder Out-​Painting gibt es auch bei den frei ver­füg­ba­ren KI-​Tools wie Stable Diffusion, aber die Einbettung direkt in Photoshop macht die Bedienung noch mal deut­lich kom­for­ta­bler und intuitiver.

Was sagt ihr zu den neu­en Richtlinien?
Gibt es etwas, was euch im Bereich „Bilderstellung durch Künstliche Intelligenz“ beson­ders inter­es­siert? Welche Fragen bren­nen auch unter den Nägeln?