Bilderstellung durch Künstliche Intelligenz führt zu tiefgreifenden Umwälzungen in der Kreativbranche und seit fast einem Jahr beschäftige ich mich intensiv mit diesem Thema.
Zusammen mit meinem Team habe ich mittlerweile ein Portfolio von über 3000 KI-Bildern, welche ich bei Bildagenturen anbiete.
„Hintergründe & Möglichkeiten der KI-Tools in der fotografischen Praxis mit KI-Experte & Fotograf Robert Kneschke und Fotografenberaterin Silke Güldner
Der Workshop bietet eine einzigartige Gelegenheit, um tiefer in die Welt der künstlichen Intelligenz einzutauchen und ihre Anwendungsmöglichkeiten in der Fotografie zu entdecken. Hier lernen Profi- und Nachwuchsfotografen die Funktionsweise und verschiedenen KI-Tools kennen, können diese im praktischen Teil selbst ausprobieren und diese für ihre eigene Positionierung im Markt reflektieren. Durch Diskussionen und den Austausch mit der Gruppe und den Referenten erhalten sie darüber hinaus auch Feedback und Inspirationen für ihre künftige Arbeit und die Kommunikation mit ihren Kunden. Am Ende des Workshops sind die Teilnehmer bestens vorbereitet, um die Entwicklungen und Herausforderungen im Kontext von KI und Fotografie zu verstehen und zukünftige Möglichkeiten zu nutzen.
Inhalte
Einführung KI
Wie funktioniert KI-Bilderstellung
Vorstellung der Tools Stable Diffusion, Dall‑E 2, Midjourney, Google Imagen
Anwendungsmöglichkeiten, Unterschiede und Motivbeispiele
Praxis Teil 1
Anhand der Teilnehmer-Portfolios sprechen wir über Möglichkeiten, die KI für die eigenen Ziele bieten kann und wann konventionelle Fotografie der bessere Weg ist
Portfolio Vorstellung der Teilnehmenden
Vorteile und Nutzen von konventioneller Fotografie gegenüber KI-Lösungen in der Kundenberatung
Praxis Teil 2
Hands On & Live Demos
Testen der KI-Tools
Erläuterung von Prompt-Engineering, In- and Outpainting
Tools für den KI Workflow
Überblick der Nutzungsmöglichkeiten & Best Practice Beispiele
Meta Themen
Rechtliche & moralische Probleme der KI-Nutzung
Veränderung der Berufsfotografie & Einfluss auf die Preisfindung
Ausblick & Kooperationsmöglichkeiten“
Der Workshop wird am Freitag, den 02.06.2023 in Hamburg stattfinden, mehr Informationen zur Veranstaltung findet ihr hier auf der Webseite des Veranstalters Photo+Medienforum Kiel.
Die Teilnehmer*innen ist auf 8 begrenzt, also zögert nicht, euch bei Interesse rechtzeitig euren Platz zu sichern.
Letzten Monat hatte ich in diesem Artikel erklärt, wie die Künstliche Intelligenz am Beispiel von Stable Diffusion funktioniert.
Darin kam der Verein LAION e.V. zur Sprache, welcher etliche riesige Datenpakete anbietet, mit welchen KIs trainiert werden. Eines dieser Pakete heißt z.B. LAION 5B, weil es ca. 5,85 Millarden („5,85 Billions“ im Englischen, daher 5B) Datensätze umfasst.
Ein Datensatz besteht zum Beispiel aus der URL zu einer Bilddatei, der dazugehörigen Bildbeschreibung, den Bildmaßen in Pixeln, der verwendeten Sprache sowie einiger anderer Faktoren.
Anfangs war wenigen Leuten bekannt, welche Bilder genau im Datenset enthalten waren. Aber die Künstler Mat Dryhurst, Holly Herndon und Jordan Meyer gründeten die Firma Spawning, welche wiederum die Webseite „Have I Been Trained?“ ins Leben riefen.
Dort können Leute – vereinfacht erklärt – die oben genannten Bildbeschreibungen durchsuchen, um zu sehen, welche Bilder in den KI-Trainingssets enthalten sind.
Viele Urheber nutzten die Webseite und fanden wenig überraschend viele Treffer. Auch aus meinem Portfolio konnte ich nach einer kurzen Stichprobe haufenweise Bilder finden, hauptsächlich mit Wasserzeichen aus den Bildagentur-Portfolios, aber auch von Kundenseiten oder Webseiten, die selbst illegal Bildersammlungen anbieten:
Haufenweise Links zu meinen Fotos aus meinem Shutterstock-Portfolio im LAION-Datensatz
In den Kommentaren eines meiner Social Media-Profile las ich den Hinweis eines Fotografen, dass der den Verein LAION gebeten hatte, seine Werke aus den Trainingsdaten zu nehmen und als Antwort mit Schadensersatzansprüchen bedroht wurde, sollte er auf seinem Anliegen beharren.
Das kam mir wie eine wilde Geschichte vor, bis ich die Fakten überprüfte. Ich nahm Einsicht in den Schriftsatz der Anwaltskanzlei und schickte am 13.02.2023 selbst eine Anfrage an LAION e.V. per Email mit der Bitte, meine Werke aus dem Trainingssatz zu entfernen.
Nur einen Tag später erhielt ich am 14.02.2023 tatsächlich Post („vorab per Email“) von der Hannover Anwaltskanzlei „Heidrich Rechtsanwälte“ im Auftrag von LAION e.V., übrigens fast wortgleich mit dem Schreiben, welches ich von dem anderen Fotografen weitergeleitet bekommen habe.
In dem Schreiben heißt es:
„Sehr geehrter Herr Kneschke,
hiermit zeigen wir an, dass wir die rechtlichen Interessen des LAION e.V., Herman-Lange-Weg 6, 21035 Hamburg, vertreten. Die ordnungsgemäße Bevollmächtigung wird anwaltlich versichert.
Grund unseres Schreibens ist Ihre E‑Mail vom 13. Februar 2023 an unsere Mandantin, welche uns diese zur Beantwortung vorgelegt hat.
Bei unserer Mandantin handelt es sich um einen im Vereinsregister eingetragenen, nicht-gewinnorientierten Verein, der es sich zur Aufgabe gemacht hat, selbstlernende Algorithmen im Sinne künstlicher Intelligenz fortzuentwickeln und der breiten Öffentlichkeit zur Verfügung zu stellen. Die Vereinsmitglieder sowie der Vorstand sind im Rahmen der Vereinsarbeit ehrenamtlich forschend tätig.
Unsere Mandantin hat bereits im Sommer 2022 umfangreich Rechtsrat zu verschiedenen Problemstellungen – insbesondere urheberrechtlichen Implikationen – im Zusammenhang mit ihrer Tätigkeit auf dem Gebiet der Erforschung von Kl-gestützten Bildgenerierungsmodellen eingeholt. Unserer Mandantin war es von Anfang an wichtig, dass im Rahmen ihrer Tätigkeit keine Rechte Dritter verletzt werden. Unsere Mandantin hält sich ausnahmslos an die bestehenden gesetzlichen Vorgaben, insbesondere aus dem Urheber- und Datenschutzrecht.
Unsere Mandantin unterhält lediglich eine Datenbank, die Links zu im Internet öffentlich abrufbaren Bilddateien enthält. Sie kann zwar nicht ausschließen, dass in der Datenbank auch Links zu Bildern enthalten sind, deren Urheber Sie sind. Da unsere Mandantin aber jedenfalls keine der von Ihnen monierten Fotografien speichert, besteht Ihrerseits auch kein Anspruch auf Löschung. Es existieren bei unserer Mandantin schlicht keine Bilder, die gelöscht werden könnten.
Das Bereitstellen von Links stellt nach der höchstrichterlichen Rechtsprechung auch keine Verletzung von Urheberrechten dar. Das Bereitstellen eines Links dient lediglich dem Auffinden eines ohnehin im Internet abrufbaren Inhalts. Der hinter einem Link stehende Inhalt kann auch nur an der verlinkten Stelle und nicht andernorts abgerufen werden, sodass insbesondere keine Vervielfältigung im Sinne des Urheberrechts vorliegt. Unsere Mandantin trägt keine Verantwortung für die Inhalte auf anderen Websites.
Auf Nutzungen Ihrer Werke durch Dritte hat unsere Mandantin naturgemäß keinen Einfluss. Eine Nutzung durch Dritte wird aber ohnehin auch nicht erst durch unsere Mandantin ermöglicht. Die von unserer Mandantin verlinkten Bildinhalte sind frei im Internet abrufbar. Sofern Sie eine rechtsverletzende Nutzung durch Dritte feststellen, müssen Sie sich an diese Personen wenden.
Ihre Fristsetzung betrachten wir daher als gegenstandslos. Wir weisen außerdem darauf hin, dass unsere Mandantin gemäß§ 97a Abs. 4 UrhG Schadenersatzansprüche geltend machen kann, wenn diese unberechtigt urheberechtlich in Anspruch genommen wird.
Wir hoffen, dass wir Ihre Bedenken mit unseren Ausführungen ausräumen konnten und stehen Ihnen für Rückfragen gern zur Verfügung.“
Ja, ihr lest das vollkommen richtig. Urhebern, die nicht wollen, dass ihr Werke für Trainingszwecke benutzt werden, werden Schadensersatzansprüche angedroht.
Die restlichen Aussagen im Schreiben lassen einen ebenfalls etwas verwundert zurück. Die angebliche Gemeinnützigkeit eines Vereins, welcher unter anderem von einer Firma wie Stability AI mitfinanziert wird, welche wiederum von den Ergebnissen des Vereins kommerziell profitiert, hat mindestens ein „Geschmäckle“, was meiner Meinung nach danach riecht, hier absichtlich eine Konstruktion zu bauen, welche Haftungsfragen auslagern soll.
Auch das „ledigliche Unterhalten einer Datenbank“ ist hier meiner Meinung nach etwas zu kurz gegriffen, da neben den oben genannten Datenpunkten auch Daten wie „similarity“, „pwatermark“ oder „punsafe“ enthalten, welche nicht einfach ausgelesen, sondern erstellt werden müssen, was vermutlich zumindest eine temporare Speicherung der Bilddaten erfordert haben wird. Das legt auch diese Infografik nahe, in der erklärt wird, das die Bilder und Daten „heruntergeladen“ wurden:
Das sind im Detail aber auch Vermutungen, welche wahrscheinlich bei einem Gerichtsprozess geklärt werden müssen.
Genau so einen Prozess werde ich nun anstreben, um die Frage richterlich klären zu lassen, ob das Vorgehen tatsächlich rechtlich so einwandfrei ist, wie die Anwaltskanzlei behauptet.
Falls ihr als Urheber ebenfalls einige eurer Werke im Datensatz von LAION findet und vielleicht auch Post von obiger Anwaltskanzlei erhalten wollt, findet ihr die Emailadresse für eure Anfrage zur Datenlöschung hier im Impressum von LAION e.V..
Nur gut zwei Wochen nach der Bekanntgabe von Adobe, dass Adobe Stock nun durch Künstliche Intelligenz erzeugte Bilder akzeptiere, hat auch die Bildagentur Panthermedia bekannt gegeben, dass sie nun KI-Material annehmen.
Der Newsletter von Panthermedia im Wortlaut
Die Voraussetzungen lesen sich im Grunde fast identisch wie die von Adobe Stock, mit der Ausnahme, dass die Bilder im Titel statt des Hinweises „Generative AI“ nun „AI generated image“ enthalten sollen.
Da drängt sich etwas der Verdacht auf, dass hier einfach die Entscheidung von Adobe Stock nachgeahmt wurde, was ich aber inhaltlich begrüßenswert finde.
Unter dem Reiter „KI-Bilder“ finden sich auf der Startseite von Panthermedia jedoch bisher nur knapp 2.500 künstlich erzeugte Portraits, welche vor ungefähr einem Jahr vorgestellt wurden. Das kann sich natürlich bald ändern.
Das Jahr 2022 war der Durchbruch der Bilderstellung durch Künstliche Intelligenz (KI), weil Projekte wie Dall‑E, Stable Diffusion oder Midjourney der breiten Öffentlichkeit zugänglich wurden.
Auch ich habe hier im Blog schon einige Beiträge über KI-Bilder geschrieben, aber bisher noch nicht von Grund auf erklärt, wie die KI-Bildgenerierung funktioniert.
Das Thema „Artificial Intelligence“ interpretiert von der KI-Engine Stable Diffusion
Das ist aber essential für das Verständnis der aktuellen Debatten um Urheberrechte, Bilderdiebstahl und die ethischen Auswirkungen der neuen Technik.
Daher hier ein kurzer Exkurs in die Geschichte der KI-Bilderstellung.
Bild-zu-Text-Erkennung
Um 2015 herum lernten maschinell trainierte Algorithmen, Objekte in vorhandenen Bildern zu benennen. Das kennen Fotografen sicher von Lightroom, Google Images oder Facebook, wo die Software oder Webseite automatisch erkennt, welche Dinge grob auf einem Bild sichtbar sind. Zusätzlich lernten die Algorithmen schnell, die beschriebenen Objekte in einen lesbaren Satz umzuwandeln. Aus „Frau, Handy, lachen“ wurde also „Eine lachende Frau am Handy“.
Text-zu-Bild-Erkennung
Findige Forscher dachten nun, dass dieser Prozess auch umkehrbar sein müsste. Sie kombinierten hier – sehr vereinfacht gesprochen – die obige Technologie mit einem Entrauschungsverfahren, welches wiederum mit obiger Technologie auf Genauigkeit getestet wurde.
Im Grunde trainierten sich zwei verschiedene KIs gegenseitig. Die erste KI nahm zufällig erzeugtes Bildrauschen und versuchte, aus der Texteingabe ein Bild zu erzeugen. Die zweite KI versuchte, aus dem erzeugten Bild zu erraten, was darauf erkennbar ist. Wenn die zweite KI der ersten bestätigte, dass sie „die lachende Frau am Handy“ erkannt hat, speicherte sich die erste KI einen Pluspunkt für das Entrauschungsmuster und schlug ein neues vor. Nach vielen Millionen Trainingsrunden wurde die erste KI durch diese Tests immer treffsicherer bei der Umwandlung von Texten zu Bildern.
Massenhafte Text-zu-Bild-Erkennung
Die obere Methode funktioniert zwar prinzipiell, hat aber einen Haken. Sie ist langsam und setzt natürlich irgendwie voraus, dass irgendjemand massenhaft Texteingaben der KI zum Trainieren vorsetzt, damit sie später weiß, welche Begriffe wie bildlich umgesetzt werden.
Forscher nutzten deshalb einen Trick, der heute einer der Grundprobleme bei der Akzeptanz von KI-Bilder-Tools ist: Sie gründeten das „Large-scale Artificial Intelligence Open Network“ (Groß angelegtes offenes Netz für künstliche Intelligenz), kurz LAION.
LAION ist ein gemeinnütziger Verein, welcher massenhaft Daten aus dem Internet sammelt, um damit KIs zu trainieren. Diese Daten werden nach Typ und Qualität sortiert. So gibt es zum Beispiel das „LAION-5B“-Set, welches 5,85 Milliarden Text-Bild-Kombinationen in allen möglichen Sprachen zusammengefasst hat, das „LAION-400M“-Set mit 400 Millionen Text-Bild-Kombinationen in englischer Sprache oder das „LAION-Aesthetics“-Set, welches eine Untergruppe von „LAION-5B“ ist, welches nur ästhetisch ansprechende Bilder enthalten soll.
In der Praxis wurden neben der Bild-URL und der Beschreibung noch andere Kriterien gespeichert, welche ebenfalls durch eine KI erzeugt wurden, wie Qualität der Beschreibung oder wie wahrscheinlich das Bild „NSFW“ (not safe for work) ist, also nicht jugendfrei.
Der Knackpunkt ist hier, dass der Verein also haufenweise Bilder gespeichert hat, um sie der Forschung zugänglich zu machen. Wie soll die KI aber genau wissen, was auf den Bildern zu sehen ist? Dafür nutzten die Forscher die häufig vorhandenen Metadaten, welche Fotografen, Künstler oder SEO-Firmen an die Bilder angehängt hatten, damit Suchmaschinen die Bilder besser einordnen konnten.
Stockfotografen kennen das von der Bildbeschreibung, mit der sie ein Bild zusätzlich mit dessen Text-Äquivalent versehen, damit Bildkunden es über die Suchfunktion der Bildagentur finden können.
Besonderen Wert hatten also die sorgfältig beschrifteten Bilder, die als Futter für das KI-Training genutzt wurden und weiterhin werden.
Die Erstellung vom latenten Raum
Wenn jetzt jemand einen Befehl in eine Bild-KI eingibt, kopiert die KI nicht einfach stumpf Teile existierender Bilder, sondern die Informationen kommen aus dem sogenannten „latenten Raum“ (latent space). Dieser heißt so, weil die Objekte und Konzepte dort „latent“ vorhanden sind. Der Computer weiß, wie etwas generiert wird, macht es aber erst, wenn eine bestimmte Kombination abgerufen wird.
Das KI-Training kann mensch sich ähnlich vorstellen wie Kleinkinder ihre Welt entdecken. Woher wissen Kleinkinder, wenn sie ein Bilderbuch ansehen, dass die gezeichneten Figuren ein Elefant, eine Giraffe und ein Ball sind?
Sie wissen es erst, wenn sie genug verschiedene Versionen dieser Dinge gesehen haben, um die Gemeinsamkeiten abstrahieren zu können. Ein Elefant ist zum Beispiel meist grau und groß, eine Giraffe gelb-gescheckt mit einem langen Hals und ein Ball rund und bunt.
Die KI hat das ebenfalls so gelernt, nur eben an Millionen Bild-Text-Kombinationen. So ruft sie beispielsweise alle Bilder auf, die mit dem Wort „Giraffe“ beschriftet sind, und versucht, die Gemeinsamkeiten zu erkennen. Beim Wort „Ball“ genauso. Am Anfang rät sie einfach, aber je öfter sie es macht, desto mehr erkennt sich bestimmte Muster.
Die KI merkt jedoch, dass beispielsweise Farbe oder Form kein ausreichendes Kriterium für bestimmte Objekte oder Konzepte sind, weil sich diese ändern können. Bälle können zum Beispiel verschiedene Farben haben, Elefanten verschiedene Formen und so weiter. Daher versucht die KI, möglichst viele verschiedene Variablen zu kreieren und die Begriffe in so einem Koordinatensystem zu verorten. Dieses System hat deutlich mehr als drei Dimensionen und wird als der „latente Raum“ bezeichnet.
Er enthält hunderte Variablen und deren Beziehungen zueinander. So entsteht ein multidimensionales Netzwerk aus Beziehungen, ähnlich wie eine „soziale Netzwerkanalyse“. Die Variablen für „Spaghettieis“ würden da zum Beispiel irgendwo zwischen denen für „Eiscreme“ und „Pasta“ liegen, in der Nähe von anderen kalten Objekten wie „Antarktis“ oder „Winter“, fernab von Objekten, welche mit „Härte“ assoziiert sind. Das ist für den menschlichen Geist schwer verständlich, für moderne Computer aber kein Problem.
Vom latenten Raum zur stabilen Diffusion
Wie kriegt mensch aber nun neue Bilder aus diesem latenten Raum? Durch die Texteingabe navigiert der Mensch den Computer zu einer Stelle im multidimensionalen Raumen, wo die Wahrscheinlichkeit am höchsten ist, dass die dortigen Variablen die Begriffe gut abdecken.
Nun kommt wieder das obige Entrauschungsverfahren zum Einsatz. Aus einem zufälligen Bildrauschen schärft der Computer in sehr vielen Durchgängen das Chaos zu einer Anordnung, in welcher Menschen die gewünschten Begriffe erkennen können sollen. Da dieser Prozess zufallsbasiert ist, wird auch mit der gleichen Texteingabe niemals exakt das gleiche Bild entstehen.
Diese zufallsbasierte Pixelstreuung heißt im Lateinischen „Diffusion“ und da das System stabil zwar keine gleichen, aber ähnliche Ergebnisse erzielen kann, nennt sich dieses Verfahren der KI-Bilderstellung „Stable Diffusion“.
Auch wenn die gleiche Texteingabe in ein anderes KI-Modell gegeben wird, werden sich die Ergebnisse unterscheiden, weil das Bild dann durch andere Trainingsdaten in einem anderen „latenten Raum“ erzeugt wurde.
Es gibt einige KI-Gegner, welche die KI-Bilder ablehnen, weil sie fälschlicherweise annehmen, dass die KI-Tools nur eine Art intelligente Bildmontagen-Maschine sind, welche Versatzstücke aus bestehenden Bildschnipseln neu zusammensetzt.
Als „Beweis“ werden hier gerne die manchmal sichtbaren Wasserzeichen genannt, welche erkennbar bestimmten Bildagenturen zugeordnet werden können. Diese ergeben sich jedoch aus der oben genannten Trainingsmethode. Die Agenturbilder sind für LAION besonders wertvoll gewesen, weil diese besonders häufig besonders hochqualitative Beschreibungen zu den Bildern hatten. Stockfotografen waren ja auf treffende Bildbeschreiben angewiesen für häufige Verkäufe. Das erklärt, warum Bilder mit Agenturwasserzeichen besonders häufig für KI-Trainingszwecke genutzt wurden.
Bei besonders „stocklastigen“ Motiven (denke an den „Business-Handshake“) war also die Wahrscheinlichkeit hoch, dass die KI lernte, dass solche Wasserzeichen irgendwie normal seien für das Motiv und dementsprechend „dazugehörten“. Also versucht die KI, diese Wasserzeichen mit zu reproduzieren.
Die rechtlichen Implikationen dieser Methode
Aber auch ohne das obige Missverständnis gibt es genug berechtigte Kritik. So werfen Kritiker der LAION vor, millionenfach die urheberrechtlich geschützten Werke zu Trainingszwecken genutzt zu haben, ohne dass die Künstler dafür irgendwie entschädigt wurden. LAION beruft sich zur Verteidigung darauf, dass sie eine gemeinnützige Organisation (eingetragener deutscher Verein) sei, welche nur zu Forschungszwecken arbeite.
Angesichts der Finanzierung dieses gemeinnützigen Vereins durch kommerzielle Firmen wie u.a. Stability AI, welche die Entstehung des LAION-5B“-Datensets finanziert haben und es letztendlich in ihrer KI „Stable Diffusion“ nutzen, ist das ein wackliges Argument.
KI-Befürworter weisen darauf hin, dass die KI bei ihrem Training im Grunde vergleichbar sei mit dem Vorgehen von Google. Google hatte jahrelang massenhaft urheberrechtlich geschützte Bücher und andere Texte eingescannt, um Ausschnitte davon in deren Dienst „Google Books“ zu nutzen. 2015 urteilte der us-amerikanische oberste Gerichtshof, dass dieses Vorgehen legal und von der „Fair Use“-Klausel gedeckt sei.
Auch die Frage, wie der rechtliche Status der durch die KI erstellten Bilder zu bewerten ist, ist noch völlig offen und wird vermutlich bald von einigen Gerichten geklärt werden müssen.
Die moralischen Probleme vom latenten Raum
Da das KI-Training im latenten Raum quasi ohne menschliche Eingriffe geschah, hat die KI einige Erkenntnisse gewonnen, die wir Menschen problematisch halten könnten.
Bestehende Vorurteile, Fehler oder diskriminierende Praktiken werden von de KI ungefiltert einfach übernommen und danach wiedergegeben. Wer sich bei den KI-Tools beispielsweise Bilder von einem „CEO“ generieren lässt, wird hauptsächlich ältere weiße Männer erhalten, Bilder von „Krankenpflegern“ hingegen werden vor allem weiblich sein. Auch der Fokus auf die englische Sprache schließt viele anderssprachige Kulturen und Traditionen stark aus. Versucht beispielsweise mal ein „Sankt Martin“-Bild durch die KI erzeugen zu lassen…
Stable Diffusion versucht sich an der Darstellung eines „CEO“…
…und einer Krankenschwester („nurse“)
Die KI scheitert an der Darstellung des Begriffs „Sankt Martin“
Branchen im Wandel
Ungeachtet der noch ungelösten rechtlichen und moralischen Probleme der KI-Bilderzeugung hat die Technologie jedoch das Potential, gesamte Branchen auf den Kopf zu stellen, vergleichbar mit der Erfindung des Fotoapparats.
Auch hören die Forscher längst nicht bei der Bilderzeugung auf. Mit „ChatGPT“ gibt es von den DALL-E-Machern schon eine funktionsfähige Chat-KI welche auf Zuruf längere Texte schreibt. Andere Firmen arbeiten an Text-zu-Video-Generatoren, Text-zu-3D-Objekt-Generatoren und so weiter. Werden einige der bestehenden Technologien kombiniert, beispielsweise die Chat-KI mit einer Video-KI und einer Sprach-KI, so könnten auf Knopfdruck bald individualisierte Spielfilme erzeugt werden. Die Entwicklungen hier werden in einem atemberaubenden Tempo veröffentlicht.
Ist die Funktionsweise der generierenden KIs etwas klarer geworden? Was versteht ihr ggf. noch nicht?
Der Standpunkt von Adobe Stock ist dabei deutlich liberaler als der der anderen Agenturen: Adobe akzeptiert ab sofort offiziell Illustrationen, die mit generativen KI-Modellen erstellt wurden – oder einfacher: KI-generierte Bilder.
Eins meiner KI-Bilder bei Adobe Stock
Die neuen Einreichungsrichtlinien sollen sicherstellen, dass die Nutzer KI-Inhalte korrekt und verantwortungsvoll verwenden. Diese Richtlinien können vollständig hier nachgelesen werden.
Hier einige der wichtigsten Punkte: Dabei gehört zuerst die Markierung des betroffenen Materials. Neue KI-Bilder sollen von den Anbietern im Titel und in den Schlagworten mit „Generative AI“ gekennzeichnet werden, damit Kunden diese als solche erkennen können.
Alle KI-Bilder, auch wenn sie fotorealistisch aussehen, sollen als „Illustration“ eingereicht werden. Die Nutzungsbedingungen der verwendeten KI-Engine müssen natürlich die vollen kommerziellen Rechte gewähren. Hier gilt es das Kleingedruckte zu lesen und auf eventuelle Änderungen zu achten.
Weiterhin sind – wie schon bisher – Einreichungen nicht zulässig, die Inhalte von Dritten enthalten, wie z. B. erkennbare Gesichter oder Warenzeichen (wie Marken oder Logos) oder sogar Stile anderer Künstler.
Vor allem letzteres ist vermutlich in der Praxis schwer abgrenzbar, aber immerhin wird der Versuch unternommen.
Wenn erkennbare Personen (z.B. Prominente) in den KI-Bildern enthalten sind oder geschützte Plätze oder Orte, wird dafür ein Model Release bzw. Property Release verlangt oder die Bilder können eben nicht eingereicht werden (auch nicht als „redaktionelles Material“). Eine lange Liste der bekannten Einschränkungen gibt es hier als Übersicht.
Für altgediente Stock-Lieferanten ist das nichts Neues, aber da durch die neuen KI-Tools noch mal eine ganz andere Nutzergruppe plötzlich auf dem Stock-Markt mitmacht, ist es sicher sinnvoll, darauf noch mal ausdrücklich hinzuweisen.
Weitere Pläne von Adobe in Richtung KI-Bilderstellung
Auf der „Adobe Max 2022“ Konferenz vor einigen Wochen hatte einige weitere KI-bezogene Ankündigungen gemacht. Zum einen arbeitet Adobe an einer neuen digitalen Provenance-Technologie, die alle relevanten Details über die Quelle einer Mediendatei direkt in die Datei einbezieht. Diese Technologie wurde von der Content Authenticity Initiative (CAI) entwickelt, die das Unternehmen ebenfalls gegründet hat und von der es hofft, dass sie zu einem Branchenstandard wird.
Zum anderen gab Adobe bekannt, an einer eigenen KI-Software zu arbeiten, die bald in die Creative-Cloud-Apps wie Adobe Express und Photoshop integriert werden soll. Einige beeindruckende Demos gibt es in diesem Video (ab Minute 1:30 geht es los, für die ganz Ungeduldigen):
Viele der Features, z.B. das In-Painting oder Out-Painting gibt es auch bei den frei verfügbaren KI-Tools wie Stable Diffusion, aber die Einbettung direkt in Photoshop macht die Bedienung noch mal deutlich komfortabler und intuitiver.
Was sagt ihr zu den neuen Richtlinien? Gibt es etwas, was euch im Bereich „Bilderstellung durch Künstliche Intelligenz“ besonders interessiert? Welche Fragen brennen auch unter den Nägeln?