Die besten Bildagenturen 2022 (Auswertung meiner Umfrage)

Dies ist jetzt schon die sieb­te Auswertung mei­ner jähr­li­chen Umfrage unter mei­nen Leser*innen, wel­che Agenturen ihnen im Vorjahr, also dies­mal 2022, den meis­ten Umsatz gebracht haben.
Die Agenturen soll­ten sie nach Umsatz abstei­gend sor­tiert als Kommentar hin­ter­las­sen. Zusammen mit mir haben sich 56 Fotograf*innen betei­ligt. Vielen Dank dafür!

Die Ergebnisse will ich euch hier ger­ne vor­stel­len. Zuerst die ein­deu­ti­ge Grafik (Klick zum Vergrößern):

Die besten Bildagenturen 2022

  1. Adobe Stock* (494) (-)
  2. Shutterstock* (386) (-)
  3. iStock (229) (-)
  4. Dreamstime* (141) (-)
  5. Alamy (129) (-)
  6. EyeEm (116) (+2)
  7. Depositphotos (116) (-)
  8. 123rf* (72) (-2)
  9. Westend61 (63) (+1)
  10. Getty Images (55) (+1)
  11. Photocase (44) (+2)
  12. Wirestock (27) (-3)
  13. Zoonar* (26) (+2)
  14. Canva (25) (neu)
  15. Pond5* (22) (-3)

Meine Vorgehensweise:
Ich habe in einer Excel-​Tabelle eine Liste gemacht und in die ers­te Spalte jede Agentur ein­ge­tra­gen, die genannt wur­de. In den nächs­ten Spalten habe ich dann für jede Teilnehmer*in und jede Agentur Punkte ver­ge­ben, basie­rend auf der Sortierung der genann­ten Agenturen. Die ers­te Agentur, also die mit dem meis­ten Umsatz, bekam 10 Punkte, die als zwei­tes genann­te Agentur bekam 9 Punkte und so wei­ter.
Die Werte habe ich pro Agentur sum­miert und die Liste dann nach den Punkten sor­tiert. Das Ergebnis seht ihr oben, die Zahl in Klammern ist also die Gesamtpunktzahl der jewei­li­gen Agentur.
Insgesamt wur­den 45 ver­schie­de­ne Agenturen benannt, ich habe die Liste jedoch auf die ers­ten 15 Agenturen beschränkt, weil das sta­tis­ti­sche Rauschen zum Ende hin mit meist nur einer Nennung sehr viel grö­ßer ist.

Hinweise:
Bei der Umfrage wur­de nicht unter­schie­den, ob die Leute Videos oder Fotos oder bei­des ver­kau­fen, wie vie­le Dateien sie online haben oder seit wann sie dort hoch­la­den. In der letz­ten Klammer sehr ihr die Veränderung zum Vorjahr.

In der Liste oben sind iStock und Getty zwar getrennt auf­ge­führt, ganz trenn­scharf las­sen sich die­se jedoch nicht aus­ein­an­der­hal­ten, da iStock ja auch über Getty Images ver­kauft und bei­de Agenturen zusam­men­ge­hö­ren. Aber selbst wenn ich Getty zu iStock addiert hät­te, hät­te sich an der Platzierung von iStock auf dem drit­ten Platz nicht geän­dert, dafür wäre hin­ten nur der „eige­ne Bildershop“ (ver­schie­de­ner Leute) auf Platz 15 auf­ge­taucht, wenn Getty ent­fal­len wäre.

Meine bes­ten Agenturen 2022
Wer die obi­ge Liste nach­rech­nen oder anders aus­wer­ten will, kann das eben­falls machen, mei­ne Datenbasis ist frei ein­seh­bar. Was jedoch noch fehlt, sind die Agenturen, bei denen ich selbst 2022 am meis­ten Umsatz erzielt habe und die ich eben­falls in obi­ge Rechnung habe ein­flie­ßen las­sen. In Klammern wie­der die Veränderung zum Vorjahr, das heißt also, das die Reihenfolge iden­tisch mit der von 2021 ist:

  1. Adobe Stock (-)
  2. Shutterstock (-)
  3. Canva (-)
  4. 123rf (-)
  5. Zoonar (-)
  6. EyeEm (-)
  7. Dreamstime (-)
  8. Alamy (-)
  9. Pond5 (-)
  10. Westend61 (-)

Was sagt uns diese Auswertung?

Adobe Stock hat sei­ne Spitzenposition im Vergleich zu den Vorjahren noch wei­ter aus­ge­baut, Shutterstock bleibt jedoch wei­ter­hin sta­bil auf dem zwei­ten Platz.

Mit deut­li­chem Abstand führt iStock das Mittelfeld an, in dem sich noch Dreamstime, Alamy, 123rf, Depositphotos und EyeEm tum­meln. Depositphotos hat abso­lut gese­hen etwas zuge­legt, die ande­ren Agenturen im Mittelfeld jedoch abgenommen.

Die rest­li­chen Agenturen sind kaum noch der Rede wert. Diese Formulierung fand sich auch häu­fig in den Kommentaren der Teilnehmer.

Hier könnt die auch die Auswertungen aus den Jahren 2022, 2021, 2020, 2019, 2018 und 2017 nachlesen.

Interessante Auffälligkeiten

Der höchs­te Neueinstieg letz­tes Jahr war Wirestock, wel­che jedoch die­ses Jahr auch schon wie­der eini­ge Plätze ver­lo­ren haben. Einziger Neueinstieg 2022 in das Ranking war Canva, aus­ge­stie­gen aus der Liste ist dadurch Panthermedia.

Habt ihr die Ergebnisse erwar­tet? Oder sind Überraschungen für euch dabei?

* Affiliate-​Link

Rezension: 30x Foto Geschichte(n) von Dirk Primbs

Seit über zwei Jahren betreibt Dirk Primbs den Podcast „foto­men­schen“, wo er sich pro Folge ein – meist berühm­tes – Foto her­aus­greift und über des­sen Geschichte und Entstehung erzählt.

Das hal­te ich für ein sehr span­nen­des Konzept, nur lei­der bin ich bis­her nicht dazu gekom­men, mir den Podcast tat­säch­lich anzuhören.

Umso mehr freut es mich, dass nun das Buch „30 × Fotogeschichte(n): Ein Lesebuch für alle, die Fotografie mögen, ob mit oder ohne Kamera* “ von Dirk Primbs erschie­nen ist (im dpunkt.verlag, ISBN 978–3864909498).

Im Buch wird das Podcast-​Konzept auf knapp 170 Seiten im Softcover fort­ge­setzt, bzw. genau­er gesagt, eine Art „Best Of“ der bis­he­ri­gen 89 Podcast-​Folgen wiedergegeben.

Dirk pickt sich 30 berühm­te Fotos her­aus und erzählt auf ca. drei bis zehn Seiten Anekdoten zur Entstehungsgeschichte. Zu den aus­ge­wähl­ten Fotos gehört bei­spiels­wei­se das ers­te Foto der Welt, die Portraits vom „Afghan Girl“, der „Migrant Mother“, Che Guevara und Winston Churchill, der Absturz der Hindenburg, die Pause machen­den Bauarbeiter auf dem Stahlträger in New York City, der Kuss vor dem Pariser Rathaus oder das Foto vom Ungeheuer von Loch Ness.

Die Texte sind kurz, gut les­bar und unter­halt­sam geschrie­ben und eig­nen sich gut, um das Interesse am Thema Fotografie zu wecken. Die erzähl­ten Details lesen sich aber teil­wei­se so unglaub­lich, dass ich mir öfters Fußnoten gewünscht hät­te, um bestimm­te Themen etwas zu ver­tie­fen oder Fakten über­prü­fen zu können.

Auch das Lektorat lässt lei­der etwas zu wün­schen übrig und so stol­pern die Leser*innen manch­mal über Rechtschreibfehler oder falsch zusam­men­ge­schus­ter­te Sätze.

Insgesamt über­wiegt aber der kurz­wei­li­ge Lesespaß.
Ich kann mir das Buch auch gut als Einstiegspunkt vor­stel­len, wenn jemand Kinder und Jugendliche für die Fotografie begeis­tern will oder ein­fach nur mit eini­gen unter­halt­sa­men Anekdoten auf Partys glän­zen will.

Meine meistgelesenen und meistkommentierten Blogartikel von 2022

Es ist wie­der ein Jahr rum und wir kön­nen die Gelegenheit nut­zen, einen Blick auf die meist­ge­le­se­nen und meist­kom­men­tier­ten Blogartikel zu wer­fen, wel­che ich im jahe 2022 ver­öf­fent­licht hatte.

Vielleicht ist dem einen oder ande­ren ja eine Artikelperle durch die Lappen gegan­gen und nun gibt es die Chance, das nachzuholen.

Daher ohne gro­ße Umschweife hier direkt die zehn meist­ge­le­se­nen Blogartikel vom letz­ten Jahr:

  1. Rafael Classen, Abmahnungen, feh­len­de IPTC-​Daten und Wirestock: Der aktu­el­le Stand
  2. Robert Kneschke: Abmahnung erhal­ten wegen kri­ti­schem Blogbeitrag
  3. Warum du nie mit Wirestock arbei­ten soll­test (Gastartikel)
  4. Yuri Arcurs ist zurück! peopleimages.com Portfolio seit vier Monaten auf Adobe Stock
  5. Photocase star­tet Kampagne gegen kos­ten­lo­se Bilder – und erkennt die Ironie nicht
  6. Der Ausstieg aus dem Agenturgeschäft – Ein Erfahrungsbericht (Gastartikel)
  7. Steuerformular bei Adobe Stock aktua­li­sie­ren – Ausfüllhilfe
  8. Podcast eines Fotoproduzenten Folge 33 – Interview mit dem Shop-​Betreiber Knut Hebstreit
  9. Rafael Classen ver­liert Einstweilige Verfügung gegen mich wegen mei­ner Blogartikel zu 75%
  10. Shutterstock kauft die Videoagentur Pond5 für 210 Mio. USD

Die meis­ten Kommentare für Blogartikel vom letz­ten Jahr haben fol­gen­de Artikel gehabt:

  1. Photocase star­tet Kampagne gegen kos­ten­lo­se Bilder – und erkennt die Ironie nicht
  2. Yuri Arcurs ist zurück! peopleimages.com Portfolio seit vier Monaten auf Adobe Stock
  3. Steuerformular bei Adobe Stock aktua­li­sie­ren – Ausfüllhilfe
  4. Der Ausstieg aus dem Agenturgeschäft – Ein Erfahrungsbericht (Gastartikel)
  5. Verlosung: 3x Drei-​Tages-​Tickets für die Photopia 2022 in Hamburg
  6. Shutterstock kauft die Videoagentur Pond5 für 210 Mio. USD
  7. Shutterstock ver­bie­tet Upload von KI-​Bildern und will gleich­zei­tig selbst KI-​Bilder anbie­ten
  8. Robert Kneschke: Abmahnung erhal­ten wegen kri­ti­schem Blogbeitrag
  9. 123rf führt neu­es Billig-​Abo „PLUS“ ein (mit auto­ma­ti­schem Opt-​In der Anbieter)
  10. Getty Images kün­digt eben­falls KI-​Tools für Bildnutzer an in Zusammenarbeit mit BRIA

Und als län­ger­fris­ti­ger Rückblick hier mal die Ehrenhalle mit den bis­her zehn meist­ge­le­se­nen Artikeln im Blog ins­ge­samt über die gesam­te Zeit hinweg:

  1. 12 Tipps für Model-Posen
  2. Warum ich mein Adobe Creative Cloud-​Abo gekün­digt habe (und was ich jetzt nutze)
  3. Geld ver­die­nen mit dem Verkauf von Fotos? Umsätze und Erfahrungen von Microstock-Anfängern
  4. Stockfotos kau­fen: Was ist redak­tio­nel­le und kom­mer­zi­el­le Nutzung?
  5. Tutorial: Geniale Tropfenfotos selbst machen
  6. Bezahlung der Models
  7. Wie Models sich bei mir bewerben
  8. Frag den Fotograf: Welche Kamera für pro­fes­sio­nel­le Fotos?
  9. Tutorial: Drei ein­fa­che Licht-​Setups mit 2–3 Blitzen im Studio
  10. Die steu­er­li­chen Aspekte der Stockfotografie

Falls ihr über bestimm­te Themen ger­ne öfter hier im Blog lesen wollt, könnt ihr ger­ne die Kommentarfunktion nut­zen, um mir eure Wünsche mitzuteilen.

Panthermedia erlaubt jetzt auch den Upload von KI-Bildern

Nur gut zwei Wochen nach der Bekanntgabe von Adobe, dass Adobe Stock nun durch Künstliche Intelligenz erzeug­te Bilder akzep­tie­re, hat auch die Bildagentur Panthermedia bekannt gege­ben, dass sie nun KI-​Material annehmen.

Der Newsletter von Panthermedia im Wortlaut

Die Voraussetzungen lesen sich im Grunde fast iden­tisch wie die von Adobe Stock, mit der Ausnahme, dass die Bilder im Titel statt des Hinweises „Generative AI“ nun „AI gene­ra­ted image“ ent­hal­ten sollen.

Da drängt sich etwas der Verdacht auf, dass hier ein­fach die Entscheidung von Adobe Stock nach­ge­ahmt wur­de, was ich aber inhalt­lich begrü­ßens­wert finde.

Unter dem Reiter „KI-​Bilder“ fin­den sich auf der Startseite von Panthermedia jedoch bis­her nur knapp 2.500 künst­lich erzeug­te Portraits, wel­che vor unge­fähr einem Jahr vor­ge­stellt wur­den. Das kann sich natür­lich bald ändern.

Wie funktioniert Bilderstellung durch Künstliche Intelligenz genau? Eine Erklärung am Beispiel von Stable Diffusion

Das Jahr 2022 war der Durchbruch der Bilderstellung durch Künstliche Intelligenz (KI), weil Projekte wie Dall‑E, Stable Diffusion oder Midjourney der brei­ten Öffentlichkeit zugäng­lich wurden.

Auch ich habe hier im Blog schon eini­ge Beiträge über KI-​Bilder geschrie­ben, aber bis­her noch nicht von Grund auf erklärt, wie die KI-​Bildgenerierung funktioniert.

Das Thema „Artificial Intelligence“ inter­pre­tiert von der KI-​Engine Stable Diffusion

Das ist aber essen­ti­al für das Verständnis der aktu­el­len Debatten um Urheberrechte, Bilderdiebstahl und die ethi­schen Auswirkungen der neu­en Technik.

Daher hier ein kur­zer Exkurs in die Geschichte der KI-Bilderstellung.

Bild-​zu-​Text-​Erkennung

Um 2015 her­um lern­ten maschi­nell trai­nier­te Algorithmen, Objekte in vor­han­de­nen Bildern zu benen­nen. Das ken­nen Fotografen sicher von Lightroom, Google Images oder Facebook, wo die Software oder Webseite auto­ma­tisch erkennt, wel­che Dinge grob auf einem Bild sicht­bar sind. Zusätzlich lern­ten die Algorithmen schnell, die beschrie­be­nen Objekte in einen les­ba­ren Satz umzu­wan­deln. Aus „Frau, Handy, lachen“ wur­de also „Eine lachen­de Frau am Handy“.

Text-​zu-​Bild-​Erkennung

Findige Forscher dach­ten nun, dass die­ser Prozess auch umkehr­bar sein müss­te. Sie kom­bi­nier­ten hier – sehr ver­ein­facht gespro­chen – die obi­ge Technologie mit einem Entrauschungsverfahren, wel­ches wie­der­um mit obi­ger Technologie auf Genauigkeit getes­tet wurde.

Im Grunde trai­nier­ten sich zwei ver­schie­de­ne KIs gegen­sei­tig. Die ers­te KI nahm zufäl­lig erzeug­tes Bildrauschen und ver­such­te, aus der Texteingabe ein Bild zu erzeu­gen. Die zwei­te KI ver­such­te, aus dem erzeug­ten Bild zu erra­ten, was dar­auf erkenn­bar ist. Wenn die zwei­te KI der ers­ten bestä­tig­te, dass sie „die lachen­de Frau am Handy“ erkannt hat, spei­cher­te sich die ers­te KI einen Pluspunkt für das Entrauschungsmuster und schlug ein neu­es vor. Nach vie­len Millionen Trainingsrunden wur­de die ers­te KI durch die­se Tests immer treff­si­che­rer bei der Umwandlung von Texten zu Bildern.

Massenhafte Text-​zu-​Bild-​Erkennung

Die obe­re Methode funk­tio­niert zwar prin­zi­pi­ell, hat aber einen Haken. Sie ist lang­sam und setzt natür­lich irgend­wie vor­aus, dass irgend­je­mand mas­sen­haft Texteingaben der KI zum Trainieren vor­setzt, damit sie spä­ter weiß, wel­che Begriffe wie bild­lich umge­setzt werden.

Forscher nutz­ten des­halb einen Trick, der heu­te einer der Grundprobleme bei der Akzeptanz von KI-​Bilder-​Tools ist: Sie grün­de­ten das „Large-​scale Artificial Intelligence Open Network“ (Groß ange­leg­tes offe­nes Netz für künst­li­che Intelligenz), kurz LAION.

LAION ist ein gemein­nüt­zi­ger Verein, wel­cher mas­sen­haft Daten aus dem Internet sam­melt, um damit KIs zu trai­nie­ren. Diese Daten wer­den nach Typ und Qualität sor­tiert. So gibt es zum Beispiel das „LAION-​5B“-Set, wel­ches 5,85 Milliarden Text-​Bild-​Kombinationen in allen mög­li­chen Sprachen zusam­men­ge­fasst hat, das „LAION-​400M“-Set mit 400 Millionen Text-​Bild-​Kombinationen in eng­li­scher Sprache oder das „LAION-​Aesthetics“-Set, wel­ches eine Untergruppe von „LAION-​5B“ ist, wel­ches nur ästhe­tisch anspre­chen­de Bilder ent­hal­ten soll.

In der Praxis wur­den neben der Bild-​URL und der Beschreibung noch ande­re Kriterien gespei­chert, wel­che eben­falls durch eine KI erzeugt wur­den, wie Qualität der Beschreibung oder wie wahr­schein­lich das Bild „NSFW“ (not safe for work) ist, also nicht jugendfrei.

Der Knackpunkt ist hier, dass der Verein also hau­fen­wei­se Bilder gespei­chert hat, um sie der Forschung zugäng­lich zu machen. Wie soll die KI aber genau wis­sen, was auf den Bildern zu sehen ist? Dafür nutz­ten die Forscher die häu­fig vor­han­de­nen Metadaten, wel­che Fotografen, Künstler oder SEO-​Firmen an die Bilder ange­hängt hat­ten, damit Suchmaschinen die Bilder bes­ser ein­ord­nen konnten.

Stockfotografen ken­nen das von der Bildbeschreibung, mit der sie ein Bild zusätz­lich mit des­sen Text-​Äquivalent ver­se­hen, damit Bildkunden es über die Suchfunktion der Bildagentur fin­den können.

Besonderen Wert hat­ten also die sorg­fäl­tig beschrif­te­ten Bilder, die als Futter für das KI-​Training genutzt wur­den und wei­ter­hin werden.

Die Erstellung vom latenten Raum

Wenn jetzt jemand einen Befehl in eine Bild-​KI ein­gibt, kopiert die KI nicht ein­fach stumpf Teile exis­tie­ren­der Bilder, son­dern die Informationen kom­men aus dem soge­nann­ten „laten­ten Raum“ (latent space). Dieser heißt so, weil die Objekte und Konzepte dort „latent“ vor­han­den sind. Der Computer weiß, wie etwas gene­riert wird, macht es aber erst, wenn eine bestimm­te Kombination abge­ru­fen wird.

Das KI-​Training kann mensch sich ähn­lich vor­stel­len wie Kleinkinder ihre Welt ent­de­cken. Woher wis­sen Kleinkinder, wenn sie ein Bilderbuch anse­hen, dass die gezeich­ne­ten Figuren ein Elefant, eine Giraffe und ein Ball sind?

Sie wis­sen es erst, wenn sie genug ver­schie­de­ne Versionen die­ser Dinge gese­hen haben, um die Gemeinsamkeiten abs­tra­hie­ren zu kön­nen. Ein Elefant ist zum Beispiel meist grau und groß, eine Giraffe gelb-​gescheckt mit einem lan­gen Hals und ein Ball rund und bunt.

Die KI hat das eben­falls so gelernt, nur eben an Millionen Bild-​Text-​Kombinationen. So ruft sie bei­spiels­wei­se alle Bilder auf, die mit dem Wort „Giraffe“ beschrif­tet sind, und ver­sucht, die Gemeinsamkeiten zu erken­nen. Beim Wort „Ball“ genau­so. Am Anfang rät sie ein­fach, aber je öfter sie es macht, des­to mehr erkennt sich bestimm­te Muster.

Die KI merkt jedoch, dass bei­spiels­wei­se Farbe oder Form kein aus­rei­chen­des Kriterium für bestimm­te Objekte oder Konzepte sind, weil sich die­se ändern kön­nen. Bälle kön­nen zum Beispiel ver­schie­de­ne Farben haben, Elefanten ver­schie­de­ne Formen und so wei­ter. Daher ver­sucht die KI, mög­lichst vie­le ver­schie­de­ne Variablen zu kre­ieren und die Begriffe in so einem Koordinatensystem zu ver­or­ten. Dieses System hat deut­lich mehr als drei Dimensionen und wird als der „laten­te Raum“ bezeichnet.

Er ent­hält hun­der­te Variablen und deren Beziehungen zuein­an­der. So ent­steht ein mul­ti­di­men­sio­na­les Netzwerk aus Beziehungen, ähn­lich wie eine „sozia­le Netzwerkanalyse“. Die Variablen für „Spaghettieis“ wür­den da zum Beispiel irgend­wo zwi­schen denen für „Eiscreme“ und „Pasta“ lie­gen, in der Nähe von ande­ren kal­ten Objekten wie „Antarktis“ oder „Winter“, fern­ab von Objekten, wel­che mit „Härte“ asso­zi­iert sind. Das ist für den mensch­li­chen Geist schwer ver­ständ­lich, für moder­ne Computer aber kein Problem.

Vom latenten Raum zur stabilen Diffusion

Wie kriegt mensch aber nun neue Bilder aus die­sem laten­ten Raum? Durch die Texteingabe navi­giert der Mensch den Computer zu einer Stelle im mul­ti­di­men­sio­na­len Raumen, wo die Wahrscheinlichkeit am höchs­ten ist, dass die dor­ti­gen Variablen die Begriffe gut abdecken.

Nun kommt wie­der das obi­ge Entrauschungsverfahren zum Einsatz. Aus einem zufäl­li­gen Bildrauschen schärft der Computer in sehr vie­len Durchgängen das Chaos zu einer Anordnung, in wel­cher Menschen die gewünsch­ten Begriffe erken­nen kön­nen sol­len. Da die­ser Prozess zufalls­ba­siert ist, wird auch mit der glei­chen Texteingabe nie­mals exakt das glei­che Bild entstehen.

Diese zufalls­ba­sier­te Pixelstreuung heißt im Lateinischen „Diffusion“ und da das System sta­bil zwar kei­ne glei­chen, aber ähn­li­che Ergebnisse erzie­len kann, nennt sich die­ses Verfahren der KI-​Bilderstellung „Stable Diffusion“.

Auch wenn die glei­che Texteingabe in ein ande­res KI-​Modell gege­ben wird, wer­den sich die Ergebnisse unter­schei­den, weil das Bild dann durch ande­re Trainingsdaten in einem ande­ren „laten­ten Raum“ erzeugt wurde.

Der bis hier beschrie­be­ne Prozess wird gut visu­ell an einem Beispiel dar­ge­stellt in die­sem Artikel der Washington Post.

KI-​Ablehnung durch Missverständnis

Es gibt eini­ge KI-​Gegner, wel­che die KI-​Bilder ableh­nen, weil sie fälsch­li­cher­wei­se anneh­men, dass die KI-​Tools nur eine Art intel­li­gen­te Bildmontagen-​Maschine sind, wel­che Versatzstücke aus bestehen­den Bildschnipseln neu zusammensetzt.

Als „Beweis“ wer­den hier ger­ne die manch­mal sicht­ba­ren Wasserzeichen genannt, wel­che erkenn­bar bestimm­ten Bildagenturen zuge­ord­net wer­den kön­nen. Diese erge­ben sich jedoch aus der oben genann­ten Trainingsmethode. Die Agenturbilder sind für LAION beson­ders wert­voll gewe­sen, weil die­se beson­ders häu­fig beson­ders hoch­qua­li­ta­ti­ve Beschreibungen zu den Bildern hat­ten. Stockfotografen waren ja auf tref­fen­de Bildbeschreiben ange­wie­sen für häu­fi­ge Verkäufe. Das erklärt, war­um Bilder mit Agenturwasserzeichen beson­ders häu­fig für KI-​Trainingszwecke genutzt wurden.

Bei beson­ders „stock­las­ti­gen“ Motiven (den­ke an den „Business-​Handshake“) war also die Wahrscheinlichkeit hoch, dass die KI lern­te, dass sol­che Wasserzeichen irgend­wie nor­mal sei­en für das Motiv und dem­entspre­chend „dazu­ge­hör­ten“. Also ver­sucht die KI, die­se Wasserzeichen mit zu reproduzieren.

Die rechtlichen Implikationen dieser Methode

Aber auch ohne das obi­ge Missverständnis gibt es genug berech­tig­te Kritik. So wer­fen Kritiker der LAION vor, mil­lio­nen­fach die urhe­ber­recht­lich geschütz­ten Werke zu Trainingszwecken genutzt zu haben, ohne dass die Künstler dafür irgend­wie ent­schä­digt wur­den. LAION beruft sich zur Verteidigung dar­auf, dass sie eine gemein­nüt­zi­ge Organisation (ein­ge­tra­ge­ner deut­scher Verein) sei, wel­che nur zu Forschungszwecken arbeite.

Angesichts der Finanzierung die­ses gemein­nüt­zi­gen Vereins durch kom­mer­zi­el­le Firmen wie u.a. Stability AI, wel­che die Entstehung des LAION-5B“-Datensets finan­ziert haben und es letzt­end­lich in ihrer KI „Stable Diffusion“ nut­zen, ist das ein wack­li­ges Argument.

KI-​Befürworter wei­sen dar­auf hin, dass die KI bei ihrem Training im Grunde ver­gleich­bar sei mit dem Vorgehen von Google. Google hat­te jah­re­lang mas­sen­haft urhe­ber­recht­lich geschütz­te Bücher und ande­re Texte ein­ge­scannt, um Ausschnitte davon in deren Dienst „Google Books“ zu nut­zen. 2015 urteil­te der us-​amerikanische obers­te Gerichtshof, dass die­ses Vorgehen legal und von der „Fair Use“-Klausel gedeckt sei.

Auch die Frage, wie der recht­li­che Status der durch die KI erstell­ten Bilder zu bewer­ten ist, ist noch völ­lig offen und wird ver­mut­lich bald von eini­gen Gerichten geklärt wer­den müssen.

Die moralischen Probleme vom latenten Raum

Da das KI-​Training im laten­ten Raum qua­si ohne mensch­li­che Eingriffe geschah, hat die KI eini­ge Erkenntnisse gewon­nen, die wir Menschen pro­ble­ma­tisch hal­ten könnten.

Bestehende Vorurteile, Fehler oder dis­kri­mi­nie­ren­de Praktiken wer­den von de KI unge­fil­tert ein­fach über­nom­men und danach wie­der­ge­ge­ben. Wer sich bei den KI-​Tools bei­spiels­wei­se Bilder von einem „CEO“ gene­rie­ren lässt, wird haupt­säch­lich älte­re wei­ße Männer erhal­ten, Bilder von „Krankenpflegern“ hin­ge­gen wer­den vor allem weib­lich sein. Auch der Fokus auf die eng­li­sche Sprache schließt vie­le anders­spra­chi­ge Kulturen und Traditionen stark aus. Versucht bei­spiels­wei­se mal ein „Sankt Martin“-Bild durch die KI erzeu­gen zu lassen…

Stable Diffusion ver­sucht sich an der Darstellung eines „CEO“…
…und einer Krankenschwester („nur­se“)
Die KI schei­tert an der Darstellung des Begriffs „Sankt Martin“

Branchen im Wandel

Ungeachtet der noch unge­lös­ten recht­li­chen und mora­li­schen Probleme der KI-​Bilderzeugung hat die Technologie jedoch das Potential, gesam­te Branchen auf den Kopf zu stel­len, ver­gleich­bar mit der Erfindung des Fotoapparats.

Auch hören die Forscher längst nicht bei der Bilderzeugung auf. Mit „ChatGPT“ gibt es von den DALL-​E-​Machern schon eine funk­ti­ons­fä­hi­ge Chat-​KI wel­che auf Zuruf län­ge­re Texte schreibt. Andere Firmen arbei­ten an Text-​zu-​Video-​Generatoren, Text-​zu-​3D-​Objekt-​Generatoren und so wei­ter. Werden eini­ge der bestehen­den Technologien kom­bi­niert, bei­spiels­wei­se die Chat-​KI mit einer Video-​KI und einer Sprach-​KI, so könn­ten auf Knopfdruck bald indi­vi­dua­li­sier­te Spielfilme erzeugt wer­den. Die Entwicklungen hier wer­den in einem atem­be­rau­ben­den Tempo veröffentlicht.

Ist die Funktionsweise der gene­rie­ren­den KIs etwas kla­rer gewor­den? Was ver­steht ihr ggf. noch nicht?

Close