Schlagwort-Archive: AI

Was ist erlaubt beim Erstellen von KI-​Trainingsdaten? Erster Verhandlungstag im Verfahren gegen LAION e.V.

Am Donnerstag, den 11.7.2024 fand mit eini­gen Monaten Verspätung end­lich die ers­te Verhandlung im Gerichtsverfahren gegen den Verein LAION e.V. wegen Urheberrechtsverletzung beim Erstellen von KI-​Trainingsdatensets vor dem Landgericht Hamburg statt. Mehr über die Entstehung des Falls hier.

Der Termin wur­de vom Vorsitzenden Richter Hartmann kurz­fris­tig in einen grö­ße­ren Saal ver­legt, was ange­sichts des gro­ßen Zuschauer- und Presse-​Andrangs auch not­wen­dig war.

Zur Einführung für Presse und Zuschauer lie­fer­ten die drei Richterinnen und Richter eine aus­führ­li­che Zusammenfassung der Sachlage und zeig­ten sich auch sonst gut vor­be­rei­tet und infor­miert. Dem Gericht ist deut­lich bewusst, dass des­sen Entscheidung gro­ße Auswirkungen auf Künstler*innen und Technologie-​Unternehmen haben wird.

Die von uns beklag­te Verletzungshandlung, also das Runterladen mei­nes Bildes, wird von der Gegenseite nicht bestrit­ten, son­dern als erlaubt ange­se­hen basie­rend auf eini­gen Ausnahmeregelungen des deut­schen Urheberrechts.

Ich wer­de mal ver­su­chen, die­se Ausnahmen und die dazu­ge­hö­ri­gen Einschätzungen des Gerichts als Laie dar­zu­le­gen. Juristisch fun­dier­te­re Analysen gibt es zum Beispiel direkt hier von dem mich ver­tre­ten­den Fachanwalt für Urheber- und Medienrecht Sebastian Deubelli oder von eini­gen der eben­falls im Publikum anwe­sen­den Fachanwälte, zum Beispiel hier bei Mirko Brüß oder Oliver Scherenberg oder vom Anwalt der Gegenseite Jörg Heidrich. Auch die Zeitschrift PAGE berich­tet hier über das Verfahren.

Nachdem die Verletzungshandlung grund­sätz­lich unstrei­tig gestellt wur­de, ging es erst ein­mal dar­um, ob unse­re all­ge­mein gehal­te­ne Unterlassungsforderung auf­recht erhal­ten wer­den soll­te oder – auf Hinweis des Gerichts – doch etwas kon­kre­ti­siert wer­den kön­ne, was wir dann münd­lich im Laufe des Prozesses nach­ge­holt haben.

Die kon­kre­ten Ausnahmeregelungen, auf die sich der Verein LAION e.V. – ver­tre­ten durch den Hausanwalt vom heise-​Verlag, Jörg Heidrich sowie eines Kollegen – bei der Erstellung sei­nes LAION 5B-Datensatzes zu KI-​Trainingsdatenzwecken beruft, sind der §44a UrhG, 44b Urhg sowie der §60d Urhg.

Schauen wir uns die Ausnahmen sowie die Einschätzung der Richter/​innen im Detail an:

Gesetz über Urheberrecht und verwandte Schutzrechte (Urheberrechtsgesetz)
§ 44a Vorübergehende Vervielfältigungshandlungen

Zulässig sind vor­über­ge­hen­de Vervielfältigungshandlungen, die flüch­tig oder beglei­tend sind und einen inte­gra­len und wesent­li­chen Teil eines tech­ni­schen Verfahrens dar­stel­len und deren allei­ni­ger Zweck es ist,

1. eine Übertragung in einem Netz zwi­schen Dritten durch einen Vermittler oder

2. eine recht­mä­ßi­ge Nutzung

eines Werkes oder sons­ti­gen Schutzgegenstands zu ermög­li­chen, und die kei­ne eigen­stän­di­ge wirt­schaft­li­che Bedeutung haben.“

Dieser Punkt wur­de vom Gericht recht schnell abge­han­delt und ver­neint, dass sich LAION e.V. auf die Flüchtigkeit der Vervielfältigungshandlung beru­fen könne.

§ 44b Text und Data Mining

(1) Text und Data Mining ist die auto­ma­ti­sier­te Analyse von ein­zel­nen oder meh­re­ren digi­ta­len oder digi­ta­li­sier­ten Werken, um dar­aus Informationen ins­be­son­de­re über Muster, Trends und Korrelationen zu gewinnen.

(2) Zulässig sind Vervielfältigungen von recht­mä­ßig zugäng­li­chen Werken für das Text und Data Mining. Die Vervielfältigungen sind zu löschen, wenn sie für das Text und Data Mining nicht mehr erfor­der­lich sind.

(3) Nutzungen nach Absatz 2 Satz 1 sind nur zuläs­sig, wenn der Rechtsinhaber sich die­se nicht vor­be­hal­ten hat. Ein Nutzungsvorbehalt bei online zugäng­li­chen Werken ist nur dann wirk­sam, wenn er in maschi­nen­les­ba­rer Form erfolgt.“

Ob die Handlungen von LAION e.V. ein Vorliegen von „Text und Data Mining“ begrün­den, woll­te das Gericht noch nicht abschlie­ßend beur­tei­len und ließ hier Gründe dafür und dage­gen anklingen.

Der Rechtevorbehalt, der in Punkt 3 erwähnt wird, wur­de im kon­kre­ten Fall nicht von mir, son­dern von der Bildagentur Bigstockphoto, auf der mein Bild ein­ge­stellt war, aus­ge­spro­chen in deren Nutzungsbedingungen. Hier mein­te das Gericht, dass ich mir die­se trotz­dem zurech­nen dürf­te und die­se Konstellation somit prin­zi­pi­ell erst mal aus­rei­chend sei.

Den mit Abstand größ­ten Diskussionsbedarf bei Gericht gab es dann um das unschein­ba­re Wort „maschi­nen­les­bar“.  Der Rechtevorbehalt durch die Agentur wur­de in natür­li­cher eng­li­scher Sprache auf einer HTML-​Webseite der Bildagentur erklärt und umfasst gene­rell alle auto­ma­ti­sier­ten Vorgänge durch Bots, also auch das Crawling, Scraping oder auto­ma­ti­sier­te Herunterladen von Inhalten:

You may not use auto­ma­ted pro­grams, app­lets, bots or the like to access the […] web­site or any con­tent the­re­on for any pur­po­se, inclu­ding, by way of exam­p­le only, down­loa­ding con­tent, index­ing, scra­ping or caching any con­tent on the website”.

Das Gericht ließ zwar erken­nen, dass sie hier einen Vorbehalt auch gegen das „Text und Data Mining“ sehen könn­ten, selbst wenn die­ser nicht aus­drück­lich kon­kret genannt wer­de. Ob die Art des Rechtevorbehalts jedoch aus­rei­chend maschi­nen­les­bar sei, war noch unklar und wur­de heiß diskutiert.

Unsere Seite ver­tritt den Standpunkt, dass auch auf die­se Weise erklär­te Vorbehalte tech­nisch recht ein­fach maschi­nen­les­bar (und maschi­nen­ver­ständ­lich) sei­en. Die Gegenseite wider­sprach dem und mein­te, nur der kon­kre­te Ausschluss des jewei­li­gen Crawler-​Bots in einer robots.txt sei maschi­nen­les­bar genug. Hier wür­de sich dann die nächs­te Frage eröff­nen, ob zum Zeitpunkt des Runterladens Mitte 2021 dem durch­schnitt­li­chen Anwender aus­rei­chend bewusst gewe­sen sei, wel­cher Crawler Daten für KI-​Trainingszwecke sam­meln wür­de, um die­sen dann vor­beu­gend aus­schlie­ßen zu können.

Der Kernpunkt der Diskussion ist hier sicher, ob es für die gro­ßen Tech-​Firmen so ein­fach wie mög­lich gemacht wer­den sol­le, Rechtsvorbehalte zu erken­nen oder ob auch tech­nisch weni­ger ver­sier­te Urheber*innen und Künstler*innen mit­tels natür­li­cher Sprache in der Lage sein soll­ten, ihre Werke zu schützen.

Welcher Meinung das Gericht hier fol­gen wür­de, ließ sich im Termin noch nicht abschlie­ßend erkennen.

§ 60d Text und Data Mining für Zwecke der wissenschaftlichen Forschung

(1) Vervielfältigungen für Text und Data Mining (§ 44b Absatz 1 und 2 Satz 1) sind für Zwecke der wis­sen­schaft­li­chen Forschung nach Maßgabe der nach­fol­gen­den Bestimmungen zulässig.

(2) Zu Vervielfältigungen berech­tigt sind Forschungsorganisationen. Forschungsorganisationen sind Hochschulen, Forschungsinstitute oder sons­ti­ge Einrichtungen, die wis­sen­schaft­li­che Forschung betrei­ben, sofern sie

1. nicht kom­mer­zi­el­le Zwecke verfolgen,

2. sämt­li­che Gewinne in die wis­sen­schaft­li­che Forschung reinves­tie­ren oder

3. im Rahmen eines staat­lich aner­kann­ten Auftrags im öffent­li­chen Interesse tätig sind.

Nicht nach Satz 1 berech­tigt sind Forschungsorganisationen, die mit einem pri­va­ten Unternehmen zusam­men­ar­bei­ten, das einen bestim­men­den Einfluss auf die Forschungsorganisation und einen bevor­zug­ten Zugang zu den Ergebnissen der wis­sen­schaft­li­chen Forschung hat.

(3) Zu Vervielfältigungen berech­tigt sind ferner

1. Bibliotheken und Museen, sofern sie öffent­lich zugäng­lich sind, sowie Archive und Einrichtungen im Bereich des Film- oder Tonerbes (Kulturerbe-​Einrichtungen),

2. ein­zel­ne Forscher, sofern sie nicht kom­mer­zi­el­le Zwecke verfolgen.

(4) Berechtigte nach den Absätzen 2 und 3, die nicht kom­mer­zi­el­le Zwecke ver­fol­gen, dür­fen Vervielfältigungen nach Absatz 1 fol­gen­den Personen öffent­lich zugäng­lich machen:

1. einem bestimmt abge­grenz­ten Kreis von Personen für deren gemein­sa­me wis­sen­schaft­li­che Forschung sowie

2. ein­zel­nen Dritten zur Überprüfung der Qualität wis­sen­schaft­li­cher Forschung.

Sobald die gemein­sa­me wis­sen­schaft­li­che Forschung oder die Überprüfung der Qualität wis­sen­schaft­li­cher Forschung abge­schlos­sen ist, ist die öffent­li­che Zugänglichmachung zu beenden.

(5) Berechtigte nach den Absätzen 2 und 3 Nummer 1 dür­fen Vervielfältigungen nach Absatz 1 mit ange­mes­se­nen Sicherheitsvorkehrungen gegen unbe­fug­te Benutzung auf­be­wah­ren, solan­ge sie für Zwecke der wis­sen­schaft­li­chen Forschung oder zur Überprüfung wis­sen­schaft­li­cher Erkenntnisse erfor­der­lich sind.

(6) Rechtsinhaber sind befugt, erfor­der­li­che Maßnahmen zu ergrei­fen, um zu ver­hin­dern, dass die Sicherheit und Integrität ihrer Netze und Datenbanken durch Vervielfältigungen nach Absatz 1 gefähr­det werden.“

Bei die­ser Ausnahmeregelung beruft sich der Verein LAION auf sei­ne angeb­li­che wis­sen­schaft­li­che Forschung, wäh­rend wir ein­wen­den, dass LAION mit pri­va­ten KI-​Unternehmen, vor allem Stability AI, zusam­men­ar­bei­te und daher Satz 1 nicht anwend­bar sei.

Hier woll­te das Gericht noch kei­ne Meinung äußern, weil die­se Schrankenregelung erst dann rele­vant sei, wenn die Maschinenlesbarkeit in unse­rem Fall aner­kannt werde.

Wie geht es weiter?

Es stand kurz die Überlegung im Raum, ob das Gericht das Verfahren direkt an den EuGH ver­wei­se, weil die Gesetze auf EU-​Recht beru­hen, ent­schied sich dann aber, erst mal selbst über den Fall ent­schei­den zu wollen.

Für Freitag, den 27.09.2024 wur­de ein Verkündungstermin ange­setzt.
Sollte das Gericht die Maschinenlesbarkeit ableh­nen, wür­de an die­sem Termin ver­mut­lich ein Urteil fal­len. Sollte das Gericht die Maschinenlesbarkeit beja­hen oder noch ande­re offe­ne Fragen sehen, wür­den schrift­li­che Hinweise vom Gericht an die Parteien erfol­gen mit einer Schriftsatzfrist.

Für Pressevertreter wird die Pressestelle des LG Hamburg nach dem Verkündungstermin auf Anfrage eine Zusammenfassung des Urteils oder der Hinweise bereitstellen.

Instagram-​Account automatisiert mittels KI betreiben (ein Selbstexperiment)

Mein Instagram-​Account @rkneschke besteht seit über zehn Jahren, aber bis­her habe ich ihn eher stief­müt­ter­lich behandelt.

Zu sehen gab es dort auch fast nie Auszüge mei­ner pro­fes­sio­nel­len Arbeit, son­dern eher Bilder, die pri­vat enstan­den sind, ein Sammelsurium aus abs­trak­tem Minimalismus, Food, Landschaften, Konzertfotos und Drohnenaufnahmen (bis ich die­se geschrot­tet habe).

Aktueller Screenshot von mei­nem Instagram-Account

Seit ich mich vor einem Jahr stark auf die Bilderstellung mit­tels gene­ra­ti­ver KI fokus­siert habe, stand die Frage im Raum, ob die­se beein­dru­cken­den KI-​Bilder sich eig­nen wür­den, um damit – mehr oder weni­ger auto­ma­ti­siert – Social-​Media-​Accounts zu betreiben.

Da mein Instagram-​Kanal sowie­so nur spo­ra­disch gefüllt wur­de von mir, habe ich vor drei Monaten ein Experiment gestartet.

Der Aufbau vom Instagram-KI-Experiment

Ich habe mei­nen Instagram-​Kanal seit dem 16.4.2023 aus­schließ­lich mit kom­plett KI-​generierten Inhalten gefüllt. Das Ganze soll­te mög­lichst zeit­spa­rend von­stat­ten gehen, mein Ablauf war daher:

  1. Die Text-​KI ChatGPT nach einem Haufen tren­di­ger Instagram-​Motive fragen.
  2. Diese Motive auto­ma­ti­siert per Bild-​KI Midjourney in Bilder umwan­deln lassen.
  3. Die schöns­ten Bilder raus­su­chen und unbe­ar­bei­tet zu Instagram hochladen.
  4. Die Bildbeschreibung und Hashtags auto­ma­ti­siert durch ChatGPT gene­rie­ren las­sen basie­rend auf der Bildbeschreibung, die in Schritt 1 gene­riert wurde.
  5. Optional: Um noch mehr Zeit zu spa­ren, ab und zu eini­ge Instagram-​Beiträge im Voraus mit der Instagram-​App pla­nen.

Alle KI-​Bilder wur­den in den Hashtags und der Bildbeschreibung als sol­che ausgewiesen.

Das Ziel vom Experiment

Ich woll­te mit dem Experiment tes­ten, was mit mei­nem Instagram-​Account pas­siert, wenn ich die­sen kom­plett auf KI-​basierte Bilder umstelle.

  • Werde ich Follower gewin­nen oder verlieren?
  • Wird sich mei­ne Reichweite erhö­hen oder verringern?
  • Spare ich Zeit mit die­ser Art der Content-Erstellung?
  • Wie reagie­ren mei­ne bis­he­ri­gen Follower?

Die Ergebnisse in Zahlen

Das Wichtigste zuerst. Wie ihr an der Übersicht in den Instagram-​Insights sehen könnt, lie­gen alle Messwerte im grü­nen Bereich.

Begonnen habe ich das Experiment Mitte April 2023 mit 1216 Followern, aktu­ell lie­ge ich bei 1227, das ent­spricht einem Plus von 0,9%. Nicht viel, aber immer­hin kein Verlust.

Ich konn­te 634% mehr Konten errei­chen und 478% mehr Konten haben mit mei­nem Kanal inter­agiert. Dazu muss ich jedoch fai­rer­wei­se sagen, dass ich im Vergleichszeitraum der drei Monate vor­her (also Januar bis April 2023) nur ein Bild gepos­tet hat­te, die­se Werte also viel höher als nor­mal ausfallen.

Wie ihr am obi­gen Diagramm sehen könnt, ist auch die Zahl der Nicht-​Follower rela­tiv hoch, auf jeden Fall deut­lich höher als vor dem Experiment. Das liegt ver­mut­lich dar­an, dass ich durch die vie­len neu­en ver­schie­de­nen Motive auch ganz unter­schied­li­che Hashtags anbrin­gen konn­te, die außer­halb mei­ner „Instagram-​Follower-​Bubble“ lagen.

Was jedoch auf jeden Fall stark gefal­len ist, ist die Zeit, die ich zur Erstellung eines Posts benö­tig­te. In den 10 Jahren zuvor, habe ich ca. 55 Bilder pro Jahr hoch­ge­la­den, also gut ein Bild pro Woche. Im Experimentzeitraum habe ich allein fast 60 Bilder hoch­ge­la­den, also ca. 5 pro Woche.

Die Kommentare zu den Bildern waren gemischt. Einige posi­tiv, eini­ge kri­tisch, aber ins­ge­samt alles im Rahmen. Ich ver­mu­te, dass die radi­ka­len KI-​Gegner schnell ihr Abo gekün­digt haben, dafür jedoch eini­ge neue Fans dazu gekom­men sind.

Wer an der genaue­ren Entwicklung des Kanals inter­es­siert ist, kann sich die Statistiken hier bei Social Blade anschauen:

Persönliche Anmerkungen und Fazit

Ich hat­te ehr­lich gesagt schlim­me­re Ergebnisse befürch­tet und dach­te, dass viel­leicht vie­le mei­ner Fans, die eher aus dem Fotografie-​Lager kom­men, ange­sichts die­ser KI-​Bilder-​Flut frus­triert sind und davonlaufen.

Das hat sich zum Glück nicht bewahr­hei­tet und die leich­ten Verluste konn­ten durch neue KI-​Fans mehr als aus­ge­gli­chen werden.

Insgesamt ist das Experiment natür­lich wis­sen­schaft­lich gese­hen kaum halt­bar, da zum Beispiel der Vergleichszeitraum vor­her nicht reprä­sen­ta­tiv ist. Da hat­te ich fast nichts gepos­tet, wes­halb die Engagement-​Rate logi­scher­wei­se auf einem sehr nied­ri­gen Level lag.

Auch die Bildauswahl ist eher zufäl­lig. Ich habe vie­le atem­be­rau­ben­de Naturbilder, eini­ge Menschenbilder und nied­li­che Tiermotive gepos­tet. Alles quer durch den Gemüsegarten. Vermutlich ist das für den Aufbau einer spe­zi­el­len Zielgruppe eher unpas­send, aber da ich auch vor­her eher moti­visch gese­hen Querbeet unter­wegs war, passt das hier.

Interessant fand ich die Möglichkeit, mit­tels neu­er Motive und die ent­spre­chen­den Hashtags ganz ande­re Zielgruppen anspre­chen zu kön­nen, wel­che mir bis­her noch nicht folgen.

Das ist sicher für Accounts, wel­che pro­fes­sio­nel­le Ziele ver­fol­gen und ihre Reichweite erhö­hen wol­len, ein sehr span­nen­der Aspekt.

Beeindruckend war und ist aber auch das Zusammenspiel von ChatGPT und Midjourney, wel­ches die Zeit für die Content-​Erstellung stark redu­ziert hat, was natür­lich die Motivation erhöht, über­haupt mehr zu posten.

Wie geht es weiter?

Ich wer­de auf mei­nem Instagram-​Kanal wei­ter KI-​Inhalte pos­ten. Ob ich inhalt­lich mich mehr auf bestimm­te Motive kon­zen­trie­re oder ein­fach die Bilder zei­ge, die mir gefal­len, muss ich noch ent­schei­den. Wer es direkt wis­sen will, folgt bit­te am bes­ten ein­fach mei­nem Instagram-​Account @rkneschke hier.

In der Zwischenzeit habe ich heu­te für mein Seitenprojekt „www.eis-machen.de“ eben­falls einen Instagram-​Account gestar­tet. Unter @eiscremeparty wer­de ich nur KI-​Bilder zum Thema Eiscreme pos­ten. Wer dar­an Interesse hat, kann dem Kanal eben­falls ger­ne folgen.

Was sagt ihr?
Was könn­te ich noch testen?

Podcast eines Fotoproduzenten Folge 37 – Interview mit Claudia Bußjaeger von der KI-​Repräsentanz yesweprompt

Seit über einem Jahr wird gefühlt in unse­rer Branche kaum noch über etwas ande­res als über Künstliche Intelligenz (KI) gere­det. Da passt es bes­tens, dass auch die neus­te Podcast-​Folge nach so lan­ger Funkstille sich direkt die­sem hei­ßen Thema widmet.

Zu Gast habe ich dies­mal Claudia Bußjaeger, wel­che die – viel­leicht sogar ers­te – Repräsentanz für KI-​Künstler namens yes­we­prompt ins Leben geru­fen hat.

Was das genau ist, was sie vor­her gemacht hat und über vie­les mehr reden wir in der heu­ti­gen Folge vom „Podcast eines Fotoproduzenten“:

PORTFOLIO (Auszug):

KI-​Bild von Alina Gross
KI-​Bild von Thorsten Rother
KI-​Bild von Antje Hedde
KI-​Bild von Alina Gross
KI-​Bild von Andreas Schimanski
KI-​Bild von Alina Gross
KI-​Bild von Antje Hedde
KI-​Bild von Alina Gross

SHOWNOTES:
Webseite von yes­we­prompt
Instagram-​Account von yes­we­prompt
Facebook-​Seite von yes­we­prompt
LinkedIn-​Profil von Claudia Bußjaeger

Panthermedia erlaubt jetzt auch den Upload von KI-Bildern

Nur gut zwei Wochen nach der Bekanntgabe von Adobe, dass Adobe Stock nun durch Künstliche Intelligenz erzeug­te Bilder akzep­tie­re, hat auch die Bildagentur Panthermedia bekannt gege­ben, dass sie nun KI-​Material annehmen.

Der Newsletter von Panthermedia im Wortlaut

Die Voraussetzungen lesen sich im Grunde fast iden­tisch wie die von Adobe Stock, mit der Ausnahme, dass die Bilder im Titel statt des Hinweises „Generative AI“ nun „AI gene­ra­ted image“ ent­hal­ten sollen.

Da drängt sich etwas der Verdacht auf, dass hier ein­fach die Entscheidung von Adobe Stock nach­ge­ahmt wur­de, was ich aber inhalt­lich begrü­ßens­wert finde.

Unter dem Reiter „KI-​Bilder“ fin­den sich auf der Startseite von Panthermedia jedoch bis­her nur knapp 2.500 künst­lich erzeug­te Portraits, wel­che vor unge­fähr einem Jahr vor­ge­stellt wur­den. Das kann sich natür­lich bald ändern.

Wie funktioniert Bilderstellung durch Künstliche Intelligenz genau? Eine Erklärung am Beispiel von Stable Diffusion

Das Jahr 2022 war der Durchbruch der Bilderstellung durch Künstliche Intelligenz (KI), weil Projekte wie Dall‑E, Stable Diffusion oder Midjourney der brei­ten Öffentlichkeit zugäng­lich wurden.

Auch ich habe hier im Blog schon eini­ge Beiträge über KI-​Bilder geschrie­ben, aber bis­her noch nicht von Grund auf erklärt, wie die KI-​Bildgenerierung funktioniert.

Das Thema „Artificial Intelligence“ inter­pre­tiert von der KI-​Engine Stable Diffusion

Das ist aber essen­ti­al für das Verständnis der aktu­el­len Debatten um Urheberrechte, Bilderdiebstahl und die ethi­schen Auswirkungen der neu­en Technik.

Daher hier ein kur­zer Exkurs in die Geschichte der KI-Bilderstellung.

Bild-​zu-​Text-​Erkennung

Um 2015 her­um lern­ten maschi­nell trai­nier­te Algorithmen, Objekte in vor­han­de­nen Bildern zu benen­nen. Das ken­nen Fotografen sicher von Lightroom, Google Images oder Facebook, wo die Software oder Webseite auto­ma­tisch erkennt, wel­che Dinge grob auf einem Bild sicht­bar sind. Zusätzlich lern­ten die Algorithmen schnell, die beschrie­be­nen Objekte in einen les­ba­ren Satz umzu­wan­deln. Aus „Frau, Handy, lachen“ wur­de also „Eine lachen­de Frau am Handy“.

Text-​zu-​Bild-​Erkennung

Findige Forscher dach­ten nun, dass die­ser Prozess auch umkehr­bar sein müss­te. Sie kom­bi­nier­ten hier – sehr ver­ein­facht gespro­chen – die obi­ge Technologie mit einem Entrauschungsverfahren, wel­ches wie­der­um mit obi­ger Technologie auf Genauigkeit getes­tet wurde.

Im Grunde trai­nier­ten sich zwei ver­schie­de­ne KIs gegen­sei­tig. Die ers­te KI nahm zufäl­lig erzeug­tes Bildrauschen und ver­such­te, aus der Texteingabe ein Bild zu erzeu­gen. Die zwei­te KI ver­such­te, aus dem erzeug­ten Bild zu erra­ten, was dar­auf erkenn­bar ist. Wenn die zwei­te KI der ers­ten bestä­tig­te, dass sie „die lachen­de Frau am Handy“ erkannt hat, spei­cher­te sich die ers­te KI einen Pluspunkt für das Entrauschungsmuster und schlug ein neu­es vor. Nach vie­len Millionen Trainingsrunden wur­de die ers­te KI durch die­se Tests immer treff­si­che­rer bei der Umwandlung von Texten zu Bildern.

Massenhafte Text-​zu-​Bild-​Erkennung

Die obe­re Methode funk­tio­niert zwar prin­zi­pi­ell, hat aber einen Haken. Sie ist lang­sam und setzt natür­lich irgend­wie vor­aus, dass irgend­je­mand mas­sen­haft Texteingaben der KI zum Trainieren vor­setzt, damit sie spä­ter weiß, wel­che Begriffe wie bild­lich umge­setzt werden.

Forscher nutz­ten des­halb einen Trick, der heu­te einer der Grundprobleme bei der Akzeptanz von KI-​Bilder-​Tools ist: Sie grün­de­ten das „Large-​scale Artificial Intelligence Open Network“ (Groß ange­leg­tes offe­nes Netz für künst­li­che Intelligenz), kurz LAION.

LAION ist ein gemein­nüt­zi­ger Verein, wel­cher mas­sen­haft Daten aus dem Internet sam­melt, um damit KIs zu trai­nie­ren. Diese Daten wer­den nach Typ und Qualität sor­tiert. So gibt es zum Beispiel das „LAION-​5B“-Set, wel­ches 5,85 Milliarden Text-​Bild-​Kombinationen in allen mög­li­chen Sprachen zusam­men­ge­fasst hat, das „LAION-​400M“-Set mit 400 Millionen Text-​Bild-​Kombinationen in eng­li­scher Sprache oder das „LAION-​Aesthetics“-Set, wel­ches eine Untergruppe von „LAION-​5B“ ist, wel­ches nur ästhe­tisch anspre­chen­de Bilder ent­hal­ten soll.

In der Praxis wur­den neben der Bild-​URL und der Beschreibung noch ande­re Kriterien gespei­chert, wel­che eben­falls durch eine KI erzeugt wur­den, wie Qualität der Beschreibung oder wie wahr­schein­lich das Bild „NSFW“ (not safe for work) ist, also nicht jugendfrei.

Der Knackpunkt ist hier, dass der Verein also hau­fen­wei­se Bilder gespei­chert hat, um sie der Forschung zugäng­lich zu machen. Wie soll die KI aber genau wis­sen, was auf den Bildern zu sehen ist? Dafür nutz­ten die Forscher die häu­fig vor­han­de­nen Metadaten, wel­che Fotografen, Künstler oder SEO-​Firmen an die Bilder ange­hängt hat­ten, damit Suchmaschinen die Bilder bes­ser ein­ord­nen konnten.

Stockfotografen ken­nen das von der Bildbeschreibung, mit der sie ein Bild zusätz­lich mit des­sen Text-​Äquivalent ver­se­hen, damit Bildkunden es über die Suchfunktion der Bildagentur fin­den können.

Besonderen Wert hat­ten also die sorg­fäl­tig beschrif­te­ten Bilder, die als Futter für das KI-​Training genutzt wur­den und wei­ter­hin werden.

Die Erstellung vom latenten Raum

Wenn jetzt jemand einen Befehl in eine Bild-​KI ein­gibt, kopiert die KI nicht ein­fach stumpf Teile exis­tie­ren­der Bilder, son­dern die Informationen kom­men aus dem soge­nann­ten „laten­ten Raum“ (latent space). Dieser heißt so, weil die Objekte und Konzepte dort „latent“ vor­han­den sind. Der Computer weiß, wie etwas gene­riert wird, macht es aber erst, wenn eine bestimm­te Kombination abge­ru­fen wird.

Das KI-​Training kann mensch sich ähn­lich vor­stel­len wie Kleinkinder ihre Welt ent­de­cken. Woher wis­sen Kleinkinder, wenn sie ein Bilderbuch anse­hen, dass die gezeich­ne­ten Figuren ein Elefant, eine Giraffe und ein Ball sind?

Sie wis­sen es erst, wenn sie genug ver­schie­de­ne Versionen die­ser Dinge gese­hen haben, um die Gemeinsamkeiten abs­tra­hie­ren zu kön­nen. Ein Elefant ist zum Beispiel meist grau und groß, eine Giraffe gelb-​gescheckt mit einem lan­gen Hals und ein Ball rund und bunt.

Die KI hat das eben­falls so gelernt, nur eben an Millionen Bild-​Text-​Kombinationen. So ruft sie bei­spiels­wei­se alle Bilder auf, die mit dem Wort „Giraffe“ beschrif­tet sind, und ver­sucht, die Gemeinsamkeiten zu erken­nen. Beim Wort „Ball“ genau­so. Am Anfang rät sie ein­fach, aber je öfter sie es macht, des­to mehr erkennt sich bestimm­te Muster.

Die KI merkt jedoch, dass bei­spiels­wei­se Farbe oder Form kein aus­rei­chen­des Kriterium für bestimm­te Objekte oder Konzepte sind, weil sich die­se ändern kön­nen. Bälle kön­nen zum Beispiel ver­schie­de­ne Farben haben, Elefanten ver­schie­de­ne Formen und so wei­ter. Daher ver­sucht die KI, mög­lichst vie­le ver­schie­de­ne Variablen zu kre­ieren und die Begriffe in so einem Koordinatensystem zu ver­or­ten. Dieses System hat deut­lich mehr als drei Dimensionen und wird als der „laten­te Raum“ bezeichnet.

Er ent­hält hun­der­te Variablen und deren Beziehungen zuein­an­der. So ent­steht ein mul­ti­di­men­sio­na­les Netzwerk aus Beziehungen, ähn­lich wie eine „sozia­le Netzwerkanalyse“. Die Variablen für „Spaghettieis“ wür­den da zum Beispiel irgend­wo zwi­schen denen für „Eiscreme“ und „Pasta“ lie­gen, in der Nähe von ande­ren kal­ten Objekten wie „Antarktis“ oder „Winter“, fern­ab von Objekten, wel­che mit „Härte“ asso­zi­iert sind. Das ist für den mensch­li­chen Geist schwer ver­ständ­lich, für moder­ne Computer aber kein Problem.

Vom latenten Raum zur stabilen Diffusion

Wie kriegt mensch aber nun neue Bilder aus die­sem laten­ten Raum? Durch die Texteingabe navi­giert der Mensch den Computer zu einer Stelle im mul­ti­di­men­sio­na­len Raumen, wo die Wahrscheinlichkeit am höchs­ten ist, dass die dor­ti­gen Variablen die Begriffe gut abdecken.

Nun kommt wie­der das obi­ge Entrauschungsverfahren zum Einsatz. Aus einem zufäl­li­gen Bildrauschen schärft der Computer in sehr vie­len Durchgängen das Chaos zu einer Anordnung, in wel­cher Menschen die gewünsch­ten Begriffe erken­nen kön­nen sol­len. Da die­ser Prozess zufalls­ba­siert ist, wird auch mit der glei­chen Texteingabe nie­mals exakt das glei­che Bild entstehen.

Diese zufalls­ba­sier­te Pixelstreuung heißt im Lateinischen „Diffusion“ und da das System sta­bil zwar kei­ne glei­chen, aber ähn­li­che Ergebnisse erzie­len kann, nennt sich die­ses Verfahren der KI-​Bilderstellung „Stable Diffusion“.

Auch wenn die glei­che Texteingabe in ein ande­res KI-​Modell gege­ben wird, wer­den sich die Ergebnisse unter­schei­den, weil das Bild dann durch ande­re Trainingsdaten in einem ande­ren „laten­ten Raum“ erzeugt wurde.

Der bis hier beschrie­be­ne Prozess wird gut visu­ell an einem Beispiel dar­ge­stellt in die­sem Artikel der Washington Post.

KI-​Ablehnung durch Missverständnis

Es gibt eini­ge KI-​Gegner, wel­che die KI-​Bilder ableh­nen, weil sie fälsch­li­cher­wei­se anneh­men, dass die KI-​Tools nur eine Art intel­li­gen­te Bildmontagen-​Maschine sind, wel­che Versatzstücke aus bestehen­den Bildschnipseln neu zusammensetzt.

Als „Beweis“ wer­den hier ger­ne die manch­mal sicht­ba­ren Wasserzeichen genannt, wel­che erkenn­bar bestimm­ten Bildagenturen zuge­ord­net wer­den kön­nen. Diese erge­ben sich jedoch aus der oben genann­ten Trainingsmethode. Die Agenturbilder sind für LAION beson­ders wert­voll gewe­sen, weil die­se beson­ders häu­fig beson­ders hoch­qua­li­ta­ti­ve Beschreibungen zu den Bildern hat­ten. Stockfotografen waren ja auf tref­fen­de Bildbeschreiben ange­wie­sen für häu­fi­ge Verkäufe. Das erklärt, war­um Bilder mit Agenturwasserzeichen beson­ders häu­fig für KI-​Trainingszwecke genutzt wurden.

Bei beson­ders „stock­las­ti­gen“ Motiven (den­ke an den „Business-​Handshake“) war also die Wahrscheinlichkeit hoch, dass die KI lern­te, dass sol­che Wasserzeichen irgend­wie nor­mal sei­en für das Motiv und dem­entspre­chend „dazu­ge­hör­ten“. Also ver­sucht die KI, die­se Wasserzeichen mit zu reproduzieren.

Die rechtlichen Implikationen dieser Methode

Aber auch ohne das obi­ge Missverständnis gibt es genug berech­tig­te Kritik. So wer­fen Kritiker der LAION vor, mil­lio­nen­fach die urhe­ber­recht­lich geschütz­ten Werke zu Trainingszwecken genutzt zu haben, ohne dass die Künstler dafür irgend­wie ent­schä­digt wur­den. LAION beruft sich zur Verteidigung dar­auf, dass sie eine gemein­nüt­zi­ge Organisation (ein­ge­tra­ge­ner deut­scher Verein) sei, wel­che nur zu Forschungszwecken arbeite.

Angesichts der Finanzierung die­ses gemein­nüt­zi­gen Vereins durch kom­mer­zi­el­le Firmen wie u.a. Stability AI, wel­che die Entstehung des LAION-5B“-Datensets finan­ziert haben und es letzt­end­lich in ihrer KI „Stable Diffusion“ nut­zen, ist das ein wack­li­ges Argument.

KI-​Befürworter wei­sen dar­auf hin, dass die KI bei ihrem Training im Grunde ver­gleich­bar sei mit dem Vorgehen von Google. Google hat­te jah­re­lang mas­sen­haft urhe­ber­recht­lich geschütz­te Bücher und ande­re Texte ein­ge­scannt, um Ausschnitte davon in deren Dienst „Google Books“ zu nut­zen. 2015 urteil­te der us-​amerikanische obers­te Gerichtshof, dass die­ses Vorgehen legal und von der „Fair Use“-Klausel gedeckt sei.

Auch die Frage, wie der recht­li­che Status der durch die KI erstell­ten Bilder zu bewer­ten ist, ist noch völ­lig offen und wird ver­mut­lich bald von eini­gen Gerichten geklärt wer­den müssen.

Die moralischen Probleme vom latenten Raum

Da das KI-​Training im laten­ten Raum qua­si ohne mensch­li­che Eingriffe geschah, hat die KI eini­ge Erkenntnisse gewon­nen, die wir Menschen pro­ble­ma­tisch hal­ten könnten.

Bestehende Vorurteile, Fehler oder dis­kri­mi­nie­ren­de Praktiken wer­den von de KI unge­fil­tert ein­fach über­nom­men und danach wie­der­ge­ge­ben. Wer sich bei den KI-​Tools bei­spiels­wei­se Bilder von einem „CEO“ gene­rie­ren lässt, wird haupt­säch­lich älte­re wei­ße Männer erhal­ten, Bilder von „Krankenpflegern“ hin­ge­gen wer­den vor allem weib­lich sein. Auch der Fokus auf die eng­li­sche Sprache schließt vie­le anders­spra­chi­ge Kulturen und Traditionen stark aus. Versucht bei­spiels­wei­se mal ein „Sankt Martin“-Bild durch die KI erzeu­gen zu lassen…

Stable Diffusion ver­sucht sich an der Darstellung eines „CEO“…
…und einer Krankenschwester („nur­se“)
Die KI schei­tert an der Darstellung des Begriffs „Sankt Martin“

Branchen im Wandel

Ungeachtet der noch unge­lös­ten recht­li­chen und mora­li­schen Probleme der KI-​Bilderzeugung hat die Technologie jedoch das Potential, gesam­te Branchen auf den Kopf zu stel­len, ver­gleich­bar mit der Erfindung des Fotoapparats.

Auch hören die Forscher längst nicht bei der Bilderzeugung auf. Mit „ChatGPT“ gibt es von den DALL-​E-​Machern schon eine funk­ti­ons­fä­hi­ge Chat-​KI wel­che auf Zuruf län­ge­re Texte schreibt. Andere Firmen arbei­ten an Text-​zu-​Video-​Generatoren, Text-​zu-​3D-​Objekt-​Generatoren und so wei­ter. Werden eini­ge der bestehen­den Technologien kom­bi­niert, bei­spiels­wei­se die Chat-​KI mit einer Video-​KI und einer Sprach-​KI, so könn­ten auf Knopfdruck bald indi­vi­dua­li­sier­te Spielfilme erzeugt wer­den. Die Entwicklungen hier wer­den in einem atem­be­rau­ben­den Tempo veröffentlicht.

Ist die Funktionsweise der gene­rie­ren­den KIs etwas kla­rer gewor­den? Was ver­steht ihr ggf. noch nicht?