LAION-​Verein droht Urhebern, die ihre Daten aus KI-​Trainingssatz nehmen wollen mit Schadensersatzansprüchen

Letzten Monat hat­te ich in die­sem Artikel erklärt, wie die Künstliche Intelligenz am Beispiel von Stable Diffusion funktioniert.

Darin kam der Verein LAION e.V. zur Sprache, wel­cher etli­che rie­si­ge Datenpakete anbie­tet, mit wel­chen KIs trai­niert wer­den. Eines die­ser Pakete heißt z.B. LAION 5B, weil es ca. 5,85 Millarden („5,85 Billions“ im Englischen, daher 5B) Datensätze umfasst.

Ein Datensatz besteht zum Beispiel aus der URL zu einer Bilddatei, der dazu­ge­hö­ri­gen Bildbeschreibung, den Bildmaßen in Pixeln, der ver­wen­de­ten Sprache sowie eini­ger ande­rer Faktoren.

Anfangs war weni­gen Leuten bekannt, wel­che Bilder genau im Datenset ent­hal­ten waren. Aber die Künstler Mat Dryhurst, Holly Herndon und Jordan Meyer grün­de­ten die Firma Spawning, wel­che wie­der­um die Webseite „Have I Been Trained?“ ins Leben riefen.

Dort kön­nen Leute – ver­ein­facht erklärt – die oben genann­ten Bildbeschreibungen durch­su­chen, um zu sehen, wel­che Bilder in den KI-​Trainingssets ent­hal­ten sind.

Viele Urheber nutz­ten die Webseite und fan­den wenig über­ra­schend vie­le Treffer. Auch aus mei­nem Portfolio konn­te ich nach einer kur­zen Stichprobe hau­fen­wei­se Bilder fin­den, haupt­säch­lich mit Wasserzeichen aus den Bildagentur-​Portfolios, aber auch von Kundenseiten oder Webseiten, die selbst ille­gal Bildersammlungen anbieten:

Haufenweise Links zu mei­nen Fotos aus mei­nem Shutterstock-​Portfolio im LAION-Datensatz

In den Kommentaren eines mei­ner Social Media-​Profile las ich den Hinweis eines Fotografen, dass der den Verein LAION gebe­ten hat­te, sei­ne Werke aus den Trainingsdaten zu neh­men und als Antwort mit Schadensersatzansprüchen bedroht wur­de, soll­te er auf sei­nem Anliegen beharren.

Das kam mir wie eine wil­de Geschichte vor, bis ich die Fakten über­prüf­te. Ich nahm Einsicht in den Schriftsatz der Anwaltskanzlei und schick­te am 13.02.2023 selbst eine Anfrage an LAION e.V. per Email mit der Bitte, mei­ne Werke aus dem Trainingssatz zu entfernen.

Nur einen Tag spä­ter erhielt ich am 14.02.2023 tat­säch­lich Post („vor­ab per Email“) von der Hannover Anwaltskanzlei „Heidrich Rechtsanwälte“ im Auftrag von LAION e.V., übri­gens fast wort­gleich mit dem Schreiben, wel­ches ich von dem ande­ren Fotografen wei­ter­ge­lei­tet bekom­men habe.

In dem Schreiben heißt es:

Sehr geehr­ter Herr Kneschke,

hier­mit zei­gen wir an, dass wir die recht­li­chen Interessen des LAION e.V., Herman-​Lange-​Weg 6, 21035 Hamburg, ver­tre­ten. Die ord­nungs­ge­mä­ße Bevollmächtigung wird anwalt­lich versichert.

Grund unse­res Schreibens ist Ihre E‑Mail vom 13. Februar 2023 an unse­re Mandantin, wel­che uns die­se zur Beantwortung vor­ge­legt hat.

  1. Bei unse­rer Mandantin han­delt es sich um einen im Vereinsregister ein­ge­tra­ge­nen, nicht-​gewinnorientierten Verein, der es sich zur Aufgabe gemacht hat, selbst­ler­nen­de Algorithmen im Sinne künst­li­cher Intelligenz fort­zu­ent­wi­ckeln und der brei­ten Öffentlichkeit zur Verfügung zu stel­len. Die Vereinsmitglieder sowie der Vorstand sind im Rahmen der Vereinsarbeit ehren­amt­lich for­schend tätig.

    Unsere Mandantin hat bereits im Sommer 2022 umfang­reich Rechtsrat zu ver­schie­de­nen Problemstellungen – ins­be­son­de­re urhe­ber­recht­li­chen Implikationen – im Zusammenhang mit ihrer Tätigkeit auf dem Gebiet der Erforschung von Kl-​gestützten Bildgenerierungsmodellen ein­ge­holt. Unserer Mandantin war es von Anfang an wich­tig, dass im Rahmen ihrer Tätigkeit kei­ne Rechte Dritter ver­letzt wer­den. Unsere Mandantin hält sich aus­nahms­los an die bestehen­den gesetz­li­chen Vorgaben, ins­be­son­de­re aus dem Urheber- und Datenschutzrecht.
  2. Unsere Mandantin unter­hält ledig­lich eine Datenbank, die Links zu im Internet öffent­lich abruf­ba­ren Bilddateien ent­hält. Sie kann zwar nicht aus­schlie­ßen, dass in der Datenbank auch Links zu Bildern ent­hal­ten sind, deren Urheber Sie sind. Da unse­re Mandantin aber jeden­falls kei­ne der von Ihnen monier­ten Fotografien spei­chert, besteht Ihrerseits auch kein Anspruch auf Löschung. Es exis­tie­ren bei unse­rer Mandantin schlicht kei­ne Bilder, die gelöscht wer­den könn­ten.

    Das Bereitstellen von Links stellt nach der höchst­rich­ter­li­chen Rechtsprechung auch kei­ne Verletzung von Urheberrechten dar. Das Bereitstellen eines Links dient ledig­lich dem Auffinden eines ohne­hin im Internet abruf­ba­ren Inhalts. Der hin­ter einem Link ste­hen­de Inhalt kann auch nur an der ver­link­ten Stelle und nicht andern­orts abge­ru­fen wer­den, sodass ins­be­son­de­re kei­ne Vervielfältigung im Sinne des Urheberrechts vor­liegt. Unsere Mandantin trägt kei­ne Verantwortung für die Inhalte auf ande­ren Websites.
  3. Auf Nutzungen Ihrer Werke durch Dritte hat unse­re Mandantin natur­ge­mäß kei­nen Einfluss. Eine Nutzung durch Dritte wird aber ohne­hin auch nicht erst durch unse­re Mandantin ermög­licht. Die von unse­rer Mandantin ver­link­ten Bildinhalte sind frei im Internet abruf­bar. Sofern Sie eine rechts­ver­let­zen­de Nutzung durch Dritte fest­stel­len, müs­sen Sie sich an die­se Personen wenden.
  4. Ihre Fristsetzung betrach­ten wir daher als gegen­stands­los. Wir wei­sen außer­dem dar­auf hin, dass unse­re Mandantin gemäߧ 97a Abs. 4 UrhG Schadenersatzansprüche gel­tend machen kann, wenn die­se unbe­rech­tigt urhe­be­recht­lich in Anspruch genom­men wird.

    Wir hof­fen, dass wir Ihre Bedenken mit unse­ren Ausführungen aus­räu­men konn­ten und ste­hen Ihnen für Rückfragen gern zur Verfügung.“

Ja, ihr lest das voll­kom­men rich­tig. Urhebern, die nicht wol­len, dass ihr Werke für Trainingszwecke benutzt wer­den, wer­den Schadensersatzansprüche angedroht.

Die rest­li­chen Aussagen im Schreiben las­sen einen eben­falls etwas ver­wun­dert zurück. Die angeb­li­che Gemeinnützigkeit eines Vereins, wel­cher unter ande­rem von einer Firma wie Stability AI mit­fi­nan­ziert wird, wel­che wie­der­um von den Ergebnissen des Vereins kom­mer­zi­ell pro­fi­tiert, hat min­des­tens ein „Geschmäckle“, was mei­ner Meinung nach danach riecht, hier absicht­lich eine Konstruktion zu bau­en, wel­che Haftungsfragen aus­la­gern soll.

Auch das „ledig­li­che Unterhalten einer Datenbank“ ist hier mei­ner Meinung nach etwas zu kurz gegrif­fen, da neben den oben genann­ten Datenpunkten auch Daten wie „simi­la­ri­ty“, „pwa­ter­mark“ oder „punsafe“ ent­hal­ten, wel­che nicht ein­fach aus­ge­le­sen, son­dern erstellt wer­den müs­sen, was ver­mut­lich zumin­dest eine tem­po­ra­re Speicherung der Bilddaten erfor­dert haben wird. Das legt auch die­se Infografik nahe, in der erklärt wird, das die Bilder und Daten „her­un­ter­ge­la­den“ wurden:

Das sind im Detail aber auch Vermutungen, wel­che wahr­schein­lich bei einem Gerichtsprozess geklärt wer­den müssen.

Genau so einen Prozess wer­de ich nun anstre­ben, um die Frage rich­ter­lich klä­ren zu las­sen, ob das Vorgehen tat­säch­lich recht­lich so ein­wand­frei ist, wie die Anwaltskanzlei behauptet.

Falls ihr als Urheber eben­falls eini­ge eurer Werke im Datensatz von LAION fin­det und viel­leicht auch Post von obi­ger Anwaltskanzlei erhal­ten wollt, fin­det ihr die Emailadresse für eure Anfrage zur Datenlöschung hier im Impressum von LAION e.V..

15 Gedanken zu „LAION-​Verein droht Urhebern, die ihre Daten aus KI-​Trainingssatz nehmen wollen mit Schadensersatzansprüchen“

  1. Hallo Robert,
    ist ja span­nend was du da aus­ge­gra­ben hast – aber willst du dei­ne Energie (die ich im Einzelfall echt bewun­de­re, bei Imagebroker etc.) als Einzelkämpfer da wirk­lich einsetzen ?
    Denke das ist ne grös­se­re Nummer die man bes­ser aus­ge­stat­te­ten Verbänden wie der VG Bild über­las­sen kann.
    LG, Andreas

  2. @Andreas: Ich sehe aktu­ell lei­der nicht, dass unse­re Branchenverbände da all­zu moti­viert sind, etwas zu unternehmen.
    Sollte sich das ändern, bin ich ger­ne bereit, mit denen zusam­men­zu­ar­bei­ten oder denen ganz die Arbeit zu überlassen.

  3. Bislang schei­nen sich die Verbände noch nicht sehr für die­se Entwicklung zu inter­es­sie­ren. Ich habe eini­ge ange­schrie­ben und bis­lang von KEINEM eine Antwort erhalten.
    Was mich jetzt schon etwas wun­dert, greift die­se Entwicklung nicht nur in den Bereich der Werbefotografie ein.
    Ebenfalls habe ich auch bis heu­te kei­ne Rückmeldung von den (staat­li­chen!) Forschungsinstituten erhal­ten, die ent­we­der an der Schaffung von Laion-​5b samt Software betei­ligt sind oder waren bzw. ent­spre­chen­de Fachpublikationen zum Urheberrecht in der Wissenschaft ver­öf­fent­licht haben.
    Der §60d, der ohne­hin schon das Urheberrecht sehr zu Gunsten der Wissenschaft ver­schiebt, wird hier zum Schaden aller Gestalter gedehnt.

  4. @Christian: Das Problem bei die­sen Lösungen ist ähn­lich wie bei Opt-​Out-​Möglichkeiten: Hier wird die Verantwortung auf die Seite der Urheber gelegt, nach dem Motto: „Wenn der Urheber sei­ne Werke nicht in einem zusätz­li­chen Arbeitsschritt mit einem Tool schützt, kann die KI das ein­fach zum Trainieren nutzen…“

    Sowas höre ich stän­dig, wenn Leute mei­ne Bilder klau­en: „Da stand ja kein Name dran, des­halb bin ich davon aus­ge­gan­gen, dass ich das kos­ten­los nut­zen dürfe“…

  5. robert, dan­ke für dei­ne arbeit. die­se ist ein­fach wich­tig. habe mich auch schon gefragt ob lion sau­ber arbei­tet, bzw. was dort betrie­ben wird in deutsch­land über­haupt zuläs­sig ist. soll­te man ggf. auch an die jewei­li­gen bun­des­tags­ab­ge­ord­ne­ten zukom­men las­sen, mit der bit­te um stellungnahme. 

    wie siehts mit ado­be aus? sind doch ver­dammt vie­le fotos von den­nen drin? wol­len die nichts unter­neh­men?? (vie­le hun­dert bil­der von mir sind dort drin – hät­te die dort lie­ber ges­tern als heu­te entfernt.)

  6. Das ist ja ganz nett von den Wissenschaftlern sich hier Arbeit zu machen .. aber:
    a) ist das Kind bereits schon im Brunnen
    b) ist es eini­ger­ma­ßen unver­fro­ren, wenn man sich gegen die Aneignung der eige­nen Arbeitsleistung nur weh­ren kann, in dem man einen durch­aus hohen Aufwand betreibt.
    Es gibt ja durch­aus Leute, die müs­sen mehr als ein Werk pro Monat erstellen …
    c) der­je­ni­ge, der sich schlicht und ergrei­fend in den Niederungen der bild­li­chen Darstellung bewegt, der hat da mal gar nichts von.

    Es ist viel zu kurz betrach­tet, die Leistung nur im Kunstmarkt anzu­sie­deln. Die wesent­li­che Markt liegt nicht dar­in daß jetzt jeder sich einen van Gogh Sonnenaufgang auf die Kaffeetasse kle­ben kann, der Markt liegt in der gesam­ten pro­fes­sio­nel­len Fotografie – von Presse über Hochzeit bis zur Werbung – und der ist lukrativ.

  7. Hallo Henrik – Adobe hat 2 Geschäftsfelder – die Creative Cloud und den Stock. KI greift zwei­fel­los bei­de Geschäftsfelder an – will Adobe nicht den Weg von Kodak gehen, wer­den Sie sich sel­ber dahin ent­wi­ckeln müssen.
    Das käme aber bei den Kunden der Cloud ziem­lich sicher nicht gut an und wäre ein kata­stro­pha­ler Vertrauensverlust wenn sich dann her­aus stel­len wür­de: das geht so nicht mit dem Data Mining.
    Also war­ten sie mal und leh­nen sich nicht aus dem Fenster.
    Aber log­ge Dich mal in Deinem CC-​Account ein – unter „Konto und Sicherheit /​ Datenschutz“ gab es bei irgend­ei­nem Update eine Erweiterung:
    „Adobe erlau­ben, mei­ne Inhalte zum Zweck der Produktverbesserung und ‑ent­wick­lung zu analysieren“.
    Der ist stan­dart­mä­ßig auf „ja, sup­pi ger­ne“ gestellt gewesen… .

  8. Ich bin mir nicht sicher ob dies ziel­füh­rend ist. Am Ende des Tages wird man die­se Entwicklung nicht auf­hal­ten kön­nen und wer­den. Ich mag den Spruch, dass AI kei­ne Jobs weg­neh­men wird, son­dern ledig­lich die Beschäftigung von denen, die kei­ne AI benut­zen, zu denen ver­schiebt, die es tun.

    Dies ist das übli­che Aufbäumen einer lukra­ti­ven Industrie, die poten­ti­ell durch Technologie refor­miert bzw. revo­lu­tio­niert wird. Die Gewinner sind – wie immer – die Resilienten mit der Fähigkeit zur Adaption. 

    Aus dem Stockfoto-​Fotografen wird also per­spek­ti­visch der Algorithmen-​Designer. Oder Input-​Creator, der die best­mög­li­chen Prompts in die bes­ten Algorithmen hackt. 

    Ich mag dein Blog und lese es schon vie­le Jahre. Heute bin ich das ers­te Mal so gar nicht dei­ner Meinung.

  9. @M.B.: Das sind ja zwei ver­schie­de­ne Themen. Ich stim­me mir Dir über­ein, dass die KI-​Entwicklung ver­mut­lich nicht auf­ge­hal­ten wer­den kann.
    Das soll auch gar nicht das Ziel sein. Ich den­ke jedoch, dass es rele­vant ist, dass die Herkunft und Entwicklung der Trainingsdaten trans­pa­rent und nach­voll­zieh­bar dar­ge­legt wer­den kann, was aktu­ell lei­der nicht ganz der Fall zu sein scheint.
    Allein die gan­ze Konstruktion mit dem Geflecht aus „gemein­nüt­zi­gem“ Verein, staat­li­chen Forschungseinrichtungen sowie kom­mer­zi­ell agie­ren­den Firmen riecht ver­däch­tig nach dem Versuch, hier Urheberrechtsgesetze zu umschiffen.

  10. Richtig Robert, das sehe ich eben­so. Ich kann ja auch nicht als Uber Fahrer durch­star­ten und dafür das Auto mei­nes Nachbarn neh­men – nur weil es eben gera­de so arg unge­nutzt rumsteht.
    Da ich noch aus der ana­lo­gen Zeit stam­me, schät­ze ich auch den Bedarf an „Prompt-​Tipper“ eher gering ein (zu ana­lo­gen Zeiten gab es rela­tiv weni­ge Unternehmen, die ihren Bedarf an Fotografie sel­ber gedeckt haben. Schlicht weil man auf sei­nen Ausschuss min­des­tens 2 Tage war­ten muss­te 😉 – also die Lernkurve war eher flach … )
    Das hat sich mit der digi­ta­len Fotografie spür­bar geändert.
    Von daher wird sich das Marketing (oder der pri­va­te Auftraggeber) zukünf­tig bei Shutterstock ein­log­gen, und ent­we­der per Tipparbeit das Gewünschte erstel­len oder es sich aus einer Auswahl an Referenzbildern „mixen“ lassen.
    Das geht schon heu­te. So wur­den die KI´s anfäng­lich trai­niert und übri­gens geschieht das heu­te noch so.
    Und last not least, wie­viel wird einem Kunden Deine „Prompt-​Experience“ pro Stunde wert sein?

  11. Hallo an die Runde, 

    und einen herz­li­chen Dank an Dich, Robert, für Deine Initiative.

    Kurz zu den Verbänden, die das Thema KI angeb­lich nicht inter­es­sie­ren wür­de. Wir (die AGD) haben am 23.03.23 in Heidelberg eine ganz­tä­gi­ge Veranstaltung zum Thema KI im Design. (https://agd.de/designer/szene/ki-design-vortraege). Im Verbund des Kulturrats wird an einer Positionierung gear­bei­tet, was mir per­sön­lich etwas zu früh ist, wenn im (gefühl­ten) Wochenrhythmus neue Tools auf den Markt kom­men und noch nicht klar ist, wer Freund und wer Feind ist. Zudem kön­nen wir es uns nicht erlau­ben, von den vie­len Teilaspekten ein­fach nur ein Thema her­aus­zu­pi­cken und alles ande­re links lie­gen lassen.

    Ich muss aber geste­hen, dass Danger-​Robert sich mal wie­der den inter­es­san­tes­ten Bereich vor­ge­nom­men hat : Darf ein KI-​Unternehmen sich bei ande­ren UrheberInnen bedie­nen? In Deutschland wird es wohl um die Anwendung des Text- und Dataminings gehen (§ 44b UrhG) und wahr­schein­lich wird man die Framing-​Rechtsprechung des EuGH her­an­zie­hen. Bei letz­te­rer ist ent­schei­dend ob man auf der eige­nen Website das Framing unter­bun­den hat. Mich wür­de inters­sie­ren, ob man den Datenzugriff durch LAION unter­bin­den kann (zB. im HTML-​Code der Website)?

    So, das mal aus der Hüfte geschossen.

  12. Hallo Alexander,
    als AGD seid Ihr da ganz vor­ne dran 😉
    Was die Framing-​Rechtssprechung angeht:
    Das Wesen des Internets bringt es mit sich, daß Bilder und Filme, die ein Kunde beauf­tragt und bezahlt hat, ger­ne kopiert wer­den. Mal steht der Kopierende in einem Geschäftsverhältnis mit dem Auftraggeber, mal wird schlicht geklaut. Mal gibt es ein robots.txt, oft gibt es den nicht.

    Bei Laion-​5b und sei­ne Varianten sieht das noch­mals anders aus. Mit wis­sen­schaft­li­chem Recht (§60d) wur­de gem­int und dann an einen Verein über­ge­ben, der kei­ner­lei Kontrolle über den Kreis der Nutzer hat. Ob Forscher oder Konzern, ob Sozialdemokrat oder Faschist, jeder darf ran.
    Fakt.

    Grundsätzlich kann man aus §44b Abs.2 und Abs.3 folgern:
    Während das Sammeln von Bienenschwärmen den Nachweis der „Herrenlosigkeit“ bedarf, ist es bei geis­ti­gem Eigentum nicht so. Und da muß man mal ganz vie­le Fragezeichen dahin­ter­set­zen. Demokratie und Gleichheit gehen anders.

    Ich habe es Robert schon geschrie­ben, ich bin ein „alter Sack“, mich wird die­se Entwicklung sehr wahr­schein­lich nur hin­sicht­lich der Unternehmensübergabe tref­fen (was offen gestan­den aber auch echt reicht).
    Wir müs­sen uns defi­ni­tiv bewußt sein, am Ende bleibt viel­leicht eine Handvoll „Designer“ und „Handwerker“ übrig. Welche Wertschätzung Ihre Arbeit dann aber haben wird, dar­über möch­te ich nicht spe­ku­lie­ren. Aber opti­mis­tisch bin ich da nicht. Ich den­ke, da wer­den die Zahlen der KSK dann schon eher stim­men als heute.
    Gruß Christian

  13. Zur Deiner Frage noch:
    Theoretisch kann man den Zugriff auf die Webseite durch einen ent­spre­chen­de *.txt Datei unter­bin­den und hof­fen daß der Crawler das igno­riert. Gibst Du Daten an einen Kunden wei­ter, hast Du viiii­iel­leicht noch Einfluß dar­auf daß er das tut, hier wird aber die Nachprüfbarkeit schon schwie­ri­ger. Gibt der Kunde jetzt Bilder an einen eige­nen Kunden wei­ter … Ende Gelände. Du kennst ja nicht mal den Kunden.
    Wenn Du Interesse hast: Geh mal auf „haveibeentrained.com“. Gib im Suchfeld „ROAMER watch“ ein. Alles was da kommt, stammt aus mei­nem Studio (aus­ser was auf dem Schreibtsich geknipst wur­de). Das ist aber bei­lei­be nicht alles, lade ich ein sol­ches Bild zum Abgleich hoch, dann kommt noch sehr sehr viel mehr.
    Wenn Du jetzt die Bilder anklickst, siehst Du woher sie kom­men – das ist weder die Webseite von mir, noch die Webseite des Schweizer Auftraggebers.
    Gruß Christian

  14. es ist nicht so schwer zu recher­chie­ren wie der LAION daten­satz zustan­de kommt. vor allem besteht er aus dumps die von com­mon crawl bereit­ge­stellt werden. 

    da es sich um einen url har­ves­ter han­delt wer­den kei­ne meta­da­ten zu den autorin­nen abge­spei­chert. man muss sich also die mue­he machen, die daten ent­spre­chend aus­zu­wer­ten und autoren und orginal-​fotos zuord­nen zu koen­nen, was die genann­ten kuenst­ler gemacht hatten. 

    die exif-​tags und file­na­men wer­den nicht in den trai­nings­da­ten ver­wen­det, also wirds schwie­rig in den „roh­da­ten“ nach namen zu suchen. sieht danach aus dass bei einem min­dest­mass an sach­ver­staen­di­gen­wis­sen vor­aus­ge­setzt, das urteil vor­ge­zeich­net ist.

Kommentare sind geschlossen.