Schlagwort-Archive: Sora

Das Geheimnis hinter dem Hype-​Text2Video KI-​Generator Sora von OpenAI

Seit Tagen ist in der KI-​Welt kaum von etwas ande­rem die Rede als den beein­dru­cken­den Ergebnissen von Sora.

Sora ist der Name des kürz­lich hier vor­ge­stell­ten Text2Video-​Generators der Firma OpenAI, wel­che auch schon den Text2Bild-​Generator Dall‑E und das Text2Text-​Generator ChatGPT ver­öf­fent­licht hat.

Standbild aus einem Sora-​Video [Montage]

Mit Sora kön­nen durch simp­le Texteingaben hoch­auf­lö­sen­de Videos von bis zu einer Minute Länge gene­riert werden.

Einen Überblick über die Ergebnisse fin­det ihr hau­fen­wei­se, ent­we­der auf der Sora-​Seite direkt oder bei YouTube, zum Beispiel in die­sem Video:

Ki-​Videos, mit­tels Sora von OpenAI generiert

Auf der offi­zi­el­len Webseite wird lang und breit über die Sicherheit des Tools gere­det und ger­ne erwähnt, dass geplant sei, den C2PA-Metadaten-​Standard zur Erkennung von KI-​generierten Inhalten zu unter­stüt­zen. Auffällig ist aber, dass ande­re Informationen fehlen.

Das Geheimnis der Trainingsdaten

Auffällig ist, dass an kei­ner Stelle der Vorstellung von Sora dar­auf ein­ge­gan­gen wird, wie genau das KI-​Tool trai­niert wur­de. Welche Daten wur­den dafür verwendet?

Im tech­ni­schen Report fin­det sich nur der lapi­da­re Satz:
“[…] we train text-​conditional dif­fu­si­on models joint­ly on vide­os and images of varia­ble dura­ti­ons, reso­lu­ti­ons and aspect ratios.“

Ach? Ja, das war uns allen klar, aber wel­che Videos und Bilder habt ihr dafür nun genau benutzt?

In der Vergangenheit hat sich OpenAI nicht mit Ruhm bekle­ckert, wenn es um Rücksicht auf Urheberrechte bei Trainingsdaten ging.

Das „Opt-​Out“, um zu ver­hin­dern, dass Bilder für Dall‑E trai­niert wer­den, ist berüch­tigt und wur­de auch viel zu spät ein­ge­führt. Dall‑E 2 wur­de laut die­ser GitHub-​Seite unter ande­rem auch mit Hilfe des Vereins LAION e.V. trai­niert, wel­chen ich selbst gera­de wegen Urheberrechtsverletzung ver­kla­ge.

Auch beim zwei­ten Produkt von OpenAI, ChatGPT, liegt die Sache ähn­lich. OpenAI wird gera­de von der Zeitung New York Times ver­klagt, weil urhe­ber­recht­lich geschütz­te Trainingsdaten der Zeitung für das KI-​Training von ChatGPT benutzt wor­den seien.

Bei einer Zeugenanhörung von OpenAI durch das Oberhaus des bri­ti­schen Parlaments fiel sei­tens OpenAI auch der fol­gen­schwe­re Satz:

Because copy­right today covers vir­tual­ly every sort of human expression–including blog posts, pho­to­graphs, forum posts, scraps of soft­ware code, and govern­ment documents–it would be impos­si­ble to train today’s lea­ding AI models wit­hout using copy­righ­ted mate­ri­als. Limiting trai­ning data to public domain books and dra­wings crea­ted more than a cen­tu­ry ago might yield an inte­res­t­ing expe­ri­ment, but would not pro­vi­de AI sys­tems that meet the needs of today’s citizens“

Frei über­setzt: Ohne den Zugriff auf urhe­ber­recht­lich geschütz­te Trainingsdaten könn­ten wir unse­re Tools nicht anbieten.

Genau wegen die­sem bis­her schon bekann­ten rück­sichts­lo­sen Umgang mit Urheberrechten muss eine Frage viel lau­ter gestellt werden:

Welche Videos und Bilder wur­den für das Training der Sora-​KI verwendet?

Die Wahrscheinlichkeit ist sehr hoch, dass auch hier – ähn­lich wie beim Training von Dall‑E und ChatGPT urhe­ber­recht­lich geschütz­te Videos (und Bilder) zum Einsatz kamen.

Selbst Wasserzeichen in Videos sind für KI-​Entwickler schon lan­ge kein Hindernis mehr. Schon 2017 hat Google selbst eine Technik vor­ge­stellt, mit der Wasserzeichen aus Bildern ent­fernt wer­den können.

Auch der LAION-​Verein bie­tet auf GitHub ein kos­ten­lo­ses Tool für die „Wasserzeichen-​Erkennung“ an. Von der Erkennung zur Entfernung ist es für geüb­te Programmierer dann nur noch ein klei­ner Schritt, über den aus recht­li­chen Gründen nicht so ger­ne öffent­lich gere­det wird.
Manchmal aber doch:

Aus dem #video-​generation Kanal des Discord-​Servers von LAION
Aus dem #video-​generation Kanal des Discord-​Servers von LAION

Bei LAION wird zwar an einem eige­nen Text2Video-​Generator namens phena­ki gear­bei­tet, die tech­ni­schen Details des Trainings sind denen von Sora aber sehr ähn­lich, soweit ich das beur­tei­len kann.

Die Wahrscheinlichkeit, dass OpenAI daher mit der glei­chen Rücksichtslosigkeit wie LAION gegen­über Urhebern beim KI-​Training vor­geht, hal­te ich für hoch, zumal die bis­he­ri­gen Aussagen und Handlungen von OpenAI lei­der nicht geeig­net sind, Zweifel zu zerstreuen.

Beim gan­zen Hype vom SORA und dem Staunen über die tol­len Ergebnisse soll­te nicht ver­ges­sen wer­den zu fra­gen, wel­che (Video-)Künstler beim Training betei­ligt waren.