
YouTube-Videos als KI-Trainingsmaterial: Content Creators im Nachteil

Das Internet bietet zu wenig nutzbare Texte für das Training von Sprach-KI-Systemen. Deswegen griff OpenAI auf Videos auf YouTube zurück. Erlaubt ist das aber nicht.
Künstliche Intelligenz (KI) ist in aller Munde, beziehungsweise auf jedem Bildschirm. Sie schreiben Texte, generieren Bilder und Videos, komponieren Lieder und programmieren. Eine KI ist aber nur so gut wie das Trainingsmaterial, auf das sie zugreifen kann: je mehr Material, desto besser. Das KI-Unternehmen OpenAI hat laut eines Berichts der New York Times dafür auch auf Millionen Stunden Videomaterial der Plattform YouTube zurückgegriffen – obwohl die YouTube-Richtlinien einen solchen Zugriff verbieten.
Nicht genügend Daten für weiteres KI-Training
Schon längst ist klar: Wer KI anzuwenden weiß, der wird sich in Zukunft enorme Vorteile sichern. Was umgekehrt bedeutet: Wer die beste KI entwickelt, bekommt die lukrativsten Marktanteile. Die großen Unternehmen im Geschäft der Sprach-KIs, zu denen OpenAI, Google und Meta gehören, leisten sich deswegen ein Kopf-an-Kopf-Rennen um die Entwicklung der besten KI.
Dafür ist jedoch ein möglichst großer Pool an von Menschen produziertem Trainingsmaterial erforderlich. KI-Unternehmen lassen ihre Algorithmen bereits durch jegliche Internet-Inhalte laufen, um sie in ihre KI-Systeme zu überführen.
Besonders wertvoll sind hochwertige Daten wie Fachbeiträge, Bücher, Wikipedia-Seiten und weitere Inhalte, die unter qualitativen Aspekten erstellt wurden. Laut der KI-Forschungsorganisation Epoch könnten diese Inhalte zwischen 2024 und 2026 bereits vollständig indexiert worden sein. Ein weiteres Problem dabei ist: Viele dieser Inhalte sind urheberrechtlich geschützt – das hält die KI-Entwickler aber nicht davon ab, sie dennoch zu nutzen.
YouTube-Videos als unrechtmäßige Quelle für Trainingsdaten
Um an mehr Daten für ihre Sprach-KI zu kommen, entwickelte OpenAI bereits 2021 das Tool Whisper, das gesprochene Sprache in YouTube-Videos transkribieren kann. Die so entstandenen Texte können als weiteres Trainingsmaterial für die Sprach-KI dienen. Rund eine Million Stunden Videos sollen Angestellten zufolge, auf die sich die New York Times beruft, in die aktuelle Version von Chat-GPT eingeflossen sein. Nach welchen Kriterien diese Videos ausgewählt wurden, bleibt dabei offen. Gemessen an der gesamten Spieldauer auf YouTube sind eine Million Stunden nicht viel: Laut Statista kamen im Jahr 2022 täglich rund 720 000 Stunden an neuen Videos hinzu.
Erlaubt ist ein solcher Zugriff allerdings nicht: Unzulässig ist laut YouTube-Nutzungsbedingungen, «mit automatisierten Verfahren (z. B. Robotern, Botnets oder Scrapern) auf den Dienst [also YouTube] zuzugreifen [...]». OpenAI-Entwickler haben gemäß der New York Times wissentlich dagegen verstoßen. Und bei Google, wozu YouTube gehört, sei das bekannt gewesen.
Doch Google steckt selbst in der Klemme: Dort habe man das Potenzial der YouTube-Videos ebenfalls erkannt und nutze sie genauso als Trainingsmaterial. Ebenfalls zu Unrecht, denn YouTube besitzt gar nicht die Urheberschaft an den Videos auf seiner Plattform. Die liegt bei den Content Creators, die Videos erstellen und hochladen. YouTube kann also schlecht gegen den unrechtmäßigen Zugriff durch OpenAI protestieren, wenn sich die KI der Muttergesellschaft Google selbst unrechtmäßig bei den Content Creators bedient.
Klagen durch Copyright-Inhaber
Die New York Times berichtet nicht ohne Grund über diese erneute mögliche Urheberrechtsverletzung durch KI-Unternehmen. Sie hat OpenAI bereits im Dezember wegen der unrechtmäßigen Nutzung der eigenen Artikel verklagt. Die eingespeisten Inhalte können durch die KI repliziert werden und somit ohne finanziellen Ausgleich oder Erwähnung der Urheberschaft auch zum wirtschaftlichen Erfolg von OpenAI beitragen.
Die Nutzung von geschützten Werken wird für Künstler, Autorinnen und weitere Content Creator zum Problem. Laut der New York Times gingen bereits mehr als 10 000 Beschwerden bei der US-amerikanischen Copyright-Behörde ein. Eine erste Sammelklage von Künstlerinnen und Künstlern habe allerdings bereits eine richterliche Abfuhr erhalten.
Aktuell gibt es noch keine gesetzlichen Regularien, die die Verwendung von KI in Bezug auf das Urheberrecht präzisieren.


Fühlt sich vor dem Gaming-PC genauso zu Hause wie in der Hängematte im Garten. Mag unter anderem das römische Kaiserreich, Containerschiffe und Science-Fiction-Bücher. Spürt vor allem News aus dem IT-Bereich und Smart Things auf.