2025 war ein großes Jahr für den Bereich der Videogenerierung. Allein in den letzten neun Monaten hat OpenAI sein Video-Modell Sora veröffentlicht, Google Deepmind Veo 3 auf den Markt gebracht und das KI-Video-Startup Runway sein Gen-4 vorgestellt. All diese Generatoren können inzwischen Videoclips produzieren, die (fast) nicht mehr von tatsächlich gefilmtem Material oder Computeranimationen zu unterscheiden sind. Unterdessen nutzen auch Profis die Technik: Netflix hat in seiner neuen Serie "The Eternaut" erstmals KI-Spezialeffekte eingesetzt – das erste Mal, dass KI-Videogeneratoren offiziell bei einem TV-Anbieter verwendet wurden.
Sicher, die Clips, die man in den Demo-Reels der großen Anbieter sehen kann, werden sorgfältig ausgewählt, um die Modelle eines Unternehmens von ihrer besten Seite zu präsentieren. Aber da die Technik nun mehr Nutzern als je zuvor zur Verfügung steht – Sora und Veo 3 sind in den Apps ChatGPT und Gemini für zahlende Abonnenten verfügbar –, kann fast jeder Amateur etwas Bemerkenswertes schaffen. Der Nachteil ist, dass echte Kreative inzwischen mit KI-Schrott konkurrieren müssen und manche Feeds in den sozialen Medien mit gefälschten Nachrichtenbeiträgen geflutet werden. KI-Videogeneratoren verbrauchen außerdem enorme Mengen an Energie – um ein Vielfaches mehr als die Text- oder Bildgenerierung. Doch was steckt hinter den Modellen und wie funktionieren sie technisch? Hier erfahrt Ihr es.
Wie legt man los mit der Videogenerierung?
Nehmen wir an, Ihr seid Gelegenheitsnutzer. Es gibt mittlerweile zwar eine Reihe von High-End-Tools, mit denen professionelle Videoproduzenten Videogenerierungsmodelle in ihre Arbeitsabläufe einbinden können. Die meisten Menschen werden die Technik jedoch in einer App oder über die jeweilige Website nutzen. Ihr wisst, wie das läuft: "Hey, Gemini, erstelle mir ein Video von einem Einhorn, das Spaghetti isst. Lasse sein Horn wie eine Rakete abheben." Das Ergebnis ist dabei eher zufällig – und in der Regel muss man das Modell mehrfach erneut prompten, bevor es mehr oder weniger das gewünschte Ergebnis liefert.
Was passiert also hinter den Kulissen? Warum ist das Ergebnis oft eher zufällig – und warum kostet es so viel Energie? Die neueste Generation von Videogenerierungsmodellen sind sogenannte Latent-Diffusion-Transformer. Klingt kompliziert. Betrachten wir deshalb einmal die einzelnen Bestandteile.
Was ist ein Diffusionsmodell?
Stellt Euch vor, Ihr nehmt ein Bild und fügt ihm zufällig verteilte Bildpunkte, also Pixel, hinzu. Nehmt dieses mit Pixeln übersäte Bild und streut immer und immer wieder Pixel darauf. Wenn man das oft genug wiederholt, hat man das ursprüngliche Bild in ein zufälliges Pixelchaos verwandelt – wie das Rauschen auf einem alten Fernseher.
Ein Diffusionsmodell ist nun ein neuronales Netzwerk, das darauf trainiert wurde, diesen Prozess umzukehren und zufälliges Rauschen in Bilder umzuwandeln. Während des Trainings werden ihm dazu Millionen von Bildern in verschiedenen Stadien der "Pixelierung" gezeigt. Es lernt, wie sich diese Bilder jedes Mal verändern, wenn neue Pixel hinzugefügt werden, und somit auch, wie diese Veränderungen rückgängig gemacht werden können. Das Ergebnis ist, dass ein Diffusionsmodell, wenn man es promptet, ein Bild zu generieren, mit einem zufälligen Pixelchaos beginnt und dieses Chaos Schritt für Schritt in ein Bild verwandelt – das mehr oder weniger den Bildern in seinem Trainingssatz ähnelt.
Warum arbeitet das Modell doppelt?
Wir wollen ja nicht irgendein Bild – wir wollen das Bild, das wir gepromptet haben, in der Regel mit einer Textvorgabe. Daher wird das Diffusionsmodell mit einem zweiten Modell gekoppelt – beispielsweise einem großen Sprachmodell (LLM), das darauf trainiert ist, Bilder mit Textbeschreibungen abzugleichen. Es steuert jeden Schritt des Bereinigungsprozesses und führt das Diffusionsmodell an Bilder heran, die das große Sprachmodell als gute Übereinstimmung mit der Vorlage ansieht.
Das LLM zaubert die Verbindungen zwischen Text und Bildern nicht einfach aus dem Hut. Die meisten Text-zu-Bild- und Text-zu-Video-Modelle werden heute auf großen Datensätzen trainiert, die Milliarden von Paarungen von Text und Bildern oder Text und Videos enthalten, die aus dem Internet gesammelt wurden (eine Praxis, über die viele Urheber unglücklich sind). Das bedeutet, dass das, was man von solchen Modellen erhält, ein Destillat der Welt ist, wie sie online gesehen wird – also auch verzerrt durch Bias (und oft auch Pornografie). Am einfachsten kann man sich Diffusionsmodelle bei der Arbeit mit Bildern vorstellen. Die Technik kann jedoch mit vielen Arten von Daten verwendet werden, einschließlich Ton und Video. Um Filmclips zu generieren, muss ein Diffusionsmodell Bildsequenzen – die aufeinanderfolgenden Frames (Einzelbilder) eines Videos – aus dem Pixelchaos zurückrechnen, anstatt nur ein einzelnes Bild.
Was ist ein Latent-Diffusion-Modell?
Videogenerierung erfordert enorme Rechenleistung (sprich: Energie). Aus diesem Grund verwenden die meisten Diffusionsmodelle, die für die Videogenerierung eingesetzt werden, eine Technik namens Latent Diffusion. Anstatt Rohdaten zu verarbeiten – Millionen von Pixeln in jedem Videobild – arbeitet das Modell in einem sogenannten Latent Space, in dem die Videobilder (und Textprompts) zu einer mathematischen Codierung komprimiert werden, die nur die wesentlichen Merkmale der Daten erfasst und den Rest verwirft.
Ähnliches geschieht, wenn wir ein Video über das Internet streamen: Der Film wird in einem komprimierten Format von einem Server an den Bildschirm gesendet, damit er schneller ankommt. Ist er da, wandeln Computer oder Fernseher die Kompression wieder in ein abspielbares Video um.
Wie wird aus der Codierung ein Video?
Der letzte Schritt besteht also darin, das Ergebnis des Latent-Diffusion-Prozesses zu dekomprimieren. Sobald die komprimierten Einzelbilder mit zufälligen Pixelstörungen in komprimierte Frames eines echten Videos umgewandelt wurden, das das LLM als gute Übereinstimmung mit der Eingabe des Benutzers erachtet, wird das komprimierte Video in etwas umgewandelt, das wir ansehen können.
Beim Latent-Diffusion-Verfahren funktioniert der Diffusionsprozess mehr oder weniger so wie bei einem Bild. Der Unterschied besteht darin, dass die pixeligen Videobilder nun mathematische Codierungen dieser Bilder sind und nicht mehr die Bilder selbst. Dadurch ist das Verfahren weitaus effizienter als ein typisches Diffusionsmodell. Trotzdem verbraucht die Videogenerierung immer noch mehr Energie als die Bild- oder Textgenerierung – der Rechenaufwand ist einfach enorm.
Was ist ein Latent-Diffusion-Transformer?
Uns fehlt noch ein weiteres Puzzlestück – und zwar, wie man sicherstellt, dass der Diffusionsprozess eine Sequenz von Einzelbildern erzeugt, die konsistent sind – und Objekte, Licht usw. von einem Frame zum nächsten beibehalten werden. OpenAI hat dies mit Sora erreicht, indem es sein Diffusionsmodell mit einem anderen Modelltyp namens Transformer kombiniert hat. Dies ist mittlerweile Standard bei generativen Videos. Transformer eignen sich hervorragend für die Verarbeitung langer Datensequenzen, wie zum Beispiel Sätze. Das hat sie zu einer zentralen Zutat von großen Sprachmodellen wie GPT-5 oder Gemini gemacht, die lange Sequenzen von Wörtern generieren können, die Sinn ergeben und über viele Dutzend Sätze hinweg konsistent bleiben. Das T in GPT steht dabei für Transformer.
Videos bestehen allerdings nicht aus Wörtern. Stattdessen werden sie in Abschnitte zerlegt, die so behandelt werden können, als täten sie es. Der Ansatz, den OpenAI entwickelt hat, besteht darin, Videos sowohl räumlich als auch zeitlich zu zerlegen. "Es ist, als hätte man einen Stapel aller Videobilder und würde daraus kleine Würfel schneiden", sagt Tim Brooks, leitender Forscher bei Sora – so verrückt das klingt.
Welche Vorteile haben Transformer?
Die Verwendung von Transformern neben Diffusionsmodellen bringt mehrere Vorteile mit sich. Da sie für die Verarbeitung von Datensequenzen ausgelegt sind, helfen sie dem Diffusionsmodell dabei, die Konsistenz zwischen den Bildern aufrechtzuerhalten, während es diese generiert. Dadurch ist es beispielsweise möglich, Videos zu produzieren, in denen Objekte nicht plötzlich auftauchen und wieder verschwinden.
Und da die Videos in Abschnitte zerlegt sind, spielen ihre Größe und ihr Format keine Rolle. Das bedeutet, dass die neueste Generation von Videogenerierungsmodellen mit einer Vielzahl von Beispielvideos trainiert werden kann, von kurzen vertikalen Shorts, die mit einem Smartphone aufgenommen wurden, bis hin zu Kinofilmen im Breitbildformat. Durch die größere Vielfalt der Trainingsdaten ist die Videogenerierung heute weitaus besser als noch vor zwei Jahren. Das bedeutet, dass Videogeneratoren nun in der Lage sind, Videos in einer Vielzahl von Formaten zu produzieren.
Wie sieht es mit dem Ton aus?
Ein großer Fortschritt von Googles Veo 3 ist, dass es Videos mit Ton generiert – von lippensynchronen Dialogen über Soundeffekte bis hin zu Hintergrundgeräuschen. Das ist neu bei Videogeneratoren. Demis Hassabis, CEO von Google DeepMind, sagt dazu: "Wir verlassen die Stummfilmära der Videogenerierung."
Die Herausforderung bestand nun darin, einen Weg zu finden, Video- und Audiodaten so aufeinander abzustimmen, dass der Diffusionsprozess für beide gleichzeitig funktioniert. Der Durchbruch von Google DeepMind kam in Form einer neuen Methode, Audio- und Videodaten innerhalb des Diffusion-Modells zu einem einzigen Datenstrom zu komprimieren. Wenn Veo 3 ein Video generiert, produziert sein Diffusionsmodell Audio und Video gemeinsam in einem synchronisierten Prozess, wodurch sichergestellt ist, dass Ton und Bild synchron sind.
Werden LLMs und Diffusionsmodelle bald eins?
Nein – zumindest noch nicht. Diffusionsmodelle werden meist zur Erzeugung von Bildern, Videos und Audiodateien verwendet. Große Sprachmodelle, die Text (einschließlich Programmiercode) generieren, werden mit Transformern erstellt. Aber die Grenzen verschwimmen zunehmend. Wir haben gesehen, wie Transformer mittlerweile mit Diffusionsmodellen kombiniert werden, um Videos zu generieren. Und im Sommer gab Google Deepmind bekannt, dass es ein experimentelles großes Sprachmodell entwickeln wird, das anstelle der Transformer-Technik ein Diffusionsmodell zur Textgenerierung verwendet.
An dieser Stelle wird es aber verwirrend: Obwohl die Videogenerierung (die Diffusionsmodelle verwendet) viel Energie verbraucht, sind Diffusionsmodelle grundsätzlich effizienter als Transformer. Durch die Verwendung eines Diffusionsmodells anstelle der Transformer-Technik zur Textgenerierung könnte das neue LLM wesentlich effizienter werden als bestehende Systeme. Es ist daher zu erwarten, dass Diffusionsverfahren künftig in immer mehr Bereichen eine wichtige Rolle spielen werden.
Dieser Beitrag ist zuerst auf t3n.de erschienen.
(jle)