Text-to-Video AI

Phenaki erstellt Videos aus Textinput

Hier findet ihr mehr zum Projekt direkt auf der Phenaki Webiste:

https://phenaki.research.google/

Text zu video KI

Auch das gibt es, es wird an KIs gearbeitet um aus Textinput Video zu generieren.

Phenaki etwa ist so ein Modell, das realistische Videos aus textuellen Anweisungssequenzen generieren kann. Es bewältigt die Herausforderungen bei der Generierung von Videos aus Text, einschließlich hoher Rechenleistung, variabler Video-Längen und begrenzter Verfügbarkeit von hochwertigen Text-Video-Daten.

Phenaki hat zwei Hauptkomponenten:

ein Encoder-Decoder-Modell, das Videos auf diskrete Einbettungen oder Tokens komprimiert und
ein Transformer-Modell, das Text-Einbettungen in Video-Tokens übersetzt.

Das Encoder-Decoder-Modell verwendet zeitabhängige Aufmerksamkeit, um mit variablen Video-Längen zu arbeiten und das Transformer-Modell verwendet einen bidirektionalen maskierten Transformer, der auf vorab berechneten Text-Tokens basiert.

Das Modell wird auf einem großen Korpus von Bild-Text-Paaren und einer kleineren Anzahl von Video-Text-Beispielen trainiert. Es kann beliebig lange Videos generieren, die auf einer offenen Domain-Sequenz von Anweisungen in Form von zeitvariablen Texten oder einer Geschichte basieren.

Es übertrifft alle per-Frame-Baselines, die derzeit in der Literatur verwendet werden, sowohl in Bezug auf die räumlich-zeitliche Qualität als auch auf die Anzahl der Tokens pro Video.

Klingt etwas komplex?

Vereinfacht gesagt: Phenaki ist ein Computerprogramm, das es ermöglicht, aus Texten Videos zu erstellen. Es hat zwei wichtige Teile und nutzt große Mengen an Daten um die Videos zu generieren. Es kann lange Videos erstellen und ist besser als ähnliche Programme die vorher verwendet wurden.