Die Macher des Chatbots ChatGPT schließen eine Lücke in ihrem Angebot mit einer Software, die Videos aus Text-Vorgaben erzeugen kann. Das KI-Modell mit dem Namen Sora werde zunächst ausgewählten Kreativen zur Verfügung gestellt, schrieb OpenAI-Chef Sam Altman am Donnerstag auf der Online-Plattform X (ehemals Twitter). Auch sollen Expert*innen mögliche Sicherheitsrisiken ausloten, bevor das Programm breit genutzt werden kann.
Von Sora erstellte Videos können bis zu eine Minute lang sein. Auf der Website zur Software veröffentlichte OpenAI mehrere Beispiele zusammen mit der Beschreibung, die ihnen zugrunde lag. Eins davon etwa zeigt eine Frau, die durch eine Straße läuft. Das Video wurde komplett von Künstlicher Intelligenz generiert, mit der Text-Vorgabe, die Frau solle eine Lederjacke und ein rotes Kleid tragen und die Straße solle an Tokio erinnern und viel Neon-Leuchtreklame haben, die sich zudem in Pfützen spiegele. Andere Videos zeigen unter anderem Mammuts, die im Schnee laufen, sowie eine Stadt in Kalifornien zu Zeiten des Goldrauschs.
OpenAI: Angst vor Fake-Videos wächst
Mehrere andere Unternehmen entwickelten bereits Software, die Videos aus Text erzeugen kann. OpenAI schränkt eine, dass Sora noch Schwächen habe: So mache das Modell manchmal Fehler bei der Umsetzung von Physik-Regeln. Auch könne es zum Beispiel passieren, dass jemand im Video von einem Keks abbeiße – und der Keks später immer noch ganz aussehe.
KI-Technologie, die bewegte Bilder aus Text-Vorgaben generiert, könnte mit der Zeit die Videoproduktion verändern. Zugleich sind die Sorgen groß, dass damit in großem Stil Fake-Videos erzeugt werden können, die von echten Aufnahmen kaum zu unterscheiden wären. Die Entwickler der Technologie arbeiten deshalb an Wegen, in die Videos eindeutige Erkennungsmerkmale wie Wasserzeichen einzubauen. Auch bei Sora-Videos solle erkennbar sein, dass sie von KI erzeugt wurden.
ChatGPT löste vor gut einem Jahr den Hype um Künstliche Intelligenz aus. Genauso wie solche KI-Chatbots wird auch die Software zum Erzeugen von Fotos und Videos mit gewaltigen Mengen an Informationen angelernt.
amx / dpa