Čínská společnost StepFun uvedla generátor videí Step-Video-T2V, který umožňuje vytvářet krátká videa se světovými celebritami pomocí textového popisu. Model s 30 miliardami parametrů generuje klipy dlouhé až 204 snímků (asi 10 sekund) a neblokuje požadavky se zmínkami o známých osobnostech — uživatelé již otestovali videa s Elonom Muskem, Stevem Jobsem nebo Albertem Einsteinem.
Systém kombinuje dva klíčové prvky:
- Video-VAE s hlubokou kompresí — algoritmus, který zmenšuje velikost videa 16× prostorově a 8× časově bez ztráty kvality. To urychluje zpracování.
- Metoda Direct Preference Optimization (DPO) — technologie vylepšující obraz analýzou lidských preferencí, což odstraňuje artefakty a zjemňuje pohyby.
Pro práci s textem využívá dva enkodéry: Step-LLM (zpracovává dlouhé popisy) a Hunyuan-CLIP (analyzuje krátké fráze). To umožňuje systému rozumět pokynům v angličtině i čínštině.
Specifika přístupu
- Bezplatná demoverze je dostupná na platformě yuewen.cn, ale generování jednoho klipu trvá 8–15 minut.
- Plná verze vyžaduje výkonné GPU (doporučeno 80 GB paměti) a funguje pouze pod Linuxem.
- Kód modelu je zveřejněn na GitHubu, parametry pak na platformách Hugging Face a Modelscope.
Step-Video-T2V není první nástroj pro generování videí, ale patří k málo systémům bez omezení pro tvorbu obsahu s celebritami. Například YouTube a CAA vyvíjejí nástroje pro automatické mazání podobných materiálů.
Zatímco jiné společnosti se zaměřují na vylepšování ovládání kamery (Hailuo AI nedávno představila režim Director Mode pro řízení pohybu kamery textem), hlavní výzvou pro StepFun zůstává rovnováha mezi otevřeností a etikou. Ačkoli je kód modelu dostupný všem, společnost varuje: „Tvorba obsahu bez souhlasu zobrazených osob může porušovat zákony některých zemí.“
Technická omezení
- Maximální rozlišení — 544×992 pixelů
- Generování 204 snímků vyžaduje 77,64 GB paměti GPU
- Rozhraní zatím není lokalizováno do angličtiny, což komplikuje použití mimo Čínu
Přesto nástroj již vzbudil zájem kreativních komunit. Jak poznamenal jeden z testerů: „Dříve se AI vyhýbala rozpoznatelným tvářím — teď si můžeme volně experimentovat.“