Step-Video-T2V: Čínský generátor videí podporující tvorbu se světovými celebritami

Šéfredaktor

Algoritmus vytváří 10sekundové klipy na základě textového popisu bez omezení pro známé osobnosti
Model rozumí pokynům v angličtině a čínštině, ale rozhraní je pouze čínské
Zdrojový kód a parametry AI modelu jsou volně dostupné

uiw.cz

Čínská společnost StepFun uvedla generátor videí Step-Video-T2V, který umožňuje vytvářet krátká videa se světovými celebritami pomocí textového popisu. Model s 30 miliardami parametrů generuje klipy dlouhé až 204 snímků (asi 10 sekund) a neblokuje požadavky se zmínkami o známých osobnostech — uživatelé již otestovali videa s Elonom Muskem, Stevem Jobsem nebo Albertem Einsteinem.

Systém kombinuje dva klíčové prvky:

Video-VAE s hlubokou kompresí — algoritmus, který zmenšuje velikost videa 16× prostorově a 8× časově bez ztráty kvality. To urychluje zpracování.
Metoda Direct Preference Optimization (DPO) — technologie vylepšující obraz analýzou lidských preferencí, což odstraňuje artefakty a zjemňuje pohyby.

Pro práci s textem využívá dva enkodéry: Step-LLM (zpracovává dlouhé popisy) a Hunyuan-CLIP (analyzuje krátké fráze). To umožňuje systému rozumět pokynům v angličtině i čínštině.

Specifika přístupu

Bezplatná demoverze je dostupná na platformě yuewen.cn, ale generování jednoho klipu trvá 8–15 minut.
Plná verze vyžaduje výkonné GPU (doporučeno 80 GB paměti) a funguje pouze pod Linuxem.
Kód modelu je zveřejněn na GitHubu, parametry pak na platformách Hugging Face a Modelscope.

Step-Video-T2V není první nástroj pro generování videí, ale patří k málo systémům bez omezení pro tvorbu obsahu s celebritami. Například YouTube a CAA vyvíjejí nástroje pro automatické mazání podobných materiálů.

Zatímco jiné společnosti se zaměřují na vylepšování ovládání kamery (Hailuo AI nedávno představila režim Director Mode pro řízení pohybu kamery textem), hlavní výzvou pro StepFun zůstává rovnováha mezi otevřeností a etikou. Ačkoli je kód modelu dostupný všem, společnost varuje: „Tvorba obsahu bez souhlasu zobrazených osob může porušovat zákony některých zemí.“

Technická omezení

Maximální rozlišení — 544×992 pixelů
Generování 204 snímků vyžaduje 77,64 GB paměti GPU
Rozhraní zatím není lokalizováno do angličtiny, což komplikuje použití mimo Čínu

Přesto nástroj již vzbudil zájem kreativních komunit. Jak poznamenal jeden z testerů: „Dříve se AI vyhýbala rozpoznatelným tvářím — teď si můžeme volně experimentovat.“

Čtěte také: Meta AI je nyní dostupný v samostatné aplikaci

Komentáře