Nová AI model Magic 1-For-1 tvoří minutová videa za 60 sekund

Redaktor

Generování videí v reálném čase — minuta videa za minutu zpracování
Model je optimalizován pro běžné grafické karty
Podpora textových i obrazových vstupů pro různé úkoly — od reklamy po vzdělávání

uiw.cz

Tým výzkumníků z Pekingské univerzity, společnosti Hedra Inc. a odborníků z Nvidie vyvinul Magic 1-For-1 — systém, který převádí textové popisy na videa dlouhá až jednu minutu za stejný čas. Projekt s otevřeným kódem, publikovaný na GitHubu, je označován za průlom v oblasti umělé inteligence.

Jak funguje?

Místo současného zpracování textu a videa systém dělí úkol na dvě fáze. Nejprve převede popis na statický obrázek (např. „západ slunce nad horami“), poté jej „oživí“ přidáním pohybu a dynamiky. Tento přístup připomíná pásovou výrobu: každá fáze probíhá samostatně, což snižuje zátěž zařízení.

Jak se ukázalo, tato metoda umožňuje rychlejší trénování modelu s menší spotřebou zdrojů. Například 5vteřinový klip se vygeneruje za 3 vteřiny, minutové video vznikne do 60 vteřin. Pro srovnání: konkurenční řešení jako Sora od OpenAI na to potřebují několikanásobně více času.

Proč je to důležité?

Dříve tvorba videí vyžadovala výkonné servery a zdlouhavé výpočty. Magic 1-For-1 řeší tři klíčové problémy:

Náklady na hardware. Po kompresi dat (kvantování) se velikost modelu zmenšila z 32 GB na 16 GB — nyní jej lze spustit i na grafických kartách úrovně NVIDIA RTX 3090.
Dlouhé čekání. Obsah pro sociální sítě, reklamní klipy nebo výukové materiály vznikají během minut.
Složitost nastavení. Dělení na fáze činí technologii dostupnou i pro uživatele bez technického zázemí.

Kde se uplatní?

Marketing: Rychlá tvorba personalizované reklamy pro různé skupiny.
Film a hry: Předběžná vizualizace scén nebo efektů bez nákladného renderování.
Vzdělávání: Simulace vědeckých procesů (např. sopečná erupce) pro názornost.
Sociální sítě: Bloggeři mohou publikovat obsah okamžitě, bez hodin editování.

Jak začít?

Vývojáři nabízejí podrobný návod:

Nainstalovat potřebné programy (Conda, Git LFS).
Stáhnout soubory modelu z GitHubu a platformy Hugging Face.
Spustit skript s textovým dotazem nebo nahraným obrázkem.

Zajímavé je, že model již podporuje distribuované výpočty — to umožňuje využít více grafických karet pro urychlení procesu.

Tým pracuje na prodloužení maximální délky videa na 10 minut a integraci s platformami jako ComfyUI. Zdrojový kód zůstane otevřený, aby jej vývojáři z celého světa mohli vylepšovat.

Mezitím analytici upozorňují, že Magic 1-For-1 nenahrazuje profesionální nástroje, ale stává se praktickým doplňkem pro ty, kteří ocení rychlost a jednoduchost.

Čtěte také: OpenAI spustila API pro tvorbu obrázků pomocí umělé inteligence

Komentáře