Tým výzkumníků z Pekingské univerzity, společnosti Hedra Inc. a odborníků z Nvidie vyvinul Magic 1-For-1 — systém, který převádí textové popisy na videa dlouhá až jednu minutu za stejný čas. Projekt s otevřeným kódem, publikovaný na GitHubu, je označován za průlom v oblasti umělé inteligence.
Jak funguje?
Místo současného zpracování textu a videa systém dělí úkol na dvě fáze. Nejprve převede popis na statický obrázek (např. „západ slunce nad horami“), poté jej „oživí“ přidáním pohybu a dynamiky. Tento přístup připomíná pásovou výrobu: každá fáze probíhá samostatně, což snižuje zátěž zařízení.
Jak se ukázalo, tato metoda umožňuje rychlejší trénování modelu s menší spotřebou zdrojů. Například 5vteřinový klip se vygeneruje za 3 vteřiny, minutové video vznikne do 60 vteřin. Pro srovnání: konkurenční řešení jako Sora od OpenAI na to potřebují několikanásobně více času.
Proč je to důležité?
Dříve tvorba videí vyžadovala výkonné servery a zdlouhavé výpočty. Magic 1-For-1 řeší tři klíčové problémy:
- Náklady na hardware. Po kompresi dat (kvantování) se velikost modelu zmenšila z 32 GB na 16 GB — nyní jej lze spustit i na grafických kartách úrovně NVIDIA RTX 3090.
- Dlouhé čekání. Obsah pro sociální sítě, reklamní klipy nebo výukové materiály vznikají během minut.
- Složitost nastavení. Dělení na fáze činí technologii dostupnou i pro uživatele bez technického zázemí.
Kde se uplatní?
- Marketing: Rychlá tvorba personalizované reklamy pro různé skupiny.
- Film a hry: Předběžná vizualizace scén nebo efektů bez nákladného renderování.
- Vzdělávání: Simulace vědeckých procesů (např. sopečná erupce) pro názornost.
- Sociální sítě: Bloggeři mohou publikovat obsah okamžitě, bez hodin editování.
Jak začít?
Vývojáři nabízejí podrobný návod:
- Nainstalovat potřebné programy (Conda, Git LFS).
- Stáhnout soubory modelu z GitHubu a platformy Hugging Face.
- Spustit skript s textovým dotazem nebo nahraným obrázkem.
Zajímavé je, že model již podporuje distribuované výpočty — to umožňuje využít více grafických karet pro urychlení procesu.
Tým pracuje na prodloužení maximální délky videa na 10 minut a integraci s platformami jako ComfyUI. Zdrojový kód zůstane otevřený, aby jej vývojáři z celého světa mohli vylepšovat.
Mezitím analytici upozorňují, že Magic 1-For-1 nenahrazuje profesionální nástroje, ale stává se praktickým doplňkem pro ty, kteří ocení rychlost a jednoduchost.