Čínská společnost ByteDance, známá díky aplikaci TikTok, oznámila uvedení rodiny neuronových sítí Goku pro generování videí. Systém vznikl ve spolupráci s výzkumníky z Univerzity v Hongkongu a umí vytvářet klipy v různých formátech — od krátkých vertikálních spotů po horizontální videa.
Základem Goku je architektura Rectified Flow Transformers. Zjednodušeně řečeno funguje jako regulátor provozu: upravuje tok dat mezi tokeny (nejmenšími informačními jednotkami), aby výsledné video působilo plynule a detailně. Díky tomu systém vytváří komplexní scény s vysokou mírou realismu.
Nástroj nabízí tři možnosti generování obsahu:
- Text to Video — tvorba klipu na základě textového popisu.
- Image to Video — animace statických obrázků.
- Text to Image — generování obrazů pro další zpracování.
Samostatně je vydána verze Goku+, určená pro reklamní účely. Ta vytváří až 20sekundová videa s postavami, které gestikulují a interagují s produktem. Například v záběru se může objevit člověk předvádějící kosmetiku nebo elektroniku.
Zároveň vývojáři upozorňují, že technologie není dokonalá. Některé generované pohyby působí nepřirozeně a detaily pozadí mohou být rozmazané. Přesto ukázky na oficiálních stránkách projektu dokazují, že systém zvládá základní scénáře — od animovaných krajin po jednoduché dialogové scény.
Pozoruhodné je, že Goku není první snahou ByteDance posílit pozice v oblasti generativní AI. Dříve společnost představila nástroje pro tvorbu avatarů a pozadí pro TikTok. Novinka však překvapuje rozsahem: pracuje s videem, nikoli statickými obrazy, což vyžaduje výrazně větší výpočetní kapacity.
Ukázky videí jsou dostupné na webu projektu. Přístup k Goku zůstává omezený, ale společnost slibuje podrobnosti o komerčním využití v následujících měsících.