Společnost ByteDance, která je vlastníkem sociální sítě TikTok, oznámila framework OmniHuman-1 určený pro generování portrétních videí na základě audiozáznamů a dat o pohybech. Jak vývojáři uvádějí, systém využívá architekturu Diffusion Transformer (DiT) — technologii, která postupně vylepšuje obraz, podobně jako malíř doplňuje skicu. Učení modelu je obohaceno o informace o dynamice pohybů, což zvyšuje kvalitu výsledných videí.
OmniHuman podporuje čtyři formáty záběru: detail tváře, portrét, postava po pás a celá figura. Vstupními daty mohou být:
- Mluvená řeč nebo vokální projev;
- Interakce člověka s předměty (např. gesta s objektem v ruce);
- Nestandardní tělesné pózy.
Systém zároveň umožňuje kombinovat signály: uživatelé mohou současně nahrávat audio a video pro kontrolu výsledku.
Příklady videí OmniHuman-1:
Podle tvrzení vývojářů OmniHuman překonává stávající audio-orientované modely ve dvou aspektech. Za prvé, videa působí přirozeněji díky zohlednění mimiky a pohybové plasticity. Za druhé, systém nabízí širší možnosti úprav — například lze nastavit grafický styl (realismus, animace apod.) nebo upravit pózu postavy pomocí kontrolního videa.
„Tento přístup pomáhá vyhnout se ‚efektu loutky‘, který se často objevuje u syntetických videí,“ komentoval anonymní specialista v oboru počítačového vidění.
OmniHuman představuje další krok ve vývoji generativní AI. Dříve podobné nástroje cílily buď na synchronizaci rtů s audiem, nebo na animaci statických obrázků. Nový model spojuje oba přístupy a nabízí komplexní nástroj pro tvorbu obsahu — od videoprezentací po personalizované avatary.
Jak se ukázalo, systém aktuálně prochází interním testováním, ale termín veřejného spuštění nebyl upřesněn. Zůstává otevřená otázka, jak společnost plánuje řešit problémy hlubokých padělků spojené s podobnými technologiemi.