ByteDance představuje OmniHuman-1: AI model pro syntézu videa s ohledem na mimiku a pohyby

Šéfredaktor

05 února 2025, 00:43

Nový systém vytváří realistická videa s podporou různých úhlů záběru
Funguje s řečí, zpěvem, gesty i složitými pózami
Překonává konkurenci v flexibilitě vstupních dat a možnostech řízení

uiw.cz

Společnost ByteDance, která je vlastníkem sociální sítě TikTok, oznámila framework OmniHuman-1 určený pro generování portrétních videí na základě audiozáznamů a dat o pohybech. Jak vývojáři uvádějí, systém využívá architekturu Diffusion Transformer (DiT) — technologii, která postupně vylepšuje obraz, podobně jako malíř doplňuje skicu. Učení modelu je obohaceno o informace o dynamice pohybů, což zvyšuje kvalitu výsledných videí.

OmniHuman podporuje čtyři formáty záběru: detail tváře, portrét, postava po pás a celá figura. Vstupními daty mohou být:

Mluvená řeč nebo vokální projev;
Interakce člověka s předměty (např. gesta s objektem v ruce);
Nestandardní tělesné pózy.

Systém zároveň umožňuje kombinovat signály: uživatelé mohou současně nahrávat audio a video pro kontrolu výsledku.

Příklady videí OmniHuman-1:

Podle tvrzení vývojářů OmniHuman překonává stávající audio-orientované modely ve dvou aspektech. Za prvé, videa působí přirozeněji díky zohlednění mimiky a pohybové plasticity. Za druhé, systém nabízí širší možnosti úprav — například lze nastavit grafický styl (realismus, animace apod.) nebo upravit pózu postavy pomocí kontrolního videa.

„Tento přístup pomáhá vyhnout se ‚efektu loutky‘, který se často objevuje u syntetických videí,“ komentoval anonymní specialista v oboru počítačového vidění.

OmniHuman představuje další krok ve vývoji generativní AI. Dříve podobné nástroje cílily buď na synchronizaci rtů s audiem, nebo na animaci statických obrázků. Nový model spojuje oba přístupy a nabízí komplexní nástroj pro tvorbu obsahu — od videoprezentací po personalizované avatary.

Jak se ukázalo, systém aktuálně prochází interním testováním, ale termín veřejného spuštění nebyl upřesněn. Zůstává otevřená otázka, jak společnost plánuje řešit problémy hlubokých padělků spojené s podobnými technologiemi.

Čtěte také: Jak může Mistral-NeMo-Minitron 8B od NVIDIA a Mistral AI změnit budoucnost jazykových modelů?

Komentáře