Novinky

ByteDance představuje OmniHuman-1: AI model pro syntézu videa s ohledem na mimiku a pohyby

Artem Leonidovich
Artem Leonidovich
Šéfredaktor
0
  • Nový systém vytváří realistická videa s podporou různých úhlů záběru
  • Funguje s řečí, zpěvem, gesty i složitými pózami
  • Překonává konkurenci v flexibilitě vstupních dat a možnostech řízení
uiw.cz

Společnost ByteDance, která je vlastníkem sociální sítě TikTok, oznámila framework OmniHuman-1 určený pro generování portrétních videí na základě audiozáznamů a dat o pohybech. Jak vývojáři uvádějí, systém využívá architekturu Diffusion Transformer (DiT) — technologii, která postupně vylepšuje obraz, podobně jako malíř doplňuje skicu. Učení modelu je obohaceno o informace o dynamice pohybů, což zvyšuje kvalitu výsledných videí.

OmniHuman podporuje čtyři formáty záběru: detail tváře, portrét, postava po pás a celá figura. Vstupními daty mohou být:

  • Mluvená řeč nebo vokální projev;
  • Interakce člověka s předměty (např. gesta s objektem v ruce);
  • Nestandardní tělesné pózy.

Systém zároveň umožňuje kombinovat signály: uživatelé mohou současně nahrávat audio a video pro kontrolu výsledku.

Příklady videí OmniHuman-1:

Podle tvrzení vývojářů OmniHuman překonává stávající audio-orientované modely ve dvou aspektech. Za prvé, videa působí přirozeněji díky zohlednění mimiky a pohybové plasticity. Za druhé, systém nabízí širší možnosti úprav — například lze nastavit grafický styl (realismus, animace apod.) nebo upravit pózu postavy pomocí kontrolního videa.

„Tento přístup pomáhá vyhnout se ‚efektu loutky‘, který se často objevuje u syntetických videí,“ komentoval anonymní specialista v oboru počítačového vidění.

OmniHuman představuje další krok ve vývoji generativní AI. Dříve podobné nástroje cílily buď na synchronizaci rtů s audiem, nebo na animaci statických obrázků. Nový model spojuje oba přístupy a nabízí komplexní nástroj pro tvorbu obsahu — od videoprezentací po personalizované avatary.

Jak se ukázalo, systém aktuálně prochází interním testováním, ale termín veřejného spuštění nebyl upřesněn. Zůstává otevřená otázka, jak společnost plánuje řešit problémy hlubokých padělků spojené s podobnými technologiemi.

Pokud spatřuješ v článku nedostatek nebo máš připomínky, dej nám vědět.

Prosím, vyplňte toto pole.
Zadejte prosím platnou e-mailovou adresu.
Prosím, vyplňte toto pole.

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *

Prosím, vyplňte toto pole.
Prosím, vyplňte toto pole.
Zadejte prosím platnou e-mailovou adresu.
Chcete-li pokračovat, musíte souhlasit s podmínkami