Alibaba představila otevřený model pro generování videa Wan2.1

Šéfredaktor

26 února 2025, 01:54

Model překoná konkurenci v výkonu a je dostupný i pro začátečníky
Umí vytvářet 8K videa a synchronizovat audio s obrazem
Nabízí dvě verze: pro vývojáře a profesionální využití

wanai.pro

Čínská společnost Alibaba oznámila zveřejnění zdrojového kódu své nejnovější modelové architektury pro generování videa Wan2.1. Řešení kombinuje vysoký výkon s nízkými hardwarovými nároky, což technologii zpřístupňuje širokému okruhu uživatelů.

Technologické výhody

Wan2.1 obsadil první místo v žebříčku VBench (platforma pro hodnocení AI modelů) s výsledkem 86,22 %, čímž předstihl konkurenční modely jako Sora (84,28 %) a Luma (83,61 %). Odlehčená verze T2V-1.3B přitom vyžaduje pouze 8,19 GB grafické paměti — to umožňuje její běh i na běžných grafických kartách.

Mezi klíčové funkce modelu patří:

Tvorba videí v rozlišení až 8K s kinematografickou úrovní detailů.
Podpora úkolů: převod textu/obrázku na video, editace, přidávání dvoujazyčných titulků.
Synchronní generování zvukové stopy (V2A), což je u podobných nástrojů vzácností.

Zároveň vývojáři implementovali netradiční technická řešení. Například architektura modelu využívá metodu Flow Matching pro trénování neuronových sítí a modul 3D causal convolution zlepšuje realističnost pohybů — jako by AI „rozuměla“ fyzikálním zákonům.

Dostupné verze

Uživatelé si mohou vybrat ze dvou variant:

Speed Edition (1,3 miliardy parametrů):
- Vyžaduje 8,19 GB grafické paměti;
- Generování 5sekundového videa v 480P trvá přibližně 4 minuty;
- Vhodná pro testování a menší projekty.
Professional Edition (14 miliard parametrů):
- Renderování v 720P s profesionálními efekty;
- Určena pro filmová studia a reklamní agentury;
- Obsahuje pokročilé nástroje pro postprodukci.

Jak se ukázalo, Wan2.1 dokáže zpracovávat videa libovolné délky v 1080P díky vlastnímu kodéru Wan-VAE. To usnadňuje práci s dlouhými záznamy — například přednáškami nebo rozhovory.

Model je již volně dostupný (GitHub, HuggingFace), což může urychlit vývoj nástrojů pro tvorbu obsahu. Společnost Alibaba zdůrazňuje, že zveřejnění kódu neznamená komercializaci — model je zdarma určen pro výzkumné účely.

Čtěte také: Čím se liší nová Gemini Pro Experimental 2.0 od předchozích verzí?

Komentáře