Čínská společnost Alibaba oznámila zveřejnění zdrojového kódu své nejnovější modelové architektury pro generování videa Wan2.1. Řešení kombinuje vysoký výkon s nízkými hardwarovými nároky, což technologii zpřístupňuje širokému okruhu uživatelů.
Technologické výhody
Wan2.1 obsadil první místo v žebříčku VBench (platforma pro hodnocení AI modelů) s výsledkem 86,22 %, čímž předstihl konkurenční modely jako Sora (84,28 %) a Luma (83,61 %). Odlehčená verze T2V-1.3B přitom vyžaduje pouze 8,19 GB grafické paměti — to umožňuje její běh i na běžných grafických kartách.
Mezi klíčové funkce modelu patří:
- Tvorba videí v rozlišení až 8K s kinematografickou úrovní detailů.
- Podpora úkolů: převod textu/obrázku na video, editace, přidávání dvoujazyčných titulků.
- Synchronní generování zvukové stopy (V2A), což je u podobných nástrojů vzácností.
Zároveň vývojáři implementovali netradiční technická řešení. Například architektura modelu využívá metodu Flow Matching pro trénování neuronových sítí a modul 3D causal convolution zlepšuje realističnost pohybů — jako by AI „rozuměla“ fyzikálním zákonům.
Dostupné verze
Uživatelé si mohou vybrat ze dvou variant:
- Speed Edition (1,3 miliardy parametrů):
- Vyžaduje 8,19 GB grafické paměti;
- Generování 5sekundového videa v 480P trvá přibližně 4 minuty;
- Vhodná pro testování a menší projekty.
- Professional Edition (14 miliard parametrů):
- Renderování v 720P s profesionálními efekty;
- Určena pro filmová studia a reklamní agentury;
- Obsahuje pokročilé nástroje pro postprodukci.
Jak se ukázalo, Wan2.1 dokáže zpracovávat videa libovolné délky v 1080P díky vlastnímu kodéru Wan-VAE. To usnadňuje práci s dlouhými záznamy — například přednáškami nebo rozhovory.
Model je již volně dostupný (GitHub, HuggingFace), což může urychlit vývoj nástrojů pro tvorbu obsahu. Společnost Alibaba zdůrazňuje, že zveřejnění kódu neznamená komercializaci — model je zdarma určen pro výzkumné účely.