Čínská společnost DeepSeek uvedla na trh rodinu multimodálních AI modelů Janus-Pro, které analyzují i vytvářejí obrazy. Systémy s otevřeným zdrojovým kódem šířené pod licencí MIT umožňují volné využití v komerční sféře.
Velikost algoritmů se pohybuje od 1 do 7 miliard parametrů – jakýchsi „nástrojů“, jež určují složitost úkolů, které AI zvládne. Největší model, Janus-Pro-7B, dle tvrzení tvůrců překonává konkurenty v testovacích sadách GenEval a DPG-Bench. Mezi porovnávané modely patří DALL-E 3 od OpenAI, PixArt-alpha, Emu3-Gen a Stable Diffusion XL.
Modely vytvářejí obrazy v rozlišení 384×384 pixelů – to je čtyřikrát méně než standard 1024×1024 u většiny konkurenčních řešení. Zástupci společnosti zdůrazňují, že i při této velikosti výsledky zachovávají vysokou úroveň detailů. Například algoritmus přesně reprodukuje textury materiálů nebo drobné objekty.
Mezitím TechCrunch upozorňuje, že výkonnost Janus-Pro je pozoruhodná vzhledem k jejich kompaktní velikosti. Pro srovnání: DALL-E 3 má podle odhadů expertů zhruba 12 miliard parametrů.
DeepSeek již dříve zaujal jazykovými modely (LLM), které zpracovávají text. S příchodem Janus-Pro společnost rozšířila možnosti AI kombinací analýzy a tvorby obrazu v jednom řešení. Jak se ukázalo, klíčový důraz byl kladen na efektivitu: menší počet parametrů snižuje nároky na výpočetní zdroje.
Všechny uvedené údaje vycházejí z interních testů vývojářů. Nezávislé odborné posudky fungování modelů Janus-Pro zatím nebyly zveřejněny.