DeepSeek představil multimodální AI modely Janus-Pro pro generování obrázků

Šéfredaktor

28 ledna 2025, 16:57

DeepSeek vydal sadu AI modelů schopných vytvářet a analyzovat obrázky
Modely jsou dostupné ke stažení na platformě Hugging Face pod otevřenou licencí MIT
Podle tvůrců Janus-Pro-7B překonává DALL-E 3 v klíčových testech

uiw.cz

Čínská společnost DeepSeek uvedla na trh rodinu multimodálních AI modelů Janus-Pro, které analyzují i vytvářejí obrazy. Systémy s otevřeným zdrojovým kódem šířené pod licencí MIT umožňují volné využití v komerční sféře.

Velikost algoritmů se pohybuje od 1 do 7 miliard parametrů – jakýchsi „nástrojů“, jež určují složitost úkolů, které AI zvládne. Největší model, Janus-Pro-7B, dle tvrzení tvůrců překonává konkurenty v testovacích sadách GenEval a DPG-Bench. Mezi porovnávané modely patří DALL-E 3 od OpenAI, PixArt-alpha, Emu3-Gen a Stable Diffusion XL.

Modely vytvářejí obrazy v rozlišení 384×384 pixelů – to je čtyřikrát méně než standard 1024×1024 u většiny konkurenčních řešení. Zástupci společnosti zdůrazňují, že i při této velikosti výsledky zachovávají vysokou úroveň detailů. Například algoritmus přesně reprodukuje textury materiálů nebo drobné objekty.

Mezitím TechCrunch upozorňuje, že výkonnost Janus-Pro je pozoruhodná vzhledem k jejich kompaktní velikosti. Pro srovnání: DALL-E 3 má podle odhadů expertů zhruba 12 miliard parametrů.

DeepSeek již dříve zaujal jazykovými modely (LLM), které zpracovávají text. S příchodem Janus-Pro společnost rozšířila možnosti AI kombinací analýzy a tvorby obrazu v jednom řešení. Jak se ukázalo, klíčový důraz byl kladen na efektivitu: menší počet parametrů snižuje nároky na výpočetní zdroje.

Všechny uvedené údaje vycházejí z interních testů vývojářů. Nezávislé odborné posudky fungování modelů Janus-Pro zatím nebyly zveřejněny.

Čtěte také: o3-mini od OpenAI: bezplatný model s unikátními schopnostmi uvažování a vylepšenou rychlostí

Komentáře