Společnost Meta představila rodinu multimodálních modelů Llama 4, které dokážou současně analyzovat text, obrazy a video. Dva z nich – Scout a Maverick – jsou již otevřeny pro testování na platformách llama.com a Hugging Face. V příštích dnech se objeví v službách Meta AI, včetně WhatsApp a Instagramu.
Čím se nové modely liší
Hlavní inovací je technologie raného spojování modalit. Místo odděleného zpracování textu a obrazu se algoritmy učí vnímat je společně, podobně jako člověk. Například Scout dokáže analyzovat až 48 obrázků v jednom dotazu a porovnávat je s textovým kontextem.
Llama 4 Scout (109 miliard parametrů):
- Funguje i na jedné grafické kartě NVIDIA H100 díky kvantizaci;
- Zpracuje 10 milionů tokenů – ekvivalent 5000 stran textu;
- Dosahuje 100% přesnosti při vyhledávání v rozsáhlých datech.
Llama 4 Maverick (400 miliard parametrů):
- Obsadila 2. místo v žebříčku LMSYS Arena, zaostala jen za Gemini 2.5 Pro;
- Optimalizována pro servery: spustí se na jednom uzlu s 8 GPU H100;
- Řeší logické úlohy a generuje kód.
Oba modely využívají architekturu MoE (Mixture of Experts), kde je aktivních jen 17 miliard parametrů z celkového počtu. Funguje to jako tým specialistů: každý „expert“ se zaměřuje na konkrétní úkol, což urychluje práci.
Trénování modelů a bezpečnostní opatření
Modely byly trénovány na 30 bilionech tokenů – dvojnásobek oproti Llamě 3. Datová sada zahrnuje 200 jazyků, přičemž pro 100 z nich je k dispozici alespoň 1 miliarda příkladů. To otevírá možnosti pro regiony, kde AI dříve nepodporovala místní nářečí.
Pro bezpečnost byly implementovány:
- Llama Guard – blokuje škodlivé dotazy;
- Prompt Guard – chrání před vkládáním kódu;
- Snížena frekvence odmítání kontroverzních témat (ze 7 % na 2 %).
Budoucnost ekosystému Meta AI
29 dubna na konferenci LlamaCon společnost představí AI s pokročilým logickým uvažováním. Jak uvedl Mark Zuckerberg:
„Půjde o modely, které nejen odpovídají, ale také uvažují.“
Scout a Maverick se již používají v medicíně, analýze big dat a vícejazyčném překladu. Obří model Behemoth (2 biliony parametrů), který se stále dotrénovává, již pomohl zlepšit jejich výkon pomocí distilace – procesu podobného předávání zkušeností od učitele k žákovi.
Co to znamená? Nové modely Mety snižují potřebu cloudových clusterů: i výkonné algoritmy běží na jedné GPU. To snižuje náklady na implementaci AI o 40 %, což technologii zpřístupňuje firmám i vývojářům.