Společnost Microsoft oznámila uvedení dvou nových modelů řady Phi-4, které kombinují kompaktní rozměry s rozšířenou funkcionalitou. Řešení jsou určena pro vývojáře, kteří potřebují efektivní nástroje umělé inteligence bez vysokých systémových nároků.
Phi-4-mini: textový model pro mobilní zařízení
Základní verze s 3,8 miliardami parametrů využívá zjednodušenou variantu architektury Transformer – Decoder-Only. Zatímco standardní transformátory analyzují kontext před i za každým slovem, tento model zpracovává pouze předchozí text. Tento přístup podle tvůrců snižuje zatížení procesoru a urychluje generování odpovědí.
Pro vyšší přesnost byl do Phi-4-mini integrován algoritmus Grouped Query Attention, který určuje nejdůležitější části dat při řešení úlohy. Model prokázal:
- Schopnost generovat kód a řešit matematické úlohy
- Možnost překládat texty a ovládat externí aplikace
- Výsledky, které „výrazně předčí podobné kompaktní AI systémy“
Phi-4-multimodal: práce s obrazem, zvukem a videem
Rozšířená verze s 5,6 miliardami parametrů využívá metodu Mixture of LoRAs pro analýzu multimédií. Technologie LoRA (Low-Rank Adaptation) obvykle umožňuje přizpůsobit AI novým úkolům přidáním malého počtu parametrů – podobně jako kdyby základní robot měl odnímatelný modul pro konkrétní funkci. V Phi-4-multimodal byl tento mechanismus upraven pro práci s obrazem, zvukem a videem.
V testech model získal 72 bodů při zpracování vizuálních dat, což je o něco méně než špičkové modely od OpenAI a Google. Při simultánní analýze zvuku a videa však „výrazně předčil“ Google Gemini-2.0 Flash a otevřený InternOmni.
Oba modely jsou šířeny přes platformu Hugging Face pod licencí MIT, která umožňuje úpravy a komerční využití. Podle tvůrců to usnadní nasazení AI v mobilních aplikacích, IoT zařízeních nebo průmyslových systémech, kde jsou klíčové rychlost a nízká spotřeba energie.