Čínský startup DeepSeek, který v roce 2024 téměř nikdo neznal, se během několika dní stal středobodem debat na trhu AI. Jeho modelová řada R1 se vyrovná produktům OpenAI a Meta, ale nabízí tři klíčové výhody:
- Bezplatný přístup pro běžné uživatele (50 zpráv denně);
- API 27× levnější než ChatGPT pro firmy;
- Úplná transparentnost — kód i váhy modelů jsou otevřené pro komerční využití.
Díky tomu se na platformě Hugging Face objevilo přes 500 projektů založených na R1 a počet stažení překročil 2,5 milionu. Kvůli návalu zájmu však došlo k technickým potížím — startup musel dočasně zastavit registraci nových uživatelů.
AI ve vaší kapse
DeepSeek-R1 není jeden model, ale celá rodina: od kompaktní 1,5B po výkonnou 70B. I verze s 7 miliardami parametrů funguje na běžném notebooku a překonává GPT-4o v matematických úlohách. Představte si: váš smartphone řeší rovnice na olympiádní úrovni — bez připojení k cloudu.
Za efektivitou stojí architektura. Například Multi-token Prediction umožňuje modelu analyzovat několik možností odpovědí současně, jako kdybyste prohlíželi puzzle ze všech stran. Technologie FP8 snižuje zátěž grafických karet, což zpřístupňuje AI i zařízením s omezenými zdroji.
Proč R1 předstihl ChatGPT?
Interní testy DeepSeek ukázaly:
- V matematickém benchmarku AIME 2024 dosáhl model 79,8 % oproti 79,2 % u GPT-4o;
- V programování a řešení komplexních úloh překonal Llama 3.1, Claude Sonnet 3.5 i Gemini 2.0.
Přitom trénink největšího modelu (671 mld parametrů) trval pouhé dva měsíce a stál 5,6 milionu dolarů — náklady několikanásobně nižší než u konkurence. Jak? Díky frameworku DualPipe, který rozděluje výpočty mezi grafické karty, a Mixture of Experts, kde se pro každý úkol aktivují pouze relevantní „experti“.
Kreativita bez hranic
Kromě textových modelů představil DeepSeek multimodální systém Janus-Pro pro generování obrázků. Jeho vlajková verze (7 mld parametrů) překonala DALL-E 3 a Stable Diffusion XL v testech detailů a přesnosti. Například Janus-Pro správně zobrazí složité požadavky jako „panda v impresionistickém stylu píšící kód v Pythonu“ — vše s otevřeným kódem pro vývojáře.
Sociální sítě nadšené — konkurenti v napětí
Zatímco memy srovnávají DeepSeek s „překvapením, které porazilo Altmana i Zuckerberga“, čínské firmy zvyšují tlak. Společnost Alibaba už oznámila Qwen2.5-VL — model-agenta, který automatizuje uživatelské úkoly. Otázka zní: Stane se rok 2025 zlomem v závodu o otevřenou AI?