Neznámý uživatel čínské platformy Jiuyan Gongshe zveřejnil údajné detaily o novém AI modelu DeepSeek R2, který má podle něj změnit odvětví umělé inteligence. Podle úniku informací se model trénuje současně na čínských čipech Huawei Ascend 910B a amerických Nvidia H800. Tento hybridní přístup může nastartovat nový trend ve vývoji AI.
Základem DeepSeek R2 je architektura Hybrid MoE 3.0. Představte si ji jako tým tisíců úzce specializovaných pracovníků: pro každý požadavek systém automaticky vybere pouze potřebné „odborníky“. Například pro odpověď na otázku o počasí aktivuje „meteorology“, zatímco pro matematický problém vybere „matematiky“. Celkově má model 1,2 bilionu parametrů – to je základ všech možných „specialistů“. Díky architektuře však pro zpracování jednoho požadavku pracuje jen asi 78 miliard z nich. Tento přístup šetří zdroje podobně jako firma, která platí pouze zaměstnance zapojené do konkrétního projektu.
„Podle údajů z jakoby provedeného testování Alibaba Cloud jsou náklady na zpracování jednoho tokenu (nejmenší jednotka dat, například část slova) u DeepSeek R2 o 97,3 % nižší než u GPT-4 Turbo,“ uvádí se ve zprávě. Pokud se informace potvrdí, čínský model by se mohl stát nejlevnějším řešením na trhu.
Dalším průlomem je výkon systému. Při operacích FP16 (formát výpočtů pro velká data) údajně dosáhl 512 PetaFLOPS. Pro srovnání: 1 PetaFLOP představuje biliardu operací za sekundu. Podle úniku informací jde o přibližně 91 % efektivity systémů na čipech Nvidia A100 – klíčových konkurentů Huawei.
Uvedení DeepSeek R2 je podle nepotvrzených informací plánováno na květen 2025. Zatím není jasné, jak se tyto údaje shodují s realitou. Pokud se však prohlášení potvrdí, globální trh s AI čeká zásadní proměna.