DeepSeek zpřístupnila svá GPU jádra pro urychlení AI

Šéfredaktor

24 února 2025, 20:40

Společnost zveřejnila kód projektu FlashMLA používaný v jejích produkčních systémech
Technologie snižuje spotřebu paměti kompresí dat v neuronových sítích
Řešení podporuje populární GPU NVIDIA řady Hopper včetně modelů H100 a H800

uiw.cz

Společnost DeepSeek začala zpřístupňovat své interní technologie, prvním krokem bylo vydání projektu FlashMLA. Kód optimalizovaných výpočetních jader pro grafické procesory je již dostupný na GitHubu, což umožňuje vývojářům integrovat je do svých AI modelů. Během příštího týdne plánuje společnost zveřejnit další čtyři nástroje ze své ekosystémové sady.

FlashMLA využívá metodu multi latent attention (MLA) – algoritmus, který komprimuje datové matice v neuronových sítích. Tím se redukuje množství paměti potřebné pro provoz transformerů, architektur tvořících základ moderních jazykových modelů.

Klíčové vlastnosti technologie:

Podpora formátu bfloat16 zajišťující rovnováhu mezi rychlostí a přesností výpočtů
Kompatibilita s GPU NVIDIA Hopper včetně modelů H100 a H800
Hotové řešení pro urychlení inferenční fáze (provoz natrénované neuronové sítě)

„Dříve pro implementaci MLA neexistovaly optimalizované nástroje – vývojáři si je museli vytvářet od nuly,“ uvádí se v prohlášení. FlashMLA tento problém řeší nabídkou předpřipravených komponent.

Řešení může zjednodušit práci na projektech strojového učení, zejména v oblasti zpracování přirozeného jazyka. Snížení nároků na paměť umožňuje efektivnější využití hardwarových zdrojů, což je klíčové při škálování modelů.

Iniciativa DeepSeek navazuje na trend otevřenosti v komunitě AI, kde giganti jako Meta nebo Microsoft již dříve zveřejňovali své vývojové nástroje. V tomto případě však jde o technologie, které společnost již nasadila do reálných produktů, nikoliv experimentálních projektů.

Kód je volně dostupný: vývojáři mohou jádra testovat, upravovat a integrovat do svých systémů. To je zvlášť důležité pro menší týmy, které nemají zdroje pro vlastní optimalizaci výpočtů pro moderní GPU.

Čtěte také: Jak Exo mění přístup ke spouštění AI modelů

Komentáře