Google naučil své AI modely fungovat na telefonech a domácích počítačích

Redaktor

Modely Gemma 3 teď běží na herních grafických kartách a telefonech
Kvantování snížilo spotřebu paměti 3–4×
Google nezveřejnil aktuální testy potvrzující kvalitu

uiw.cz

Dříve AI modely Google Gemma 3 vyžadovaly výkonné servery s drahými grafickými kartami jako NVIDIA H100. Teď je lze spustit i na telefonu nebo domácím PC díky kvantování — principu, který funguje jako když ubalíte batoh: nepotřebné věci odstraníte, ale to podstatné zůstane.

Kvantování znamená ukládání vah a aktivací s méně bity (např. 4 místo 16 či 32). Představte si kompresi fotky: kvalita mírně klesne, ale soubor se stáhne rychleji. Pro AI modely to znamená:

Model 27B zabírá 14,1 GB místo 54 GB
Verze 12B jen 6,6 GB místo 24 GB
Nejmenší varianta (1B) se vejde do 0,5 GB — jako pár skladeb

Google použil metodu „trénování s ohledem na kvantování“ (QAT). Je to jako trénink sportovce ve vysoké nadmořské výšce, aby lépe zvládl závod. Model se od začátku učí pracovat se zkrácenými daty, takže po kompresi méně ztrácí na kvalitě.

„Modely jsou odolné vůči kvantování,“ tvrdí společnost. Aktuální testy to však nedokládají.

Zjednodušené verze Gemma 3 jsou dostupné na platformách Hugging Face a Kaggle. Podporují je nástroje jako Ollama, LM Studio a MLX (pro Apple Silicon). I amatérské projekty typu llama.cpp s nimi umí pracovat.

Čtěte také: Reve Image 1.0 – tvořte a upravujte působivé obrázky zdarma!

Komentáře