Dříve AI modely Google Gemma 3 vyžadovaly výkonné servery s drahými grafickými kartami jako NVIDIA H100. Teď je lze spustit i na telefonu nebo domácím PC díky kvantování — principu, který funguje jako když ubalíte batoh: nepotřebné věci odstraníte, ale to podstatné zůstane.
Kvantování znamená ukládání vah a aktivací s méně bity (např. 4 místo 16 či 32). Představte si kompresi fotky: kvalita mírně klesne, ale soubor se stáhne rychleji. Pro AI modely to znamená:
- Model 27B zabírá 14,1 GB místo 54 GB
- Verze 12B jen 6,6 GB místo 24 GB
- Nejmenší varianta (1B) se vejde do 0,5 GB — jako pár skladeb
Google použil metodu „trénování s ohledem na kvantování“ (QAT). Je to jako trénink sportovce ve vysoké nadmořské výšce, aby lépe zvládl závod. Model se od začátku učí pracovat se zkrácenými daty, takže po kompresi méně ztrácí na kvalitě.
„Modely jsou odolné vůči kvantování,“ tvrdí společnost. Aktuální testy to však nedokládají.
Zjednodušené verze Gemma 3 jsou dostupné na platformách Hugging Face a Kaggle. Podporují je nástroje jako Ollama, LM Studio a MLX (pro Apple Silicon). I amatérské projekty typu llama.cpp s nimi umí pracovat.