Společnost Xiaomi představila nový jazykový model MiMo, který umí analyzovat informace a dělat logické závěry. Přestože má jen 7 miliard parametrů, funguje stejně dobře jako větší modely typu GPT o1-mini od OpenAI. Zároveň je MiMo méně náročný na výkon, což umožňuje jeho použití i na slabších zařízeních.
Vývojáři vysvětlili, že většina otevřených modelů s logickými schopnostmi vyžaduje obrovské výpočetní zdroje. Například modely pro analýzu kódu mívají až 32 miliard parametrů. Xiaomi zvolila jinou cestu: místo zvětšování „mozku“ se zaměřila na správný trénink. Nejprve MiMo naučili základním dovednostem — porozumět textu, filtrovat data a logicky uvažovat. Poté přidali matematiku a programování pomocí 130 tisíc speciálně připravených úloh.
Trénink probíhal ve dvou krocích:
- Základní nastavení — vytvořila se verze MiMo-7B-Base, která rozumí struktuře informací.
- Specializovaný trénink — model se naučil řešit složité úlohy.
Tento přístup se ukázal efektivnější než učit model programování hned od začátku. Testy prokázaly, že kompaktní MiMo zvládá logické úkoly lépe než modely čtyřikrát větší.
Všechny verze MiMo — Base, RL-Zero, SFT a RL — jsou již volně dostupné na GitHubu a Hugging Face. To znamená, že vývojáři je mohou integrovat do svých aplikací nebo upravovat pro konkrétní potřeby. Hlavní výhoda spočívá v tom, že model nevyžaduje výkonné servery. „Je možné ji spustit přímo na notebooku jako běžný program,“ uvádí Xiaomi.
Zatím není jasné, jak společnost plánuje MiMo využívat ve svých produktech. Je však zřejmé, že i malé modely mohou být chytré, pokud se správně trénují. Jako v životě: někdy je kvalitní příprava důležitější než vrozené schopnosti.