Společnost Google integrovala vestavěné generování obrázků do svého jazykového modelu Gemini 2.0 Flash. Aktualizace je určena pro vývojáře a již je dostupná k testování v Google AI Studio a Gemini API.
Jak vyzkoušet:
-
- Přihlaste se do Google AI Studio.
- Aktivujte možnost Gemini 2.0 Flash Experimental.
- V sekci Output format zvolte „Image and text“.
Pro práci s funkcí je nutné použít experimentální verzi modelu s názvem gemini-2.0-flash-exp. Integrace vyžaduje minimální množství kódu, což proces zjednodušuje pro vývojáře.
Základem technologie je velký multimodální model (LML), který současně analyzuje text, obrázky a další data. To umožňuje vytvářet přesnější vizuální výstupy ve srovnání s tradičními nástroji.
„Model udržuje konzistenci postav a prostředí v sérii obrázků a vytváří ucelené vizuální příběhy,“ uvádí Google.
Klíčové vlastnosti:
- Dialogový režim pro postupnou úpravu obrázků (např. změna detailů během komunikace s modelem).
- Vestavěné znalosti o světě, které pomáhají generovat realistické objekty a scény.
- Vysoká přesnost začleňování textu do obrázků – interní testy společnosti ukázaly výhodu oproti konkurenci.
Co umí Gemini 2.0 Flash
- Restaurovat a kolorovat fotografie
- Upravovat obličeje a přenášet textury
- Generovat objekty a celé scény
- Pracovat s textovými příkazy
Ačkoli systém vykazuje působivé výsledky, Google zdůrazňuje, že jeho znalosti „nejsou absolutní“. Vývojáři mohou s funkcí experimentovat, ale pro složité úkoly budou nutné dodatečné kontroly.
Nová funkce zatím zůstává v experimentální fázi. Její další vývoj závisí na zpětné vazbě uživatelů a technických úpravách.