Google aktualizoval Gemini: model nyní vytváří a upravuje obrázky

Šéfredaktor

Nová funkce je dostupná přes Google AI Studio a API
Multimodální model kombinuje textová a vizuální data pro vyšší přesnost
Systém podporuje úpravy obrázků v dialogovém režimu

uiw.cz

Společnost Google integrovala vestavěné generování obrázků do svého jazykového modelu Gemini 2.0 Flash. Aktualizace je určena pro vývojáře a již je dostupná k testování v Google AI Studio a Gemini API.

Jak vyzkoušet:

1. Přihlaste se do Google AI Studio.
2. Aktivujte možnost Gemini 2.0 Flash Experimental.
3. V sekci Output format zvolte „Image and text“.

Pro práci s funkcí je nutné použít experimentální verzi modelu s názvem gemini-2.0-flash-exp. Integrace vyžaduje minimální množství kódu, což proces zjednodušuje pro vývojáře.

Základem technologie je velký multimodální model (LML), který současně analyzuje text, obrázky a další data. To umožňuje vytvářet přesnější vizuální výstupy ve srovnání s tradičními nástroji.

„Model udržuje konzistenci postav a prostředí v sérii obrázků a vytváří ucelené vizuální příběhy,“ uvádí Google.

Klíčové vlastnosti:

Dialogový režim pro postupnou úpravu obrázků (např. změna detailů během komunikace s modelem).
Vestavěné znalosti o světě, které pomáhají generovat realistické objekty a scény.
Vysoká přesnost začleňování textu do obrázků – interní testy společnosti ukázaly výhodu oproti konkurenci.

Co umí Gemini 2.0 Flash

Restaurovat a kolorovat fotografie
Upravovat obličeje a přenášet textury
Generovat objekty a celé scény
Pracovat s textovými příkazy

Ačkoli systém vykazuje působivé výsledky, Google zdůrazňuje, že jeho znalosti „nejsou absolutní“. Vývojáři mohou s funkcí experimentovat, ale pro složité úkoly budou nutné dodatečné kontroly.

Nová funkce zatím zůstává v experimentální fázi. Její další vývoj závisí na zpětné vazbě uživatelů a technických úpravách.

Čtěte také: ChatGPT poprvé překonal TikTok a Instagram v počtu stažení

Komentáře