OpenAI integruje generování obrázků do ChatGPT přes GPT-4o

Šéfredaktor

Nová funkce umožňuje vytvářet a upravovat obrázky přes textové požadavky
Dostupné pro předplatitele Pro, později pro všechny uživatele
Vylepšená detaily, podpora až 20 objektů v jednom obrázku

uiw.cz

Logo, infografiku nebo prostě hezký obrázek teď vykouzlíte za pár vteřin — stačí napsat, co chcete, do chatu. OpenAI integrovala generování obrázků přímo do ChatGPT pomocí modelu GPT-4o. Jde o první významnou aktualizaci vizuálních funkcí platformy za poslední rok.

Dříve ChatGPT využíval DALL-E 3, nyní GPT-4o zpracovává obrázky „nativně“ — stejně jako text. Model analyzuje dotaz, bere v potaz kontext konverzace a dokáže se učit z obrázků nahraných uživatelem. Například při zadání „Vytvoř logo pro kavárnu v modrých odstínech (#1E90FF) s průhledným pozadím“ systém zohlední všechny detaily.

„Generování obrázků má být nejen estetické, ale hlavně praktické. Od log po diagramy — vizuály pomáhají přesněji sdělovat informace,“ vysvětluje tým OpenAI.

Výhody pro uživatele:

Přesné dodržování instrukcí: GPT-4o zvládá až 20 objektů v jednom obrázku (dříve 5–8) při zachování jejich vztahů.
Úprava existujících fotek: změna pozadí, přidání prvků („vkládání“) nebo transformace objektů.
Stylizace a realismus: model byl trénován na milionech obrázků, což umožňuje napodobit techniky od skic po fotorealismus.

Také ChatGPT výborně zvládá generování obrázků s texty v češtině a při psaní téměř nechybuje.

Funkce je již dostupná předplatitelům Pro tarifu ($200/měsíc), v následujících týdnech se rozšíří k bezplatným uživatelům a do API pro vývojáře.

Kvůli vyšší detailnosti trvá generování jednoho obrázku až minutu — déle než u DALL-E 3. Systém také není dokonalý: například může chybovat u složitých kompozic. DALL-E 3 zůstává dostupný přes samostatné rozhraní pro ty, kteří dávají přednost původnímu formátu.

Integrace GPT-4o mění ChatGPT v univerzální nástroj pro vizuální komunikaci. Učitel vytvoří infografiku pro výuku, podnikatel prototyp obalu produktu a herní designér konzistentní postavy během několika dotazů. Klíčový fakt: model generuje obrázky s podporou až 20 objektů, což dvojnásobně překonává předchozí řešení. Nejde o krok, ale skok směrem k praktickému využití AI — tam, kde každý detail ovlivňuje výsledek.

Čtěte také: AI dabing a TV formáty: jak se YouTube změní v roce 2025

Komentáře