Vizuální analýza přestává být pouze rozpoznáváním. Nejnovější modely OpenAI o3 a o4-mini integrují obrazy přímo do logického uvažování, což umožňuje řešit úkoly od programování po vědecké výpočty. „Systémy dokážou manipulovat s obrázky – otáčet je, zvětšovat nebo transformovat pro přesnější závěry,“ uvádí tým OpenAI.
Jak funguje vizuální myšlení
Nové modely překračují standardní zpracování obrazu. Uživatelé mohou nahrát fotografie tabulí, diagramů nebo ručních náčrtů, a to i v nízké kvalitě. AI následně:
- Analyzuje vizuální obsah v kontextu úlohy
- Kombinuje ho s textovými daty
- Vytváří řešení pomocí integrovaných nástrojů
Pro ilustraci: při dotazu na spotřebu energie ve městě model automaticky vyhledá data, napíše predikční kód v Pythonu a vygeneruje vizualizaci.
Klíčové výhody
- Flexibilní práce s nástroji
Modely samy rozhodují, zda použijí vyhledávání, kód nebo grafy — a dělají to během uvažování. Například: „dotaz → web → analýza → vizualizace“. - Zrychlené řešení složitých úloh
Není nutné ručně rozdělovat problém — model si jej rozpracuje do kroků a nabídne kompletní výstup. - Vyšší přesnost
Ve všech testech — od Codeforces po MathVista — nové verze předčily své předchůdce v počtu správných odpovědí. - Analýza obrazového materiálu
Modely obrázky nejen „vidí“, ale zapojují je do myšlení. Umí je otáčet, zvětšovat, porovnávat a extrahovat z nich informace. - Lepší uchopení kontextu
Díky vylepšené paměti na předchozí konverzace model lépe rozpoznává uživatelské preference, chápe historii komunikace a přirozeně zapojuje nástroje do dialogu.
Dostupnost a nové funkce
Od 16. dubna budou modely o3 a o4-mini dostupné pro předplatitele ChatGPT Plus, Pro a Team. Bezplatní uživatelé mohou využít o4-mini přes volbu „Think“ s totožnými limity jako dříve. Pro vývojáře OpenAI spustila:
- API pro Chat Completions a Responses (vyžaduje ověření organizace v některých případech)
- Experimentální nástroj Codex CLI pro práci v terminálu
Codex CLI umožňuje multimodální analýzu přímo z příkazové řádky, například kombinací screenshotů s lokálním kódem. Nástroj je open-source na GitHubu a v budoucnu podpoří i GPT-4.1.
Podpora vývojářských projektů
Společnost rozdělí 1 milion dolarů formou grantů po 25 000 $ ve formě API kreditů. Cílem je urychlit adopci nových technologií v komunitě.
Očekávaný model o3-pro pro profesionální scénáře zatím nemá konkrétní datum uvedení. Vývojáři však zdůrazňují, že princip „inteligentního využívání nástrojů“ se stane základem pro všechny budoucí aktualizace.