o3 a o4-mini: Nové AI modely od OpenAI vnímají text a obraz jako jeden celek

Redaktor

Umělá inteligence nyní sama volí nástroje pro řešení úkolů
Nové algoritmy zpracovávají obrázky, kód a data v jedné pracovní smyčce
Bezplatná verze ChatGPT získá přístup ke zjednodušené verzi technologie

uiw.cz

Vizuální analýza přestává být pouze rozpoznáváním. Nejnovější modely OpenAI o3 a o4-mini integrují obrazy přímo do logického uvažování, což umožňuje řešit úkoly od programování po vědecké výpočty. „Systémy dokážou manipulovat s obrázky – otáčet je, zvětšovat nebo transformovat pro přesnější závěry,“ uvádí tým OpenAI.

Jak funguje vizuální myšlení

Nové modely překračují standardní zpracování obrazu. Uživatelé mohou nahrát fotografie tabulí, diagramů nebo ručních náčrtů, a to i v nízké kvalitě. AI následně:

Analyzuje vizuální obsah v kontextu úlohy
Kombinuje ho s textovými daty
Vytváří řešení pomocí integrovaných nástrojů

Pro ilustraci: při dotazu na spotřebu energie ve městě model automaticky vyhledá data, napíše predikční kód v Pythonu a vygeneruje vizualizaci.

Klíčové výhody

Flexibilní práce s nástroji
Modely samy rozhodují, zda použijí vyhledávání, kód nebo grafy — a dělají to během uvažování. Například: „dotaz → web → analýza → vizualizace“.
Zrychlené řešení složitých úloh
Není nutné ručně rozdělovat problém — model si jej rozpracuje do kroků a nabídne kompletní výstup.
Vyšší přesnost
Ve všech testech — od Codeforces po MathVista — nové verze předčily své předchůdce v počtu správných odpovědí.
Analýza obrazového materiálu
Modely obrázky nejen „vidí“, ale zapojují je do myšlení. Umí je otáčet, zvětšovat, porovnávat a extrahovat z nich informace.
Lepší uchopení kontextu
Díky vylepšené paměti na předchozí konverzace model lépe rozpoznává uživatelské preference, chápe historii komunikace a přirozeně zapojuje nástroje do dialogu.

Dostupnost a nové funkce

Od 16. dubna budou modely o3 a o4-mini dostupné pro předplatitele ChatGPT Plus, Pro a Team. Bezplatní uživatelé mohou využít o4-mini přes volbu „Think“ s totožnými limity jako dříve. Pro vývojáře OpenAI spustila:

API pro Chat Completions a Responses (vyžaduje ověření organizace v některých případech)
Experimentální nástroj Codex CLI pro práci v terminálu

Codex CLI umožňuje multimodální analýzu přímo z příkazové řádky, například kombinací screenshotů s lokálním kódem. Nástroj je open-source na GitHubu a v budoucnu podpoří i GPT-4.1.

Podpora vývojářských projektů

Společnost rozdělí 1 milion dolarů formou grantů po 25 000 $ ve formě API kreditů. Cílem je urychlit adopci nových technologií v komunitě.

Očekávaný model o3-pro pro profesionální scénáře zatím nemá konkrétní datum uvedení. Vývojáři však zdůrazňují, že princip „inteligentního využívání nástrojů“ se stane základem pro všechny budoucí aktualizace.

Čtěte také: Sonar od Perplexity AI: rychlost generování odpovědí dosáhla 1200 tokenů/s

Komentáře