Novinky

o3 a o4-mini: Nové AI modely od OpenAI vnímají text a obraz jako jeden celek

Alisa Leonidovna
0
  • Umělá inteligence nyní sama volí nástroje pro řešení úkolů
  • Nové algoritmy zpracovávají obrázky, kód a data v jedné pracovní smyčce
  • Bezplatná verze ChatGPT získá přístup ke zjednodušené verzi technologie
uiw.cz

Vizuální analýza přestává být pouze rozpoznáváním. Nejnovější modely OpenAI o3 a o4-mini integrují obrazy přímo do logického uvažování, což umožňuje řešit úkoly od programování po vědecké výpočty. „Systémy dokážou manipulovat s obrázky – otáčet je, zvětšovat nebo transformovat pro přesnější závěry,“ uvádí tým OpenAI.

Jak funguje vizuální myšlení

Nové modely překračují standardní zpracování obrazu. Uživatelé mohou nahrát fotografie tabulí, diagramů nebo ručních náčrtů, a to i v nízké kvalitě. AI následně:

  1. Analyzuje vizuální obsah v kontextu úlohy
  2. Kombinuje ho s textovými daty
  3. Vytváří řešení pomocí integrovaných nástrojů

Pro ilustraci: při dotazu na spotřebu energie ve městě model automaticky vyhledá data, napíše predikční kód v Pythonu a vygeneruje vizualizaci.

Klíčové výhody

  1. Flexibilní práce s nástroji
    Modely samy rozhodují, zda použijí vyhledávání, kód nebo grafy — a dělají to během uvažování. Například: „dotaz → web → analýza → vizualizace“.
  2. Zrychlené řešení složitých úloh
    Není nutné ručně rozdělovat problém — model si jej rozpracuje do kroků a nabídne kompletní výstup.
  3. Vyšší přesnost
    Ve všech testech — od Codeforces po MathVista — nové verze předčily své předchůdce v počtu správných odpovědí.
  4. Analýza obrazového materiálu
    Modely obrázky nejen „vidí“, ale zapojují je do myšlení. Umí je otáčet, zvětšovat, porovnávat a extrahovat z nich informace.
  5. Lepší uchopení kontextu
    Díky vylepšené paměti na předchozí konverzace model lépe rozpoznává uživatelské preference, chápe historii komunikace a přirozeně zapojuje nástroje do dialogu.

Dostupnost a nové funkce

Od 16. dubna budou modely o3 a o4-mini dostupné pro předplatitele ChatGPT Plus, Pro a Team. Bezplatní uživatelé mohou využít o4-mini přes volbu „Think“ s totožnými limity jako dříve. Pro vývojáře OpenAI spustila:

  • API pro Chat Completions a Responses (vyžaduje ověření organizace v některých případech)
  • Experimentální nástroj Codex CLI pro práci v terminálu

Codex CLI umožňuje multimodální analýzu přímo z příkazové řádky, například kombinací screenshotů s lokálním kódem. Nástroj je open-source na GitHubu a v budoucnu podpoří i GPT-4.1.

Podpora vývojářských projektů

Společnost rozdělí 1 milion dolarů formou grantů po 25 000 $ ve formě API kreditů. Cílem je urychlit adopci nových technologií v komunitě.

Očekávaný model o3-pro pro profesionální scénáře zatím nemá konkrétní datum uvedení. Vývojáři však zdůrazňují, že princip „inteligentního využívání nástrojů“ se stane základem pro všechny budoucí aktualizace.

Pokud spatřuješ v článku nedostatek nebo máš připomínky, dej nám vědět.

Prosím, vyplňte toto pole.
Zadejte prosím platnou e-mailovou adresu.
Prosím, vyplňte toto pole.

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *

Prosím, vyplňte toto pole.
Prosím, vyplňte toto pole.
Zadejte prosím platnou e-mailovou adresu.
Chcete-li pokračovat, musíte souhlasit s podmínkami