Nové modely OpenAI chybují 3× častěji než předchozí

Šéfredaktor

19 dubna 2025, 23:26

Nové modely AI od OpenAI chybují častěji než starší verze
Problém může souviset s automatizací učení a sebekritikou modelů
Používání těchto systémů v reálných úlohách hrozí neočekávanými následky

uiw.cz

Pokud sledujete novinky ze světa AI, pravděpodobně jste slyšeli termín „halucinace“ — situace, kdy systém sebevědomě poskytne nepravdivou nebo smyšlenou informaci. Dříve se zdálo, že novější verze modelů by měly být přesnější, ale u posledních verzí OpenAI je to naopak: modely o3 a o4-mini chybují častěji než jejich předchůdci.

Podívejme se na data z interních testů OpenAI na benchmarku PersonQA, který ověřuje znalosti o lidech:

o3 chybuje ve 33 % případů;
starší verze o1 a o3-mini — v 16 % a 14,8 %;
o4-mini „halucinuje“ téměř v polovině případů (48 %).

Proč k tomu dochází? Jedna z hypotéz souvisí s metodami učení. Například přístup SPCT (kdy model sám sebe kritizuje a učí se z chyb) připomíná studenta, který kontroluje domácí úkoly bez dohledu učitele: pokud v první úloze udělá chybu, bude ji opakovat stále dokola. Tato metoda může zesilovat zaujatost a „halucinace“.

Společnost OpenAI problém připouští, ale ve své zprávě explicitně uvádí: „Je zapotřebí více výzkumu, abychom pochopili příčiny.“ Nezávislí pozorovatelé, jako tým Transluce, se domnívají, že modely obecně produkují více tvrzení — a tím roste i počet chyb.

Proč je to důležité? Představte si: požádáte AI, aby vám pomohla upéct bezlepkový dort, a ona doporučí nahradit mouku arašídovou — ale nezmíní, že váš přítel má alergii. Místo oslavy tak vznikne zdravotní riziko. A co když podobné chyby ovlivní řízení podniku nebo vědecké výpočty?

Již dříve upozornila společnost Google DeepMind na rizika automatizace ve výuce AI: jejich přístup předpokládal, že stroje by měly lidem pomáhat, ne je zcela nahrazovat. OpenAI zvolila jinou cestu — a zdá se, že se jí to vymstilo.

Zatím není jasné, jak společnost problém vyřeší. Jedno je však jisté: pokud „závod o chytřejší AI“ bude pokračovat bez kontroly kvality, riskujeme systémy, které spíše vytvářejí problémy, než je řeší. Jak se říká: Jak zaseješ, tak sklidíš.

Čtěte také: OpenAI blokuje účty z Číny a KLDR

Komentáře