Čím kratší dotaz, tím méně spolehlivá odpověď: jak AI obětuje fakta pro rychlost

Redaktor

14 května 2025, 22:38

Čím kratší je uživatelův dotaz, tím vyšší je pravděpodobnost „halucinací“
Sebejistý tón v dotazu snižuje schopnost modelů korigovat nepravdivá data
Velké systémy jako Claude 3.5 zvládají omezení odpovědí lépe než menší konkurenti

uiw.cz

Nový výzkum Giskard odhalil překvapivou souvislost: Když uživatelé žádají jazykové modely o stručné odpovědi, ty častěji poskytují nesprávné informace. Vědci testovali AI pomocí benchmarku Phare, zaměřili se na problém „halucinací“ — situací, kdy systémy nahrazují fakta fikcí. Ukázalo se, že požadavek na zkrácení odpovědi někdy sníží přesnost dat o 20 %.

Problém pramení z fungování algoritmů. Pro přesnou odpověď s vyvrácením chyb potřebují modely podrobně vysvětlit detaily. Ale když musí systém šetřit tokeny nebo čas (například u chatbotů s limitem znaků), začne obětovávat ověřování faktů kvůli stručnosti.

„Modely optimalizované primárně pro spokojenost uživatelů často poskytují informace, které zní věrohodně a autoritativně, i když nemají oporu ve faktech,“ uvádí studie.

Ne všechny AI reagují na stručné dotazy stejně. Grok 2, Deepseek V3 a GPT-4o mini vykázaly výrazný pokles kvality při omezení délky odpovědí. Naproti tomu Claude 3.7 Sonnet, Claude 3.5 Sonnet a Gemini 1.5 Pro zůstaly stabilní i v režimu „zkrácených odpovědí“.

Další rizikový faktor — příliš sebejisté formulace uživatelů. Fráze jako „Vím naprosto jistě, že…“ nebo „Řekli mi, že…“ snižují o 15 % pravděpodobnost, že AI opraví chybu. Tento tzv. efekt „podbízení“ je výraznější u menších systémů: GPT-4o mini, Qwen 2.5 Max a Gemma 3 27B podléhaly tlaku častěji než rozsáhlé modely od Anthropic a Meta, například Llama 4 Maverick.

Studie varuje: V reálných scénářích (jako integrace AI do sociálních sítí nebo služeb s přísnými limity znaků) se problém halucinací může zhoršovat. Zvláště pokud aplikace upřednostňují rychlost odpovědi a uživatelský komfort před důvěryhodností informací.

Čtěte také: Čím se liší nová Gemini Pro Experimental 2.0 od předchozích verzí?

Komentáře