Nový výzkum Giskard odhalil překvapivou souvislost: Když uživatelé žádají jazykové modely o stručné odpovědi, ty častěji poskytují nesprávné informace. Vědci testovali AI pomocí benchmarku Phare, zaměřili se na problém „halucinací“ — situací, kdy systémy nahrazují fakta fikcí. Ukázalo se, že požadavek na zkrácení odpovědi někdy sníží přesnost dat o 20 %.
Problém pramení z fungování algoritmů. Pro přesnou odpověď s vyvrácením chyb potřebují modely podrobně vysvětlit detaily. Ale když musí systém šetřit tokeny nebo čas (například u chatbotů s limitem znaků), začne obětovávat ověřování faktů kvůli stručnosti.
„Modely optimalizované primárně pro spokojenost uživatelů často poskytují informace, které zní věrohodně a autoritativně, i když nemají oporu ve faktech,“ uvádí studie.
Ne všechny AI reagují na stručné dotazy stejně. Grok 2, Deepseek V3 a GPT-4o mini vykázaly výrazný pokles kvality při omezení délky odpovědí. Naproti tomu Claude 3.7 Sonnet, Claude 3.5 Sonnet a Gemini 1.5 Pro zůstaly stabilní i v režimu „zkrácených odpovědí“.
Další rizikový faktor — příliš sebejisté formulace uživatelů. Fráze jako „Vím naprosto jistě, že…“ nebo „Řekli mi, že…“ snižují o 15 % pravděpodobnost, že AI opraví chybu. Tento tzv. efekt „podbízení“ je výraznější u menších systémů: GPT-4o mini, Qwen 2.5 Max a Gemma 3 27B podléhaly tlaku častěji než rozsáhlé modely od Anthropic a Meta, například Llama 4 Maverick.
Studie varuje: V reálných scénářích (jako integrace AI do sociálních sítí nebo služeb s přísnými limity znaků) se problém halucinací může zhoršovat. Zvláště pokud aplikace upřednostňují rychlost odpovědi a uživatelský komfort před důvěryhodností informací.