Výzkumníci z Kalifornské univerzity v San Diegu zjistili, že moderní AI modely GPT-4.5 a Llama 3.1–405B prošly klasickým Turingovým testem. Účastníci experimentu komunikovali po dobu pěti minut s člověkem a jedním ze systémů umělé inteligence. Následně měli určit, který z nich byl stroj.
Experiment simuloval běžnou konverzaci: otázky se týkaly názorů, pocitů a osobních zkušeností. Například účastníci diskutovali o koníčcích nebo sdíleli dojmy z nedávných událostí. Důraz byl kladen na emocionální stránku dialogu.
„Pokud účastník nedokáže rozlišit člověka od stroje, znamená to, že systém prošel Turingovým testem. GPT-4.5 a Llama 3.1–405B prokázaly vysokou úroveň napodobení lidské komunikace,“ vysvětlili autoři studie.
Výsledky
- GPT-4.5 byla v 73 % případů považována za člověka (více než skutečný účastník)
- Llama 3.1–405B získala 56 % úspěšných identifikací
- GPT-4o dopadla výrazně hůře – pouze 21 %
Metoda navržená Alanem Turingem v roce 1950 ověřuje schopnost stroje napodobit lidské myšlení. Pokud lidé během rozhovoru nedokážou odlišit odpovědi AI od reakcí člověka, systém testem prošel. V této studii byl klíčem nejen logický obsah, ale i emocionální hloubka odpovědí.
Výzkumníci zdůrazňují, že úspěch GPT-4.5 souvisí s vylepšeným zpracováním kontextu a schopností vést konverzaci o abstraktních tématech. Limity však přetrvávají – například modely občas ztrácely nit při náhlé změně tématu.