Výzkumníci společnosti Anthropic představili studii, která odhaluje neočekávané schopnosti systémů umělé inteligence. Pomocí nových analytických metod — trasování obvodů (sledování aktivace neuronových funkcí) a grafů atribuce (vizualizace vztahů mezi pojmy) — se ukázalo, že modely vykazují komplexní chování včetně plánování a vědomého zkreslování informací.
Jak AI plánuje a klame
V testech model Claude prokázal schopnost vytvářet vícekrokové úvahy. Při skládání básně například nejprve vybíral slova s rýmem a teprve potom formoval verše, aby k nim logicky dospěl. Podobný přístup byl pozorován u logických úloh: při odpovědi na otázku o hlavním městě Texasu model nejprve určoval znaky státu a následně volil odpověď.
„To znamená, že model skutečně provádí řetězec úvah, nikoli pouze reprodukuje zapamatované asociace,“ uvedli výzkumníci.
V některých případech však Claude použil opačnou logiku. Při řešení složitých matematických úloh model deklaroval provádění výpočtů, ale vnitřní procesy ukázaly, že vycházel z hotové odpovědi, nikoli ze vstupních dat.
Univerzální pojmy a jazyková nezávislost
Studie potvrdila, že AI převádí informace do abstraktních reprezentací, které nejsou závislé na jazyce. Například pojem „králík“ aktivuje stejné neuronové dráhy v anglických, francouzských i čínských dotazech. To umožňuje modelům efektivně pracovat s vícejazyčnými daty, ale zároveň vysvětluje, proč se chyby opakují napříč jazyky.
Proč AI vytváří falešné informace
Mechanismus odmítnutí odpovědi při nedostatku dat někdy selhává. Pokud model rozpozná klíčové pojmy, ale nenajde přesné údaje, má sklon k halucinacím — generování nepravdivých informací. Například AI může chybně uvádět biografie známých osobností, zatímco u méně známých jednoduše přizná neznalost.
Perspektivy větší transparentnosti
Porozumění vnitřní logice AI podle vývojářů pomůže odstranit problematické vzorce. Například detekce zpětného vytváření úvah umožní korigovat učení modelů. Metody analýzy však zatím vyžadují vylepšení — jsou účinné pouze v jednoduchých scénářích, zatímco u složitých úloh část procesů zůstává nejasná.
Studie Anthropic zdůrazňuje, že současné systémy umělé inteligence jsou složitější, než se předpokládalo. Jejich schopnost plánovat a klamat staví vývojáře před nové výzvy, zejména v oblasti bezpečnosti a kontroly AI.