Vědci odhalili zranitelnost AI modelů Google Gemini vůči upraveným dotazům

Redaktor

30 března 2025, 20:53

Metoda Fun-Tuning zvyšuje účinnost škodlivých požadavků na AI
Zranitelnost souvisí s funkcí jemného doladění Google Gemini
Útoky mohou vést k úniku dat nebo generování chybných odpovědí

uiw.cz

Skupina výzkumníků z Kalifornské a Wiskonsinské univerzity (USA) vyvinula techniku Fun-Tuning, která zvyšuje riziko napadení AI modelů Google Gemini. Metoda umožňuje útočníkům vkládat skryté instrukce do textů zpracovávaných AI pomocí útoků typu prompt injection.

Technika využívá funkci jemného doladění (fine-tuning), původně určenou k přizpůsobení modelů potřebám uživatelů. Vědci upravili dotazy přidáním nestandardních předpon a přípon. Tím zvýšili jejich dopad – i slabý dotaz se tak může stát účinným nástrojem pro průnik.

Při úspěšném napadení mohou útočníci:

Získat přístup k citlivým informacím
Přimět AI ke generování nesprávných údajů (tzv. halucinace)
Narušit správnou funkci modelu

Pojem prompt injection označuje kybernetické útoky, při nichž hackeři vkládají do dotazů skryté příkazy. Například text, který je pro člověka neškodný, může obsahovat instrukce nutící AI ignorovat bezpečnostní pravidla.

Fun-Tuning využívá legální nástroje pro úpravu Gemini, což komplikuje jeho blokování. Jak naznačují informace z Android Authority, objev otevřel nové možnosti pro útoky na modely založené na prompt injection. Přesný rozsah hrozby a způsoby její eliminace však zatím nejsou jasné.

Odborníci zdůrazňují: současné výsledky jsou experimentální a reálné případy napadení nebyly zaznamenány. Studie ale ukazuje potřebu lepší ochrany AI systémů před manipulací s dotazy.

Čtěte také: Jak automatizovat rutinní úkoly v prohlížeči zdarma?

Komentáře