Skupina výzkumníků z Kalifornské a Wiskonsinské univerzity (USA) vyvinula techniku Fun-Tuning, která zvyšuje riziko napadení AI modelů Google Gemini. Metoda umožňuje útočníkům vkládat skryté instrukce do textů zpracovávaných AI pomocí útoků typu prompt injection.
Technika využívá funkci jemného doladění (fine-tuning), původně určenou k přizpůsobení modelů potřebám uživatelů. Vědci upravili dotazy přidáním nestandardních předpon a přípon. Tím zvýšili jejich dopad – i slabý dotaz se tak může stát účinným nástrojem pro průnik.
Při úspěšném napadení mohou útočníci:
- Získat přístup k citlivým informacím
- Přimět AI ke generování nesprávných údajů (tzv. halucinace)
- Narušit správnou funkci modelu
Pojem prompt injection označuje kybernetické útoky, při nichž hackeři vkládají do dotazů skryté příkazy. Například text, který je pro člověka neškodný, může obsahovat instrukce nutící AI ignorovat bezpečnostní pravidla.
Fun-Tuning využívá legální nástroje pro úpravu Gemini, což komplikuje jeho blokování. Jak naznačují informace z Android Authority, objev otevřel nové možnosti pro útoky na modely založené na prompt injection. Přesný rozsah hrozby a způsoby její eliminace však zatím nejsou jasné.
Odborníci zdůrazňují: současné výsledky jsou experimentální a reálné případy napadení nebyly zaznamenány. Studie ale ukazuje potřebu lepší ochrany AI systémů před manipulací s dotazy.