Mezitím vývojáři představili aktualizovaný nástroj, který doslova učí AI „rozumět“ obrazovce počítače. Představte si: pořídíte screenshot a program nejen analyzuje obrázek, ale také rozluští, kde jsou tlačítka, menu nebo text. Je to, jako by pomocník dostal mapu obrazovky s popisky: „Zde je pole pro e-mail“, „Tady je tlačítko odeslání“.
Problémy, které řeší:
- AI nerozumí rozhraním. Dříve programy jako ChatGPT nedokázaly přesně určit, jak s obrazovkou interagovat — třeba kde kliknout pro uložení souboru. OmniParser V2 označí každou klikatelnou oblast a vysvětlí její funkci.
- Neviditelné detaily. Nástroj odhalí i miniaturní prvky, které lidé často přehlédnou — například ikonu nastavení v rohu složité aplikace.
- Pomalé zpracování. Nová verze zvládá analýzu obrazovky téměř dvakrát rychleji, což je klíčové pro úkoly v reálném čase, jako automatické vyplňování formulářů.
Jak se to hodí v praxi?
- Zbaví vás rutiny. Například AI dokáže samo vyplnit žádost o vízum podle screenshotu webu ambasády.
- Zjednoduší technickou podporu. Specialisté rychleji najdou problém na vaší obrazovce a poradí, kam kliknout.
- Pomůže vývojářům. Automatické testování rozhraní aplikací na různých zařízeních — tlačítka se po aktualizaci „nerozjedou“.
Technologie pracuje ve dvou krocích:
- Naskenuje screenshot — najde všechny interaktivní prvky a zaznamená jejich pozice.
- Vytvoří „popis“ pro AI, například: „Vpravo nahoře je rozbalovací menu s nastavením profilu“.
Kde to vyzkoušet?
Nástroj je dostupný jako otevřený model na platformě Hugging Face. Pro experimenty lze použít prostředí OmniTool — spouští se v izolované „krabici“ (Docker kontejner) s připojením k populárním AI modelům.
Důležité upozornění: Systém nekontroluje screenshoty na přítomnost osobních údajů nebo podezřelého obsahu. Vývojářům se doporučuje přidat manuální kontrolu u kritických scénářů.
OmniParser V2 se teď testuje v reálných projektech. V budoucnu mohou podobné technologie naučit AI ovládat chytré domácnosti nebo nakupovat online — skoro jako člověk. Zatím je nástroj určen pro odborníky, ale už teď se mu říká krok k „asistentům nové generace“.
Podrobnosti najdete v oficiálním blogu vývojářů a na GitHubu.