Novinky

Microsoft představil OmniParser V2: Jak se AI naučil „klikat“ místo vás

Artem Leonidovich
Artem Leonidovich
Šéfredaktor
0
  • Přemění snímek obrazovky na „návod“ pro programy založené na umělé inteligenci
  • Přesně rozpozná i drobné prvky jako ikony nebo textová pole
  • Funguje o 60 % rychleji než předchozí verze — šetří čas při automatizaci
uiw.cz

Mezitím vývojáři představili aktualizovaný nástroj, který doslova učí AI „rozumět“ obrazovce počítače. Představte si: pořídíte screenshot a program nejen analyzuje obrázek, ale také rozluští, kde jsou tlačítka, menu nebo text. Je to, jako by pomocník dostal mapu obrazovky s popisky: „Zde je pole pro e-mail“, „Tady je tlačítko odeslání“.

Problémy, které řeší:

  1. AI nerozumí rozhraním. Dříve programy jako ChatGPT nedokázaly přesně určit, jak s obrazovkou interagovat — třeba kde kliknout pro uložení souboru. OmniParser V2 označí každou klikatelnou oblast a vysvětlí její funkci.
  2. Neviditelné detaily. Nástroj odhalí i miniaturní prvky, které lidé často přehlédnou — například ikonu nastavení v rohu složité aplikace.
  3. Pomalé zpracování. Nová verze zvládá analýzu obrazovky téměř dvakrát rychleji, což je klíčové pro úkoly v reálném čase, jako automatické vyplňování formulářů.

Jak se to hodí v praxi?

  • Zbaví vás rutiny. Například AI dokáže samo vyplnit žádost o vízum podle screenshotu webu ambasády.
  • Zjednoduší technickou podporu. Specialisté rychleji najdou problém na vaší obrazovce a poradí, kam kliknout.
  • Pomůže vývojářům. Automatické testování rozhraní aplikací na různých zařízeních — tlačítka se po aktualizaci „nerozjedou“.

Technologie pracuje ve dvou krocích:

  1. Naskenuje screenshot — najde všechny interaktivní prvky a zaznamená jejich pozice.
  2. Vytvoří „popis“ pro AI, například: „Vpravo nahoře je rozbalovací menu s nastavením profilu“.

Kde to vyzkoušet?

Nástroj je dostupný jako otevřený model na platformě Hugging Face. Pro experimenty lze použít prostředí OmniTool — spouští se v izolované „krabici“ (Docker kontejner) s připojením k populárním AI modelům.

Důležité upozornění: Systém nekontroluje screenshoty na přítomnost osobních údajů nebo podezřelého obsahu. Vývojářům se doporučuje přidat manuální kontrolu u kritických scénářů.

OmniParser V2 se teď testuje v reálných projektech. V budoucnu mohou podobné technologie naučit AI ovládat chytré domácnosti nebo nakupovat online — skoro jako člověk. Zatím je nástroj určen pro odborníky, ale už teď se mu říká krok k „asistentům nové generace“.

Podrobnosti najdete v oficiálním blogu vývojářů a na GitHubu.

Pokud spatřuješ v článku nedostatek nebo máš připomínky, dej nám vědět.

Prosím, vyplňte toto pole.
Zadejte prosím platnou e-mailovou adresu.
Prosím, vyplňte toto pole.
Témata:
AIMicrosoft

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *

Prosím, vyplňte toto pole.
Prosím, vyplňte toto pole.
Zadejte prosím platnou e-mailovou adresu.
Chcete-li pokračovat, musíte souhlasit s podmínkami