Čínská společnost Alibaba uvedla na trh rodinu AI modelů Qwen2.5-VL. Systém dokáže analyzovat textové soubory, grafy, skeny dokumentů, rozpoznávat objekty na obrázcích nebo ve videích. Například počítá předměty na fotografiích nebo identifikuje produkty ve filmech.
Jednou z klíčových funkcí je ovládání softwaru na zařízeních. Podle tvůrců model například umí spustit aplikaci Booking a rezervovat letenky, podobně jako nástroj Operator od OpenAI.
Podle tvrzení vývojářů nejvýkonnější verze Qwen2.5-VL překonává modely GPT-4o, Claude 3.5 Sonnet a Gemini 2.0 Flash v testech analýzy videa, práce s dokumenty nebo řešení matematických úloh. V testovacím prostředí OSWorld, které simuluje počítačové rozhraní, však výsledky nebyly přesvědčivé.
Modely s 3 a 7 miliardami parametrů jsou zdarma dostupné v aplikaci Qwen Chat a na platformě Hugging Face. Její technický ředitel již fungování systému demonstroval.
Vlajková verze s 72 miliardami parametrů je šířena pod speciální licencí. Firmy a vývojáři s více než 100 měsíčními uživateli musí komerční využití konzultovat s Alibabou.
Otázka bezpečnosti ovládání zařízení prostřednictvím AI zůstává otevřená – oficiální tisková zpráva ji nezmiňuje. Jak ukázaly testy, současná verze modelu zatím neumí pracovat se všemi typy softwaru, což může omezovat její využití.