Skupina Tongyi Lab, která spadá pod Alibabu, zpřístupnila zdrojový kód AI modelu R1-Omni určeného pro zpracování dat různých formátů — videa, textu a obrázků. Vývoj se zaměřuje na rozpoznávání emocí, analýzu okolí a řešení úloh vyžadujících logické uvažování.
Model využívá metodu RLVR (učení s posilováním a ověřitelné odměny), kterou lze přirovnat k systému odměn při výcviku zvířat. Tento přístup umožňuje AI přesněji plnit úkoly, kde je potřeba propojit vizuální informace s logickými závěry — například určit náladu člověka na videu a zároveň popsat jeho oblečení.
Příklady si můžete prohlédnout na GitHubu.
V rámci dvou ukázek R1-Omni úspěšně:
- Určila emocionální stav člověka ve videu;
- Vytvořila popis prvků oblečení a okolního prostředí.
R1-Omni je vylepšením starší verze HumanOmni, vyvinuté pod vedením výzkumníka Ťia-singa Čao. Zatímco předchozí řešení pracovala hlavně s textem a obrázky, aktualizace přidala podporu videa a rozšířila oblast použití — od analýzy chování po geometrické výpočty.
Generální ředitel Alibaby Eddy Wu zdůraznil, že společnost považuje umělou obecnou inteligenci (AGI) za klíčový cíl:
„Soustředíme se nyní na integraci AI do každodenních technologií.“
Čínský gigant aktivně rozvíjí svůj AI sektor:
- Otestoval svůj model Qwen ve srovnání s DeepSeek;
- Uzavřel partnerství s Apple pro integraci AI do zařízení iPhone;
- Zpřístupnil R1-Omni, čímž zvýšil konkurenci s OpenAI.
Model je již k dispozici ke stažení na platformě Hugging Face. Jde o krok k demokratizaci technologií — vývojáři mohou R1-Omni využít v projektech spojených s bezpečností, vzděláváním nebo analýzou dat. Společnost zatím nezveřejnila plány na ziskový model, ale jedno je jasné: Alibaba nezůstává pozadu v závodě o prvenství v oblasti umělé inteligence.