Zpracovávat data různých formátů — od textu po video — nyní lze přímo na mobilních zařízeních a noteboocích. Alibaba představila model Qwen2.5-Omni-7B, který funguje bez připojení k cloudovým serverům díky kompaktní architektuře se 7 miliardami parametrů. To je 3–5× méně než u mnoha analogů, což umožňuje spouštět AI i na slabších zařízeních.
Jak nový model funguje
Qwen2.5-Omni-7B využívá tři klíčové technologie:
- Thinker-Talker — odděluje generování textu a syntézu řeči, aby se úkoly vzájemně nerušily.
- TMRoPE — synchronizuje video s audio stopou, například při analýze kulinářských videí.
- Block-wise Streaming — snižuje zpoždění audio odpovědí na úroveň nepostřehnutelnou pro uživatele.
Model byl trénován na hybridních datech: párech „obrázek-text“, „video-audio“ a dalších kombinacích. To mu umožňuje například popsat ingredience na stole a zároveň nadiktovat recept.
Kde se technologie uplatní
Qwen2.5-Omni-7B je již integrována do chatovacího bota Qwen Chat. Vývojáři mohou její kód využít pro aplikace, kde záleží na rychlosti a autonomii:
- Hlasoví asistenti s rozšířenými funkcemi;
- Služby pro nevidomé popisující okolí přes kameru;
- Interaktivní výukové programy s okamžitou zpětnou vazbou.
„Toto je krok k ekonomicky efektivním AI agentům, kteří přinášejí skutečný užitek,“ uvádí se v materiálech Alibaby.
Proč mění přístup k AI
Model Qwen2.5-Omni-7B eliminuje závislost na výkonných serverech — složité úkoly nyní řeší běžná zařízení. Pro uživatele to znamená rychlý přístup k multimodální AI bez prodlev: například okamžitý hlasový návod při vaření nebo popis ulice při namíření kamery. Otevřený kód navíc umožňuje vývojářům implementovat technologii do projektů již dnes — první verze jsou dostupné na GitHubu a Hugging Face.
Schopnost zpracovávat video a audio v reálném čase přibližuje AI každodenním scénářům. Například model analyzuje 10sekundové video za 2 sekundy a nadiktuje postup přípravy jídla — dříve k tomu byly potřeba samostatné aplikace a stabilní internet.