Alibaba vydala Qwen2.5-Omni-7B — výkonný multimodální AI model pro chytré telefony a notebooky

Šéfredaktor

27 března 2025, 22:20

Nový model zpracovává text, video a audio v reálném čase
Dostupný pro vývojáře na platformách Hugging Face a GitHub
Pomáhá lidem se zrakovým postižením analyzovat okolí

uiw.cz

Zpracovávat data různých formátů — od textu po video — nyní lze přímo na mobilních zařízeních a noteboocích. Alibaba představila model Qwen2.5-Omni-7B, který funguje bez připojení k cloudovým serverům díky kompaktní architektuře se 7 miliardami parametrů. To je 3–5× méně než u mnoha analogů, což umožňuje spouštět AI i na slabších zařízeních.

Jak nový model funguje

Qwen2.5-Omni-7B využívá tři klíčové technologie:

Thinker-Talker — odděluje generování textu a syntézu řeči, aby se úkoly vzájemně nerušily.
TMRoPE — synchronizuje video s audio stopou, například při analýze kulinářských videí.
Block-wise Streaming — snižuje zpoždění audio odpovědí na úroveň nepostřehnutelnou pro uživatele.

Model byl trénován na hybridních datech: párech „obrázek-text“, „video-audio“ a dalších kombinacích. To mu umožňuje například popsat ingredience na stole a zároveň nadiktovat recept.

Kde se technologie uplatní

Qwen2.5-Omni-7B je již integrována do chatovacího bota Qwen Chat. Vývojáři mohou její kód využít pro aplikace, kde záleží na rychlosti a autonomii:

Hlasoví asistenti s rozšířenými funkcemi;
Služby pro nevidomé popisující okolí přes kameru;
Interaktivní výukové programy s okamžitou zpětnou vazbou.

„Toto je krok k ekonomicky efektivním AI agentům, kteří přinášejí skutečný užitek,“ uvádí se v materiálech Alibaby.

Proč mění přístup k AI

Model Qwen2.5-Omni-7B eliminuje závislost na výkonných serverech — složité úkoly nyní řeší běžná zařízení. Pro uživatele to znamená rychlý přístup k multimodální AI bez prodlev: například okamžitý hlasový návod při vaření nebo popis ulice při namíření kamery. Otevřený kód navíc umožňuje vývojářům implementovat technologii do projektů již dnes — první verze jsou dostupné na GitHubu a Hugging Face.

Schopnost zpracovávat video a audio v reálném čase přibližuje AI každodenním scénářům. Například model analyzuje 10sekundové video za 2 sekundy a nadiktuje postup přípravy jídla — dříve k tomu byly potřeba samostatné aplikace a stabilní internet.

Čtěte také: Meta zpochybňuje obvinění z využití knih ze stínových knihoven pro trénování AI

Komentáře