Novinky

Alibaba vydala Qwen2.5-Omni-7B — výkonný multimodální AI model pro chytré telefony a notebooky

Artem Leonidovich
Artem Leonidovich
Šéfredaktor
0
  • Nový model zpracovává text, video a audio v reálném čase
  • Dostupný pro vývojáře na platformách Hugging Face a GitHub
  • Pomáhá lidem se zrakovým postižením analyzovat okolí
uiw.cz

Zpracovávat data různých formátů — od textu po video — nyní lze přímo na mobilních zařízeních a noteboocích. Alibaba představila model Qwen2.5-Omni-7B, který funguje bez připojení k cloudovým serverům díky kompaktní architektuře se 7 miliardami parametrů. To je 3–5× méně než u mnoha analogů, což umožňuje spouštět AI i na slabších zařízeních.

Jak nový model funguje

Qwen2.5-Omni-7B využívá tři klíčové technologie:

  1. Thinker-Talker — odděluje generování textu a syntézu řeči, aby se úkoly vzájemně nerušily.
  2. TMRoPE — synchronizuje video s audio stopou, například při analýze kulinářských videí.
  3. Block-wise Streaming — snižuje zpoždění audio odpovědí na úroveň nepostřehnutelnou pro uživatele.

Model byl trénován na hybridních datech: párech „obrázek-text“, „video-audio“ a dalších kombinacích. To mu umožňuje například popsat ingredience na stole a zároveň nadiktovat recept.

Kde se technologie uplatní

Qwen2.5-Omni-7B je již integrována do chatovacího bota Qwen Chat. Vývojáři mohou její kód využít pro aplikace, kde záleží na rychlosti a autonomii:

  • Hlasoví asistenti s rozšířenými funkcemi;
  • Služby pro nevidomé popisující okolí přes kameru;
  • Interaktivní výukové programy s okamžitou zpětnou vazbou.

„Toto je krok k ekonomicky efektivním AI agentům, kteří přinášejí skutečný užitek,“ uvádí se v materiálech Alibaby.

Proč mění přístup k AI

Model Qwen2.5-Omni-7B eliminuje závislost na výkonných serverech — složité úkoly nyní řeší běžná zařízení. Pro uživatele to znamená rychlý přístup k multimodální AI bez prodlev: například okamžitý hlasový návod při vaření nebo popis ulice při namíření kamery. Otevřený kód navíc umožňuje vývojářům implementovat technologii do projektů již dnes — první verze jsou dostupné na GitHubu a Hugging Face.

Schopnost zpracovávat video a audio v reálném čase přibližuje AI každodenním scénářům. Například model analyzuje 10sekundové video za 2 sekundy a nadiktuje postup přípravy jídla — dříve k tomu byly potřeba samostatné aplikace a stabilní internet.

Pokud spatřuješ v článku nedostatek nebo máš připomínky, dej nám vědět.

Prosím, vyplňte toto pole.
Zadejte prosím platnou e-mailovou adresu.
Prosím, vyplňte toto pole.
Témata:
AIAlibaba

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *

Prosím, vyplňte toto pole.
Prosím, vyplňte toto pole.
Zadejte prosím platnou e-mailovou adresu.
Chcete-li pokračovat, musíte souhlasit s podmínkami