Novinky

Stability AI spustila AI model pro tvorbu zvuku přímo v chytrém telefonu

Jakub Beran
Jakub Beran
Redaktor
0
  • Stereozvuk generuje za 7 vteřin i na mobilních čipech
  • Model trénován na 472 tisících nahrávek s otevřenými licencemi
  • Zdrojový kód je zdarma, komerční použití má vlastní pravidla
stability.ai

Společnosti Stability AI a Arm představily AI systém, který převádí text na zvuk a funguje i na telefonech. Model Stable Audio Open Small vytváří stereoklipy dlouhé až 11 vteřin – například déšť nebo ruch města. Na zařízeních jako Vivo X200 Pro s čipem Mediatek Dimensity 9400 zpracuje požadavek za 7 vteřin, na výkonných serverových GPU (Nvidia H100) za méně než 0,1 vteřiny.

Architekturu modelu speciálně upravili pro mobily. Místo 1,1 miliardy parametrů v předchozí verzi má nyní jen 341 milionů a spotřeba paměti klesla z 6,5 GB na 3,6 GB. Systém se skládá ze tří částí: komprese zvuku, analýzy textových pokynů a generování finální nahrávky.

„Model výborně zvládá efekty, jako je vrzání dveří nebo šum vln, ale zatím má problémy s hudbou a zpěvem,“ uvádí se v dokumentaci. Nejlépe reaguje na anglické pokyny.

Trénink probíhal na databázi Freesound s nahrávkami pod licencemi CC0, CC BY nebo CC-Sampling+. Aby předešli porušení autorských práv, data prošla automatickými filtry.

Kód je dostupný na GitHubu, váhy modelu na Hugging Face. Pro nekomerční projekty platí otevřená licence, firmy potřebují separátní souhlas. Není jasné, kdy se technologie objeví v běžných aplikacích, testovací verze již fungují na zařízeních Android s 12 GB RAM.

Pokud spatřuješ v článku nedostatek nebo máš připomínky, dej nám vědět.

Prosím, vyplňte toto pole.
Zadejte prosím platnou e-mailovou adresu.
Prosím, vyplňte toto pole.
Témata: AI

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *

Prosím, vyplňte toto pole.
Prosím, vyplňte toto pole.
Zadejte prosím platnou e-mailovou adresu.
Chcete-li pokračovat, musíte souhlasit s podmínkami