Společnosti Stability AI a Arm představily AI systém, který převádí text na zvuk a funguje i na telefonech. Model Stable Audio Open Small vytváří stereoklipy dlouhé až 11 vteřin – například déšť nebo ruch města. Na zařízeních jako Vivo X200 Pro s čipem Mediatek Dimensity 9400 zpracuje požadavek za 7 vteřin, na výkonných serverových GPU (Nvidia H100) za méně než 0,1 vteřiny.
Architekturu modelu speciálně upravili pro mobily. Místo 1,1 miliardy parametrů v předchozí verzi má nyní jen 341 milionů a spotřeba paměti klesla z 6,5 GB na 3,6 GB. Systém se skládá ze tří částí: komprese zvuku, analýzy textových pokynů a generování finální nahrávky.
„Model výborně zvládá efekty, jako je vrzání dveří nebo šum vln, ale zatím má problémy s hudbou a zpěvem,“ uvádí se v dokumentaci. Nejlépe reaguje na anglické pokyny.
Trénink probíhal na databázi Freesound s nahrávkami pod licencemi CC0, CC BY nebo CC-Sampling+. Aby předešli porušení autorských práv, data prošla automatickými filtry.
Kód je dostupný na GitHubu, váhy modelu na Hugging Face. Pro nekomerční projekty platí otevřená licence, firmy potřebují separátní souhlas. Není jasné, kdy se technologie objeví v běžných aplikacích, testovací verze již fungují na zařízeních Android s 12 GB RAM.