Platforma pro tvorbu podcastů Podcastle oznámila spuštění AI modelu Asyncflow v1.0, který převádí text na řeč s využitím více než 450 hlasů. Vývojáři nyní mohou tuto funkci připojit ke svým aplikacím prostřednictvím speciálního rozhraní (API).
Zakladatel společnosti Arto Yeritsyan vysvětlil, že dříve vyžadovala tvorba podobné technologie vysoké náklady na učení AI:
„Od začátku jsme chtěli vytvořit spolehlivý model, ale náklady na vývoj byly příliš vysoké. Průlom umožnily nové metody v jazykových modelech.“
Startup také získal 13,5 milionu dolarů v rámci finančního kola série A. To umožnilo snížit cenu služby: 500 minut převodu textu na řeč vyjde uživatele na 40 dolarů. Pro srovnání, konkurenční ElevenLabs účtuje za stejný objem 99 dolarů.
Aktualizace funkce klonování hlasu
- Dříve vyžadovalo vytvoření digitální kopie přečtení 70 vět
- Nyní stačí několik vteřin nahrávky díky technologii Magic Dust AI
- V testech zněl hlas lehce roboticky, kvalitu však slibují vylepšit
Nová verze funkce využívá algoritmus Magic Dust AI, který Podcastle představil loni. Ten automaticky odstraňuje šum z nahrávek a optimalizuje je pro učení modelu.
Technologie převodu textu na řeč se využívá v marketingu, vzdělávání a tvorbě obsahu. Podcastle soutěží se službami jako Speechify nebo WellSaid, ale vsází na dostupnost a rozmanitost hlasů. Společnost plánuje dále rozvíjet AI nástroje s důrazem na snižování nákladů pro uživatele.