Podcastle spouští AI model pro převod textu na řeč s 450 hlasy

Redaktor

Startup představil Asyncflow v1.0 s podporou více než 450 AI hlasů
Vývojáři mohou technologii integrovat přes API
Náklady na trénink modelu sníženy díky novým algoritmům

podcastle.ai

Platforma pro tvorbu podcastů Podcastle oznámila spuštění AI modelu Asyncflow v1.0, který převádí text na řeč s využitím více než 450 hlasů. Vývojáři nyní mohou tuto funkci připojit ke svým aplikacím prostřednictvím speciálního rozhraní (API).

Zakladatel společnosti Arto Yeritsyan vysvětlil, že dříve vyžadovala tvorba podobné technologie vysoké náklady na učení AI:

„Od začátku jsme chtěli vytvořit spolehlivý model, ale náklady na vývoj byly příliš vysoké. Průlom umožnily nové metody v jazykových modelech.“

Startup také získal 13,5 milionu dolarů v rámci finančního kola série A. To umožnilo snížit cenu služby: 500 minut převodu textu na řeč vyjde uživatele na 40 dolarů. Pro srovnání, konkurenční ElevenLabs účtuje za stejný objem 99 dolarů.

Aktualizace funkce klonování hlasu

Dříve vyžadovalo vytvoření digitální kopie přečtení 70 vět
Nyní stačí několik vteřin nahrávky díky technologii Magic Dust AI
V testech zněl hlas lehce roboticky, kvalitu však slibují vylepšit

Nová verze funkce využívá algoritmus Magic Dust AI, který Podcastle představil loni. Ten automaticky odstraňuje šum z nahrávek a optimalizuje je pro učení modelu.

Technologie převodu textu na řeč se využívá v marketingu, vzdělávání a tvorbě obsahu. Podcastle soutěží se službami jako Speechify nebo WellSaid, ale vsází na dostupnost a rozmanitost hlasů. Společnost plánuje dále rozvíjet AI nástroje s důrazem na snižování nákladů pro uživatele.

Čtěte také: Jak Google využívá AI ke zjednodušení odpovědí na e-maily v Gmailu?

Komentáře