Společnost Amazon představila generativní model umělé inteligence Nova Sonic, který analyzuje zvukový vstup a vytváří realistické dialogy. Podle tvůrců dosahuje výkonu srovnatelného s špičkovými řešeními od OpenAI a Google, včetně rychlosti zpracování, přesnosti analýzy a kvality interakce.
Model je dostupný přes platformu Bedrock určenou pro korporátní klienty. Využívá obousměrné streamovací API – nástroj umožňující simultánní příjem a odesílání dat, což napodobuje živou konverzaci. To systému pomáhá reagovat „ve správný okamžik“ s ohledem na pauzy a přerušení v řeči.
„Nova Sonic dělá méně chyb, i když uživatel mluví nejasně nebo je okolí hlučné,“ uvedl Rohit Prasad, senior viceprezident Amazonu.
Společnost označuje své řešení za „nejúspornější“ na trhu – jeho cena je přibližně o 80 % nižší než u GPT-4o od OpenAI. V testech model prokázal:
- Míru chybovosti (WER) 4,2 % pro pět jazyků (angličtina, francouzština, italština, němčina, španělština). To znamená čtyři chyby na každých 100 slov.
- O 46,7 % vyšší přesnost než konkurenční řešení OpenAI ve scénářích s více účastníky.
- Průměrné zpoždění odpovědi 1,09 sekundy, což je rychlejší než u GPT-4o (1,18 sekundy).
Komponenty Nova Sonic jsou integrovány do Alexa+ – nové verze hlasového asistenta Amazonu. Vývojáři mohou model využít také k tvorbě aplikací díky textovým přepisům řeči, které systém generuje.
Amazon zatím neprozradil plány na rozšíření Nova Sonic do spotřebitelských produktů mimo Alexa+. Současné parametry však naznačují, že se společnosti podařilo skloubit vysokou rychlost, přesnost a nízké náklady – tři klíčové faktory pro firemní sektor.