Sesame AI vytvořil hlasového asistenta, který děsí svou realističností

Redaktor

06 března 2025, 23:28

Hlasová AI reprodukuje pauzy, dech a sebeopravy jako člověk
Systém byl trénován na milionu hodin audiozáznamů a podporuje multimodální zpracování
Vývojáři plánují přidat přes 20 jazyků a část kódu zpřístupnit komunitě

uiw.cz

Startup Sesame AI oznámil Conversational Speech Model (CSM) — hlasový model umělé inteligence, který překonává tradiční asistenty jako Siri v přirozenosti komunikace. Na rozdíl od systémů převádějících text na řeč kombinuje CSM zpracování zvuku a textu do jednotného algoritmu. To umožňuje napodobit živý rozhovor: AI reprodukuje intonace, smích, vytváří pauzy a dokonce dělá chyby, které následně opravuje. Vyzkoušet si konverzaci s asistentem Sesame AI můžete zde.

Technologie usiluje o „hlasovou přítomnost“ — efekt, kdy je AI vnímána jako člověk. K tomu vývojáři využili dva komponenty: základní model (backbone) a dekodér založený na architektuře Meta Llama. Trénink probíhal na milionu hodin anglických nahrávek a největší verze CSM obsahuje 8,3 miliardy parametrů — jakýchsi „neuronů“ zodpovědných za analýzu dat.

„Uživatelé popisují smíšené pocity: někteří žasnou nad realističností, jiné znepokojují etické aspekty,“ uvádí tým Sesame AI.

Současný systém rozpoznává dotazy v různých jazycích, ale odpovídá pouze anglicky. V plánu je rozšíření podpory na více než 20 jazyků a otevření zdrojového kódu klíčových komponent pod licencí Apache 2.0. To umožní externím vývojářům technologii vylepšovat, zároveň však přilévá olej do ohně debat o bezpečnosti.

V slepých testech posluchači bez kontextu zaměnili řeč CSM za lidskou. Při vědomém porovnání však častěji volili skutečné lidi. Realističnost systému již vyvolává obavy — například o možné zneužití v podvodných schématech. Podobná rizika již dříve vedla společnost OpenAI k omezení přístupu k jejím hlasovým nástrojům.

Sesame AI zdůrazňuje, že pracuje na rovnováze mezi inovacemi a odpovědností, konkrétní ochranná opatření však zatím nezveřejnil.

Čtěte také: OpenAI vysvětlila rozdíly mezi pěti verzemi ChatGPT a kdy je použít

Komentáře