Startup Sesame AI oznámil Conversational Speech Model (CSM) — hlasový model umělé inteligence, který překonává tradiční asistenty jako Siri v přirozenosti komunikace. Na rozdíl od systémů převádějících text na řeč kombinuje CSM zpracování zvuku a textu do jednotného algoritmu. To umožňuje napodobit živý rozhovor: AI reprodukuje intonace, smích, vytváří pauzy a dokonce dělá chyby, které následně opravuje. Vyzkoušet si konverzaci s asistentem Sesame AI můžete zde.
Technologie usiluje o „hlasovou přítomnost“ — efekt, kdy je AI vnímána jako člověk. K tomu vývojáři využili dva komponenty: základní model (backbone) a dekodér založený na architektuře Meta Llama. Trénink probíhal na milionu hodin anglických nahrávek a největší verze CSM obsahuje 8,3 miliardy parametrů — jakýchsi „neuronů“ zodpovědných za analýzu dat.
„Uživatelé popisují smíšené pocity: někteří žasnou nad realističností, jiné znepokojují etické aspekty,“ uvádí tým Sesame AI.
Současný systém rozpoznává dotazy v různých jazycích, ale odpovídá pouze anglicky. V plánu je rozšíření podpory na více než 20 jazyků a otevření zdrojového kódu klíčových komponent pod licencí Apache 2.0. To umožní externím vývojářům technologii vylepšovat, zároveň však přilévá olej do ohně debat o bezpečnosti.
V slepých testech posluchači bez kontextu zaměnili řeč CSM za lidskou. Při vědomém porovnání však častěji volili skutečné lidi. Realističnost systému již vyvolává obavy — například o možné zneužití v podvodných schématech. Podobná rizika již dříve vedla společnost OpenAI k omezení přístupu k jejím hlasovým nástrojům.
Sesame AI zdůrazňuje, že pracuje na rovnováze mezi inovacemi a odpovědností, konkrétní ochranná opatření však zatím nezveřejnil.