Společnost Nvidia představila nový model pro rozpoznávání řeči Parakeet-TDT-0.6B-v2. Systém je nejen zdarma, ale svou přesností se blíží komerčním konkurentům jako GPT-4o nebo ElevenLabs Scribe. Podle testů Hugging Face má chybovost (WER) 6,05 %. Pro srovnání: placené modely dosahují hodnot mezi 2,46 % a 3,3 %.
Parakeet zvládá úkoly 3386× rychleji než reálný čas. Například hodinový podcast přepíše za sekundu včetně interpunkce a časových metrik pro každé slovo. Díky architektuře FastConformer a TDT ho lze spustit i na slabším hardwaru – stačí 2 GB RAM. Maximální výkon však poskytuje na GPU Nvidia (A100, H100, T4).
Model se učil na 120 000 hodinách audiozáznamů. Z toho 10 000 hodin tvoří lidsky označená data z projektů LibriSpeech a Mozilla Common Voice. Zbylých 110 000 hodin pochází z otevřených zdrojů jako YouTube-Commons s automatickou anotací. Kompletní dataset Granary chce společnost zveřejnit po konferenci Interspeech 2025.
„Parakeet stabilně funguje v hlučném prostředí nebo u telefonních hovorů, ale při nízkém poměru signálu a šumu může přesnost mírně klesat,“ uvádí dokumentace. K dispozici jsou Python skripty a framework NeMo pro úpravu modelu na konkrétní úkoly – od generování titulků po hlasové asistenty.
Nvidia zdůrazňuje, že při tréninku nepoužila osobní data a metodiku sběru dat transparentně popsala. Model však neobsahuje mechanismy pro korekci demografických zkreslení – například u přízvuků.
Parakeet-TDT-0.6B-v2 je dostupný na Hugging Face a přes NeMo. Licence CC-BY-4.0 umožňuje komerční využití bez omezení, což z něj dělá alternativu pro startupy nebo nezávislé vývojáře.