Čínská společnost Baidu hodlá ve druhé polovině roku 2025 uvést na trh novou generaci svého AI modelu Ernie 5. Systém bude multimodální — tedy schopný analyzovat a převádět různé formáty dat včetně textu, videa, obrazu a zvuku. To umožní řešit úkoly vyžadující komplexní zpracování informací, například tvorbu obsahu na základě více zdrojů.
Oznámení přichází v době sílící rivality v čínském sektoru umělé inteligence. Start-up DeepSeek, jehož model dosáhl výkonnosti srovnatelné s OpenAI při nižších nákladech, se stal klíčovým hráčem. Přestože Baidu reagovala na uvedení ChatGPT v roce 2022 jako jedna z prvních čínských firem, její současný model Ernie 4, i přes deklarovanou srovnatelnost s GPT-4, zaostává v popularitě za chatbotem Doubao od ByteDance nebo řešeními DeepSeek.
Generální ředitel Baidu Robin Li na konferenci v Dubaji připustil nepředvídatelnost technologického vývoje.
„Nikdy nevíte, kdy a odkud inovace přijdou,“ uvedl v komentáři k úspěchu DeepSeek.
Zároveň zdůraznil nutnost pokračování investic do datových center a cloudové infrastruktury, ačkoli někteří konkurenti zpochybňují efektivitu vysokých nákladů na velké AI modely.
Mezitím experti upozorňují, že čínský trh s AI se dál rychle rozvíjí. Po boomu vyvolaném spuštěním ChatGPT místní firmy experimentují se snižováním nákladů na trénink modelů a hledají nové aplikace technologií. Baidu podle všeho vsází na multimodalitu Ernie 5, aby se odlišila od konkurence. Výsledky této strategie však budou zřejmé až po uvedení systému.
Poznámka: Multimodální AI modely, jako je Ernie 5, lze přirovnat k člověku, který současně využívá zrak, sluch a řeč k řešení úkolů. To rozšiřuje jejich možnosti oproti systémům pracujícím pouze s textem.