Společnost ByteDance představila aktualizovaný systém umělé inteligence Seedream 3.0, který generuje obrázky na základě textových popisů. Podle testů pracuje rychleji a přesněji než populární konkurenční modely jako GPT-4o nebo Midjourney, a to i v náročných scénářích.
Jak toho dosáhli?
Model byl trénován na dvojnásobném objemu dat oproti předchozí verzi. Dříve vyřazované obrázky s vadami nyní procházejí maskováním během zpracování – podobně jako když před tiskem retušujete škrábance na fotce. Vývojáři také použili nové tréninkové metody:
- Vzorkování s ohledem na rozlišení – systém se učí přizpůsobovat různým velikostem obrázků, jako skládačka z různých tvarů;
- Smíšené rozlišení – trénink na obrázcích v různých měřítkách, aby výsledek neztrácel kvalitu při zvětšování.
Díky tomu Seedream 3.0 generuje obrázky v původním rozlišení 2K a obraz 1K (jako na středně velkém notebooku) vytvoří za tři sekundy.
Proč je to důležité?
V testu Artificial Analysis Arena, kde uživatelé porovnávají výsledky různých AI, Seedream 3.0 původně obsadil první místo. Nyní zaostává za GPT-4 o pouhý bod (1156 vs. 1157). Model exceluje zejména v úlohách s množstvím textu: například při tvorbě plakátů nebo samolepek s anglickými a čínskými nápisy dosahuje 94% přesnosti, i když jsou písmena hustě uspořádána.
„Seedream 3.0 nejen překonává GPT-4o, ale může konkurovat i designovým platformám, jako je Canva,“ uvádí ByteDance.
Fotorealismus bez dodatečných úprav
U portrétů model zachycuje strukturu pleti, drobné vrásky a vlasy, čímž se vyhýbá „umělému“ vzhledu typickému pro mnohé AI generované obrazy. Například Midjourney v6.1 často detaily vyhladí, zatímco Seedream 3.0 podle tvůrců zachovává realismus bez manuálních úprav.
Tajná zbraň – SeedEdit
Společnost zároveň představila nástroj SeedEdit pro úpravu generovaných obrázků. Umožňuje:
- Odstraňovat nebo měnit text na obrázku;
- Upravovat designové prvky při zachování celkového stylu.
Podle ByteDance je SeedEdit přesnější než GPT-4o a Gemini 2.0 Flash: například při vkládání nového nápisu zůstává pozadí neporušené a artefakty se téměř neobjevují.
Co dál?
V dokumentaci Seedream 3.0 najdete řadu srovnání s jinými modely, která údajně potvrzují její výhody. I když příklady pocházejí z „ideálních“ scénářů, ukazují, že model může soutěžit s tržními lídry. Seedream 3.0 bude brzy dostupná v chatbotu Doubao – to usnadní tvorbu obsahu pro sociální sítě, reklamu nebo osobní projekty.
P.S. ByteDance však nesdělila přesné datum, kdy bude aktualizace dostupná všem uživatelům.