Novinky

Mistral OCR: Převod PDF na text s rozpoznáním grafiky

Artem Leonidovich
Artem Leonidovich
Šéfredaktor
0
  • API automaticky rozpoznává text a obrázky v PDF souborech
  • Výsledky jsou formátovány v Markdownu pro snadné zpracování AI
  • Služba je dostupná přes hlavní cloudové platformy i pro lokální nasazení
uiw.cz

Francouzská společnost Mistral AI představila nástroj Mistral OCR určený pro převod složitých PDF dokumentů na textové soubory. Služba využívá technologii optického rozpoznávání znaků (OCR), která umožňuje „čtení“ obsahu včetně textu, tabulek a grafických prvků. Tím se usnadňuje příprava dat pro velké jazykové modely (LLM) – algoritmy stojící za nástroji jako ChatGPT.

Na rozdíl od standardních řešení API rozpozná umístění obrázků, schémat a fotografií v dokumentu. Systém grafické prvky označí ohraničovacími rámečky a zachová je ve výstupním souboru. Data jsou formátována do Markdownu – zjednodušeného jazyka pro tvorbu nadpisů, odkazů nebo seznamů v čistém textu.

„Organizace léta shromažďovaly dokumenty v formátech, jako je PDF, které jsou pro LLM nečitelná, zejména pro systémy RAG. Díky Mistral OCR je nyní mohou převést na strukturovaný obsah v jakémkoli jazyce,“ uvedl spoluzakladatel Mistralu Guillaume Lample.

LLM efektivněji pracují s textem ve formátu Markdown. Například asistenty jako Le Chat od Mistralu nebo ChatGPT tento formát používají pro tvorbu seznamů nebo zvýraznění klíčových částí. S rostoucím využitím generativní AI roste i potřeba „čistých“ dat připravených pro další analýzu.

  • Služba je dostupná přes platformu Mistral a partnery: AWS, Azure, Google Cloud Vertex
  • Pro práci s citlivými daty je možné lokální nasazení
  • Podle vyjádření společnosti Mistral OCR překonává řešení od Googlu, Microsoftu a OpenAI při zpracování dokumentů s matematickými vzorci, tabulkami nebo vícejazyčným obsahem

Nástroj byl testován na materiálech s komplexní sazbou, včetně vědeckých článků s prvky LaTeXu. Přesné metriky výkonu však nebyly zveřejněny – společnost poskytla pouze obecné srovnání s konkurencí.

Tento krok posiluje pozici Mistralu v oblasti firemních řešení, kde poptávka po propojení AI asistentů s interní dokumentací stále roste.

Pokud spatřuješ v článku nedostatek nebo máš připomínky, dej nám vědět.

Prosím, vyplňte toto pole.
Zadejte prosím platnou e-mailovou adresu.
Prosím, vyplňte toto pole.
Témata:
AIMistral

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna. Vyžadované informace jsou označeny *

Prosím, vyplňte toto pole.
Prosím, vyplňte toto pole.
Zadejte prosím platnou e-mailovou adresu.
Chcete-li pokračovat, musíte souhlasit s podmínkami