Redakce BBC otestovala čtyři běžně používané AI chatboty — ChatGPT (OpenAI), Copilot (Microsoft), Gemini (Google) a Perplexity — na schopnost přesně analyzovat novinové články. Podle zjištění obsahovalo 51 % odpovědí významné nepřesnosti a 19 % případů mělo závažné faktické chyby.
Studie zahrnovala analýzu 100 zpráv z webu BBC. Po sérii dotazů novináři zjistili, že systémy často deformovaly informace. Například Gemini od Google nesprávně interpretoval prohlášení britské Národní zdravotní služby (NHS) o vapování. ChatGPT a Copilot zase tvrdily, že politici Rishi Sunak a Nicola Sturgeon stále zastávají funkce, ačkoliv oba rezignovali.
Mezitím chatboty zápasily s rozlišením faktů a redakčních komentářů. Opomíjely také podstatné detaily, což vedlo k neúplnému nebo zavádějícímu výkladu kontextu.
Podle BBC měly Copilot a Gemini více závažných chyb než ChatGPT a Perplexity. Všechny systémy však prokázaly nedostatečnou spolehlivost při práci s aktuálními informacemi.
Pete Archer, ředitel programu BBC pro generativní AI (technologii vytvářející text pomocí algoritmů), zdůraznil nutnost kontroly nad využitím obsahu:
„Vydavatelé musí mít možnost ovlivnit, jak se jejich materiály v AI službách používají. Společnosti by měly otevřeně informovat o rozsahu chyb, které jejich systémy produkují.“
Proč je to důležité
AI chatboty, podobně jako studenti učící se z obrovských datových souborů, zatím nedokážou přesně reprodukovat složité novinové příběhy. Jejich chyby připomínají situaci, kdy člověk převypráví článek, ale vynechá klíčové pasáže nebo poplete data.
Navzdory pokrokům studie BBC poukazuje na nutnost vylepšit algoritmy a zvýšit transparentnost jejich fungování. Zatím je třeba k těmto systémům přistupovat s opatrností v otázkách vyžadujících přesnost.