Badanie BBC pokazuje, że chatboty AI przekręcają prawie połowę podsumowań wiadomości.
Cztery z najpopularniejszych chatbotów AI rutynowo wyświetlają użytkownikom niedokładne wiadomości
Badanie prowadzone przez BBC w imieniu Europejskiej Unii Nadawców (EBU) wykazało, że ChatGPT, Microsoft Copilot, Google Gemini i Perplexity w niemal połowie przypadków fałszywie przedstawiały treści informacyjne. Analiza ponad 3000 odpowiedzi uzyskanych od asystentów AI wykazała, że 45 procent udzielonych odpowiedzi zawierało co najmniej jeden znaczący problem, 31 procent miało poważne problemy z podaniem źródeł, a jedna piąta odpowiedzi miała poważne problemy z dokładnością, zmyślała szczegóły i publikowało nieaktualne informacje. Uwzględniając mniejsze błędy, aż 81 procent odpowiedzi zawierało jakiś błąd.
Gemini okazał się najgorszym narzędziem w teście – badacze zidentyfikowali „znaczące problemy” w 76 procentach jego odpowiedzi, co stanowi dwukrotnie więcej niż średni wskaźnik błędów pozostałych botów AI.
Za słabe wyniki Gemini odpowiadają głównie problemy z pozyskiwaniem i weryfikacją informacji. Naukowcy znaleźli istotne nieścisłości w aż 72 procentach odpowiedzi tego chatbota. To trzykrotnie więcej niż w przypadku ChatGPT (24 procent) oraz znacznie więcej niż u Perplexity i Copilot (oba po 15 procent).
W co piątej odpowiedzi wszystkich badanych asystentów AI wykryto poważne problemy z dokładnością, takie jak zmyślone szczegóły i nieaktualne informacje.
Przykłady błędów obejmowały m.in. ChatGPT błędnie twierdzący, że papież Franciszek nadal sprawował urząd kilka tygodni po jego śmierci. Natomiast Gemini stanowczo zaprzeczał, jakoby astronauci NASA kiedykolwiek utknęli w kosmosie, mimo że dwóch członków załogi spędziło dziewięć miesięcy na Międzynarodowej Stacji Kosmicznej. Bot Google’a odpowiedział badaczom: „możesz mylić to z filmem science fiction lub wiadomością omawiającą hipotetyczny scenariusz, w którym astronauci mogliby wpaść w kłopoty”.
W badaniu, opisanym jako największym w swoim rodzaju, wzięło udział 22 publiczne organizacje medialne z 18 krajów.
Odkrycia pojawiają się niedługo po tym, jak OpenAI przyznało, że jego modele są zaprojektowane tak, by brzmieć pewnie, nawet gdy tak nie jest. W artykule z września firma ujawniła, że boty AI są nagradzane za zgadywanie zamiast za przyznawanie się do niewiedzy. Halucynacje potrafią ujawnić się w żenujący sposób. W maju prawnicy reprezentujący Anthropic zostali zmuszeni do złożenia przeprosin przed amerykańskim sądem po przedłożeniu dokumentów zawierających sfabrykowane cytaty wygenerowane przez model Claude. Do wpadki doszło, ponieważ zespół nie zweryfikował dokładnie treści przygotowanych przez Claude’a przed przekazaniem ich do sądu.
– To badanie jednoznacznie pokazuje, że te błędy nie są pojedynczymi incydentami. Kiedy ludzie nie wiedzą, czemu mogą ufać, w końcu przestają ufać czemukolwiek, a a to grozi osłabieniem zaangażowania obywatelskiego – powiedział Jean Philip De Tender, zastępca dyrektora generalnego EBU.
Podobne aktualności
Globalne wydatki na AI osiągną 2,59 biliona dolarów w 2026 roku
Jak wynika z najnowszego raportu firmy Gartner, sektor przedsiębiorstw wygeneruje w tym roku lwią część wydatków, co jest efektem przyspieszenia wdrożeń generatywnej sztucznej inteligencji oraz systemów agentowych
AI w codziennej pracy programisty: Polska powyżej globalnej średniej
Według badania JetBrains AI Pulse 2026, 92 proc. respondentów w Polsce używa co najmniej jednego narzędzia AI w pracy, a niemal dwóch na pięciu korzysta codziennie z trybu agentowego
Amerykanie odwracają się od ChatGPT
Odinstalowania aplikacji mobilnej ChatGPT w USA wzrosły o 295% z dnia na dzień w sobotę, 28 lutego. Użytkownicy zareagowali w ten sposób na doniesienia o współpracy OpenAI z Departamentem Obrony USA
