Zaledwie (lub aż) 9% odpowiedzi AI Overviews zawiera błędy

Startup Oumi przeanalizował ponad 8 600 wyników wyszukiwania generowanych przez Google AI Overviews, badając dokładność odpowiedzi produkowanych przez modele Gemini 2 i Gemini 3.

Treść przygotowana przez AI

Jest to krótka charakterystyka przygotowana przez AI i pełni funkcję informacyjną, a nie interpretacyjną. Ludzka praca kończy się tutaj na selekcji badań i raportów, z którymi z tych czy innych powodów warto się moim zdaniem zapoznać. Opis badania oraz wyimek statystyk powinny pomóc w ocenie, czy dane te są interesujące.

Dokładność AI Overviews w liczbach – Gemini 2 i Gemini 3

Badanie objęło po 4 326 wyników dla każdego z modeli. Oto kilka kluczowych danych z analizy:

Gemini 2 udzielał poprawnych odpowiedzi w 85% przypadków, co oznacza błąd w co siódmej odpowiedzi.
Gemini 3 osiągnął dokładność na poziomie 91%, a więc błędna była co dziesiąta odpowiedź.
Przy szacowanej liczbie ponad 5 bilionów wyszukiwań w 2026 roku odsetek błędów przekłada się według autorów badania na setki tysięcy niepoprawnych odpowiedzi na minutę.
Odsetek odpowiedzi „nieugruntowanych” – czyli takich, w których podlinkowane przez Google źródła nie potwierdzają treści podsumowania – wzrósł z 37% w Gemini 2 do 51% w Gemini 3.
Wśród konkretnych błędów odnotowanych w badaniu znalazły się m.in. nieprawidłowy rok przekształcenia domu Boba Marleya w muzeum oraz twierdzenie, że Yo-Yo Ma nie figuruje w Classical Music Hall of Fame, mimo że został do niego wprowadzony w 2007 roku.

Warto zaznaczyć, że Google zakwestionowało metodologię badania, wskazując na znane błędy w samym benchmarku SimpleQA oraz na ryzyko związane z użyciem własnego modelu AI firmy Oumi (HallOumi) do oceny wyników.

Analiza dokładności Google AI Overviews – badanie Oumi

Kto przeprowadził badanie: Oumi – startup technologiczny zajmujący się rozwojem i ewaluacją modeli językowych.
Próbka badawcza: 4 326 wyników wyszukiwania dla modelu Gemini 2 oraz 4 326 wyników dla modelu Gemini 3 – łącznie ponad 8 600 próbek.
Metodologia: Analiza oparta na benchmarku SimpleQA, opracowanym przez OpenAI i stosowanym do oceny dokładności modeli AI; do automatycznej oceny odpowiedzi użyto wewnętrznego modelu firmy Oumi o nazwie HallOumi.
Zakres czasowy: Badanie przeprowadzono między październikiem a lutym (sezon 2025/2026); wyniki opublikowano w kwietniu 2026 roku.
Rynek/region: Badanie dotyczy globalnej usługi Google AI Overviews, bez wskazania konkretnego regionu geograficznego.

Pełna analiza dostępna jest za pośrednictwem artykułu New York Timesa, który jako pierwszy opisał wyniki badania – warto zapoznać się z nim samodzielnie i ocenić dane w kontekście zastrzeżeń zgłoszonych przez Google.

Źródło

Google’s AI Overviews spew out millions of false answers per hour: bombshell study – New York Post

Te artykuły powinny Cię zainteresować

O autorze

Nazywam się Michał Małysa i od wielu lat zajmuję się zawodowo SEO oraz analizą treści, a od 2023 roku w zakres moich obowiązków i zainteresowań dość naturalnie weszło AI. Na stronie MałySEO porządkuję wiedzę o pozycjonowaniu stron internetowych, AI Search oraz działaniu LLM-ów. Prowadzę również MałySEO Newsletter, do którego subskrypcji serdecznie Cię zachęcam na podstronie najlepszego w Polsce newslettera SEO.

Jako że przygotowanie materiałów do MałySEO Newslettera oraz na bloga zajmuje nieco czasu, może zaświtać Ci w głowie dość miły z mojej perspektywy pomysł drobnego rewanżu. Jeżeli uznasz, że lektura tego wpisu była dla Ciebie czymś więcej, niż tylko szybkim odklepaniem randomowej internetowej treści, możesz postawić mi kawkę na buycoffee.to. Z góry dziękuję!

Jeżeli z jakiegoś powodu potrzebujesz się ze mną skontaktować, wyślij mail na adres kontakt[at]michalmalysa.pl