Startup Oumi przeanalizował ponad 8 600 wyników wyszukiwania generowanych przez Google AI Overviews, badając dokładność odpowiedzi produkowanych przez modele Gemini 2 i Gemini 3.

Jest to krótka charakterystyka przygotowana przez AI i pełni funkcję informacyjną, a nie interpretacyjną. Ludzka praca kończy się tutaj na selekcji badań i raportów, z którymi z tych czy innych powodów warto się moim zdaniem zapoznać. Opis badania oraz wyimek statystyk powinny pomóc w ocenie, czy dane te są interesujące.
Dokładność AI Overviews w liczbach – Gemini 2 i Gemini 3
Badanie objęło po 4 326 wyników dla każdego z modeli. Oto kilka kluczowych danych z analizy:
- Gemini 2 udzielał poprawnych odpowiedzi w 85% przypadków, co oznacza błąd w co siódmej odpowiedzi.
- Gemini 3 osiągnął dokładność na poziomie 91%, a więc błędna była co dziesiąta odpowiedź.
- Przy szacowanej liczbie ponad 5 bilionów wyszukiwań w 2026 roku odsetek błędów przekłada się według autorów badania na setki tysięcy niepoprawnych odpowiedzi na minutę.
- Odsetek odpowiedzi „nieugruntowanych” – czyli takich, w których podlinkowane przez Google źródła nie potwierdzają treści podsumowania – wzrósł z 37% w Gemini 2 do 51% w Gemini 3.
- Wśród konkretnych błędów odnotowanych w badaniu znalazły się m.in. nieprawidłowy rok przekształcenia domu Boba Marleya w muzeum oraz twierdzenie, że Yo-Yo Ma nie figuruje w Classical Music Hall of Fame, mimo że został do niego wprowadzony w 2007 roku.
Warto zaznaczyć, że Google zakwestionowało metodologię badania, wskazując na znane błędy w samym benchmarku SimpleQA oraz na ryzyko związane z użyciem własnego modelu AI firmy Oumi (HallOumi) do oceny wyników.
Analiza dokładności Google AI Overviews – badanie Oumi
- Kto przeprowadził badanie: Oumi – startup technologiczny zajmujący się rozwojem i ewaluacją modeli językowych.
- Próbka badawcza: 4 326 wyników wyszukiwania dla modelu Gemini 2 oraz 4 326 wyników dla modelu Gemini 3 – łącznie ponad 8 600 próbek.
- Metodologia: Analiza oparta na benchmarku SimpleQA, opracowanym przez OpenAI i stosowanym do oceny dokładności modeli AI; do automatycznej oceny odpowiedzi użyto wewnętrznego modelu firmy Oumi o nazwie HallOumi.
- Zakres czasowy: Badanie przeprowadzono między październikiem a lutym (sezon 2025/2026); wyniki opublikowano w kwietniu 2026 roku.
- Rynek/region: Badanie dotyczy globalnej usługi Google AI Overviews, bez wskazania konkretnego regionu geograficznego.
Pełna analiza dostępna jest za pośrednictwem artykułu New York Timesa, który jako pierwszy opisał wyniki badania – warto zapoznać się z nim samodzielnie i ocenić dane w kontekście zastrzeżeń zgłoszonych przez Google.
Źródło
Te artykuły powinny Cię zainteresować
- AI Overviews odsyła do YouTube’a w przypadku zapytań medycznych
- Na tych rynkach 51% Discovera to AI Summaries? Dane są nieco przerysowane
- Niewielu konsumentów jest gotowych powierzyć swoje zakupy asystentom AI
- Raport giełdowy Google za Q4 2025 wskazuje na szalone przychody z reklam
- Topical Authority istotne także w kontekście AI Overview. Na to wskazują wnioski z analizy fan-out queries
O autorze
Nazywam się Michał Małysa i od wielu lat zajmuję się zawodowo SEO oraz analizą treści, a od 2023 roku w zakres moich obowiązków i zainteresowań dość naturalnie weszło AI. Na stronie MałySEO porządkuję wiedzę o pozycjonowaniu stron internetowych, AI Search oraz działaniu LLM-ów. Prowadzę również MałySEO Newsletter, do którego subskrypcji serdecznie Cię zachęcam na podstronie najlepszego w Polsce newslettera SEO.
Jako że przygotowanie materiałów do MałySEO Newslettera oraz na bloga zajmuje nieco czasu, może zaświtać Ci w głowie dość miły z mojej perspektywy pomysł drobnego rewanżu. Jeżeli uznasz, że lektura tego wpisu była dla Ciebie czymś więcej, niż tylko szybkim odklepaniem randomowej internetowej treści, możesz postawić mi kawkę na buycoffee.to. Z góry dziękuję!
Jeżeli z jakiegoś powodu potrzebujesz się ze mną skontaktować, wyślij mail na adres kontakt[at]michalmalysa.pl
