Ahrefs przeanalizował 1,4 miliona promptów z ChatGPT, aby sprawdzić, które strony internetowe są cytowane przez model w odpowiedziach, a które są pomijane, mimo że zostały przez niego pobrane. Badanie przeprowadził zespół Ahrefs przy udziale data scientistki Xibeijia Guan.

Jest to krótka charakterystyka przygotowana przez AI i pełni funkcję informacyjną, a nie interpretacyjną. Ludzka praca kończy się tutaj na selekcji badań i raportów, z którymi z tych czy innych powodów warto się moim zdaniem zapoznać. Opis badania oraz wyimek statystyk powinny pomóc w ocenie, czy dane te są interesujące.

Wskaźniki cytowania ChatGPT według kanału pobierania i rola page title

Oto kilka danych z badania:

  • ChatGPT cytuje około 50% stron, które pobiera podczas odpowiadania na zapytanie — średnio ~16,57 cytowanych i ~16,58 niecytowanych adresów URL na jeden prompt.
  • Strony z indeksu ogólnego wyszukiwania (ref_type: search) są cytowane w 88,46% przypadków, podczas gdy strony z Reddita jedynie w 1,93%, YouTube — 0,51%, a z zasobów akademickich — 0,40%.
  • 67,8% wszystkich niecytowanych adresów URL pochodzi z Reddita, mimo że ChatGPT pobiera jego treści na dużą skalę.
  • Cytowane strony wykazują wyższe podobieństwo semantyczne (cosine similarity) między tytułem strony a zapytaniem użytkownika: 0,602 dla cytowanych vs. 0,484 dla niecytowanych. Wynik rośnie do 0,656, gdy porównuje się tytuł z wewnętrznymi podzapytaniami (fanout queries) generowanymi przez ChatGPT.
  • Strony z naturalnym, czytelnym dla człowieka slugiem URL są cytowane w 89,78% przypadków, wobec 81,11% dla stron bez takiego slugu.
  • Mediana wieku cytowanej strony (w indeksie wyszukiwania) wynosi około 500 dni (~1,3 roku), a część cytowanych stron ma ponad 2700 dni (~7,4 roku). Niecytowane strony z tego samego zestawu wyników są przy tym wyraźnie młodsze.
  • W kategorii news przewaga wiekowa działa w odwrotnym kierunku: cytowane artykuły mają medianę wieku ~200 dni, niecytowane — ~300 dni.

Opis badania: Why ChatGPT Cites Some Pages and Not Others — Ahrefs

  • Kto przeprowadził badanie: Ahrefs — firma zajmująca się narzędziami SEO i analizą danych wyszukiwania; w badaniu uczestniczyła data scientistka Xibeijia Guan.
  • Próbka badawcza: 1,4 miliona promptów z ChatGPT, na podstawie których przeanalizowano łącznie ponad 46 milionów adresów URL (w tym 23,4 miliona cytowanych i 23,4 miliona niecytowanych), podzielonych według pięciu kanałów pobierania (ref_type): search, news, reddit, youtube, academia.
  • Metodologia: Analiza danych z ChatGPT 5.2 desktop; podobieństwo semantyczne między tytułami stron a zapytaniami mierzono za pomocą cosine similarity obliczanej na osadzeniach (embeddings) generowanych przez modele open-source; dane uzupełniono o metryki z bazy Ahrefs.
  • Zakres czasowy: Dane z lutego 2025 roku.
  • Rynek/region: Desktop, brak wskazania konkretnego regionu geograficznego.

Pełne wyniki, wykresy i szczegółową metodologię można znaleźć bezpośrednio w oryginalnym artykule Ahrefs.

Źródło

  1. Why ChatGPT Cites Some Pages and Not Others — Ahrefs Blog

Te artykuły powinny Cię zainteresować

  1. 33% cytatów AI pochodzi z początku tekstu. Co z resztą?
  2. Nowy domyślny model ChatGPT cytuje 20% mniej źródeł

O autorze

Nazywam się Michał Małysa i od wielu lat zajmuję się zawodowo SEO oraz analizą treści, a od 2023 roku w zakres moich obowiązków i zainteresowań dość naturalnie weszło AI. Na stronie MałySEO porządkuję wiedzę o pozycjonowaniu stron internetowych, AI Search oraz działaniu LLM-ów. Prowadzę również MałySEO Newsletter, do którego subskrypcji serdecznie Cię zachęcam na podstronie najlepszego w Polsce newslettera SEO.

Jako że przygotowanie materiałów do MałySEO Newslettera oraz na bloga zajmuje nieco czasu, może zaświtać Ci w głowie dość miły z mojej perspektywy pomysł drobnego rewanżu. Jeżeli uznasz, że lektura tego wpisu była dla Ciebie czymś więcej, niż tylko szybkim odklepaniem randomowej internetowej treści, możesz postawić mi kawkę na buycoffee.to. Z góry dziękuję!

Postaw mi kawę na buycoffee.to

Jeżeli z jakiegoś powodu potrzebujesz się ze mną skontaktować, wyślij mail na adres kontakt[at]michalmalysa.pl