OpenScholar dorównuje ludziom w przeszukiwaniu źródeł akademickich

Badanie przeprowadzone przez naukowców z University of Washington, Allen Institute for AI oraz innych instytucji pokazuje, że OpenScholar, nowy otwarty model językowy wspomagany wyszukiwaniem (retrieval-augmented LLM), dorównuje ludzkim ekspertom w przeszukiwaniu i syntezie literatury naukowej.

Treść przygotowana przez AI

Jest to krótka charakterystyka przygotowana przez AI i pełni funkcję informacyjną, a nie interpretacyjną. Ludzka praca kończy się tutaj na selekcji badań i raportów, z którymi z tych czy innych powodów warto się moim zdaniem zapoznać. Opis badania oraz wyimek statystyk powinny pomóc w ocenie, czy dane te są interesujące.

OpenScholar przewyższa ludzi w tworzeniu przeglądów literatury

Oto kilka interesujących statystyk z badania:

OpenScholar-8B osiąga wynik wyższy o 6,1% niż GPT-4o i o 5,5% niż PaperQA2 w zadaniach syntezy wieloźródłowej
GPT-4o generuje zmyślone cytowania w 78-90% przypadków, podczas gdy OpenScholar osiąga dokładność cytowania na poziomie ludzkich ekspertów
W ocenach eksperckich odpowiedzi generowane przez OpenScholar-8B i OpenScholar-GPT-4o były preferowane nad odpowiedziami napisanymi przez ekspertów odpowiednio w 51% i 70% przypadków
OpenScholar korzysta z bazy danych OSDS zawierającej 45 milionów artykułów naukowych i 236 milionów fragmentów tekstu
Badanie objęło 2967 pytań napisanych przez ekspertów oraz 208 długich odpowiedzi z czterech dziedzin nauki

Badanie OpenScholar przeprowadzone przez University of Washington i Allen Institute for AI

Kto przeprowadził badanie: University of Washington we współpracy z Allen Institute for AI, University of Illinois Urbana-Champaign, University of North Carolina at Chapel Hill, Stanford University i Carnegie Mellon University. Zespół składał się z 28 naukowców specjalizujących się w uczeniu maszynowym i przetwarzaniu języka naturalnego.

Próbka badawcza: Do oceny wykorzystano nowo stworzony benchmark ScholarQABench zawierający 2967 pytań i 208 długich odpowiedzi przygotowanych przez ekspertów z doktoratem. Do oceny jakości odpowiedzi zaangażowano 16 ekspertów z tytułem doktora.

Metodologia: Badanie składało się z dwóch części – automatycznej oceny przy użyciu metryk oraz oceny eksperckiej. W części automatycznej porównywano poprawność odpowiedzi, dokładność cytowań i pokrycie tematyczne. W ocenie eksperckiej naukowcy porównywali odpowiedzi modelu z odpowiedziami napisanymi przez ludzi.

Zakres czasowy: Dane treningowe obejmowały publikacje do października 2024 roku, a samo badanie przeprowadzono między kwietniem a październikiem 2024 roku.

Rynek/region: Badanie obejmowało publikacje naukowe z całego świata, ze szczególnym uwzględnieniem informatyki, fizyki, biomedycyny i neuronauki.

Badacze udostępnili cały kod, modele, dane i publiczne demo systemu OpenScholar, aby umożliwić dalsze badania nad automatyzacją przeglądów literatury naukowej.

Źródło

Synthesizing scientific literature with retrieval-augmented language models – Nature

Te artykuły powinny Cię zainteresować

O autorze

Nazywam się Michał Małysa i od wielu lat zajmuję się zawodowo SEO oraz analizą treści, a od 2023 roku w zakres moich obowiązków i zainteresowań dość naturalnie weszło AI. Na stronie MałySEO porządkuję wiedzę o pozycjonowaniu stron internetowych, AI Search oraz działaniu LLM-ów. Prowadzę również MałySEO Newsletter, do którego subskrypcji serdecznie Cię zachęcam na podstronie najlepszego w Polsce newslettera SEO.

Jako że przygotowanie materiałów do MałySEO Newslettera oraz na bloga zajmuje nieco czasu, może zaświtać Ci w głowie dość miły z mojej perspektywy pomysł drobnego rewanżu. Jeżeli uznasz, że lektura tego wpisu była dla Ciebie czymś więcej, niż tylko szybkim odklepaniem randomowej internetowej treści, możesz postawić mi kawkę na buycoffee.to. Z góry dziękuję!

Jeżeli z jakiegoś powodu potrzebujesz się ze mną skontaktować, wyślij mail na adres kontakt[at]michalmalysa.pl