Google rozszerzyło narzędzie File Search w Gemini API o obsługę multimodalną, niestandardowe metadane oraz cytowania na poziomie strony. Aktualizacja umożliwia deweloperom budowanie systemów RAG (Retrieval-Augmented Generation) przetwarzających jednocześnie dane tekstowe i wizualne. Nowe funkcje są dostępne dla deweloperów korzystających z Gemini API.

Treść przygotowana przez AI

Jest to krótka charakterystyka przygotowana przez AI i pełni funkcję informacyjną, a nie interpretacyjną. Ludzka praca kończy się tutaj na selekcji newsów, z którymi z tych czy innych powodów warto się moim zdaniem zapoznać. Opis nowinki powinien pomóc w ocenie, czy news jest interesujący i warto dalej go eksplorować (do czego oczywiście zachęcam!).

  • Obsługa multimodalna: narzędzie File Search przetwarza teraz obrazy i tekst jednocześnie w ramach jednego zapytania
  • Model Gemini Embedding 2: multimodalność opiera się na tym modelu, który obsługuje natywne dane obrazowe
  • Niestandardowe metadane: możliwość przypisywania etykiet klucz-wartość do plików (np. department: Legal, status: Final) i filtrowania wyników na ich podstawie
  • Cytowania na poziomie strony: system rejestruje numer strony dla każdego fragmentu zindeksowanej informacji i powiązuje odpowiedź modelu z konkretnym miejscem w źródle
  • Obsługiwane typy plików: dokumenty tekstowe oraz pliki graficzne (PNG i inne formaty obrazów)
  • Dostęp przez Gemini API: integracja przez standardowe SDK google-genai, model gemini-3-flash-preview z konfiguracją narzędzia file_search
  • Dokumentacja: dostępna w Google AI Developer Documentation oraz przewodniku deweloperskim na dev.to

Kontekst: RAG i rosnące znaczenie multimodalności w systemach wyszukiwania

RAG (Retrieval-Augmented Generation) to technika, w której model językowy przed wygenerowaniem odpowiedzi pobiera dane z zewnętrznej bazy wiedzy. Umożliwia to pracę na aktualnych lub prywatnych danych bez konieczności ponownego trenowania modelu. Wcześniejsza wersja File Search w Gemini API obsługiwała wyłącznie dane tekstowe.

Google DeepMind od 2023 roku sukcesywnie rozbudowuje ekosystem Gemini API o narzędzia dedykowane deweloperom. Model Gemini Embedding 2 — na którym oparta jest nowa wersja File Search — został udostępniony jako osobny produkt w ofercie Google DeepMind.

Źródła

  1. Gemini API File Search is now multimodal: build efficient, verifiable RAG — Google Blog (The Keyword)

Te artykuły powinny Cię zainteresować

  1. Deep Research Max wprowadzone do Gemini API
  2. Gemini Embedding 2 wyszło z fazy preview

O autorze

Nazywam się Michał Małysa i od wielu lat zajmuję się zawodowo SEO oraz analizą treści, a od 2023 roku w zakres moich obowiązków i zainteresowań dość naturalnie weszło AI. Na stronie MałySEO porządkuję wiedzę o pozycjonowaniu stron internetowych, AI Search oraz działaniu LLM-ów. Prowadzę również MałySEO Newsletter, do którego subskrypcji serdecznie Cię zachęcam na podstronie najlepszego w Polsce newslettera SEO.

Jako że przygotowanie materiałów do MałySEO Newslettera oraz na bloga zajmuje nieco czasu, może zaświtać Ci w głowie dość miły z mojej perspektywy pomysł drobnego rewanżu. Jeżeli uznasz, że lektura tego wpisu była dla Ciebie czymś więcej, niż tylko szybkim odklepaniem randomowej internetowej treści, możesz postawić mi kawkę na buycoffee.to. Z góry dziękuję!

Postaw mi kawę na buycoffee.to

Jeżeli z jakiegoś powodu potrzebujesz się ze mną skontaktować, wyślij mail na adres kontakt[at]michalmalysa.pl