Google rozszerzyło narzędzie File Search w Gemini API o obsługę multimodalną, niestandardowe metadane oraz cytowania na poziomie strony. Aktualizacja umożliwia deweloperom budowanie systemów RAG (Retrieval-Augmented Generation) przetwarzających jednocześnie dane tekstowe i wizualne. Nowe funkcje są dostępne dla deweloperów korzystających z Gemini API.

Jest to krótka charakterystyka przygotowana przez AI i pełni funkcję informacyjną, a nie interpretacyjną. Ludzka praca kończy się tutaj na selekcji newsów, z którymi z tych czy innych powodów warto się moim zdaniem zapoznać. Opis nowinki powinien pomóc w ocenie, czy news jest interesujący i warto dalej go eksplorować (do czego oczywiście zachęcam!).
Co nowego w Gemini API File Search
- Obsługa multimodalna: narzędzie File Search przetwarza teraz obrazy i tekst jednocześnie w ramach jednego zapytania
- Model Gemini Embedding 2: multimodalność opiera się na tym modelu, który obsługuje natywne dane obrazowe
- Niestandardowe metadane: możliwość przypisywania etykiet klucz-wartość do plików (np.
department: Legal,status: Final) i filtrowania wyników na ich podstawie - Cytowania na poziomie strony: system rejestruje numer strony dla każdego fragmentu zindeksowanej informacji i powiązuje odpowiedź modelu z konkretnym miejscem w źródle
- Obsługiwane typy plików: dokumenty tekstowe oraz pliki graficzne (PNG i inne formaty obrazów)
- Dostęp przez Gemini API: integracja przez standardowe SDK
google-genai, modelgemini-3-flash-previewz konfiguracją narzędziafile_search - Dokumentacja: dostępna w Google AI Developer Documentation oraz przewodniku deweloperskim na dev.to
Kontekst: RAG i rosnące znaczenie multimodalności w systemach wyszukiwania
RAG (Retrieval-Augmented Generation) to technika, w której model językowy przed wygenerowaniem odpowiedzi pobiera dane z zewnętrznej bazy wiedzy. Umożliwia to pracę na aktualnych lub prywatnych danych bez konieczności ponownego trenowania modelu. Wcześniejsza wersja File Search w Gemini API obsługiwała wyłącznie dane tekstowe.
Google DeepMind od 2023 roku sukcesywnie rozbudowuje ekosystem Gemini API o narzędzia dedykowane deweloperom. Model Gemini Embedding 2 — na którym oparta jest nowa wersja File Search — został udostępniony jako osobny produkt w ofercie Google DeepMind.
Źródła
- Gemini API File Search is now multimodal: build efficient, verifiable RAG — Google Blog (The Keyword)
Te artykuły powinny Cię zainteresować
O autorze
Nazywam się Michał Małysa i od wielu lat zajmuję się zawodowo SEO oraz analizą treści, a od 2023 roku w zakres moich obowiązków i zainteresowań dość naturalnie weszło AI. Na stronie MałySEO porządkuję wiedzę o pozycjonowaniu stron internetowych, AI Search oraz działaniu LLM-ów. Prowadzę również MałySEO Newsletter, do którego subskrypcji serdecznie Cię zachęcam na podstronie najlepszego w Polsce newslettera SEO.
Jako że przygotowanie materiałów do MałySEO Newslettera oraz na bloga zajmuje nieco czasu, może zaświtać Ci w głowie dość miły z mojej perspektywy pomysł drobnego rewanżu. Jeżeli uznasz, że lektura tego wpisu była dla Ciebie czymś więcej, niż tylko szybkim odklepaniem randomowej internetowej treści, możesz postawić mi kawkę na buycoffee.to. Z góry dziękuję!
Jeżeli z jakiegoś powodu potrzebujesz się ze mną skontaktować, wyślij mail na adres kontakt[at]michalmalysa.pl
