Google ogłosiło 15 kwietnia 2026 roku model Gemini 3.1 Flash TTS — nową wersję swojego systemu text-to-speech z rozszerzonymi opcjami kontroli generowanego głosu. Kluczowym elementem modelu są audio tagi, które pozwalają sterować stylem, tempem i ekspresją mowy za pomocą poleceń w języku naturalnym wbudowanych bezpośrednio w tekst wejściowy. Model jest dostępny dla deweloperów przez Gemini API i Google AI Studio, dla przedsiębiorstw przez Vertex AI oraz dla użytkowników Google Workspace przez aplikację Google Vids.

Jest to krótka charakterystyka przygotowana przez AI i pełni funkcję informacyjną, a nie interpretacyjną. Ludzka praca kończy się tutaj na selekcji newsów, z którymi z tych czy innych powodów warto się moim zdaniem zapoznać. Opis nowinki powinien pomóc w ocenie, czy news jest interesujący i warto dalej go eksplorować (do czego oczywiście zachęcam!).
Co oferuje Gemini 3.1 Flash TTS
- Audio tagi — polecenia w języku naturalnym osadzone w tekście wejściowym, sterujące stylem głosu, tempem i ekspresją wypowiedzi
- Scene direction — możliwość zdefiniowania środowiska i instrukcji dialogowych w celu utrzymania spójności postaci przez kolejne tury rozmowy
- Speaker-level specificity — przypisywanie unikalnych profili audio do postaci z opcją zmiany ekspresji w środku zdania za pomocą inline tagów
- Seamless export — eksport skonfigurowanych parametrów jako kodu Gemini API w celu zachowania spójnych głosów między projektami
- Wsparcie dla ponad 70 języków z kontrolą stylu, tempa i akcentu
- Natywny multi-speaker dialogue — obsługa rozmów z wieloma mówcami
- SynthID watermarking — niewidoczny znak wodny wbudowany w każde wygenerowane audio
- Wynik Elo 1 211 na platformie Artificial Analysis TTS leaderboard, opartej na preferencjach ludzkich recenzentów
Gemini TTS — kolejna aktualizacja modelu głosowego Google
Google rozwija modele text-to-speech jako część szerszej rodziny Gemini od czasu jej premiery w 2023 roku. Wcześniejsze wersje modeli TTS były dostępne przez Gemini API i Vertex AI, jednak bez granularnych mechanizmów sterowania ekspresją głosu. SynthID — technologia znakowania wodnego treści generowanych przez AI — została opracowana przez Google DeepMind i jest stosowana w kolejnych produktach firmy, w tym w modelach generowania obrazów i wideo. Artificial Analysis TTS leaderboard to platforma porównująca modele głosowe na podstawie tysięcy ślepych ocen ludzkich recenzentów, uwzględniająca zarówno jakość, jak i stosunek jakości do ceny.
Źródła
Te artykuły powinny Cię zainteresować
O autorze
Nazywam się Michał Małysa i od wielu lat zajmuję się zawodowo SEO oraz analizą treści, a od 2023 roku w zakres moich obowiązków i zainteresowań dość naturalnie weszło AI. Na stronie MałySEO porządkuję wiedzę o pozycjonowaniu stron internetowych, AI Search oraz działaniu LLM-ów. Prowadzę również MałySEO Newsletter, do którego subskrypcji serdecznie Cię zachęcam na podstronie najlepszego w Polsce newslettera SEO.
Jako że przygotowanie materiałów do MałySEO Newslettera oraz na bloga zajmuje nieco czasu, może zaświtać Ci w głowie dość miły z mojej perspektywy pomysł drobnego rewanżu. Jeżeli uznasz, że lektura tego wpisu była dla Ciebie czymś więcej, niż tylko szybkim odklepaniem randomowej internetowej treści, możesz postawić mi kawkę na buycoffee.to. Z góry dziękuję!
Jeżeli z jakiegoś powodu potrzebujesz się ze mną skontaktować, wyślij mail na adres kontakt[at]michalmalysa.pl
