Google ogłosiło 15 kwietnia 2026 roku model Gemini 3.1 Flash TTS — nową wersję swojego systemu text-to-speech z rozszerzonymi opcjami kontroli generowanego głosu. Kluczowym elementem modelu są audio tagi, które pozwalają sterować stylem, tempem i ekspresją mowy za pomocą poleceń w języku naturalnym wbudowanych bezpośrednio w tekst wejściowy. Model jest dostępny dla deweloperów przez Gemini API i Google AI Studio, dla przedsiębiorstw przez Vertex AI oraz dla użytkowników Google Workspace przez aplikację Google Vids.

Treść przygotowana przez AI

Jest to krótka charakterystyka przygotowana przez AI i pełni funkcję informacyjną, a nie interpretacyjną. Ludzka praca kończy się tutaj na selekcji newsów, z którymi z tych czy innych powodów warto się moim zdaniem zapoznać. Opis nowinki powinien pomóc w ocenie, czy news jest interesujący i warto dalej go eksplorować (do czego oczywiście zachęcam!).

Co oferuje Gemini 3.1 Flash TTS

  • Audio tagi — polecenia w języku naturalnym osadzone w tekście wejściowym, sterujące stylem głosu, tempem i ekspresją wypowiedzi
  • Scene direction — możliwość zdefiniowania środowiska i instrukcji dialogowych w celu utrzymania spójności postaci przez kolejne tury rozmowy
  • Speaker-level specificity — przypisywanie unikalnych profili audio do postaci z opcją zmiany ekspresji w środku zdania za pomocą inline tagów
  • Seamless export — eksport skonfigurowanych parametrów jako kodu Gemini API w celu zachowania spójnych głosów między projektami
  • Wsparcie dla ponad 70 języków z kontrolą stylu, tempa i akcentu
  • Natywny multi-speaker dialogue — obsługa rozmów z wieloma mówcami
  • SynthID watermarking — niewidoczny znak wodny wbudowany w każde wygenerowane audio
  • Wynik Elo 1 211 na platformie Artificial Analysis TTS leaderboard, opartej na preferencjach ludzkich recenzentów

Gemini TTS — kolejna aktualizacja modelu głosowego Google

Google rozwija modele text-to-speech jako część szerszej rodziny Gemini od czasu jej premiery w 2023 roku. Wcześniejsze wersje modeli TTS były dostępne przez Gemini API i Vertex AI, jednak bez granularnych mechanizmów sterowania ekspresją głosu. SynthID — technologia znakowania wodnego treści generowanych przez AI — została opracowana przez Google DeepMind i jest stosowana w kolejnych produktach firmy, w tym w modelach generowania obrazów i wideo. Artificial Analysis TTS leaderboard to platforma porównująca modele głosowe na podstawie tysięcy ślepych ocen ludzkich recenzentów, uwzględniająca zarówno jakość, jak i stosunek jakości do ceny.

Źródła

  1. Gemini 3.1 Flash TTS: the next generation of expressive AI speech — Google Blog

Te artykuły powinny Cię zainteresować

  1. Gemini 3 z lepszymi symulacjami i wizualizacjami
  2. Gemini Skills w testowej wersji Chrome
  3. Google Maps z dynamiczniejszą integracją z Gemini
  4. Google ułatwi import rozmów z ChatGPT do Gemini
  5. Lyria 3 dołącza do Gemini, pozwalając na generowanie dźwięku

O autorze

Nazywam się Michał Małysa i od wielu lat zajmuję się zawodowo SEO oraz analizą treści, a od 2023 roku w zakres moich obowiązków i zainteresowań dość naturalnie weszło AI. Na stronie MałySEO porządkuję wiedzę o pozycjonowaniu stron internetowych, AI Search oraz działaniu LLM-ów. Prowadzę również MałySEO Newsletter, do którego subskrypcji serdecznie Cię zachęcam na podstronie najlepszego w Polsce newslettera SEO.

Jako że przygotowanie materiałów do MałySEO Newslettera oraz na bloga zajmuje nieco czasu, może zaświtać Ci w głowie dość miły z mojej perspektywy pomysł drobnego rewanżu. Jeżeli uznasz, że lektura tego wpisu była dla Ciebie czymś więcej, niż tylko szybkim odklepaniem randomowej internetowej treści, możesz postawić mi kawkę na buycoffee.to. Z góry dziękuję!

Postaw mi kawę na buycoffee.to

Jeżeli z jakiegoś powodu potrzebujesz się ze mną skontaktować, wyślij mail na adres kontakt[at]michalmalysa.pl