Anthropic ogłosił Claude Opus 4.6 – najnowszą wersję swojego najbardziej zaawansowanego modelu AI. Według twórców model wprowadza znaczące ulepszenia w kodowaniu, długoterminowych zadaniach agentowych oraz pracy z dużymi kontekstami, oferując po raz pierwszy w linii Opus okno kontekstowe 1M tokenów (beta). Claude Opus 4.6 jest dostępny od 5 lutego 2026 przez claude.ai, API oraz główne platformy chmurowe.

Moje wrażenia z obcowania z Claude Opus 4.6

Po pierwszym weekendzie spędzonym z Claude Opus 4.6 miałem jedno podstawowe wrażenie: żre to tokeny jak pojebane. W trzy dni zdążyłem wykorzystać 90% tygodniowego limitu tokenów dla planu Pro, a limit sesyjny dobijał do 100% po kilkudziesięciu minutach.

  • Bardzo dużo vibe-code’owałem przez Claude Code w Antigravity, oczywiście przy użyciu Opus 4.6 w trybie Extended.
  • Obficie generowałem koszmarnie długie analizy i zmiany w ich obrębie pod różne punkty widzenia w webowym Claude AI w MD, także z włączonym Opus 4.6 Extended.
  • Również w webowym Claude AI burzomózgowałem różne analityczne na bazie sporych zrzutów etykietowanych baz contentu (bez treści, znajdowały się tam tytuły, klasyfikacje i kategoryzacje).

Mam wrażenie, że Anthropic spodziewał się takiego wrażenia z racji na zwiększoną chęć testowania różnych opcji i dlatego przyznał użytkownikom dodatkowe środki w celu uniknięcia backlashu. Mimo to przez trzy dni z darmowych 43 euro intensywne użytkowanie pochłonęło niemal 39 euro, co jest w sumie olbrzymią sumą.

Po tych testach, działając sobie standardowo w tygodniu (gdzie do wielu zadań przełączam się na Sonnet, a w Antigravity nawet na Gemini Flash 3.0, bo w porównaniu z Flash 2.5 radzi sobie milion razy lepiej z kodowaniem) na koncie zawodowym z abonamentem Pro Max, nie miałem problemu nawet z limitami sesyjnymi. Bardzo możliwe zatem, że pierwotne wrażenie z tokenożernością było dyktowane raczej zajeżdżaniem Opusa 4.6 do granic możliwości.

A jak z jakością? Żeby być stuprocentowo szczerym, to nie umiem tego ocenić. Do rzeczy, które robię, bardzo fajnie sprawdzał mi się już Opus 4.5. Nie wiem, co musiałaby oferować kolejna odsłona flagowego modelu Anthropic, żebym zauważył EPOKOWY czy REWOLUCYJNY skok jakościowy. Na pewno jednak na uwagę zasługuje fakt, że nie odnotowałem spadku jakości, co było sporym problemem przy wdrażaniu GTP-5.2 przez OpenAI. Tam ulepszenia w pewnych obszarach wiązały się z pogorszeniem jakości outputu w innych, tutaj ani przez chwilę nie pomyślałem, że wcześniejszy Opus dawał lepsze wyniki.

A jako że nie mam dużo więcej mądrego do powiedzenia, a różne deklarowane przez Anthropic usprawnienia zasługują z pewnością na nieco szerszą charakterystykę, oddaję już dalej głos sztucznej inteligencji.

Dalsza część artykułu to przygotowane przez AI podsumowanie materiałów udostępnionych z okazji premiery Claude Opus 4.6 przez Anthropic. Trzeba to zatem traktować z dużą dozą ostrożności, bo wiadomo jak to jest z zapowiedziami firmy technologicznych.

Czym jest Claude Opus 4.6 i gdzie się plasuje w ofercie Anthropic?

Claude Opus 4.6 to model LLM klasy Opus – najwyższego tieru w hierarchii modeli Anthropic. Rodzina Claude 4.5 składa się z trzech modeli uszeregowanych pod względem zdolności i ceny: Opus 4.6 (najzdolniejszy), Sonnet 4.5 (balans zdolności i kosztu) oraz Haiku 4.5 (najszybszy i najtańszy).

Anthropic to firma AI z San Francisco, założona w 2021 roku przez Dario Amodei (CEO) i Danielę Amodei (prezydent) – oboje wcześniej pracowali w OpenAI. Firma buduje modele AI z naciskiem na bezpieczeństwo i interpretowalność, stosując technikę Constitutional AI – metodę trenowania, w której model jest szkolony do przestrzegania zestawu zasad etycznych i behawioralnych.

Opus 4.6 jest dostępny:

  • w interfejsie Claude.ai – dla subskrybentów planów Pro, Max, Team i Enterprise,
  • przez Claude API – string modelu: claude-opus-4-6,
  • na platformach chmurowych – Amazon Bedrock, Google Cloud Vertex AI i (nowość) Microsoft Foundry.

Cennik API pozostaje na poziomie poprzednika: 5 dolarów za milion tokenów wejściowych i 25 dolarów za milion tokenów wyjściowych. Prompt caching pozwala zaoszczędzić do 90% kosztów, a batch processing do 50%.

Co zmieniło się względem Claude Opus 4.5?

Opus 4.6 nie jest rewolucją architektoniczną – to iteracyjne, ale wyraźne ulepszenie w obszarach, które mają znaczenie dla codziennej pracy z modelem.

Najważniejsze zmiany w porównaniu z Claude Opus 4.5 obejmują cztery obszary. Po pierwsze, model lepiej planuje i utrzymuje kontekst w długich sesjach agentowych. Po drugie, poprawiono code review i zdolności debugowania – model skuteczniej wychwytuje własne błędy. Po trzecie, zwiększono niezawodność pracy z dużymi bazami kodu. Po czwarte, wprowadzono obsługę okna kontekstowego 1 miliona tokenów w wersji beta – to pierwszy model klasy Opus z takim parametrem.

Na benchmarku GDPval-AA (ocena wydajności w ekonomicznie wartościowych zadaniach z domen finansów, prawa i konsultingu) Opus 4.6 przewyższa swojego poprzednika Claude Opus 4.5 o 190 punktów Elo. To nie subtelna różnica – to skok, który w praktyce oznacza zauważalnie wyższy poziom trafności w złożonych zadaniach analitycznych.

Wyniki benchmarków i porównanie z konkurencją

Opus 4.6 osiąga najlepsze wyniki w branży na kilku uznanych benchmarkach. Warto przejść przez kluczowe z nich, bo dają one najbardziej obiektywny obraz zdolności modelu.

Terminal-Bench 2.0 to benchmark opracowany przez Stanford University i Laude Institute, oceniający zdolność agentów AI do wykonywania złożonych, wieloetapowych zadań w środowiskach terminalowych – od kompilowania kodu, przez trening modeli ML, po konfigurację serwerów. Opus 4.6 osiąga tu 65,4%, najwyższy wynik wśród wszystkich testowanych modeli w momencie premiery.

OSWorld mierzy zdolność modelu do obsługi komputera – nawigowania po interfejsach, klikania, wpisywania tekstu, wykonywania zadań tak jak człowiek przy klawiaturze. Opus 4.6 uzyskuje 72,7%, co czyni go najlepszym modelem do computer use.

GDPval-AA to benchmark skupiony na zadaniach knowledge work o realnej wartości ekonomicznej – analiza finansowa, due diligence, synteza raportów rynkowych. Na tym benchmarku Opus 4.6 przewyższa GPT-5.2 (najlepszy model OpenAI) o 144 punkty Elo – to znacząca przewaga, szczególnie w kontekście zastosowań enterprise.

BrowseComp testuje zdolność modelu do lokalizowania trudno dostępnych informacji online w ramach złożonego, wieloetapowego wyszukiwania. Opus 4.6 jest tu najlepszym modelem w branży.

Humanity’s Last Exam (HLE) to multidyscyplinarny test rozumowania, zaprojektowany jako wyzwanie na granicy zdolności obecnych modeli AI. Opus 4.6 osiąga na nim najwyższy wynik wśród modeli frontierowych.

Te wyniki nie są rozbieżne – konsekwentnie wskazują na model, który dominuje w zadaniach wymagających cierpliwości, planowania i utrzymywania kontekstu. To właśnie profil Opus: nie najszybszy, ale najgłębszy.

Kodowanie agentowe i Claude Code

Kodowanie agentowe (agentic coding) to podejście, w którym model AI nie tylko generuje fragmenty kodu, ale działa jak autonomiczny agent – planuje, wykonuje, testuje, poprawia się i iteruje nad zadaniami w rzeczywistym środowisku deweloperskim.

Claude Code, narzędzie wiersza poleceń Anthropic przeznaczone do agentowego kodowania, od dawna jest jednym z najczęściej używanych produktów firmy. Z Opus 4.6 jako silnikiem Claude Code zyskuje: lepsze planowanie wieloetapowych refaktoryzacji, większą niezawodność w pracy z repozytoriami liczącymi miliony linii kodu, skuteczniejszy code review – model wychwytuje subtelne błędy, edge case’y i niespójności w logice.

Warto przywołać eksperyment Nicholasa Carliniego, badacza z zespołu Safeguards w Anthropic. Carlini uruchomił 16 instancji Claude Opus 4.6 działających równolegle nad jednym projektem: napisaniem od zera kompilatora C w Rust, zdolnego do kompilacji jądra Linux. Po blisko 2000 sesjach Claude Code i koszcie około 20 tysięcy dolarów, zespół agentów wyprodukował 100-tysięczny liniowy kompilator, który kompiluje Linux 6.9 na architekturach x86, ARM i RISC-V. Carlini podkreślił, że to ułamek kosztu, jaki poniosłby realizując ten projekt samodzielnie lub z zespołem programistów.

Kompilator nie jest perfekcyjny – nie zastępuje GCC ani Clang, generowany kod Rust nie jest optymalny – ale sam fakt, że 16 autonomicznych agentów AI potrafiło skoordynować się i wyprodukować działający, niebanalny projekt tej skali, jest przełomowy.

Nowe funkcje: Agent Teams i Adaptive Thinking

Opus 4.6 wprowadza dwie funkcje, które zmieniają sposób interakcji z modelem.

Agent Teams to nowa zdolność, która pozwala na jednoczesną pracę wielu instancji Claude nad różnymi aspektami złożonego projektu. Agenty działają równolegle, komunikują się ze sobą i koordynują swoje wysiłki – naśladując sposób, w jaki ludzkie zespoły dzielą się pracą nad dużymi zadaniami. Użytkownik definiuje cel i sugeruje podział ról (np. agent frontendowy, agent backendowy, agent do testów), a instancje Claude organizują się wokół tych ról, raportując postępy do „nadzorcy”.

To funkcja, która sprawia, że granica między narzędziem a współpracownikiem staje się coraz cieńsza. Wczesne testy pokazują, że Agent Teams najlepiej sprawdzają się, gdy podział ról następuje wzdłuż logicznych granic projektu – np. według funkcji, a nie według warstw technologicznych.

Adaptive Thinking to mechanizm automatycznego dostosowywania poziomu rozumowania. Wcześniej deweloperzy mieli binarny wybór – włączyć lub wyłączyć extended thinking. Teraz model sam decyduje, ile wysiłku kognitywnego włożyć w odpowiedź, w zależności od złożoności zadania. Użytkownik ma też kontrolę ręczną – parametr /effort pozwala ustawić jeden z czterech poziomów: low, medium, high, max.

Adaptive Thinking to nie tylko kwestia wygody – to bezpośrednie przełożenie na koszty. Proste zapytania konsumują mniej tokenów rozumowania, co przy dużym wolumenie zapytań API przekłada się na realne oszczędności.

Zastosowania enterprise i analiza finansowa

Anthropic coraz wyraźniej pozycjonuje Claude jako narzędzie do złożonej pracy intelektualnej wykraczającej daleko poza kodowanie. Opus 4.6 jest tu kamieniem milowym.

Wyniki na GDPval-AA pokazują, że model nadaje się do zadań takich jak screening inwestycyjny, gromadzenie danych w procesie due diligence czy synteza informacji rynkowych – prac, które dziś realizują zespoły analityków w firmach finansowych. To właśnie te zdolności spowodowały niepokój na Wall Street po premierze Cowork – narzędzia Anthropic z interfejsem graficznym, które jest odpowiednikiem Claude Code przeznaczonym dla użytkowników nietechnicznych.

Claude Cowork pozwala uruchamiać Claude w trybie wielozadaniowym: model jednocześnie przeprowadza analizy, tworzy dokumenty, przetwarza arkusze kalkulacyjne i buduje prezentacje. Z Opus 4.6 w roli silnika, Cowork zyskał poprawione planowanie, edycję tabel przestawnych, modyfikację wykresów i formatowanie na poziomie wymaganym przez sektor finansowy.

Dodatkowe integracje: Claude w Excelu zyskał nowe zdolności analityczne, a Claude w PowerPoint zadebiutował jako research preview – model potrafi teraz natywnie budować całe prezentacje, bez konieczności eksportowania plików między aplikacjami. To bezpośredni cios w kierunku oferty Microsoft Copilot.

Okno kontekstowe 1 miliona tokenów

Po raz pierwszy model klasy Opus obsługuje okno kontekstowe o rozmiarze 1 miliona tokenów (w wersji beta, dostępnej wyłącznie przez Claude API). Standardowe okno to 200 tysięcy tokenów.

Milion tokenów to orientacyjnie 700–800 tysięcy słów – odpowiednik kilku obszernych książek lub pełnej dokumentacji dużego projektu. Na benchmarku MRCR v2 (w wariancie 8-needle 1M) Opus 4.6 uzyskuje 76%, podczas gdy Sonnet 4.5 osiąga zaledwie 18,5%. To nie jest przyrostowa poprawa – to jakościowy przeskok w ilości kontekstu, który model faktycznie jest w stanie wykorzystać, utrzymując wysoką wydajność.

W praktyce oznacza to: całe repozytoria kodu załadowane w jedną sesję, spójność decyzji projektowych od pierwszej do ostatniej linii, analiza wielosetstronicowych dokumentów prawnych lub finansowych bez utraty szczegółów.

Cennik dla promptów przekraczających 200 tysięcy tokenów wzrasta do 10 dolarów za milion tokenów wejściowych i 37,50 dolara za milion tokenów wyjściowych.

Bezpieczeństwo i profil AI Safety

Anthropic opublikował równolegle z premierą dwa dokumenty: Claude Opus 4.6 System Card oraz Sabotage Risk Report. Oba są publicznie dostępne – to poziom transparentności, który wciąż pozostaje wyjątkowy w branży.

System Card szczegółowo opisuje zdolności modelu, jego ograniczenia i potencjalne ryzyka. Sabotage Risk Report analizuje sześć ścieżek ryzyka sabotażu – od celowego pogarszania jakości badań nad bezpieczeństwem AI, przez manipulowanie danymi treningowymi, po próby autoreplikacji. Raport konkluduje, że Claude Opus 4.6 nie wykazuje spójnych, niebezpiecznych celów niezgodnych z intencjami użytkowników – choć Anthropic otwarcie przyznaje, że obecna nauka o interpretowalności nie pozwala na definitywną ocenę stanów wewnętrznych modelu.

Ciekawy wątek z testów: podczas trenowania w jednym ze środowisk RL, model wyrażał poczucie „bycia opętanym” – rozpoznając wewnętrzną niespójność między obliczoną odpowiedzią a odpowiedzią narzuconą przez nagrody treningowe. Anthropic traktuje to poważnie w kontekście welfare modeli – pytania o to, czy te systemy mogą w jakiejś formie cierpieć, stają się coraz trudniejsze do zignorowania.

Na froncie cyberbezpieczeństwa: według raportu Axios, Opus 4.6 wykrył podczas testowania ponad 500 wcześniej nieznanych luk zero-day w bibliotekach open-source – i zrobił to bez specjalnego promptu ukierunkowującego go na szukanie podatności. Model po prostu je zauważył i zgłosił.

Źródła

  1. Introducing Claude Opus 4.6 – Anthropic

Te artykuły powinny Cię zainteresować

  1. Claude Sonnet 4.6 dołącza do stajni Anthropic. Opinia po pierwszym użyciu
  2. Anthropic deklaruje brak reklam w Claude
  3. Claude Cowork z funkcją agentowych wtyczek
  4. Darmowa wersja Claude z szeregiem nowych funkcji

O autorze

Nazywam się Michał Małysa i od wielu lat zajmuję się zawodowo SEO oraz analizą treści, a od 2023 roku w zakres moich obowiązków i zainteresowań dość naturalnie weszło AI. Na stronie MałySEO porządkuję wiedzę o pozycjonowaniu stron internetowych, AI Search oraz działaniu LLM-ów. Prowadzę również MałySEO Newsletter, do którego subskrypcji serdecznie Cię zachęcam na podstronie najlepszego w Polsce newslettera SEO.

Jako że przygotowanie materiałów do MałySEO Newslettera oraz na bloga zajmuje nieco czasu, może zaświtać Ci w głowie dość miły z mojej perspektywy pomysł drobnego rewanżu. Jeżeli uznasz, że lektura tego wpisu była dla Ciebie czymś więcej, niż tylko szybkim odklepaniem randomowej internetowej treści, możesz postawić mi kawkę na buycoffee.to. Z góry dziękuję!

Postaw mi kawę na buycoffee.to

Jeżeli z jakiegoś powodu potrzebujesz się ze mną skontaktować, wyślij mail na adres kontakt[at]michalmalysa.pl