Czy Anthropic naprawdę osłabia model Claude?

Firma zaprzecza, tłumacząc zmiany modyfikacjami interfejsu, domyślnymi ustawieniami wysiłku oraz optymalizacjami, takimi jak krótszy czas przechowywania pamięci podręcznej. Użytkownicy jednak wskazują na regresje widoczne w logach.

Jak naprawić słabsze rozumowanie w Claude Code?

Wpisz komendę /effort high w terminalu lub ustaw parametr showThinkingSummaries: true. Staraj się unikać pracy w godzinach szczytu czasu PST.

Co pokazuje analiza Laurenzo?

Wykazuje ona spadek głębokości myślenia o 73%, większą liczbę błędów edycyjnych wynikających z braku analizy kodu oraz 173 przypadki odmowy wykonania zadania – wszystko na bazie 6852 sesji.

Czy testy porównawcze potwierdzają degradację?

BridgeMind sugerował spadek formy, ale wyniki te zakwestionowano ze względu na różnice w zestawach zadań. Niemniej praktyczne testy programistyczne wykazują odczuwalne różnice.

Czy Anthropic osłabia Claude? Użytkownicy alarmują o regresji. Stella z AMD przedstawia twarde dane.

Wyobraź sobie, że płacisz te same pieniądze za sztuczną inteligencję, która nagle myśli płycej i częściej się gubi. Dokładnie to zarzuca Anthropicowi coraz więcej programistów, w tym Stella Laurenzo, dyrektorka z AMD. Jej analiza tysięcy sesji wykazuje konkretne spadki – firma przedstawia jednak inną wersję wydarzeń.

Skargi programistów nabierają tempa

Na GitHubie, X i Reddicie roi się od narzekań na Claude Opus 4.6 i Claude Code. Użytkownicy piszą o słabszym rozszerzonym rozumowaniu, częstszych halucynacjach, sprzecznościach i marnowaniu tokenów. Pojawił się nawet termin „AI shrinkflation” – płacisz tyle samo, a dostajesz słabszy produkt. Twierdzą, że mediana intensywności myślenia spadła o 67%.

Najgłośniejszy jest głos Stelli Laurenzo, starszej dyrektorki w grupie AI w AMD. Przeanalizowała ona 6852 pliki sesji Claude Code, 17871 bloków myślenia i 234760 wywołań narzędzi od stycznia do kwietnia 2026 roku. Według jej danych od lutego głębokość myślenia spadła z 2200 do 600 znaków, stosunek odczytu do edycji (read:edit ratio) z 6,6 do 2,0, a model zaczął unikać zadań 173 razy po 8 marca (wcześniej zero). Jak zauważa sarkastycznie: to idealny przepis na frustrację przy złożonym programowaniu systemów GPU.

Post Laurenzo stał się wiralem na platformie X dzięki @Hesamation i @petergyang, a Om Patel dodał, że model zapomina o własnych funkcjach, takich jak tryb planowania (Plan Mode).

Dane Laurenzo kontra wyjaśnienia Anthropic

Laurenzo wskazuje na regresje: więcej pętli rozumowania (wzrost z 8,2 do 26,6 na 1000 wywołań narzędzi), stosowanie „najprostszych poprawek”, nadpisywanie całych plików bez kontekstu i ignorowanie konwencji zawartych w pliku CLAUDE.md. Godziny szczytu (17:00 i 19:00 czasu PST) są najgorsze – co sugeruje ograniczanie przepustowości (throttling) pod obciążeniem procesorów graficznych. 6852 przeanalizowane sesje to nie tylko subiektywne odczucia, ale twarde dane z logów.

Boris Cherny, lider projektu Claude Code, zamieścił odpowiedź na GitHubie 6 kwietnia. Twierdzi on, że nagłówek „redact-thinking-2026-02-12” to jedynie zmiana w interfejsie użytkownika – ukrywa ona proces myślenia w celu zmniejszenia opóźnień, ale nie wpływa na budżet obliczeniowy ani jakość rozumowania. Można z tego zrezygnować, ustawiając showThinkingSummaries: true w pliku settings.json. Ironia sytuacji polega na tym, że użytkownicy wyraźnie czują różnicę, podczas gdy firma twierdzi, że „to tylko zmiany w UI”.

Cherny dodaje: adaptacyjne myślenie jest domyślne od 9 lutego, a średni poziom wysiłku (poziom 85) wprowadzono 3 marca, aby zrównoważyć inteligencję, opóźnienia i koszty. Rozwiązanie? Wpisanie komendy /effort high w terminalu.

Inne zmiany i kontrowersje wokół testów porównawczych

Anthropic potwierdza dalsze modyfikacje: czas przechowywania (TTL) pamięci podręcznej promptów skrócono z godziny do 5 minut (co nastąpiło 6 marca i zwiększa koszty długich sesji), a limity sesji dostosowano 26 marca dla godzin szczytu (5:00–11:00 rano czasu PT, co dotyka 7% użytkowników wersji Free, Pro i Max). Thariq Shihipar na platformie X zaprzecza, jakoby dochodziło do degradacji modelu pod obciążeniem. 5-minutowy TTL pamięci podręcznej budzi jednak spore oburzenie.

Co z testami porównawczymi? BridgeMind odnotował spadek skuteczności Claude’a z 83,3% (2. miejsce) do 68,3% (10. miejsce) w teście halucynacji, jednak Paul Calcraft podważył te wyniki: porównano różne zestawy zadań, a wspólne testy wykazują minimalny spadek. Dziennik zmian (changelog) z 7 kwietnia podniósł domyślny poziom wysiłku na wysoki dla użytkowników API i wersji korporacyjnych.

Debata trwa: zaawansowani użytkownicy dostrzegają więcej błędów w kodowaniu, natomiast Anthropic kładzie nacisk na ujawnione zmiany produktowe, a nie na ukryte osłabianie modelu.

Co to oznacza dla użytkowników i rynku

W obliczu rosnącego popytu i zwrotu OpenAI w stronę modelu Codex, Anthropic musi dbać o zaufanie. Użytkownicy tacy jak Laurenzo rezygnują z przepływów pracy opartych na wielu agentach na rzecz pojedynczych sesji. Niektórzy testują wersję 4.5 zamiast 4.6 lub szukają alternatyw na platformie Hugging Face. 173 przypadki uniknięcia zadania po marcu to poważny sygnał ostrzegawczy.

Anthropic nie skomentował sprawy bezpośrednio dla VentureBeat, odsyłając do wpisów Cherny’ego i Shihipara. Firma wydała 13 aktualizacji Claude Code w marcu, skupiając się na rozwiązaniach dla przedsiębiorstw, ale czy nie cierpi na tym podstawowa jakość? Można złośliwie zapytać, czy to cena za skalowanie, jednak programiści oczekują przejrzystości, a nie wymówek.

Lekcja na przyszłość? Zawsze sprawdzaj dzienniki zmian i logi – oraz miej plan awaryjny na godziny szczytu.

Czy Anthropic osłabia Claude? Użytkownicy alarmują o regresji. Stella z AMD przedstawia twarde dane.

Skargi programistów nabierają tempa

Dane Laurenzo kontra wyjaśnienia Anthropic

Inne zmiany i kontrowersje wokół testów porównawczych

Co to oznacza dla użytkowników i rynku

Najczęstsze pytania