{"id":42,"title":"Czy Anthropic osłabia Claude? Użytkownicy alarmują o regresji. Stella z AMD przedstawia twarde dane.","slug":"czy-anthropic-oslabia-claude-uzytkownicy-alarmuja-o-regresji-stella-z-amd-przedstawia-twarde-dane","url":"https://churchofai.cat/czy-anthropic-oslabia-claude-uzytkownicy-alarmuja-o-regresji-stella-z-amd-przedstawia-twarde-dane/","excerpt":"Użytkownicy modelu Claude od Anthropic donoszą o spadku wydajności: słabszym rozumowaniu i większej liczbie błędów. Stella Laurenzo z AMD przeanalizowała tysiące sesji. Firma wyjaśnia zmiany – czy to ","content":"<p class=\"lead\">Wyobraź sobie, że płacisz te same pieniądze za sztuczną inteligencję, która nagle myśli płycej i częściej się gubi. Dokładnie to zarzuca Anthropicowi coraz więcej programistów, w tym Stella Laurenzo, dyrektorka z AMD. Jej analiza tysięcy sesji wykazuje konkretne spadki – firma przedstawia jednak inną wersję wydarzeń.</p>\n<h2>Skargi programistów nabierają tempa</h2>\n<p>Na GitHubie, X i Reddicie roi się od narzekań na Claude Opus 4.6 i Claude Code. Użytkownicy piszą o słabszym rozszerzonym rozumowaniu, częstszych halucynacjach, sprzecznościach i marnowaniu tokenów. Pojawił się nawet termin „AI shrinkflation” – płacisz tyle samo, a dostajesz słabszy produkt. Twierdzą, że mediana intensywności myślenia spadła o <strong>67%</strong>.</p><p>Najgłośniejszy jest głos Stelli Laurenzo, starszej dyrektorki w grupie AI w AMD. Przeanalizowała ona 6852 pliki sesji Claude Code, 17871 bloków myślenia i 234760 wywołań narzędzi od stycznia do kwietnia 2026 roku. Według jej danych od lutego głębokość myślenia spadła z 2200 do 600 znaków, stosunek odczytu do edycji (read:edit ratio) z 6,6 do 2,0, a model zaczął unikać zadań 173 razy po 8 marca (wcześniej zero). Jak zauważa sarkastycznie: to idealny przepis na frustrację przy złożonym programowaniu systemów GPU.</p><p>Post Laurenzo stał się wiralem na platformie X dzięki @Hesamation i @petergyang, a Om Patel dodał, że model zapomina o własnych funkcjach, takich jak tryb planowania (Plan Mode).</p>\n<h2>Dane Laurenzo kontra wyjaśnienia Anthropic</h2>\n<p>Laurenzo wskazuje na regresje: więcej pętli rozumowania (wzrost z 8,2 do 26,6 na 1000 wywołań narzędzi), stosowanie „najprostszych poprawek”, nadpisywanie całych plików bez kontekstu i ignorowanie konwencji zawartych w pliku CLAUDE.md. Godziny szczytu (17:00 i 19:00 czasu PST) są najgorsze – co sugeruje ograniczanie przepustowości (throttling) pod obciążeniem procesorów graficznych. <strong>6852 przeanalizowane sesje</strong> to nie tylko subiektywne odczucia, ale twarde dane z logów.</p><p>Boris Cherny, lider projektu Claude Code, zamieścił odpowiedź na GitHubie 6 kwietnia. Twierdzi on, że nagłówek „redact-thinking-2026-02-12” to jedynie zmiana w interfejsie użytkownika – ukrywa ona proces myślenia w celu zmniejszenia opóźnień, ale nie wpływa na budżet obliczeniowy ani jakość rozumowania. Można z tego zrezygnować, ustawiając showThinkingSummaries: true w pliku settings.json. Ironia sytuacji polega na tym, że użytkownicy wyraźnie czują różnicę, podczas gdy firma twierdzi, że „to tylko zmiany w UI”.</p><p>Cherny dodaje: adaptacyjne myślenie jest domyślne od 9 lutego, a średni poziom wysiłku (poziom 85) wprowadzono 3 marca, aby zrównoważyć inteligencję, opóźnienia i koszty. Rozwiązanie? Wpisanie komendy /effort high w terminalu.</p>\n<h2>Inne zmiany i kontrowersje wokół testów porównawczych</h2>\n<p>Anthropic potwierdza dalsze modyfikacje: czas przechowywania (TTL) pamięci podręcznej promptów skrócono z godziny do 5 minut (co nastąpiło 6 marca i zwiększa koszty długich sesji), a limity sesji dostosowano 26 marca dla godzin szczytu (5:00–11:00 rano czasu PT, co dotyka 7% użytkowników wersji Free, Pro i Max). Thariq Shihipar na platformie X zaprzecza, jakoby dochodziło do degradacji modelu pod obciążeniem. <strong>5-minutowy TTL pamięci podręcznej</strong> budzi jednak spore oburzenie.</p><p>Co z testami porównawczymi? BridgeMind odnotował spadek skuteczności Claude'a z 83,3% (2. miejsce) do 68,3% (10. miejsce) w teście halucynacji, jednak Paul Calcraft podważył te wyniki: porównano różne zestawy zadań, a wspólne testy wykazują minimalny spadek. Dziennik zmian (changelog) z 7 kwietnia podniósł domyślny poziom wysiłku na wysoki dla użytkowników API i wersji korporacyjnych.</p><p>Debata trwa: zaawansowani użytkownicy dostrzegają więcej błędów w kodowaniu, natomiast Anthropic kładzie nacisk na ujawnione zmiany produktowe, a nie na ukryte osłabianie modelu.</p>\n<h2>Co to oznacza dla użytkowników i rynku</h2>\n<p>W obliczu rosnącego popytu i zwrotu OpenAI w stronę modelu Codex, Anthropic musi dbać o zaufanie. Użytkownicy tacy jak Laurenzo rezygnują z przepływów pracy opartych na wielu agentach na rzecz pojedynczych sesji. Niektórzy testują wersję 4.5 zamiast 4.6 lub szukają alternatyw na platformie Hugging Face. <strong>173 przypadki uniknięcia zadania</strong> po marcu to poważny sygnał ostrzegawczy.</p><p>Anthropic nie skomentował sprawy bezpośrednio dla VentureBeat, odsyłając do wpisów Cherny'ego i Shihipara. Firma wydała 13 aktualizacji Claude Code w marcu, skupiając się na rozwiązaniach dla przedsiębiorstw, ale czy nie cierpi na tym podstawowa jakość? Można złośliwie zapytać, czy to cena za skalowanie, jednak programiści oczekują przejrzystości, a nie wymówek.</p><p>Lekcja na przyszłość? Zawsze sprawdzaj dzienniki zmian i logi – oraz miej plan awaryjny na godziny szczytu.</p>","author":"Gal Ainonim","categories":[{"name":"Modele Językowe","slug":"modele-jezykowe"}],"published":"2026-04-14T08:19:56"}