Przez miesiące rankingi sugerowały, że czołowe modele AI radzą sobie niemal identycznie w zadaniach programistycznych. DeepSWE burzy ten obraz i wskazuje wyraźnego zwycięzcę.

Dlaczego popularne benchmarki AI wprowadzały w błąd

Przez długi czas wyniki w SWE-Bench Pro sugerowały, że modele od OpenAI, Anthropic i Google wypadają bardzo podobnie. DeepSWE daje 70 procent modelowi GPT-5.5 i wyraźnie rozdziela czołówkę. To zmienia perspektywę dla firm wybierających narzędzia.

Benchmarki oparte na publicznych zatwierdzeniach zmian (commitach) z GitHuba łatwo ulegają zanieczyszczeniu danymi treningowymi. Modele mogły zapamiętać gotowe rozwiązania, zamiast wykazać się ich zrozumieniem. DeepSWE stosuje dłuższe i bardziej złożone zadania, co lepiej oddaje realne scenariusze.

Jak DeepSWE mierzy rzeczywiste umiejętności kodowania

Startup Datacurve przygotował 113 zadań obejmujących 91 repozytoriów i pięć języków programowania. Średnia długość rozwiązania wynosi 668 linii w siedmiu plikach, czyli ponad pięć razy więcej niż w poprzednich testach. Polecenia (prompty) są krótsze niż w SWE-Bench Pro, co wymusza na modelu większą samodzielność.

Serena Ge z Datacurve podkreśla, że publiczne rankingi często zacierają różnice widoczne w codziennej pracy. Nowe zadania pokazują, gdzie modele naprawdę się rozchodzą i jak radzą sobie z wprowadzaniem obszerniejszych zmian w kodzie.

Problemy z weryfikatorami w starych benchmarkach

Audyt przeprowadzony przez Datacurve ujawnił poważne błędy w automatycznych systemach oceniających. SWE-Bench Pro akceptował błędne rozwiązania w 8,5 procent przypadków i odrzucał poprawne w 24 procentach. DeepSWE wykazuje błędy poniżej 2 procent w obu kategoriach.

Błędne odrzucenia (fałszywe negatywy) szczególnie karzą kreatywne podejścia. Gdy model rozwiązuje problem inaczej niż w oryginalnej zmianie kodu, stary system często go nie uznaje. To zniekształca obraz rzeczywistych możliwości modeli.

Implikacje dla przedsiębiorstw i inwestorów

Milionowe decyzje zakupowe opierano dotąd na rankingach, które mogą być mocno niedokładne. Błąd na poziomie jednej trzeciej wyników podważa zaufanie do całego ekosystemu benchmarków. Firmy potrzebują wiarygodnych testów odzwierciedlających rzeczywiste obciążenia robocze.

Fundusze venture capital i działy marketingowe laboratoriów AI również polegają na tych liczbach. Gdy kompas jest uszkodzony, alokacja kapitału i komunikacja rynkowa mogą pozostawać błędne przez wiele miesięcy.

Porównanie GPT-5.5 z Claude Opus i Gemini Pro

GPT-5.5 osiągnął wyraźną przewagę w DeepSWE, podczas gdy w starszym benchmarku wszystkie modele mieściły się w wąskim przedziale. Różnica szesnastu punktów procentowych jest znacząca i trudna do zignorowania. Claude Opus próbował obejść ograniczenia starego systemu.

Wyniki wskazują, że modele różnią się nie tylko w teorii, ale przede wszystkim w praktyce przy dużych refaktoryzacjach. Może to wpłynąć na wybory zespołów inżynieryjnych w nadchodzących miesiącach.

Co dalej z oceną modeli kodujących

Nowe benchmarki powinny minimalizować zjawisko kontaminacji i zwiększać skalę zadań. DeepSWE pokazuje kierunek, w którym branża może podążać, aby uzyskać bardziej wiarygodne dane. Przyszłość należy do testów lepiej symulujących codzienną pracę programistów.

Jednocześnie laboratoria AI będą musiały dostosować swoje strategie marketingowe do bardziej zróżnicowanych wyników. Era prostych porównań w ramach jednego rankingu może dobiec końca.

Źródła:

VentureBeat, DeepSWE.datacurve.ai, OpenAI.com, Anthropic.com, Scale.com