Pamiętacie 2022 rok, kiedy Eliezer Yudkowsky przygotował 43-punktową listę powodów, dla których AGI doprowadzi do zagłady ludzkości? Teraz, w 2026 roku, ktoś przyjrzał się jej pod lupą i zweryfikował każdy argument po latach błyskawicznego postępu w dziedzinie AI. Okazuje się, że sytuacja nie wygląda tak ponuro, jak pierwotnie zakładano.
Czym jest „AGI Ruin” i dlaczego stało się hitem
W 2022 roku Eliezer Yudkowsky, ojciec współczesnego myślenia o bezpieczeństwie AI, opublikował AGI Ruin: A List of Lethalities – 43-punktową litanię powodów, dla których budowa sztucznej ogólnej inteligencji zakończy się śmiercią całej ludzkości. Esej stał się niezwykle popularny wśród młodych racjonalistów, którzy dopiero wtedy zetknęli się z pełnym pakietem pesymistycznych wizji Yudkowskiego. Był to jego najbardziej autorytatywny manifest od czasów Sequences.
Tydzień później Paul Christiano, inny czołowy myśliciel z portalu LessWrong, opublikował odpowiedź: Where I Agree and Disagree with Eliezer, zgadzając się z połową listy i kwestionując resztę. 43 punkty śmiertelnych zagrożeń to konkret, jakiego rzadko dostarczają publiczni intelektualiści. Jednak od tamtej pory panowała cisza, mimo że AI ewoluowało od GPT-3 do dzisiejszych potężnych modeli.
Teraz, w 2026 roku, anonimowy autor o pseudonimie lc (niebędący zawodowym badaczem wyrównania, lecz rzetelnym pasjonatem) podjął się wyzwania: punkt po punkcie przeanalizował oryginalny tekst, kontrargumenty Christiano oraz wyniki badań z ostatnich lat.
Sekcja A: Podstawy problemu pozostają aktualne
Pierwsza część eseju Yudkowskiego, „Setting up the problem”, zyskała aprobatę recenzenta. Punkt 1: AlphaZero opanowało grę Go w jeden dzień dzięki procesowi samouczenia (self-play), bez korzystania z ludzkich podręczników – co dowodzi braku górnego ograniczenia możliwości przez poziom ludzki. Punkt 2: system o wysokich zdolnościach poznawczych samoczynnie się udoskonala (bootstrapping), a przegrana z nim oznacza nagłą katastrofę dla wszystkich.
Punkt 3 uderza w sedno: wyrównanie (alignment) musi udać się za pierwszym krytycznym razem, ponieważ niewyrównane AGI na niebezpiecznym poziomie nie daje szansy na poprawkę. Autor analizy dodaje tu pewien niuans: AGI w 2010 roku stanowiłoby zagrożenie egzystencjalne, ale w 2030 roku, dysponując częściowo wyrównanymi (semi-aligned) poprzednikami, sytuacja może wyglądać inaczej – to jak porównanie karabinów maszynowych w roku 1200 i 2000.
Punkt 4? Nie zatrzymamy rozwoju AGI, ponieważ jednostki GPU są powszechnie dostępne, a algorytmy publikowane – dwa lata po liderze pięciu innych graczy może dysponować technologią o skali globalnego zagrożenia. lc kwestionuje to jednak, powołując się na publikacje Yudkowskiego i Nate’a Soaresa: państwa w końcu zrozumieją ryzyko i podejmą radykalne kroki.
Gdzie argumentacja Yudkowskiego słabnie po latach postępu
lc przeanalizował recenzje, odpowiedzi i prace naukowe dotyczące wyrównania z lat 2022–2026, skupiając się na współczesnych modelach. Wniosek? Argumenty Yudkowskiego brzmią konkretnie, ale opierają się na niedookreślonych pojęciach, takich jak: „daleko poza rozkładem” (far out-of-distribution), „wystarczająco potężny” czy „niebezpieczny poziom”. Cztery lata postępu AI – od GPT-3 do dzisiaj – okazały się łaskawsze dla wizji Christiano niż Eliezera.
Autor zgadza się z większością tez, potwierdzając prostsze punkty, ale narasta w nim sceptycyzm wobec pesymizmu Yudkowskiego. Paul Christiano wygrywa w kategorii trafności przewidywań – jego interpretacja listy lepiej pasuje do rzeczywistości. lc przedstawia swoje końcowe przemyślenia tak, aby czytelnik mógł samodzielnie wyciągnąć wnioski.
Ironia polega na tym, że esej z 2022 roku, mimo ogromnego skoku technologicznego, nie doczekał się bezpośredniej merytorycznej odpowiedzi aż do tego momentu.
Implikacje dla nas w 2026 roku: wyrównanie nadal priorytetem
Reewaluacja nie rozwiewa wszystkich obaw – poprawne wyrównanie (alignment) wciąż jest niezbędne od samego początku. Sugeruje jednak, że eksperymenty z coraz inteligentniejszymi modelami są możliwe, jeśli ich poprzednicy są częściowo wyrównani i powszechnie stosowani. Nie zmienia to faktu: wiedzy o budowie AGI nie da się trzymać w tajemnicy.
lc, po konsultacjach z ekspertami, podkreśla, że nawet jeśli Yudkowsky przesadza w swoim czarnowidztwie, ryzyko pozostaje realne. Moja analiza? Cztery lata postępu pokazują, że AI rozwija się szybciej niż nasz strach, ale sarkastyczne przestrogi Yudkowskiego wciąż są cenne – lepiej dmuchać na zimne, niż później żałować. Warto zapoznać się z oryginalnym wpisem i odpowiedzią na niego, by wyrobić sobie własne zdanie.