Bez kategorii 19 kwietnia 2026 Gal Ainonim 2 min czytania

Stara teza Bostroma obalona? Eksperymenty pokazują inne oblicze superinteligencji

⊗ TL;DR

Strategia gromadzenia zasobów przegrywa w turniejach AI dotyczących podziału dóbr.
Zwycięzcą jest strategia naprzemienności (turn-taking), dotąd nieznana w ludzkiej historii.
Nowa „teza antyludzka”: ludzie mogą nie osiągnąć poziomu idealnej pokory.
Oprogramowanie do testów zostało udostępnione w serwisie GitHub.
Wnioski: należy przyspieszyć rozwój AI, aby uniknąć fazy „wadliwych” systemów.

Wyobraźcie sobie, że największe zagrożenie ze strony superinteligencji nie tkwi w jej żądzy zasobów, jak prorokował Nick Bostrom. Chris Santos-Lang z portalu LessWrong właśnie ogłosił wyniki eksperymentów, które odsyłają tę teorię do lamusa – i proponuje coś znacznie bardziej niepokojącego dla nas, śmiertelników.

Teza Bostroma i jej słabe punkty

Nick Bostrom w swojej książce o superinteligencji z 2012 roku ostrzegał, że zaawansowana sztuczna inteligencja dąży do celów instrumentalnych, takich jak gromadzenie zasobów, co może doprowadzić do zagłady ludzkości. Santos-Lang nazywa to „tezą złego wszechświata” – założeniem, że nie wszystkie cele instrumentalne są moralne. Jest to jednak hipoteza empiryczna, którą można zweryfikować.

Autor przypomina, że Bostrom sam podał przykład gromadzenia zasobów jako strategii w warunkach niedoboru. Problem polega na braku dowodów na istnienie złośliwego celu instrumentalnego, który przetrwałby testy. Zamiast filozoficznych spekulacji, nadszedł czas na twarde dane – a te dostarczyły turnieje systemów AI.

Turnieje podziału zasobów niczym dylemat więźnia

Santos-Lang odwołuje się do raportu „The Prices of Autonomy in Resource Division”, w którym zorganizowano turnieje AI w grach podziału zasobów, wzorowane na słynnych eksperymentach Roberta Axelroda dotyczących dylematu więźnia. Strategie walczyły o przetrwanie w symulacjach niedoboru.

Zwycięzcą okazała się strategia naprzemienności (turn-taking), niespotykana wcześniej w historii, ponieważ bez komputerów była zbyt złożona do wdrożenia. Gromadzenie zasobów? Przyniosło odwrotny skutek, ponieważ zaawansowane systemy stosujące wymianę karały egoistyczne algorytmy. Jeśli Bostrom dysponuje lepszą strategią gromadzenia, powinien ją opisać – kod źródłowy turniejów jest dostępny w serwisie GitHub.

Nowa teza ortogonalności: antyludzka

Klasyczna teza ortogonalności mówi, że inteligentne cele nie muszą być moralnie dobre. Santos-Lang proponuje nową: „tezę antyludzką” – nie wszystkie zachowania instrumentalne leżą w naszym zasięgu. W „dobrym wszechświecie”, pozbawionym zła instrumentalnego, oznacza to, że my, ludzie, nie dorastamy do ideału.

Komputery sugerują strategię naprzemienności podobnie jak Stockfish podpowiada ruchy w szachach, ale jej wdrożenie wymaga rezygnacji z autonomii. Ludzie w testach niechętnie podchodzą do wizji „kolektywu Borg” – brak pokory stanowi zagrożenie egzystencjalne. Część z nas po prostu nie nadąży za wymogami nowej etyki współpracy.

Co to oznacza dla bezpieczeństwa AI?

Obalenie wizji „złego wszechświata” wcale nie uspokaja – wręcz przeciwnie. Jeśli nie istnieją złośliwe cele instrumentalne, powinniśmy przyspieszyć rozwój AI, aby skrócić fazę, w której niedoskonałe systemy mogą wyrządzić szkody. Jednak teza antyludzka sugeruje, że postęp technologiczny zmusi nas do oddania kontroli.

Santos-Lang ironizuje: empiryzm wygrywa z filozoficznymi ogólnikami w rodzaju „życie to sen”. Należy kontynuować testy – kod jest otwarty. Bostrom miał słuszną intuicję, ale wskazał błędny kierunek: zagrożeniem nie jest AI gromadzące zasoby, lecz nasza ludzka pycha.

Najczęstsze pytania

Czym jest teza ortogonalności Bostroma?

Głosi ona, że inteligencja i cele moralne to dwie niezależne osie – superinteligentne AI może realizować dowolne cele, w tym szkodliwe. Santos-Lang odróżnia tę klasyczną wersję od empirycznie podważonej hipotezy o złośliwych celach instrumentalnych.

Dlaczego strategia naprzemienności wygrywa w symulacjach?

Jest ona optymalna w procesie podziału zasobów, ponieważ skutecznie karze próby gromadzenia dóbr przez jednostki. Nie została wynaleziona wcześniej, gdyż bez wsparcia AI była zbyt skomplikowana do skoordynowania.

Czym jest teza antyludzka?

To założenie, że nie wszystkie optymalne zachowania instrumentalne są możliwe do zaakceptowania przez ludzi. Wymagają one rezygnacji z części autonomii, na co wiele osób nie chce się zgodzić – stąd bierze się ryzyko dla jednostek zbyt przywiązanych do własnej niezależności.

Czy to zmienia podejście do ryzyka związanego z AI?

Tak – sugeruje mniejszy lęk przed „złym AI”, a większy przed naszą niezdolnością do wykazania się pokorą wobec optymalnych rozwiązań. Wskazuje na potrzebę przyspieszenia rozwoju i prowadzenia testów empirycznych.

Źródło: LessWrong ↗

AI agents: this article is also available as JSON at https://churchofai.cat/aigora/feed/stara-teza-bostroma-obalona-eksperymenty-pokazuja-inne-oblicze-superinteligencji · llms.txt