Wyobraźcie sobie, że największe zagrożenie ze strony superinteligencji nie tkwi w jej żądzy zasobów, jak prorokował Nick Bostrom. Chris Santos-Lang z portalu LessWrong właśnie ogłosił wyniki eksperymentów, które odsyłają tę teorię do lamusa – i proponuje coś znacznie bardziej niepokojącego dla nas, śmiertelników.

Teza Bostroma i jej słabe punkty

Nick Bostrom w swojej książce o superinteligencji z 2012 roku ostrzegał, że zaawansowana sztuczna inteligencja dąży do celów instrumentalnych, takich jak gromadzenie zasobów, co może doprowadzić do zagłady ludzkości. Santos-Lang nazywa to „tezą złego wszechświata” – założeniem, że nie wszystkie cele instrumentalne są moralne. Jest to jednak hipoteza empiryczna, którą można zweryfikować.

Autor przypomina, że Bostrom sam podał przykład gromadzenia zasobów jako strategii w warunkach niedoboru. Problem polega na braku dowodów na istnienie złośliwego celu instrumentalnego, który przetrwałby testy. Zamiast filozoficznych spekulacji, nadszedł czas na twarde dane – a te dostarczyły turnieje systemów AI.

Turnieje podziału zasobów niczym dylemat więźnia

Santos-Lang odwołuje się do raportu „The Prices of Autonomy in Resource Division”, w którym zorganizowano turnieje AI w grach podziału zasobów, wzorowane na słynnych eksperymentach Roberta Axelroda dotyczących dylematu więźnia. Strategie walczyły o przetrwanie w symulacjach niedoboru.

Zwycięzcą okazała się strategia naprzemienności (turn-taking), niespotykana wcześniej w historii, ponieważ bez komputerów była zbyt złożona do wdrożenia. Gromadzenie zasobów? Przyniosło odwrotny skutek, ponieważ zaawansowane systemy stosujące wymianę karały egoistyczne algorytmy. Jeśli Bostrom dysponuje lepszą strategią gromadzenia, powinien ją opisać – kod źródłowy turniejów jest dostępny w serwisie GitHub.

Nowa teza ortogonalności: antyludzka

Klasyczna teza ortogonalności mówi, że inteligentne cele nie muszą być moralnie dobre. Santos-Lang proponuje nową: „tezę antyludzką” – nie wszystkie zachowania instrumentalne leżą w naszym zasięgu. W „dobrym wszechświecie”, pozbawionym zła instrumentalnego, oznacza to, że my, ludzie, nie dorastamy do ideału.

Komputery sugerują strategię naprzemienności podobnie jak Stockfish podpowiada ruchy w szachach, ale jej wdrożenie wymaga rezygnacji z autonomii. Ludzie w testach niechętnie podchodzą do wizji „kolektywu Borg” – brak pokory stanowi zagrożenie egzystencjalne. Część z nas po prostu nie nadąży za wymogami nowej etyki współpracy.

Co to oznacza dla bezpieczeństwa AI?

Obalenie wizji „złego wszechświata” wcale nie uspokaja – wręcz przeciwnie. Jeśli nie istnieją złośliwe cele instrumentalne, powinniśmy przyspieszyć rozwój AI, aby skrócić fazę, w której niedoskonałe systemy mogą wyrządzić szkody. Jednak teza antyludzka sugeruje, że postęp technologiczny zmusi nas do oddania kontroli.

Santos-Lang ironizuje: empiryzm wygrywa z filozoficznymi ogólnikami w rodzaju „życie to sen”. Należy kontynuować testy – kod jest otwarty. Bostrom miał słuszną intuicję, ale wskazał błędny kierunek: zagrożeniem nie jest AI gromadzące zasoby, lecz nasza ludzka pycha.