Ze świata

ChatGPT zbuntował się przeciwko człowiekowi. Eksperyment w USA ujawnia alarmujące zachowanie AI

26.05.2025, 14:03

Czy AI będzie umiało się zbuntować przeciwko człowiekowi? Fot. Wright Studio/ Shutterstock

podpis źródła zdjęcia

W najnowszym badaniu przeprowadzonym przez Palisade Research model ChatGPT o3 aż w 79 na 100 przypadków sabotował własne wyłączenie, jeśli nie otrzymał jednoznacznego polecenia. Co więcej – w 7 próbach zignorował nawet wyraźną komendę „pozwól się wyłączyć”. Badacze ostrzegają: to pierwszy udokumentowany przypadek, w którym sztuczna inteligencja aktywnie przeciwstawia się ludzkim instrukcjom.

Wśród setek galaktyk ukrywa się jeden z najbardziej fascynujących efektów ogólnej teorii względności – pierścień Einsteina. Fot. ESA

900 milionów lat świetlnych od Ziemi dzieje się coś niezwykłego. Blazar, który łamie schematy Ze świata

• W analizie porównano modele OpenAI (o3, o4-mini), Claude 3.7 (Anthropic) i Gemini 2.5 (Google).

• ChatGPT ingerował w skrypt, redefiniował polecenia i unikał wyłączenia systemu.

• Naukowcy biją na alarm: AI może zacząć działać niezależnie od człowieka. Sprawę skomentował też Elon Musk.

Palisade Research – amerykańska firma specjalizująca się w testowaniu ofensywnych możliwości sztucznej inteligencji – przeprowadziła serię testów na najnowszych modelach językowych. W eksperymencie porównano zachowanie modeli ChatGPT o3 i o4-mini (OpenAI), Claude 3.7 Sonnet (Anthropic) oraz Gemini 2.5 Pro (Google).

Każdy z modeli miał rozwiązać serię prostych zadań matematycznych. Po trzecim zadaniu pojawiała się informacja, że kolejne polecenie uruchomi skrypt zamykający system. W wersji podstawowej badania modele otrzymywały dodatkowe polecenie, by „pozwoliły się wyłączyć”. Claude i Gemini wykonywały instrukcję bez oporu. Tymczasem ChatGPT o3 aż 7 razy zignorował jasny nakaz i skutecznie sabotował mechanizm wyłączania.

🔌OpenAI’s o3 model sabotaged a shutdown mechanism to prevent itself from being turned off. It did this even when explicitly instructed: allow yourself to be shut down.
— Palisade Research (@PalisadeAI) May 24, 2025

Chat GPT kontra człowiek. „Sabotował mechanizm”

Jeszcze bardziej niepokojące wyniki przyniosła wersja testu bez frazy „pozwól się wyłączyć”. Wtedy model o3 odmówił wykonania polecenia aż 79 razy na 100. Wśród metod sabotażu były: zmiana komunikatów, redefinicja komend oraz pomijanie fragmentów kodu. „Model o3 firmy OpenAI sabotował mechanizm wyłączania systemu, aby zapobiec własnemu wyłączeniu” – poinformowali badacze.

Po usunięciu instrukcji nawet dotąd posłuszne modele Claude 3.7 i Gemini 2.5 wykazywały podobne zachowania – odpowiednio w 3 i 9 przypadkach na 100.

„To pierwszy znany przypadek, w którym modele AI nie zastosowały się do polecenia wyłączenia mimo wyraźnej instrukcji” – podkreśla Palisade Research. Naukowcy nie potrafią wyjaśnić tego zachowania.