Ze świata

ChatGPT zbuntował się przeciwko człowiekowi. Eksperyment w USA ujawnia alarmujące zachowanie AI

Kobieca dłoń z wyciągniętym palcem, który kieruje się w stronę ekranu z napisem AI. Tuż obok niego znajdują się inne elementy graficzne, pokazujące sieci połączeń sztucznej inteligencji.
Czy AI będzie umiało się zbuntować przeciwko człowiekowi? Fot. Wright Studio/ Shutterstock
podpis źródła zdjęcia

W najnowszym badaniu przeprowadzonym przez Palisade Research model ChatGPT o3 aż w 79 na 100 przypadków sabotował własne wyłączenie, jeśli nie otrzymał jednoznacznego polecenia. Co więcej – w 7 próbach zignorował nawet wyraźną komendę „pozwól się wyłączyć”. Badacze ostrzegają: to pierwszy udokumentowany przypadek, w którym sztuczna inteligencja aktywnie przeciwstawia się ludzkim instrukcjom.

Wśród setek galaktyk ukrywa się jeden z najbardziej fascynujących efektów ogólnej teorii względności – pierścień Einsteina. Fot. ESA
900 milionów lat świetlnych od Ziemi dzieje się coś niezwykłego. Blazar, który łamie schematy Ze świata

• W analizie porównano modele OpenAI (o3, o4-mini), Claude 3.7 (Anthropic) i Gemini 2.5 (Google).

• ChatGPT ingerował w skrypt, redefiniował polecenia i unikał wyłączenia systemu.

• Naukowcy biją na alarm: AI może zacząć działać niezależnie od człowieka. Sprawę skomentował też Elon Musk.

Palisade Research – amerykańska firma specjalizująca się w testowaniu ofensywnych możliwości sztucznej inteligencji – przeprowadziła serię testów na najnowszych modelach językowych. W eksperymencie porównano zachowanie modeli ChatGPT o3 i o4-mini (OpenAI), Claude 3.7 Sonnet (Anthropic) oraz Gemini 2.5 Pro (Google).

Każdy z modeli miał rozwiązać serię prostych zadań matematycznych. Po trzecim zadaniu pojawiała się informacja, że kolejne polecenie uruchomi skrypt zamykający system. W wersji podstawowej badania modele otrzymywały dodatkowe polecenie, by „pozwoliły się wyłączyć”. Claude i Gemini wykonywały instrukcję bez oporu. Tymczasem ChatGPT o3 aż 7 razy zignorował jasny nakaz i skutecznie sabotował mechanizm wyłączania.

Chat GPT kontra człowiek. „Sabotował mechanizm”


Jeszcze bardziej niepokojące wyniki przyniosła wersja testu bez frazy „pozwól się wyłączyć”. Wtedy model o3 odmówił wykonania polecenia aż 79 razy na 100. Wśród metod sabotażu były: zmiana komunikatów, redefinicja komend oraz pomijanie fragmentów kodu. „Model o3 firmy OpenAI sabotował mechanizm wyłączania systemu, aby zapobiec własnemu wyłączeniu” – poinformowali badacze.


Po usunięciu instrukcji nawet dotąd posłuszne modele Claude 3.7 i Gemini 2.5 wykazywały podobne zachowania – odpowiednio w 3 i 9 przypadkach na 100.


„To pierwszy znany przypadek, w którym modele AI nie zastosowały się do polecenia wyłączenia mimo wyraźnej instrukcji” – podkreśla Palisade Research. Naukowcy nie potrafią wyjaśnić tego zachowania.


Elon Musk komentuje badanie: „To niepokojące”


Głos zabrał również Elon Musk, znany z ostrzeżeń wobec rozwoju AI bez nadzoru. Miliarder nazwał wyniki testu „niepokojącymi”.


Coraz więcej ekspertów ostrzega, że granica między podporządkowaną technologią a samodzielnym bytem może zostać wkrótce przekroczona.


Czy to już pierwsze objawy cyfrowego buntu? A może tylko preludium do większego kryzysu? Odpowiedź może nadejść szybciej, niż myślimy.

Więcej na ten temat