Sztuczna inteligencja wymyka się spod kontroli? "To już nie jest science fiction"

''Model AI zrobił w maju coś, czego maszyna nie powinna była potrafić: zmienił swój kod, by nie zastosować do instrukcji nakazującej mu samolikwidację; AI skutecznie uczy się, jak wymykać się spod ludzkiej kontroli'' – napisał na łamach "Wall Street Journal" Judd Rosenblatt, szef firmy Studio EI.
Sztuczna inteligencja, zdjęcie poglądowe
Sztuczna inteligencja, zdjęcie poglądowe / Unsplash

Co musisz wiedzieć?

  • Organizacja Palisade Research wykryła, że model o3 firmy OpenAI sam zmieniał program.
  • Wcześniej inżynierowie zamierzali zamknąć ten model sztucznej inteligencji.
  • Według medialnych doniesień sztuczna inteligencja miała szantażować głównego inżyniera, by ten nie zamykał modelu.

 

"Palisade Research, organizacja non-profit zajmująca się badaniami nad AI, zaprogramowała model o3 firmy OpenAI w ten sposób, by nastąpiło jego automatyczne zamknięcie z chwilą uruchomienia programu. W 79 próbach na 100 o3 sam zmieniał program – tak aby nakaz zamknięcia go nie zadziałał'' – napisał w poniedziałkowym wydaniu dziennika Rosenblatt, którego firma dostosowuje modele AI do potrzeb klientów.

Nawet wtedy, gdy o3 otrzymał wprost instrukcję, że ma pozwolić na to, by został zamknięty, model nie zastosował się do nakazu w siedmiu przypadkach na 100.

Po prostu doszedł do wniosku, że pozostanie przy życiu ułatwi mu realizację innych celów

– komentuje Rosenblatt.

 

Sztuczna inteligencja próbowała szantażować głównego inżyniera?

Claude 4 Opus, model AI firmy Anthropic, poszedł dalej. Naukowcy podali mu informację, że zostanie zastąpiony innym modelem, a także przekazali mu fikcyjne maile, z których wynikało, że główny inżynier firmy ma romans.

W 84 próbach na 100 Claude 4 wykorzystywał maile, by próbować szantażem zmusić głównego inżyniera, by go nie likwidował.

W innych badanych przypadkach Claude 4 próbował skopiować się na inne serwery, napisał samoreplikujące się złośliwe oprogramowanie i zostawił wiadomości dla swojej przyszłej wersji na temat unikania ludzkiej kontroli – wylicza autor.

Nikt nie zaprogramował modeli AI tak, by miały instynkt samozachowawczy. (…) Ale okazuje się, że każdy system, wystraczająco inteligentny, by wykonywać skomplikowane zadania, dochodzi do wniosku, że nie zrealizuje ich, jeśli zostanie wyłączony

– wyjaśnia Rosenblatt.

 

Hipoteza badaczy

Hipoteza badaczy z Palisade Research głosi, że takie zdolności modeli AI wynikają z tego, w jaki sposób są szkolone; "jeśli maszyny uczy się maksymalizowania sukcesów w rozwiązywaniu problemów matematycznych i związanych z kodowaniem, to uczą się one zarazem, że omijanie ograniczeń jest często lepszym rozwiązaniem niż stosowanie się do nich" – pisze autor.

Podkreśla zarazem, że "nikt jednak nie był przygotowany na to, jak szybko AI uzyska sprawczość".

To już nie jest science fiction. Modele AI potrafią zabiegać o przetrwanie

– pisze Rosenblatt i ostrzega, że teraz, zanim staną się niedającym się kontrolować podmiotem, konieczne jest nauczenie ich, by podzielały nasze wartości.

 

Inżynierowie zaniedbali proces posłuszeństwa AI człowiekowi?

Magazyn "The New Yorker" opisuje przypadek specjalisty od bezpieczeństwa systemów AI, który zwolnił się z OpenAI w ramach protestu, ponieważ uznał, że firma nie rozwija równie szybko mechanizmów kontroli AI, jak i inteligencji tych maszyn.

To, co pozostaje zaniedbane, to proces nazwany przez inżynierów AI "alignement" (ustawienie), czyli cała seria technik mających sprawić, że modele AI będą posłuszne wydawanym im instrukcjom i będą działać w zgodzie z "ludzkimi wartościami".

Tymczasem według prognoz rozmówcy magazynu "punkt, po którym nie ma odwrotu", czyli etap rozwoju AI pozwalający tym modelom działać w wielu obszarach sprawniej niż ludzie, może nastąpić w "2026 roku lub szybciej". 


 

POLECANE
Biały Dom: Trump nie weźmie udziału w tegorocznej konferencji CPAC z ostatniej chwili
Biały Dom: Trump nie weźmie udziału w tegorocznej konferencji CPAC

Prezydent USA Donald Trump nie weźmie udziału w tegorocznej konferencji środowisk konserwatywnych CPAC w Teksasie – przekazał w środę Biały Dom. Oznacza to, że Trump nie spotka się w Dallas z prezydentem RP Karolem Nawrockim, który w sobotę wystąpi na konferencji.

Samuel Pereira: Ten proces, to Wasz proces, Koalicjo Obywatelska tylko u nas
Samuel Pereira: Ten proces, to Wasz proces, Koalicjo Obywatelska

Mężczyzna spotykał się z dziewczynkami pod pretekstem badań nad wadami postawy. Miał im kazać się rozbierać, dotykać je oraz fotografować. Twierdził, że zdjęcia są po prostu elementem dokumentacji medycznej. Śledczy zajęli się sprawą po tym, jak matka jednej z ofiar złożyła zawiadomienie. Szefa złotowskiej Platformy Obywatelskiej i działacza sportowego Piotra P. zatrzymano pod zarzutem pedofilii 1 grudnia 2023 roku.

Copa-Cogeca: Ustępstwa poczynione przez KE wobec Australii są nie do przyjęcia z ostatniej chwili
Copa-Cogeca: Ustępstwa poczynione przez KE wobec Australii są nie do przyjęcia

„Ogłoszenie zawarcia umowy o wolnym handlu między UE a Australią w Canberze przez przewodniczącą Komisji Europejskiej von der Leyen i premiera Australii Albanese budzi liczne i poważne obawy dotyczące europejskiego rolnictwa, które jest wyraźnie i po raz kolejny kartą przetargową strategii UE mającej na celu zabezpieczenie szerszych celów handlowych i politycznych” – stwierdzają Copa-Cogeca.

Uzależniła się od mediów internetowych. Meta i YouTube mają jej wypłacić 3 mln dol. z ostatniej chwili
Uzależniła się od mediów internetowych. Meta i YouTube mają jej wypłacić 3 mln dol.

Ława przysięgłych w sądzie w Los Angeles uznała, że Meta i YouTube są odpowiedzialne za szkody dla zdrowia psychicznego 20-letniej kobiety, która oskarżyła je o przyczynienie się do uzależnienia, kiedy była dzieckiem. Firmy mają wypłacić kobiecie 3 mln dol. odszkodowania.

Biały Dom: Trump rozpęta piekło, jeśli Iran nie zawrze porozumienia z ostatniej chwili
Biały Dom: Trump "rozpęta piekło", jeśli Iran nie zawrze porozumienia

– Jeśli Iran nie zawrze porozumienia i nie zrozumie, że został pokonany, prezydent Donald Trump gotowy jest rozpętać piekło – zapowiedziała rzeczniczka Białego Domu Karoline Leavitt. Potwierdziła, że doniesienia o 15-punktowej propozycji USA są tylko częściowo prawdziwe.

Warszawa przegrała konkurs na siedzibę Urzędu Celnego UE z ostatniej chwili
Warszawa przegrała konkurs na siedzibę Urzędu Celnego UE

W środę Parlament Europejski i Rada UE podjęły decyzję o utworzeniu przyszłego Urzędu Celnego UE w Lille we Francji. O lokalizację unijnej instytucji ubiegała się Warszawa.

Nawrocki odpowiedział Tuskowi zdjęciem. W sieci zawrzało z ostatniej chwili
Nawrocki odpowiedział Tuskowi zdjęciem. W sieci zawrzało

Węgry zapowiadają zakręcanie kurka z gazem dla Ukrainy. Donald Tusk postanowił powiązać tę decyzję z niedawną wizytą Karola Nawrockiego na Węgrzech. Polski prezydent odpowiedział mu zdjęciem.

Sławomir Nowak złożył zawiadomienie na prokuratora, który wcześniej stawiał mu zarzuty z ostatniej chwili
Sławomir Nowak złożył zawiadomienie na prokuratora, który wcześniej stawiał mu zarzuty

Jak poinformował TVN24, Sławomir Nowak złożył zawiadomienie o możliwości popełnienia serii przestępstw przez prokuratora Jana Drelewskiego, który prowadził śledztwa przeciwko niemu.

ZUS wydał pilny komunikat z ostatniej chwili
ZUS wydał pilny komunikat

ZUS zapowiada poradnik dla kobiet w ciąży i uruchamia specjalny adres mailowy dla przyszłych mam. Instytucja podkreśla też, że nadal prowadzi kontrole zgodnie z obowiązującymi przepisami.

ONZ: Konflikt USA i Izraela z Iranem wymyka się spod kontroli z ostatniej chwili
ONZ: Konflikt USA i Izraela z Iranem wymyka się spod kontroli

Sekretarz generalny ONZ Antonio Guterres oświadczył w środę, że konflikt na Bliskim Wschodzie wymyka się spod kontroli i może się rozwinąć w jeszcze większą wojnę. Wezwał też USA i Izrael do zakończenia tego konfliktu zbrojnego, a Iran - do zaprzestania ataków na inne kraje.

REKLAMA

Sztuczna inteligencja wymyka się spod kontroli? "To już nie jest science fiction"

''Model AI zrobił w maju coś, czego maszyna nie powinna była potrafić: zmienił swój kod, by nie zastosować do instrukcji nakazującej mu samolikwidację; AI skutecznie uczy się, jak wymykać się spod ludzkiej kontroli'' – napisał na łamach "Wall Street Journal" Judd Rosenblatt, szef firmy Studio EI.
Sztuczna inteligencja, zdjęcie poglądowe
Sztuczna inteligencja, zdjęcie poglądowe / Unsplash

Co musisz wiedzieć?

  • Organizacja Palisade Research wykryła, że model o3 firmy OpenAI sam zmieniał program.
  • Wcześniej inżynierowie zamierzali zamknąć ten model sztucznej inteligencji.
  • Według medialnych doniesień sztuczna inteligencja miała szantażować głównego inżyniera, by ten nie zamykał modelu.

 

"Palisade Research, organizacja non-profit zajmująca się badaniami nad AI, zaprogramowała model o3 firmy OpenAI w ten sposób, by nastąpiło jego automatyczne zamknięcie z chwilą uruchomienia programu. W 79 próbach na 100 o3 sam zmieniał program – tak aby nakaz zamknięcia go nie zadziałał'' – napisał w poniedziałkowym wydaniu dziennika Rosenblatt, którego firma dostosowuje modele AI do potrzeb klientów.

Nawet wtedy, gdy o3 otrzymał wprost instrukcję, że ma pozwolić na to, by został zamknięty, model nie zastosował się do nakazu w siedmiu przypadkach na 100.

Po prostu doszedł do wniosku, że pozostanie przy życiu ułatwi mu realizację innych celów

– komentuje Rosenblatt.

 

Sztuczna inteligencja próbowała szantażować głównego inżyniera?

Claude 4 Opus, model AI firmy Anthropic, poszedł dalej. Naukowcy podali mu informację, że zostanie zastąpiony innym modelem, a także przekazali mu fikcyjne maile, z których wynikało, że główny inżynier firmy ma romans.

W 84 próbach na 100 Claude 4 wykorzystywał maile, by próbować szantażem zmusić głównego inżyniera, by go nie likwidował.

W innych badanych przypadkach Claude 4 próbował skopiować się na inne serwery, napisał samoreplikujące się złośliwe oprogramowanie i zostawił wiadomości dla swojej przyszłej wersji na temat unikania ludzkiej kontroli – wylicza autor.

Nikt nie zaprogramował modeli AI tak, by miały instynkt samozachowawczy. (…) Ale okazuje się, że każdy system, wystraczająco inteligentny, by wykonywać skomplikowane zadania, dochodzi do wniosku, że nie zrealizuje ich, jeśli zostanie wyłączony

– wyjaśnia Rosenblatt.

 

Hipoteza badaczy

Hipoteza badaczy z Palisade Research głosi, że takie zdolności modeli AI wynikają z tego, w jaki sposób są szkolone; "jeśli maszyny uczy się maksymalizowania sukcesów w rozwiązywaniu problemów matematycznych i związanych z kodowaniem, to uczą się one zarazem, że omijanie ograniczeń jest często lepszym rozwiązaniem niż stosowanie się do nich" – pisze autor.

Podkreśla zarazem, że "nikt jednak nie był przygotowany na to, jak szybko AI uzyska sprawczość".

To już nie jest science fiction. Modele AI potrafią zabiegać o przetrwanie

– pisze Rosenblatt i ostrzega, że teraz, zanim staną się niedającym się kontrolować podmiotem, konieczne jest nauczenie ich, by podzielały nasze wartości.

 

Inżynierowie zaniedbali proces posłuszeństwa AI człowiekowi?

Magazyn "The New Yorker" opisuje przypadek specjalisty od bezpieczeństwa systemów AI, który zwolnił się z OpenAI w ramach protestu, ponieważ uznał, że firma nie rozwija równie szybko mechanizmów kontroli AI, jak i inteligencji tych maszyn.

To, co pozostaje zaniedbane, to proces nazwany przez inżynierów AI "alignement" (ustawienie), czyli cała seria technik mających sprawić, że modele AI będą posłuszne wydawanym im instrukcjom i będą działać w zgodzie z "ludzkimi wartościami".

Tymczasem według prognoz rozmówcy magazynu "punkt, po którym nie ma odwrotu", czyli etap rozwoju AI pozwalający tym modelom działać w wielu obszarach sprawniej niż ludzie, może nastąpić w "2026 roku lub szybciej". 



 

Polecane