Sztuczna inteligencja wymyka się spod kontroli? "To już nie jest science fiction"

''Model AI zrobił w maju coś, czego maszyna nie powinna była potrafić: zmienił swój kod, by nie zastosować do instrukcji nakazującej mu samolikwidację; AI skutecznie uczy się, jak wymykać się spod ludzkiej kontroli'' – napisał na łamach "Wall Street Journal" Judd Rosenblatt, szef firmy Studio EI.
Sztuczna inteligencja, zdjęcie poglądowe Sztuczna inteligencja wymyka się spod kontroli?
Sztuczna inteligencja, zdjęcie poglądowe / Unsplash

Co musisz wiedzieć?

  • Organizacja Palisade Research wykryła, że model o3 firmy OpenAI sam zmieniał program.
  • Wcześniej inżynierowie zamierzali zamknąć ten model sztucznej inteligencji.
  • Według medialnych doniesień sztuczna inteligencja miała szantażować głównego inżyniera, by ten nie zamykał modelu.

 

"Palisade Research, organizacja non-profit zajmująca się badaniami nad AI, zaprogramowała model o3 firmy OpenAI w ten sposób, by nastąpiło jego automatyczne zamknięcie z chwilą uruchomienia programu. W 79 próbach na 100 o3 sam zmieniał program – tak aby nakaz zamknięcia go nie zadziałał'' – napisał w poniedziałkowym wydaniu dziennika Rosenblatt, którego firma dostosowuje modele AI do potrzeb klientów.

Nawet wtedy, gdy o3 otrzymał wprost instrukcję, że ma pozwolić na to, by został zamknięty, model nie zastosował się do nakazu w siedmiu przypadkach na 100.

Po prostu doszedł do wniosku, że pozostanie przy życiu ułatwi mu realizację innych celów

– komentuje Rosenblatt.

 

Sztuczna inteligencja próbowała szantażować głównego inżyniera?

Claude 4 Opus, model AI firmy Anthropic, poszedł dalej. Naukowcy podali mu informację, że zostanie zastąpiony innym modelem, a także przekazali mu fikcyjne maile, z których wynikało, że główny inżynier firmy ma romans.

W 84 próbach na 100 Claude 4 wykorzystywał maile, by próbować szantażem zmusić głównego inżyniera, by go nie likwidował.

W innych badanych przypadkach Claude 4 próbował skopiować się na inne serwery, napisał samoreplikujące się złośliwe oprogramowanie i zostawił wiadomości dla swojej przyszłej wersji na temat unikania ludzkiej kontroli – wylicza autor.

Nikt nie zaprogramował modeli AI tak, by miały instynkt samozachowawczy. (…) Ale okazuje się, że każdy system, wystraczająco inteligentny, by wykonywać skomplikowane zadania, dochodzi do wniosku, że nie zrealizuje ich, jeśli zostanie wyłączony

– wyjaśnia Rosenblatt.

 

Hipoteza badaczy

Hipoteza badaczy z Palisade Research głosi, że takie zdolności modeli AI wynikają z tego, w jaki sposób są szkolone; "jeśli maszyny uczy się maksymalizowania sukcesów w rozwiązywaniu problemów matematycznych i związanych z kodowaniem, to uczą się one zarazem, że omijanie ograniczeń jest często lepszym rozwiązaniem niż stosowanie się do nich" – pisze autor.

Podkreśla zarazem, że "nikt jednak nie był przygotowany na to, jak szybko AI uzyska sprawczość".

To już nie jest science fiction. Modele AI potrafią zabiegać o przetrwanie

– pisze Rosenblatt i ostrzega, że teraz, zanim staną się niedającym się kontrolować podmiotem, konieczne jest nauczenie ich, by podzielały nasze wartości.

 

Inżynierowie zaniedbali proces posłuszeństwa AI człowiekowi?

Magazyn "The New Yorker" opisuje przypadek specjalisty od bezpieczeństwa systemów AI, który zwolnił się z OpenAI w ramach protestu, ponieważ uznał, że firma nie rozwija równie szybko mechanizmów kontroli AI, jak i inteligencji tych maszyn.

To, co pozostaje zaniedbane, to proces nazwany przez inżynierów AI "alignement" (ustawienie), czyli cała seria technik mających sprawić, że modele AI będą posłuszne wydawanym im instrukcjom i będą działać w zgodzie z "ludzkimi wartościami".

Tymczasem według prognoz rozmówcy magazynu "punkt, po którym nie ma odwrotu", czyli etap rozwoju AI pozwalający tym modelom działać w wielu obszarach sprawniej niż ludzie, może nastąpić w "2026 roku lub szybciej". 


 

POLECANE
Przerwa w wojnie? Jest nowa propozycja Zełenskiego i szybka odpowiedź Putina z ostatniej chwili
Przerwa w wojnie? Jest nowa propozycja Zełenskiego i szybka odpowiedź Putina

Wołodymyr Zełenski zaproponował zawieszenie broni do czasu swojego spotkania z Władimirem Putinem. Rosyjski prezydent nie zamierza jednak powstrzymywać ofensywy. Stwierdził, że podobna przerwa zostałaby wykorzystana przez Kijów "do przymusowej mobilizacji, zgromadzenia broni i przygotowania ataków terrorystycznych". 

Alert RCB: nadchodzą gwałtowne burze. Zobacz, które województwa są zagrożone  z ostatniej chwili
Alert RCB: nadchodzą gwałtowne burze. Zobacz, które województwa są zagrożone

Rządowe Centrum Bezpieczeństwa wydało ostrzeżenie przed burzami z bardzo silnym wiatrem i deszczem. Mają one wystąpić zarówno w środę, jaki i w czwartek. Alertem objęto siedem województw.

Polacy nie chcą wprowadzenia euro. Politico: Z Nawrockim to jeszcze mniej realne z ostatniej chwili
Polacy nie chcą wprowadzenia euro. Politico: "Z Nawrockim to jeszcze mniej realne"

Polacy niezmiennie mówią "nie" walucie euro, a prezydent-elekt Karol Nawrocki podkreśla, że będzie stał na straży złotego. Należący do Ringier Axel Springer serwis Politico kręci nosem.

Nowe, szokujące informacje nt. opiekunki Pana Jerzego z ostatniej chwili
Nowe, szokujące informacje nt. opiekunki "Pana Jerzego"

Wg serwisu Niezależna.pl, pani Anna Kanigowska, która udzieliła wywiadu Onetowi jako słynna "opiekunka Pana Jerzego", została skazana za oszustwo i fałszerstwo dokumentów. 

Mocne słowa Zbigniewa Ziobry o Tusku: Tonie w desperacji polityka
Mocne słowa Zbigniewa Ziobry o Tusku: Tonie w desperacji

- Już tonie, ale w desperacji [...] ale jego los jest już przesądzony - powiedział poseł Zbigniew Ziobro, oceniając działania Donalda Tuska ws. wotum zaufania.

Marta Nawrocka zaapelowała do Polaków. Poruszające słowa z ostatniej chwili
Marta Nawrocka zaapelowała do Polaków. Poruszające słowa

Po wieczorze wyborczym 1 czerwca w sieci rozpętała się burza – celem hejtu stała się 7-letnia córka Karola Nawrockiego. Głos w tej sprawie zabrała Marta Nawrocka, przyszła pierwsza dama.

Konfederacja wystawi kandydata na premiera. Pod jednym warunkiem z ostatniej chwili
Konfederacja wystawi kandydata na premiera. Pod jednym warunkiem

Jeżeli będziemy widzieli, że koalicja rządząca się rozsypuje, jesteśmy gotowi poprzeć uchwałę o rozwiązaniu Sejmu - powiedział jeden z liderów Konfederacji, Krzysztof Bosak. Dodał, że gdy pojawi się możliwość kształtowania alternatywnej większości w Sejmie, przedstawią swojego kandydata na premiera.

Lech Wałęsa doradza rządowi Tuska: Jak on nie pozamyka, to jego zamkną Wiadomości
Lech Wałęsa doradza rządowi Tuska: Jak on nie pozamyka, to jego zamkną

W rozmowie z Onetem, były prezydent Lech Wałęsa doradzał rządowi Donalda Tuska co powinien zrobić po wygranej Karola Nawrockiego w wyborach prezydenckich.

Odkrycie broni przy granicy z Ukrainą. Nie należy do polskiej armii z ostatniej chwili
Odkrycie broni przy granicy z Ukrainą. Nie należy do polskiej armii

Służby zabezpieczyły osiem kontenerów z bronią przeciwlotniczą w hangarze aeroklubu w Laszkach (woj. podkarpackie). Sprzęt nie należy do polskiego wojska.

Komunikat dla pasażerów. Nowe połączenia i linie lotnicze w Warszawie z ostatniej chwili
Komunikat dla pasażerów. Nowe połączenia i linie lotnicze w Warszawie

Lotnisko Chopina zyskało nowe połącznie. Linie lotnicze Etihad otworzyły właśnie regularne połączenie między Abu Dhabi a Warszawą. Samoloty tych linii będą latały do Warszawy cztery razy w tygodniu. 

REKLAMA

Sztuczna inteligencja wymyka się spod kontroli? "To już nie jest science fiction"

''Model AI zrobił w maju coś, czego maszyna nie powinna była potrafić: zmienił swój kod, by nie zastosować do instrukcji nakazującej mu samolikwidację; AI skutecznie uczy się, jak wymykać się spod ludzkiej kontroli'' – napisał na łamach "Wall Street Journal" Judd Rosenblatt, szef firmy Studio EI.
Sztuczna inteligencja, zdjęcie poglądowe Sztuczna inteligencja wymyka się spod kontroli?
Sztuczna inteligencja, zdjęcie poglądowe / Unsplash

Co musisz wiedzieć?

  • Organizacja Palisade Research wykryła, że model o3 firmy OpenAI sam zmieniał program.
  • Wcześniej inżynierowie zamierzali zamknąć ten model sztucznej inteligencji.
  • Według medialnych doniesień sztuczna inteligencja miała szantażować głównego inżyniera, by ten nie zamykał modelu.

 

"Palisade Research, organizacja non-profit zajmująca się badaniami nad AI, zaprogramowała model o3 firmy OpenAI w ten sposób, by nastąpiło jego automatyczne zamknięcie z chwilą uruchomienia programu. W 79 próbach na 100 o3 sam zmieniał program – tak aby nakaz zamknięcia go nie zadziałał'' – napisał w poniedziałkowym wydaniu dziennika Rosenblatt, którego firma dostosowuje modele AI do potrzeb klientów.

Nawet wtedy, gdy o3 otrzymał wprost instrukcję, że ma pozwolić na to, by został zamknięty, model nie zastosował się do nakazu w siedmiu przypadkach na 100.

Po prostu doszedł do wniosku, że pozostanie przy życiu ułatwi mu realizację innych celów

– komentuje Rosenblatt.

 

Sztuczna inteligencja próbowała szantażować głównego inżyniera?

Claude 4 Opus, model AI firmy Anthropic, poszedł dalej. Naukowcy podali mu informację, że zostanie zastąpiony innym modelem, a także przekazali mu fikcyjne maile, z których wynikało, że główny inżynier firmy ma romans.

W 84 próbach na 100 Claude 4 wykorzystywał maile, by próbować szantażem zmusić głównego inżyniera, by go nie likwidował.

W innych badanych przypadkach Claude 4 próbował skopiować się na inne serwery, napisał samoreplikujące się złośliwe oprogramowanie i zostawił wiadomości dla swojej przyszłej wersji na temat unikania ludzkiej kontroli – wylicza autor.

Nikt nie zaprogramował modeli AI tak, by miały instynkt samozachowawczy. (…) Ale okazuje się, że każdy system, wystraczająco inteligentny, by wykonywać skomplikowane zadania, dochodzi do wniosku, że nie zrealizuje ich, jeśli zostanie wyłączony

– wyjaśnia Rosenblatt.

 

Hipoteza badaczy

Hipoteza badaczy z Palisade Research głosi, że takie zdolności modeli AI wynikają z tego, w jaki sposób są szkolone; "jeśli maszyny uczy się maksymalizowania sukcesów w rozwiązywaniu problemów matematycznych i związanych z kodowaniem, to uczą się one zarazem, że omijanie ograniczeń jest często lepszym rozwiązaniem niż stosowanie się do nich" – pisze autor.

Podkreśla zarazem, że "nikt jednak nie był przygotowany na to, jak szybko AI uzyska sprawczość".

To już nie jest science fiction. Modele AI potrafią zabiegać o przetrwanie

– pisze Rosenblatt i ostrzega, że teraz, zanim staną się niedającym się kontrolować podmiotem, konieczne jest nauczenie ich, by podzielały nasze wartości.

 

Inżynierowie zaniedbali proces posłuszeństwa AI człowiekowi?

Magazyn "The New Yorker" opisuje przypadek specjalisty od bezpieczeństwa systemów AI, który zwolnił się z OpenAI w ramach protestu, ponieważ uznał, że firma nie rozwija równie szybko mechanizmów kontroli AI, jak i inteligencji tych maszyn.

To, co pozostaje zaniedbane, to proces nazwany przez inżynierów AI "alignement" (ustawienie), czyli cała seria technik mających sprawić, że modele AI będą posłuszne wydawanym im instrukcjom i będą działać w zgodzie z "ludzkimi wartościami".

Tymczasem według prognoz rozmówcy magazynu "punkt, po którym nie ma odwrotu", czyli etap rozwoju AI pozwalający tym modelom działać w wielu obszarach sprawniej niż ludzie, może nastąpić w "2026 roku lub szybciej". 



 

Polecane
Emerytury
Stażowe