OpenAI je razvio novi sistem za nadgledanje svojih najnovijih AI modela, o3 i o4-mini. Ovaj sistem je dizajniran da prepozna i blokira upite koji se odnose na biološke i hemijske pretnje. Cilj je da se spreči da modeli daju savete koji bi mogli pomoći u izvođenju opasnih napada.
Novi modeli – veće mogućnosti, ali i veći rizici
Modeli o3 i o4-mini predstavljaju značajan napredak u odnosu na prethodne verzije. Ipak, upravo ta poboljšanja donose i veći rizik u pogrešnim rukama. Interna testiranja pokazala su da model o3 ima bolju sposobnost odgovaranja na pitanja vezana za izradu određenih bioloških pretnji.
Sistem za bezbednosno rezonovanje
Zbog toga je OpenAI razvio novi sistem koji opisuje kao “monitor za rezonovanje sa fokusom na bezbednost”. Ovaj sistem je posebno treniran da razume politiku sadržaja kompanije. Radi kao dodatni sloj iznad modela o3 i o4-mini.
Zadatak monitora je da prepozna rizične upite i spreči modele da odgovaraju na takva pitanja. To se odnosi pre svega na teme iz oblasti biologije i hemije koje mogu predstavljati pretnju.
Testiranje i efikasnost
OpenAI je angažovao tim stručnjaka koji su proveli oko 1.000 sati označavajući opasne razgovore s modelima. Tokom testiranja, novi sistem je uspešno blokirao 98,7% rizičnih upita.
Međutim, kompanija priznaje da testiranje nije uključivalo pokušaje korisnika da zaobiđu sistem menjajući upite. Zato ljudski nadzor i dalje ostaje važan deo zaštite.
Oprez i dalje postoji
Modeli o3 i o4-mini ne prelaze granicu koju OpenAI definiše kao “visok rizik”. Ipak, pokazali su se efikasnijim od starijih verzija, poput o1 i GPT-4, kada je reč o pitanjima vezanim za biološko oružje.
OpenAI u svom ažuriranom okviru za pripravnost naglašava da pomno prati sve načine na koje bi modeli mogli biti zloupotrebljeni.
Automatizovana zaštita postaje standard
Kompanija sve više koristi automatizovane sisteme kako bi ublažila rizike. Na primer, kod modela GPT-4o koristi se sličan sistem rezonovanja da bi se sprečila izrada neprimerenih vizualnih sadržaja.
Istraživači i dalje oprezni
Ipak, neki stručnjaci smatraju da bezbednost nije dovoljno visoko na listi prioriteta. Kompanija Metr, koja je testirala model o3, navodi da nije imala dovoljno vremena za procenu modela u kontekstu obmanjujućeg ponašanja.
Takođe, OpenAI nije objavio bezbednosni izveštaj za GPT-4.1 model, koji je lansiran ranije ove nedelje.


