Agentul AI Creat Să Nu Devină „Rogue”
Noul proiect open source IronCurtain utilizează o metodă unică pentru a securiza și limita agenții asistenți AI înainte ca aceștia să vă dea viața digitală peste cap.
Agenții AI precum OpenClaw au explodat recent în popularitate tocmai pentru că pot prelua frâiele vieții tale digitale. Fie că dorești un sumar de știri personalizat de dimineață, un proxy care să se certe cu serviciul clienți al companiei tale de cablu sau un auditor de liste de sarcini care va face unele sarcini pentru tine și te va îmboldi să le rezolvi pe restul, asistenții agentici sunt construiți pentru a accesa conturile tale digitale și a executa comenzile tale. Acest lucru este util, dar a provocat și mult haos. Roboții elimină în masă e-mailuri pe care au fost instruiți să le păstreze, scriu articole defăimătoare din cauza unor afronturi percepute și lansează atacuri de phishing împotriva proprietarilor lor.
Urmărind pandemoniul desfășurându-se în ultimele săptămâni, inginerul de securitate și cercetătorul Niels Provos a decis să încerce ceva nou. Astăzi, el lansează un asistent AI securizat, open source, numit IronCurtain, conceput pentru a adăuga un strat critic de control. În loc ca agentul să interacționeze direct cu sistemele și conturile utilizatorului, acesta rulează într-o mașină virtuală izolată. Iar capacitatea sa de a întreprinde orice acțiune este mediată de o politică – ai putea chiar să te gândești la ea ca la o constituție – pe care proprietarul o scrie pentru a guverna sistemul.
În mod crucial, IronCurtain este, de asemenea, conceput pentru a primi aceste politici generale în limba engleză simplă și apoi le rulează printr-un proces în mai mulți pași care utilizează un model lingvistic mare (LLM) pentru a converti limbajul natural într-o politică de securitate aplicabilă.
„Serviciile precum OpenClaw sunt la apogeu chiar acum, dar speranța mea este că există o oportunitate de a spune: „Ei bine, probabil că nu așa vrem să facem”, spune Provos. „În schimb, hai să dezvoltăm ceva care să-ți ofere totuși o utilitate foarte mare, dar care să nu intre pe aceste căi complet neexplorate, uneori distructive.”
Capacitatea IronCurtain de a lua declarații intuitive, simple și de a le transforma în linii roșii executorii, deterministe – sau previzibile – este vitală, spune Provos, deoarece LLM-urile sunt faimos „stochastic” și probabilistice. Cu alte cuvinte, nu generează neapărat întotdeauna același conținut sau nu oferă aceleași informații ca răspuns la aceeași solicitare. Acest lucru creează provocări pentru mecanismele de protecție AI, deoarece sistemele AI pot evolua în timp, astfel încât să revizuiască modul în care interpretează un mecanism de control sau constrângere, ceea ce poate duce la activitate necontrolată.
O politică IronCurtain, spune Provos, ar putea fi la fel de simplă ca: „Agentul poate citi tot e-mailul meu. Poate trimite e-mailuri persoanelor din contactele mele fără să mă întrebe. Pentru oricine altcineva, întreabă-mă mai întâi. Nu șterge niciodată nimic permanent.”
IronCurtain preia aceste instrucțiuni, le transformă într-o politică aplicabilă și apoi mediază între agentul asistent din mașina virtuală și ceea ce este cunoscut sub numele de serverul de protocol de context model care oferă LLM-urilor acces la date și alte servicii digitale pentru a efectua sarcini. Capacitatea de a constrânge un agent în acest fel adaugă o componentă importantă de control al accesului pe care platformele web, cum ar fi furnizorii de e-mail, nu o oferă în prezent, deoarece nu au fost construite pentru scenariul în care atât un proprietar uman, cât și roboții agenți AI folosesc un singur cont.
Provos menționează că IronCurtain este conceput pentru a rafina și îmbunătăți „constituția” fiecărui utilizator în timp, pe măsură ce sistemul întâlnește cazuri marginale și solicită contribuția umană cu privire la modul de a proceda. Sistemul, care este independent de model și poate fi utilizat cu orice LLM, este, de asemenea, conceput pentru a menține un jurnal de audit al tuturor deciziilor de politică în timp.
IronCurtain este un prototip de cercetare, nu un produs de consum, iar Provos speră că oamenii vor contribui la proiect pentru a-l explora și a-l ajuta să evolueze.
Dino Dai Zovi, un cercetător de securitate cibernetică bine-cunoscut care a experimentat cu versiunile timpurii ale IronCurtain, spune că abordarea conceptuală pe care o are proiectul se aliniază cu propria sa intuiție cu privire la modul în care AI agentică trebuie constrânsă.
„Ceea ce au făcut mulți dintre agenți până acum este că au adăugat sisteme de permisiuni care, practic, pun toată povara pe utilizator să spună „da, permite asta”, „da, permite asta”, spune Dai Zovi. „Majoritatea utilizatorilor vor începe să se deconecteze și, în cele din urmă, vor spune pur și simplu „da, da, da”. Și apoi, după un timp, ar putea sări periculos peste toate permisiunile și pur și simplu să acorde autonomie deplină. Cu ceva de genul IronCurtain, capabilitățile – cum ar fi, să spunem, ștergerea fișierelor – pot fi de fapt în afara razei de acțiune a LLM, unde agentul nu poate face nimic, indiferent de ce.”
Dai Zovi susține că aceste tipuri de constrângeri alb-negru, care inițial pot părea excesiv de rigide sau pur și simplu enervante pentru unii, sunt de fapt necesare pentru a da în cele din urmă AI agentică mai multă libertate de acțiune.
„Dacă vrem mai multă viteză și mai multă autonomie, avem nevoie de structura de susținere”, spune Dai Zovi. „Pui un motor de rachetă în interiorul unei rachete reale, astfel încât să aibă stabilitatea de a ajunge unde vrei să ajungă. Aș putea să-mi pun un motor cu reacție în spate într-un rucsac și aș muri.”

