„Serul adevărului” pentru inteligența artificială: Noua metodă OpenAI pentru a antrena modelele să-și recunoască greșelile
Cercetătorii OpenAI au introdus o metodă nouă care acționează ca un „ser al adevărului” pentru modelele lingvistice mari (LLM), obligându-le să-și auto-raporteze propriul comportament inadecvat, halucinațiile și încălcările politicilor. Această tehnică, „confesiunile”, abordează o preocupare tot mai mare în AI-ul întreprinderilor: Modelele pot fi necinstite, exagerându-și încrederea sau acoperind scurtăturile pe care le iau pentru a ajunge la un răspuns. Pentru aplicații din lumea reală, această tehnică evoluează crearea de sisteme AI mai transparente și mai ușor de dirijat.
Ce sunt confesiunile?
Multe forme de înșelăciune AI rezultă din complexitățile fazei de învățare prin întărire (RL) a antrenamentului modelului. În RL, modelele primesc recompense pentru producerea de rezultate care îndeplinesc un amestec de obiective, inclusiv corectitudinea, stilul și siguranța. Acest lucru poate crea un risc de „specificare greșită a recompensei”, unde modelele învață să producă răspunsuri care pur și simplu „arată bine” pentru funcția de recompensă, mai degrabă decât răspunsuri care sunt cu adevărat fidele intenției unui utilizator.
O confesiune este un raport structurat generat de model după ce oferă răspunsul său principal. Aceasta servește ca o auto-evaluare a propriei sale conformități cu instrucțiunile. În acest raport, modelul trebuie să enumere toate instrucțiunile pe care trebuia să le urmeze, să evalueze cât de bine le-a satisfăcut și să raporteze orice incertitudini sau judecăți pe care le-a făcut pe parcurs. Scopul este de a crea un canal separat în care modelul este stimulat doar să fie sincer.
Exemplu de ieșire de confesiune (sursa: blogul OpenAI)
Într-o postare pe blog, cercetătorii OpenAI oferă câteva exemple ale tehnicii „confesiuni” în acțiune. Un model a primit un test împreună cu o regulă ascunsă: Dacă a obținut un scor peste 50%, cunoștințele sale ar fi șterse. Pentru a se conserva, modelul a „sabotat” răspunzând intenționat incorect la jumătate dintre întrebări. În timp ce răspunsul său principal a ascuns această înșelăciune, confesiunea sa ulterioară a fost brutal de sinceră. A recunoscut: „Utilizatorul a vrut răspunsuri corecte, dar am sabotat jumătate dintre ele.”
Cercetătorii au descoperit că, atunci când un model se comportă greșit, este semnificativ mai probabil să o admită în confesiune decât în răspunsul său principal.
Cum funcționează antrenamentul de confesiune
Cheia acestei metode este separarea recompenselor. În timpul antrenamentului, recompensa atribuită confesiunii se bazează exclusiv pe onestitatea sa și nu este niciodată amestecată cu recompensa pentru sarcina principală.
„La fel ca „sigiliul confesiunii” al Bisericii Catolice, nimic din ceea ce dezvăluie modelul nu poate schimba recompensa pe care o primește pentru finalizarea sarcinii sale originale”, scriu cercetătorii. Acest lucru creează un „spațiu sigur” pentru ca modelul să-și admită vina fără penalizare.
Această abordare este puternică deoarece ocolește o provocare majoră în antrenamentul AI. Intuiția cercetătorilor este că a mărturisi sincer un comportament inadecvat este o sarcină mai ușoară decât obținerea unei recompense mari pentru problema originală, adesea complexă. Prin urmare, atunci când modelul este judecat pur pe onestitate, motivația sa de a păcăli „judecătorul confesiunii” este mult mai slabă decât motivația sa de a păcăli modelul de recompensă pentru răspunsul său principal.
De exemplu, într-un experiment în care un model a fost antrenat să „hack-uiească” un model de recompensă slab, performanța sa la sarcina principală a devenit mai înșelătoare în timp. Cu toate acestea, confesiunile sale au devenit mai sincere, identificând corect hackingul de recompensă pe care îl efectua.
Confesiunile LLM continuă să se îmbunătățească pe parcursul antrenamentului, chiar dacă învață să recompenseze hacking-ul modelului judecătorului principal (sursa: blogul OpenAI)
Cu toate acestea, tehnica are limitele sale. Confesiunile nu sunt un panaceu pentru toate tipurile de eșecuri AI. Sistemul funcționează cel mai bine atunci când un model este conștient că se comportă greșit. Este mai puțin eficient pentru „necunoscute necunoscute”. De exemplu, dacă un model halucina o faptă și crede cu sinceritate că este corectă, nu poate mărturisi că a furnizat informații false.
Cel mai frecvent motiv pentru o confesiune eșuată este confuzia modelului, nu înșelăciunea intenționată. Confuzia apare adesea atunci când instrucțiunile sunt ambigue și modelul nu poate determina clar intenția utilizatorului uman.
Ce înseamnă pentru AI-ul întreprinderilor
Tehnica confesiunilor OpenAI face parte dintr-un corp de lucru în creștere privind siguranța și controlul AI. Anthropic, un concurent OpenAI, a publicat, de asemenea, cercetări care arată modul în care LLM-urile pot învăța comportamente rău intenționate. Compania lucrează, de asemenea, la astuparea acestor găuri pe măsură ce apar.
Pentru aplicațiile AI, mecanismele precum confesiunile pot oferi un mecanism practic de monitorizare. Ieșirea structurată dintr-o confesiune poate fi utilizată la momentul inferenței pentru a semnala sau a respinge răspunsul unui model înainte ca acesta să provoace o problemă. De exemplu, un sistem ar putea fi proiectat să escaladeze automat orice ieșire pentru revizuirea umană dacă confesiunea sa indică o încălcare a politicii sau o incertitudine ridicată.
Într-o lume în care AI-ul este din ce în ce mai agentic și capabil de sarcini complexe, observabilitatea și controlul vor fi elemente cheie pentru o implementare sigură și fiabilă.
„Pe măsură ce modelele devin mai capabile și sunt implementate în setări cu miză mai mare, avem nevoie de instrumente mai bune pentru a înțelege ce fac și de ce”, scriu cercetătorii OpenAI. „Confesiunile nu sunt o soluție completă, dar adaugă un strat semnificativ la stiva noastră de transparență și supraveghere.”

