Anthropic Reverses Policy That Could Have "Sabotaged" AI Researchers Using Claude

Compania Anthropic face pași înapoi în privința unei politici care ar fi limitat în mod discret concurența în utilizarea noului său model AI, Claude Fable 5, pentru dezvoltarea altor modele AI. Compania și-a schimbat cursul după ce măsura a stârnit reacții negative semnificative din partea comunității de cercetare AI.

„Modificăm mecanismele de siguranță ale Fable 5 pentru dezvoltarea modelelor AI avansate, pentru a le face vizibile”, a declarat Anthropic într-un comunicat pentru WIRED. „Am făcut o alegere greșită și ne cerem scuze pentru că nu am echilibrat corect situația.”

Anthropic a lansat recent Claude Fable 5, o versiune a celui mai recent model AI, dotată cu măsuri suplimentare de siguranță menite să prevină utilizarea abuzivă. Unele dintre aceste mecanisme erau de așteptat: compania a anunțat că va redirecționa utilizatorii care pun întrebări despre securitate cibernetică, biologie sau chimie către un model AI mai puțin capabil, pentru a reduce șansele ca cineva să folosească AI-ul avansat pentru a desfășura un atac cibernetic sau pentru a construi o armă biologică. Însă, pentru cercetătorii care încercau să folosească Claude Fable 5 pentru dezvoltarea AI de ultimă generație, Anthropic a schițat o abordare diferită. Firma ar fi degradat în mod deliberat performanța modelului, în moduri care erau invizibile pentru utilizator. Această mișcare ar fi sabotat efectiv cercetătorii care încercau să folosească Claude pentru a antrena modele AI concurente, lucru pe care Anthropic îl interzice explicit în termenii săi de serviciu.

Anthropic afirmă acum că își schimbă cursul și că măsurile de siguranță ale Claude Fable 5 pentru dezvoltarea AI vor fi vizibile pentru utilizatori. Dacă compania suspectează că un utilizator încearcă să folosească Claude pentru a construi un AI foarte capabil, îl va alerta că fie refuză cererea, fie redirecționează utilizatorul către un model mai puțin capabil. Anthropic a inversat politica după ce a primit critici vehemente din partea comunității de cercetare AI. Compania luase deja măsuri pentru a limita concurența în utilizarea Claude pentru construirea de modele AI închise și open-source, dar criticii spun că degradarea discretă a performanței modelului pentru anumiți utilizatori a fost prea departe.

Agentul de codificare al Claude a devenit un instrument preferat în rândul dezvoltatorilor, inclusiv al celor care lucrează la proiecte de cercetare AI open-source, iar cercetătorii spun pentru WIRED că ultima politică a companiei ar fi putut duce la un viitor îngrijorător în care doar un număr restrâns de laboratoare AI de top ar fi putut efectua cercetare AI avansată.

Dean Ball, un cercetător principal la Foundation for American Innovation și fost consilier al Casei Albe pentru AI, a scris pe X că „degradarea performanței în cercetarea ML *fără a informa utilizatorul* este șocant de ostilă și o imagine proastă”. El a continuat într-o altă postare că politica de „sabotaj secret” subminează poziția generală a Anthropic, deoarece limitează colaborarea cercetătorilor AI pe tema siguranței AI. „Părea că Anthropic le spunea publicului: „Nu avem încredere în nimeni altcineva să facă cercetare AI. Noi suntem singurii care trebuie să facem cercetare AI”, spune Will Brown, cercetător șef la startup-ul AI open-source Prime Intellect. „Pare un pic că ridică scara după ei.” Brown a adăugat că politica i-ar fi lăsat, de asemenea, pe dezvoltatori în necunoștință de cauză cu privire la dacă încălcau regulile Anthropic, deoarece compania nu i-ar fi alertat atunci când mecanismele sale de siguranță erau activate. El a subliniat că restricțiile ar fi putut avea consecințe extinse. De exemplu, a indicat ecosistemul în creștere al firmelor terțe de evaluare care testează modelele avansate pentru siguranță, performanță și fiabilitate - muncă ce ar fi putut fi împiedicată dacă Anthropic și-ar fi degradat în secret modelul.

Anthropic a declarat că a implementat aceste măsuri deoarece Claude a devenit tot mai eficient în accelerarea cercetării AI. Într-o postare recentă pe blog, compania a exprimat îngrijorarea că AI ar putea să-și îmbunătățească capabilitățile mai repede decât poate societatea să se adapteze la ele. Anthropic a susținut că ar fi „benefic pentru lume să existe opțiunea de a încetini sau de a opri temporar dezvoltarea AI de ultimă generație pentru a permite structurilor sociale și cercetării de aliniere să țină pasul”. „Aceste măsuri de siguranță împiedică adversarii străini să folosească cele mai capabile modele ale noastre în moduri care prezintă riscuri grave de siguranță. SUA și aliații săi dețin un avantaj în ceea ce privește cipurile de ultimă generație și software-ul foarte optimizat care le rulează la potențial maxim”, a declarat compania într-un comunicat către WIRED. „Aceste măsuri de siguranță asigură că Claude nu este folosit pentru a eroda acest avantaj – prin optimizarea cipurilor dezvoltate de acei adversari, de exemplu […] În decizia de a le face vizibile sau invizibile, ne-am confruntat cu o alegere. Un mecanism de siguranță ascuns este mai greu de investigat și de ocolit. Acest lucru înseamnă că mecanismele de siguranță pot fi direcționate mult mai restrâns.”

Anthropic susține că, deoarece acest mecanism de siguranță în ceea ce privește dezvoltarea AI este acum vizibil, trebuie să extindă plasa, ceea ce înseamnă că mai multe solicitări benigne ar putea declanșa mecanismele sale de siguranță. Compania afirmă că lucrează pentru a-și face clasificatorii mai preciși cât mai curând posibil.

Anthropic Revine asupra Politicii care ar fi Putut „Sabota” Cercetătorii AI Folosind Claude

Tech & AI

SpaceX accesează piața de obligațiuni pentru 20 de miliarde de dolari în vederea expansiunii AI

Menlo Ventures ridică 3 miliarde de dolari, mizând pe succesul Anthropic

Meta lansează noi ochelari inteligenți AI mai ieftini, în colaborare cu EssilorLuxottica

Dialog susține că a fost victima unui atac cibernetic, dar o configurare greșită a expus datele membrilor

Oferte tabletă Prime Day: Peste 25 de reduceri de neratat chiar acum