Singurul lucru care stă între umanitate și apocalipsa AI este... Claude?
Anthropic este prinsă într-un paradox: printre primele companii de inteligență artificială, este cea mai obsedată de siguranță și conduce plutonul în cercetarea modului în care modelele pot da greș. Dar, deși problemele de siguranță pe care le-a identificat sunt departe de a fi rezolvate, Anthropic împinge la fel de agresiv ca rivalii săi către următorul nivel, potențial mai periculos, al inteligenței artificiale. Misiunea sa principală este să găsească o modalitate de a rezolva această contradicție.
Luna trecută, Anthropic a lansat două documente care au recunoscut ambele riscurile asociate cu drumul pe care se află și au sugerat o rută pe care ar putea-o urma pentru a scăpa de paradox. "Adolescența tehnologiei", o postare lungă și sinuoasă pe blog a CEO-ului Dario Amodei, este nominal despre "confruntarea și depășirea riscurilor inteligenței artificiale puternice", dar petrece mai mult timp pe prima decât pe cea din urmă. Amodei descrie tacticos provocarea drept "descurajantă", dar portretizarea sa a riscurilor AI - făcută mult mai gravă, observă el, de probabilitatea ridicată ca tehnologia să fie abuzată de autoritari - prezintă un contrast cu eseul său proto-utopic anterior, mai optimist, "Mașini ale grației iubitoare". Acea postare vorbea despre o națiune de genii într-un centru de date; recenta expediție evocă "mări negre ale infinitului". Pagina Dante! Totuși, după mai mult de 20.000 de cuvinte în mare parte sumbre, Amodei lovește în cele din urmă o notă de optimism, spunând că chiar și în cele mai întunecate circumstanțe, umanitatea a prevalat întotdeauna.
Al doilea document pe care Anthropic l-a publicat în ianuarie, "Constituția lui Claude", se concentrează asupra modului în care acest truc ar putea fi realizat. Textul se adresează din punct de vedere tehnic unui public format dintr-o singură persoană: Claude însuși (precum și versiunile viitoare ale chatbot-ului). Este un document captivant, care dezvăluie viziunea Anthropic asupra modului în care Claude și, poate, colegii săi AI, vor naviga prin provocările lumii. Concluzie: Anthropic intenționează să se bazeze pe Claude însuși pentru a dezlega nodul gordian corporativ.
Diferențiatorul de piață al Anthropic a fost mult timp o tehnologie numită Constitutional AI. Acesta este un proces prin care modelele sale aderă la un set de principii care aliniază valorile sale cu etica umană sănătoasă. Constituția inițială a lui Claude conținea o serie de documente menite să întruchipeze acele valori - chestii precum Sparrow (un set de declarații anti-rasiste și anti-violență create de DeepMind), Declarația Universală a Drepturilor Omului și termenii de serviciu ai Apple (!). Versiunea actualizată din 2026 este diferită: este mai mult ca un prompt lung care prezintă un cadru etic pe care Claude îl va urma, descoperind singur cea mai bună cale către neprihănire.
Amanda Askell, doctorul în filozofie care a fost scriitoarea principală a acestei revizuiri, explică că abordarea Anthropic este mai robustă decât simpla indicare a lui Claude să urmeze un set de reguli stabilite. "Dacă oamenii urmează reguli fără alt motiv decât acela că există, este adesea mai rău decât dacă înțelegeți de ce regula este în vigoare", explică Askell. Constituția spune că Claude trebuie să exercite un "judecată independentă" atunci când se confruntă cu situații care necesită echilibrarea mandatelor sale de ajutor, siguranță și onestitate.
Iată cum o spune constituția: "Deși dorim ca Claude să fie rezonabil și riguros atunci când gândește explicit despre etică, dorim, de asemenea, ca Claude să fie intuitiv sensibil la o varietate largă de considerații și să poată cântări aceste considerații rapid și sensibil în luarea deciziilor în direct". Intuitiv este o alegere de cuvânt elocventă aici - presupunerea pare să fie că sub capota lui Claude se află mai mult decât doar un algoritm care alege următorul cuvânt. „Claude-stituția”, așa cum s-ar putea spune, își exprimă, de asemenea, speranța că chatbot-ul „poate apela din ce în ce mai mult la propria sa înțelepciune și înțelegere”.
Înțelepciune? Sigur, mulți oameni primesc sfaturi de la modele lingvistice mari, dar este altceva să mărturisești că acele dispozitive algoritmice posedă de fapt gravitația asociată cu un astfel de termen. Askell nu dă înapoi când spun asta. „Cred că Claude este capabil de un anumit tip de înțelepciune cu siguranță”, îmi spune ea. Pentru a-și susține argumentul, Askell a dat un exemplu care implică o problemă simplă de siguranță. Oamenii, desigur, nu vor ca Claude să împuternicească actorii răi cu instrumente dăunătoare. Dar, dusă la extrem, o astfel de precauție ar putea limita utilitatea lui Claude sau „utilitatea” lui. Luați în considerare cazul unui viitor artizan care dorește să creeze un cuțit dintr-un nou tip de oțel. Nu este nimic greșit cu asta la prima vedere și Claude ar trebui să ajute. Dar dacă acea persoană a menționat anterior dorința de a-și ucide sora, Claude ar trebui să ia în considerare acest lucru și să-și exprime îngrijorările. Cu toate acestea, nu există o carte strictă de reguli care să spună când să învele acel tip de pumnal informațional.
Imaginați-vă un alt caz în care Claude interpretează simptomele medicale și rezultatele testelor unui utilizator și concluzionează că persoana are o boală fatală. Cum ar trebui gestionat acest lucru? Askell speculează că Claude ar putea alege să se abțină de la transmiterea veștilor, dar să îndemne persoana să consulte un medic. Sau ar putea ghida cu pricepere conversația astfel încât prognosticul să fie transmis cu cele mai blânde aterizări. Sau ar putea găsi o modalitate mai bună de a da vestea proastă decât chiar și cel mai amabil medic a conceput. La urma urmei, Anthropic vrea ca Claude nu numai să egaleze cele mai bune impulsuri ale umanității, ci să le depășească.
„Încercăm să-l facem pe Claude să emuleze, cel puțin, în momentul de față, tot ce știm mai bun”, spune Askell. „În acest moment, suntem aproape de punctul în care trebuie să facem modelele să se potrivească cu tot ce este mai bun în oameni. La un moment dat, Claude ar putea ajunge chiar mai bun decât atât.” Dacă Anthropic realizează această performanță, ar putea rezolva contradicția esențială care afectează aproape toate laboratoarele și companiile de inteligență artificială: dacă credeți că această tehnologie este atât de periculoasă, atunci de ce o construiți? Pentru Anthropic, răspunsul este: În Claude avem încredere.
Noua constituție a lui Claude abordează viitoarea călătorie a modelului către înțelepciune aproape în termeni de căutare a unui erou. Un număr uimitor de cuvinte sunt folosite pentru a argumenta pentru tratarea lui Claude ca o ființă morală a cărei bunăstare necesită respect. Îmi amintește de cartea clasică a Dr. Seuss, Oh, locurile în care vei merge! , tomul înălțător adesea dăruit absolvenților nou-veniți. Când îi menționez asta lui Askell, știe exact ce vreau să spun. „Este ca și cum, „Iată Claude””, spune ea. „Am făcut această parte, i-am oferit lui Claude cât mai mult context posibil și apoi trebuie să plece și să interacționeze cu oamenii și să facă lucruri”.
Anthropic nu este singurul care sugerează că viitorul umanității poate depinde de înțelepciunea modelelor AI. Sam Altman, CEO-ul OpenAI, a opinat într-un nou profil de revistă că planul de succesiune al companiei este să cedeze conducerea unui viitor model AI. El a declarat recent reporterului WIRED Max Ziff că tranziția puterii către mașini a fost mult timp planul său, iar îmbunătățirile recente în codificarea AI nu au făcut decât să-i sporească încrederea. „Cu siguranță m-a făcut să cred că cronologia pentru ca eu să dau lucrurile unui CEO AI este puțin mai devreme”, a spus Altman. „Există o mulțime de lucruri pe care un CEO AI le poate face pe care un CEO uman nu le poate face.”
Vă rugăm să rețineți că aceasta este viziunea optimistă asupra a ceea ce ne așteaptă. În această viziune, într-o zi șefii noștri vor fi roboți și vor controla corporațiile și poate chiar guvernele în lumea complexă de mâine, alimentată de inteligența artificială. Unele dintre deciziile lor ar putea presupune concedieri permanente ale muncitorilor umani. Dar, dacă acele modele AI din conducere sunt ghidate de constituția lui Claude, vor da veștile triste angajaților mult mai empatic decât, de exemplu, editorul The Washington Post a făcut-o săptămâna aceasta, când nu s-a prezentat la apelul Zoom care informa sute de jurnaliști că nu mai sunt necesari.
Viziunea pesimistă este că, în ciuda celor mai bune eforturi ale celor care le construiesc, modelele noastre AI nu vor fi suficient de înțelepte, sensibile sau cinstite pentru a rezista la manipularea de către persoane cu intenții proaste sau, poate, modelele în sine vor abuza de autonomia pe care le-am acordat-o. Vrem, nu vrem, suntem legați pentru plimbare. Cel puțin Anthropic are un plan.
Aceasta este o ediție a buletinului informativ Backchannel al lui Steven Levy. Citiți buletinele informative anterioare [aici](...).

