Scientists Created the Most Difficult AI Test

Oamenii de știință au creat un „Examen Final al Umanității” masiv pentru a provoca AI - iar rezultatele arată că chiar și cele mai inteligente sisteme mai au un drum lung de parcurs.

Pe măsură ce sistemele de inteligență artificială au început să obțină scoruri extrem de mari la reperele academice folosite de mult timp, cercetătorii au observat o problemă în creștere. Testele care odată provocau mașinile nu mai erau suficient de dificile. Evaluările binecunoscute, cum ar fi examenul Massive Multitask Language Understanding (MMLU), care fusese anterior considerat solicitant, acum nu mai măsoară corect capacitățile modelelor AI avansate de astăzi.

Pentru a rezolva această problemă, un grup mondial de aproape 1.000 de cercetători, inclusiv un profesor de la Texas A&M University, a dezvoltat un nou tip de test. Scopul lor a fost să construiască un examen care să fie larg, dificil și ancorat în cunoștințele umane de specialitate în moduri în care sistemele AI actuale încă se luptă să le gestioneze.

Rezultatul este „Examenul Final al Umanității” (HLE), o evaluare de 2.500 de întrebări care acoperă matematica, științele umaniste, științele naturii, limbile antice și o gamă largă de domenii academice extrem de specializate. Detalii ale proiectului apar într-o lucrare publicată în Nature , iar informații suplimentare despre examen sunt disponibile la lastexam.ai .

Printre numeroșii contribuitori se numără Dr. Tung Nguyen, profesor asociat de instruire la Departamentul de Informatică și Inginerie de la Texas A&M. Nguyen a ajutat la scrierea și rafinarea multora dintre întrebările examenului.

„Când sistemele AI încep să funcționeze extrem de bine pe repere umane, este tentant să ne gândim că se apropie de înțelegerea la nivel uman”, a spus Nguyen. „Dar HLE ne amintește că inteligența nu este doar despre recunoașterea tiparelor - este despre profunzime, context și expertiză specializată.”

Scopul examenului nu a fost să păcălească sau să înfrângă examinatorii umani. În schimb, scopul a fost identificarea atentă a domeniilor în care sistemele AI încă nu reușesc.

Specialiști din întreaga lume au scris și au revizuit întrebările incluse în Examenul Final al Umanității. Fiecare problemă a fost proiectată cu atenție, astfel încât să aibă un răspuns clar și verificabil. Întrebările au fost, de asemenea, create pentru a preveni soluțiile rapide prin simple căutări pe internet.

Subiectele provin din provocări academice avansate. Unele sarcini implică traducerea inscripțiilor antice din Palmyra, în timp ce altele necesită identificarea structurilor anatomice mici la păsări sau analiza caracteristicilor detaliate ale pronunției ebraice biblice.

Cercetătorii au testat fiecare întrebare pe sisteme AI de vârf. Dacă vreun model a fost capabil să răspundă corect la o întrebare, acea întrebare a fost eliminată din examenul final. Acest proces a asigurat că testul a rămas chiar dincolo de ceea ce pot rezolva în mod fiabil sistemele AI actuale.

Testarea timpurie a confirmat că strategia a funcționat. Chiar și modelele AI puternice s-au luptat cu examenul. GPT-4o a obținut un scor de 2,7%, în timp ce Claude 3.5 Sonnet a atins 4,1%. Modelul o1 de la OpenAI a funcționat oarecum mai bine cu 8%. Cele mai capabile sisteme de până acum, inclusiv Gemini 3.1 Pro și Claude Opus 4.6, au atins niveluri de precizie cuprinse între aproximativ 40% și 50%.

Nguyen a explicat că problema ca AI să depășească testele mai vechi este mai mult decât o preocupare tehnică. El a contribuit cu 73 dintre cele 2.500 de întrebări disponibile public în HLE, al doilea cel mai mare număr dintre contribuitori, și a scris cele mai multe întrebări legate de matematică și informatică.

„Fără instrumente de evaluare precise, factorii de decizie, dezvoltatorii și utilizatorii riscă să interpreteze greșit ceea ce pot face efectiv sistemele AI”, a spus el. „Reperele oferă baza pentru măsurarea progresului și identificarea riscurilor.”

Potrivit echipei de cercetare, scorurile mari la testele concepute inițial pentru oameni nu indică neapărat o inteligență autentică. Aceste repere măsoară în principal cât de bine poate AI să finalizeze sarcini specifice create pentru elevii umani, mai degrabă decât să surprindă o înțelegere mai profundă.

În ciuda numelui dramatic, Examenul Final al Umanității nu are scopul de a sugera că oamenii devin depășiți. În schimb, evidențiază cantitatea mare de cunoștințe și expertiză care rămâne încă exclusiv umană.

„Aceasta nu este o cursă împotriva AI”, a spus Nguyen. „Este o metodă de a înțelege unde sunt puternice aceste sisteme și unde se luptă. Această înțelegere ne ajută să construim tehnologii mai sigure și mai fiabile. Și, important, ne amintește de ce expertiza umană contează încă.”

Examenul Final al Umanității este conceput pentru a servi drept un reper durabil și transparent pentru viitoarele sisteme AI. Pentru a susține acest obiectiv, cercetătorii au lansat public câteva întrebări, în timp ce majoritatea au rămas ascunse, astfel încât modelele AI să nu poată memora pur și simplu răspunsurile.

„Deocamdată, Examenul Final al Umanității este una dintre cele mai clare evaluări ale decalajului dintre AI și inteligența umană”, a spus Nguyen, „și, în ciuda progreselor tehnologice rapide, rămâne larg.”

Nguyen a subliniat că amploarea proiectului demonstrează valoarea colaborării între discipline și țări. „Ceea ce a făcut acest proiect extraordinar a fost amploarea”, a spus el. „Experți din aproape fiecare disciplină au contribuit. Nu au fost doar informaticieni; au fost istorici, fizicieni, lingviști, cercetători medicali. Această diversitate este exact ceea ce expune lacunele din sistemele AI de astăzi -- poate ironic, sunt oamenii care lucrează împreună.”

Oamenii de știință au creat cel mai dificil test AI

Tech & AI

Cele Mai Bune Oferte de Primăvară Dreo: Air Fryer, Încălzitoare, Ventilatoare

Un Război cu Iran Ar Putea Schimba Fundamentele Inteligenței Artificiale. Iată Cum.

Recenzie MacBook Air M5: Încă cel mai bun MacBook?

Prețul ridicat al kerosenului ar putea afecta planurile de călătorie din vară

Războiul din Iran Aruncă Transportul Global în Haos