The Stroop Test Exposes a Major Weakness in Artificial Intelligence

Un test clasic de psihologie a scos la iveală o vulnerabilitate surprinzătoare în cele mai avansate sisteme de inteligență artificială (AI). Deși capabile să scrie eseuri, să răspundă la întrebări complexe și să rezolve probleme dificile, modelele AI de astăzi se luptă cu o sarcină aparent simplă pentru oameni: menținerea concentrării pe sarcini extinse, mai ales când apar distrageri.

Cercetătorii, conduși de Suketu Patel, au supus mai multe modele AI de ultimă generație unui experiment psihologic binecunoscut, numit Testul Stroop. Rezultatele au subliniat o discrepanță semnificativă între modul în care sistemele AI procesează informația și modul în care creierul uman își gestionează atenția.

Ce este Testul Stroop?

Testul Stroop este un experiment psihologic consacrat, utilizat de decenii pentru studiul atenției, concentrării și autocontrolului. În cadrul acestui test, sunt prezentate cuvinte ce denumesc culori (de exemplu, „roșu”, „albastru”, „verde”), tipărite cu o anumită culoare de cerneală. Uneori, cuvântul și culoarea cernealei coincid (de exemplu, cuvântul „roșu” este tipărit cu cerneală roșie). Alteori, există o discrepanță (de exemplu, cuvântul „roșu” este tipărit cu cerneală albastră).

Participanții sunt rugați să numească culoarea cernealei, nu să citească cuvântul. Această sarcină, deși pare simplă, devine o provocare deoarece citirea cuvintelor este o acțiune automată pentru majoritatea oamenilor. Creierul trebuie să suprime impulsul de a citi și să se concentreze pe identificarea culorii cernealei.

Psihologii folosesc adesea acest test pentru a măsura ceea ce se numește control executiv – un set de procese mentale care ajută oamenii să-și regleze atenția, să reziste distragerilor și să rămână concentrați pe obiective.

Testarea atenției AI

Cercetătorii au dorit să observe dacă modelele lingvistice mari (LLM) moderne, cele din spatele unor instrumente precum ChatGPT, Claude și Gemini, gestionează această provocare în același mod ca oamenii.

Atunci când li s-au prezentat liste scurte, cu cinci cuvinte de culori, sistemele AI au avut, în general, performanțe bune, chiar și atunci când cuvintele și culorile nu se potriveau. Situația s-a schimbat dramatic odată cu creșterea lungimii listelor.

GPT-4o a atins o acuratețe de 91% cu liste de cinci cuvinte. La zece cuvinte, acuratețea a scăzut la 57%. Când lista a fost extinsă la patruzeci de cuvinte, acuratețea a ajuns la doar 15%. Claude 3.5 Sonnet a menținut o performanță stabilă pe liste de până la douăzeci de cuvinte, dar apoi a înregistrat o scădere bruscă, ajungând la 24% acuratețe cu liste de patruzeci de cuvinte. Modele precum GPT-5, Claude Opus 4.1 și Gemini 2.5 au prezentat un comportament similar.

Când AI-ul își pierde concentrarea

Provocarea a devenit și mai dificilă atunci când cuvintele de culori potrivite și nepotrivite au apărut împreună în aceeași listă. În aceste condiții, performanța s-a deteriorat și mai mult, acuratețea pentru elementele nepotrivite scăzând spre zero în unele cazuri.

Potrivit cercetătorilor, modelele AI au avut dificultăți în a menține instrucțiunea de a identifica culorile cernelei. În schimb, au recurs tot mai des la citirea cuvintelor în sine. Cu alte cuvinte, sistemele păreau incapabile să suprime în mod consecvent răspunsul pentru care fuseseră cel mai puternic antrenate.

Această descoperire este deosebit de interesantă, deoarece oamenii se confruntă cu un conflict similar. În general, oamenii sunt mult mai buni la citirea cuvintelor decât la numirea culorilor cernelei. Cu toate acestea, în ciuda acestui bias, majoritatea indivizilor reușesc să mențină o acuratețe ridicată și o performanță stabilă chiar și atunci când sunt confruntați cu liste lungi de cuvinte și culori conflictuale.

Atenția umană versus atenția mașinii

Studiul subliniază o distincție importantă între inteligența umană și cea artificială. Deși sistemele AI moderne pot demonstra capabilități impresionante de limbaj și raționament, mecanismele lor de bază diferă de procesele de atenție găsite în creierele biologice. Oamenii pot susține adesea concentrarea pe un scop specific, filtrând informațiile concurente.

Rezultatele sugerează că modelele AI actuale ar putea întâmpina dificultăți în acest tip de control cognitiv atunci când sarcinile devin din ce în ce mai solicitante. Cercetătorii susțin că prăbușirea performanței observată în aceste experimente indică limitări fundamentale în modelele lingvistice mari actuale.

Deși AI-ul poate, uneori, să imite comportamentul uman, capacitatea sa de a menține atenția pare să funcționeze foarte diferit de modul în care o fac oamenii. Descoperirile servesc drept reamintire că chiar și cele mai avansate sisteme AI au încă slăbiciuni, în special atunci când sarcinile le cer să reziste distragerilor și să rămână concentrate pe secvențe extinse de informații.

Testul Stroop expune o slăbiciune majoră a inteligenței artificiale

Ce este Testul Stroop?

Testarea atenției AI

Când AI-ul își pierde concentrarea

Atenția umană versus atenția mașinii

Tech & AI

OpenAI anticipează listarea la bursă în următorul an, conform The Information

Zest lansează o aplicație de descoperire a restaurantelor bazată pe date reale de consum

Morgan Stanley: Emisiunile de datorii legate de Inteligența Artificială vor depăși 570 de miliarde de dolari în 2026

Jedify strânge 24 milioane USD pentru a dota agenții AI cu context de afaceri

Canaccord crește ținta de preț pentru acțiunile Datadog datorită creșterii produselor AI