Cash News Logo

Gemini 3 Pro obține 69% încredere în teste oarbe, de la 16% pentru Gemini 2.5: Evaluarea AI bazată pe încredere, nu pe benchmark-uri academice

Tech & AI4 decembrie 2025, 00:00
Gemini 3 Pro obține 69% încredere în teste oarbe, de la 16% pentru Gemini 2.5: Evaluarea AI bazată pe încredere, nu pe benchmark-uri academice

Gemini 3 Pro obține 69% încredere în teste oarbe, de la 16% pentru Gemini 2.5: Evaluarea AI bazată pe încredere, nu pe benchmark-uri academice

Sean Michael Kerner 3 decembrie 2025

Credit: Imagine generată de VentureBeat cu FLUX-2-Pro Acum câteva săptămâni, Google a lansat modelul Gemini 3, susținând că a obținut o poziție de lider în mai multe benchmark-uri AI. Dar problema cu benchmark-urile furnizate de vânzători este că sunt tocmai asta - furnizate de vânzători.

O nouă evaluare neutră din partea Prolific, însă, plasează Gemini 3 în fruntea clasamentului. Aceasta nu se bazează pe un set de benchmark-uri academice; mai degrabă, se bazează pe un set de atribute din lumea reală care contează pentru utilizatori și organizații.

Prolific a fost fondată de cercetători de la Universitatea Oxford. Compania oferă date umane fiabile și de înaltă calitate pentru a alimenta cercetări riguroase și dezvoltarea etică a AI. „Benchmark-ul HUMAINE” al companiei aplică această abordare prin utilizarea unui eșantion reprezentativ uman și teste oarbe pentru a compara riguros modelele AI într-o varietate de scenarii de utilizare, măsurând nu doar performanța tehnică, ci și încrederea utilizatorilor, adaptabilitatea și stilul de comunicare.

Cel mai recent test HUMAINE a evaluat 26.000 de utilizatori într-un test orb al modelelor. În evaluare, scorul de încredere al Gemini 3 Pro a crescut de la 16% la 69%, cel mai mare înregistrat vreodată de Prolific. Gemini 3 se clasează acum pe locul întâi în general în ceea ce privește încrederea, etica și siguranța în 69% din cazuri în subgrupuri demografice, comparativ cu predecesorul său, Gemini 2.5 Pro, care a deținut locul întâi doar în 16% din cazuri. În general, Gemini 3 s-a clasat pe primul loc în trei din patru categorii de evaluare: performanță și raționament, interacțiune și adaptabilitate și încredere și siguranță. A pierdut doar la stilul de comunicare, unde DeepSeek V3 a depășit preferințele cu 43%.

Testul HUMAINE a arătat, de asemenea, că Gemini 3 a performat constant bine în 22 de grupuri demografice diferite de utilizatori, inclusiv variații de vârstă, sex, etnie și orientare politică. Evaluarea a constatat, de asemenea, că utilizatorii sunt acum de cinci ori mai predispuși să aleagă modelul în comparații directe oarbe.

Dar clasamentul contează mai puțin decât motivul pentru care a câștigat.

„Este consistența într-o gamă foarte largă de cazuri de utilizare diferite și o personalitate și un stil care atrage o gamă largă de tipuri diferite de utilizatori”, a declarat Phelim Bradley, co-fondator și CEO al Prolific, pentru VentureBeat. „Deși în unele cazuri specifice, alte modele sunt preferate fie de subgrupuri mici, fie pe un anumit tip de conversație, este amploarea cunoștințelor și flexibilitatea modelului într-o gamă de cazuri de utilizare și tipuri de public diferite care i-au permis să câștige acest benchmark specific.”

Cum testele oarbe dezvăluie ce omit benchmark-urile academice

Metodologia HUMAINE expune lacunele în modul în care industria evaluează modelele. Utilizatorii interacționează cu două modele simultan în conversații cu mai multe rânduri. Nu știu ce furnizori alimentează fiecare răspuns. Discută despre orice subiecte contează pentru ei, nu despre întrebări de test prestabilite.

Eșantionul în sine contează. HUMAINE utilizează eșantionare reprezentativă în populațiile din SUA și Marea Britanie, controlând vârsta, sexul, etnia și orientarea politică. Acest lucru dezvăluie ceva ce benchmark-urile statice nu pot surprinde: performanța modelului variază în funcție de public.

„Dacă luați un clasament AI, majoritatea ar putea avea în continuare o listă destul de statică”, a spus Bradley. „Dar pentru noi, dacă controlați publicul, ajungem cu un clasament ușor diferit, indiferent dacă vă uitați la un eșantion de stânga, un eșantion de dreapta, SUA, Marea Britanie. Și cred că vârsta a fost de fapt cea mai diferită condiție menționată în experimentul nostru.”

Pentru întreprinderile care implementează AI în diverse populații de angajați, acest lucru contează. Un model care funcționează bine pentru o anumită categorie demografică poate avea performanțe slabe pentru alta.

Metodologia abordează, de asemenea, o întrebare fundamentală în evaluarea AI: De ce să folosiți judecători umani când AI s-ar putea evalua singură?

Bradley a menționat că firma sa folosește judecători AI în anumite cazuri de utilizare, deși a subliniat că evaluarea umană este încă factorul critic.

„Vedem cel mai mare beneficiu care provine din orchestrarea inteligentă atât a judecătorului LLM, cât și a datelor umane, ambele au puncte forte și puncte slabe care, atunci când sunt combinate inteligent, funcționează mai bine împreună”, a spus Bradley. „Dar încă credem că datele umane sunt locul unde este alpha. Suntem încă extrem de optimiști că datele umane și inteligența umană sunt necesare pentru a fi în buclă.”

Ce înseamnă încrederea în evaluarea AI

Măsurile de încredere, etică și siguranță măsoară încrederea utilizatorului în fiabilitate, acuratețea factuală și comportamentul responsabil. În metodologia HUMAINE, încrederea nu este o afirmație a furnizorului sau o metrică tehnică - este ceea ce raportează utilizatorii după conversații oarbe cu modele concurente. Cifra de 69% reprezintă probabilitatea în diferite grupuri demografice. Această consistență contează mai mult decât scorurile agregate, deoarece organizațiile pot servi populații diverse.

„Nu exista nicio conștientizare că foloseau Gemini în acest scenariu”, a spus Bradley. „S-a bazat doar pe răspunsul orb cu mai multe rânduri.”

Acest lucru separă încrederea percepută de încrederea câștigată. Utilizatorii au judecat rezultatele modelului fără a ști ce furnizor le-a produs, eliminând avantajul mărcii Google. Pentru implementările orientate spre clienți în care furnizorul AI rămâne invizibil pentru utilizatorii finali, această distincție contează.

Ce ar trebui să facă întreprinderile acum

Unul dintre lucrurile critice pe care ar trebui să le facă întreprinderile acum atunci când iau în considerare diferite modele este să adopte un cadru de evaluare care funcționează.

„Devine din ce în ce mai dificil să evaluezi modelele exclusiv pe baza vibrațiilor”, a spus Bradley. „Cred că din ce în ce mai mult avem nevoie de abordări mai riguroase, științifice pentru a înțelege cu adevărat cum funcționează aceste modele.”

Datele HUMAINE oferă un cadru: testați consistența în cazurile de utilizare și datele demografice ale utilizatorilor, nu doar performanța maximă în sarcini specifice. Orbiți testarea pentru a separa calitatea modelului de percepția mărcii. Utilizați eșantioane reprezentative care se potrivesc cu populația dvs. reală de utilizatori. Planificați o evaluare continuă pe măsură ce modelele se schimbă.

Pentru întreprinderile care doresc să implementeze AI la scară, acest lucru înseamnă să treacă dincolo de „care model este cel mai bun” la „care model este cel mai bun pentru cazul nostru de utilizare specific, datele demografice ale utilizatorilor și atributele necesare”. Rigoarea eșantionării reprezentative și a testării oarbe oferă datele pentru a face această determinare - ceva ce benchmark-urile tehnice și evaluarea bazată pe vibrații nu pot oferi.