Cercetările Databricks arată că construirea unor arbitri AI mai buni nu este doar o problemă tehnică, ci și una umană.
Inteligenta modelelor AI nu este ceea ce blochează implementările la nivel de întreprindere. Este incapacitatea de a defini și măsura calitatea în primul rând. Aici intervin arbitrii AI, jucând un rol din ce în ce mai important.
În evaluarea AI, un „arbitru” este un sistem AI care evaluează rezultatele unui alt sistem AI. Judge Builder este cadrul Databricks pentru crearea de arbitri și a fost implementat pentru prima dată ca parte a tehnologiei Agent Bricks a companiei la începutul acestui an. Cadrul a evoluat semnificativ de la lansarea sa inițială, ca răspuns la feedback-ul direct al utilizatorilor și la implementări. Versiunile inițiale s-au concentrat pe implementarea tehnică, dar feedback-ul clienților a dezvăluit că adevăratul blocaj a fost alinierea organizațională. Databricks oferă acum un proces de workshop structurat care ghidează echipele prin trei provocări principale: obținerea acordului părților interesate cu privire la criteriile de calitate, capturarea expertizei de domeniu de la experți cu subiect limitat și implementarea sistemelor de evaluare la scară.
„Inteligenta modelului nu este de obicei blocajul, modelele sunt cu adevărat inteligente”, a declarat Jonathan Frankle, directorul științific AI al Databricks, pentru VentureBeat într-o sesiune informativă exclusivă. „În schimb, este vorba despre a întreba, cum facem ca modelele să facă ceea ce vrem și cum știm dacă au făcut ceea ce vrem?”
„Problema Ouroboros” a evaluării AI
Judge Builder abordează ceea ce Pallavi Koppol, un cercetător științific Databricks care a condus dezvoltarea, numește „problema Ouroboros”. Un Ouroboros este un simbol antic care descrie un șarpe care își mănâncă propria coadă. Utilizarea sistemelor AI pentru a evalua sistemele AI creează o provocare circulară de validare.
„Vrei ca un arbitru să vadă dacă sistemul tău este bun, dacă sistemul tău AI este bun, dar apoi arbitrul tău este și el un sistem AI”, a explicat Koppol. „Și acum spui, ei bine, cum știu că acest arbitru este bun?”
Soluția este măsurarea „distanței față de adevărul fundamental al expertului uman” ca funcție principală de evaluare. Prin minimizarea decalajului dintre modul în care un arbitru AI evaluează rezultatele față de modul în care experții de domeniu le-ar evalua, organizațiile pot avea încredere în acești arbitri ca proxy-uri scalabile pentru evaluarea umană. Această abordare diferă fundamental de sistemele tradiționale de protecție sau de evaluările cu o singură metrică. În loc să întrebe dacă o ieșire AI a trecut sau a eșuat la o verificare generică a calității, Judge Builder creează criterii de evaluare extrem de specifice, adaptate expertizei de domeniu și cerințelor de afaceri ale fiecărei organizații.
Implementarea tehnică, de asemenea, îl deosebește. Judge Builder se integrează cu instrumentele MLflow și de optimizare a solicitărilor Databricks și poate funcționa cu orice model de bază. Echipele își pot controla versiunile arbitriilor, pot urmări performanța în timp și pot implementa mai mulți arbitri simultan pe diferite dimensiuni de calitate.
Lecții învățate: Construirea de arbitri care funcționează cu adevărat
Munca Databricks cu clienții întreprinderilor a dezvăluit trei lecții critice care se aplică oricui construiește arbitri AI.
Lecția întâi: Experții tăi nu sunt atât de de acord pe cât crezi.
Când calitatea este subiectivă, organizațiile descoperă că chiar și propriii lor experți în domeniu nu sunt de acord cu ceea ce constituie o ieșire acceptabilă. Un răspuns al serviciului clienți ar putea fi corect din punct de vedere factual, dar ar folosi un ton inadecvat. Un rezumat financiar ar putea fi cuprinzător, dar prea tehnic pentru publicul țintă.
„Una dintre cele mai mari lecții ale întregului proces este că toate problemele devin probleme umane”, a spus Frankle. „Cea mai grea parte este scoaterea unei idei din creierul unei persoane și introducerea ei într-un lucru explicit. Și cea mai grea parte este că companiile nu sunt un singur creier, ci multe creiere.”
Soluția este adnotarea în loturi cu verificări ale fiabilității inter-evaluatorilor. Echipele adnotează exemple în grupuri mici, apoi măsoară scorurile de acord înainte de a continua. Acest lucru detectează dezalinierea din timp. Într-un caz, trei experți au dat evaluări de 1, 5 și neutru pentru aceeași ieșire înainte ca discuțiile să dezvăluie că interpretau diferit criteriile de evaluare. Companiile care utilizează această abordare obțin scoruri de fiabilitate inter-evaluatori de până la 0,6, comparativ cu scorurile tipice de 0,3 de la serviciile externe de adnotare. Un acord mai mare se traduce direct printr-o performanță mai bună a arbitrului, deoarece datele de antrenament conțin mai puțin zgomot.
Lecția a doua: Împărțiți criteriile vagi în arbitri specifici.
În loc de un arbitru care evaluează dacă un răspuns este „relevant, factual și concis”, creați trei arbitri separați. Fiecare vizează un aspect specific al calității. Această granularitate contează, deoarece un scor de „calitate generală” eșuat dezvăluie că ceva nu este în regulă, dar nu ce să remediezi. Cele mai bune rezultate provin din combinarea cerințelor de sus în jos, cum ar fi constrângerile de reglementare, prioritățile părților interesate, cu descoperirea de jos în sus a modelelor de eșec observate. Un client a construit un arbitru de sus în jos pentru corectitudine, dar a descoperit prin analiza datelor că răspunsurile corecte citează aproape întotdeauna primele două rezultate de recuperare. Această perspectivă a devenit un nou arbitru prietenos cu producția, care ar putea înlocui corectitudinea fără a necesita etichete de adevăr fundamental.
Lecția a treia: Aveți nevoie de mai puține exemple decât credeți.
Echipele pot crea arbitri robusti din doar 20-30 de exemple bine alese. Cheia este selectarea cazurilor extreme care expun dezacordul, mai degrabă decât exemple evidente cu care toată lumea este de acord.
„Suntem capabili să rulăm acest proces cu unele echipe în doar trei ore, așa că nu durează foarte mult pentru a începe să obținem un arbitru bun”, a spus Koppol.
Rezultate de producție: De la proiecte pilot la implementări de șapte cifre
Frankle a împărtășit trei metrici pe care Databricks le folosește pentru a măsura succesul Judge Builder: dacă clienții doresc să-l folosească din nou, dacă își măresc cheltuielile pentru AI și dacă progresează mai departe în călătoria lor AI.
Cu privire la prima metrică, un client a creat mai mult de o duzină de arbitri după workshop-ul inițial.
„Acest client a creat mai mult de o duzină de arbitri după ce i-am ghidat să facă acest lucru într-un mod riguros pentru prima dată cu acest cadru”, a spus Frankle. „Chiar s-au apucat de arbitri și acum măsoară totul.”
Pentru cea de-a doua metrică, impactul asupra afacerii este clar. „Există mai mulți clienți care au participat la acest workshop și au devenit cheltuitori de șapte cifre pe GenAI la Databricks într-un mod în care nu erau înainte”, a spus Frankle.
Cea de-a treia metrică dezvăluie valoarea strategică a Judge Builder. Clienții care au ezitat anterior să folosească tehnici avansate, cum ar fi învățarea prin consolidare, se simt acum încrezători să le implementeze, deoarece pot măsura dacă au avut loc îmbunătățiri.
„Există clienți care au mers și au făcut lucruri foarte avansate după ce au avut acești arbitri, unde înainte au fost reticenți să o facă”, a spus Frankle. „Au trecut de la a face puțină inginerie promptă la a face învățare prin consolidare cu noi. De ce să cheltuiești bani pe învățarea prin consolidare și de ce să cheltuiești energie pe învățarea prin consolidare dacă nu știi dacă a făcut o diferență?”
Ce ar trebui să facă întreprinderile acum
Echipele care mută cu succes AI de la proiect pilot la producție tratează arbitrii nu ca artefacte unice, ci ca active în evoluție care cresc odată cu sistemele lor. Databricks recomandă trei pași practici. În primul rând, concentrați-vă pe arbitri cu impact ridicat, identificând o cerință de reglementare critică plus un mod de eșec observat. Acestea devin portofoliul inițial de arbitri. În al doilea rând, creați fluxuri de lucru ușoare cu experți în domeniu. Câteva ore de revizuire a 20-30 de cazuri extreme oferă o calibrare suficientă pentru majoritatea arbitriilor. Utilizați adnotări în loturi și verificări ale fiabilității inter-evaluatori pentru a reduce zgomotul din datele dvs. În al treilea rând, programați revizuiri regulate ale arbitrilor utilizând date de producție. Vor apărea noi moduri de eșec pe măsură ce sistemul dvs. evoluează. Portofoliul tău de arbitri ar trebui să evolueze odată cu ele.
„Un arbitru este o modalitate de a evalua un model, este, de asemenea, o modalitate de a crea protecții, este, de asemenea, o modalitate de a avea o metrică în funcție de care poți face optimizarea solicitărilor și este, de asemenea, o modalitate de a avea o metrică împotriva căreia poți face învățarea prin consolidare”, a spus Frankle. „Odată ce aveți un arbitru despre care știți că reprezintă gustul dumneavoastră uman într-o formă empirică pe care o puteți interoga cât de mult doriți, o puteți folosi în 10.000 de moduri diferite pentru a măsura sau îmbunătăți agenții dumneavoastră.”

