Agenții AI devin tot mai sofisticați. Aceștia evoluează de la răspunsul la întrebări la executarea autonomă a sarcinilor complexe, în mai mulți pași. Însă, înainte ca acești agenți să poată fi de încredere pentru a rezerva excursii sau a efectua analize financiare în numele utilizatorilor, furnizorii de modele și startup-urile care construiesc astfel de agenți doresc să se asigure că performează fiabil într-o gamă vastă de scenarii. Laboratoarele AI folosesc adesea benchmark-uri pentru a-și etala abilitățile, dar un scor mare, chiar și pe un benchmark orientat spre agenți, nu dovedește de fapt că un AI poate îndeplini diverse sarcini complexe din lumea reală corect.
Patronus AI, un startup fondat în 2023 de foștii cercetători Meta AI, Anand Kannappan și Rebecca Qian, ajută producătorii de modele și companiile să ajusteze modelele pentru a face exact acest lucru, prin construirea unor medii digitale simulate în care să evalueze performanța agenților. Startup-ul din San Francisco trebuie să rezolve o problemă importantă. Practic, toate laboratoarele AI de frontieră și multe startup-uri emergente sunt acum clienți, conform lui Glenn Solomon, director general la Notable Capital, care descrie cererea pentru mediile simulate ale companiei ca fiind aproape nesățioasă. Veniturile Patronus au crescut de 15 ori în ultimul an, alimentând un interes semnificativ din partea investitorilor. Joi, compania a anunțat o rundă de finanțare Seria B de 50 de milioane de dolari, condusă de Greenfield Partners, cu participarea Notable Capital, Lightspeed, Datadog și Samsung. Runda ridică finanțarea totală a companiei la 70 de milioane de dolari.
Patronus utilizează ceea ce numește „modele de lume digitală” pentru a crea replici ale site-urilor web și ale sistemelor interne. În aceste medii, agenții sunt supuși la testări după antrenament, utilizând învățarea prin consolidare (reinforcement learning), care recompensează iterativ finalizarea cu succes a sarcinilor și penalizează erorile. Laboratoarele AI văd o valoare mare în aceste simulări digitale, deoarece oferă agenților șansa de a încerca scenarii diferite, uneori imprevizibile. Compania compară abordarea sa cu modul în care Waymo a antrenat mașini autonome, construind mai întâi lumi sintetice pentru a testa vehiculele în condiții de pericole rare, cum ar fi vreme severă sau un copil care aleargă după o minge. Diferența în cazul agenților AI este că aceștia tind să ia scurtături, ceea ce înseamnă că nu reușesc să finalizeze sarcina corect. „Patronus este foarte bun la depistarea acestor scurtături și la asigurarea că modelele sunt trase la răspundere”, a declarat Solomon.
Patronus oferă în prezent lumile sale digitale simulate pentru ingineria software și finanțe, dar acestea sunt doar un început, conform lui Kannappan. „Astăzi suntem foarte concentrați pe problemele care sunt verificabile, deci problemele pe care le poți verifica și valida imediat, dar există o mulțime de alte domenii care sunt foarte neverificabile sau foarte greu de verificat”, a spus el. Faptul că aceste procese sunt verificabile nu înseamnă că sunt simple. „Vrem să putem crea mediul în care poți opera un agent care poate rula timp de 10 ore, 10 zile sau 10 săptămâni”, a adăugat Kannappan. În ceea ce privește concurența, Patronus consideră că se luptă în principal cu echipele interne pe care laboratoarele AI le-au construit deja pentru a evalua comportamentul agenților. În timp ce firmele de date umane precum Mercor și Surge ajută producătorii de modele cu învățarea prin consolidare, Patronus operează diferit, evaluând modul în care agenții se comportă fără nicio implicare umană.

