Benchmark-urile 'AI nu poate face contabilitate' pun o întrebare greșită De Milo Spirig și Siddarth Chandrasekaran Publicat pe 14 mai 2026, 9:00 a.m. EDT
Un gen de benchmark-uri AI a apărut în ultimul an, toate ajungând la o concluzie similară: AI nu poate face contabilitate. AI nu poate calcula o declarație de impozit. AI nu poate finaliza munca end-to-end. AI pierde firul undeva între minutul unu și minutul cinci al oricărei sarcini susținute.
**Procesarea Conținutului**
Am citit aceste studii cu atenție. Unele dintre ele sunt riguroase din punct de vedere tehnic. Majoritatea dintre ele sunt bine intenționate. Problema nu este că sunt executate prost. Problema este că sunt adesea folosite pentru a răspunde la o întrebare de achiziție. Aproape toate descriu o versiune de AI care nu seamănă cu ceea ce am implementat la mii de clienți din unele dintre cele mai mari firme de contabilitate din țară în timpul Sezonului Fiscal 2026.
Acest articol este un răspuns orientat către practicieni. Nu este o critică a vreunui benchmark individual, dintre care mai multe au avansat conversația în moduri cu adevărat utile. Este un argument că încadrarea dominantă a industriei a 'ce poate face AI?' este nepotrivită structural cu modul în care AI este construită și implementată astăzi în producție, iar concluziile pe care firmele le trag din aceste benchmark-uri le pot lăsa cu un sezon fiscal în urma colegilor lor.
**Ce măsoară de fapt benchmark-urile**
Înainte de a ne opune, merită să fim preciși despre ce pretind și ce nu pretind aceste studii.
TaxCalcBench de la Column Tax evaluează dacă un model lingvistic de frontieră, având în vedere intrări structurate ale contribuabilului, poate calcula nativ un Formular 1040. Cel mai performant model obține scoruri în intervalul 30% din corectitudine strictă. Autorii sunt clari cu privire la ceea ce testează: calcul pur, doar model, fără schele, fără motor fiscal, fără orchestrare. Concluzia lor că 'AI nu vă poate face singur taxele (încă)' este corectă în sine.
Benchmark-ul DualEntry evaluează modelele de frontieră pe întrebări de flux de lucru contabile: clasificarea tranzacțiilor, înregistrări contabile, AP/AR, reconciliere, raportare financiară. Cel mai bun model obține un scor de aproximativ 79%. Din nou, încadrarea este doar model, fără sistem înconjurător.
Harvey's Legal Agent Benchmark testează dacă agenții pot finaliza produsul de lucru juridic cu orizont lung end-to-end, împotriva rubricilor experților cu notare all-pass. Se aplică multe dintre aceleași considerații.
Ceea ce unește aceste studii este alegerea lor structurală: Evaluează un model lingvistic izolat, cerându-i să facă one-shot o sarcină care, în viața reală, nu ar fi niciodată one-shotted de un om sau de un agent. Această alegere este defensabilă intelectual dacă încercați să caracterizați capacitatea brută a modelului. Devine înșelătoare atunci când este citită ca dovadă că sistemele AI nu pot efectua această muncă în producție.
**Dezbaterea: benchmark-uri vs. sisteme de producție**
Iată diferența. Cele mai bune sisteme AI pentru taxe din producție astăzi nu arată ca sistemele pe care le măsoară aceste benchmark-uri.
Un sistem de producție pentru pregătirea taxelor nu este un model de frontieră căruia i se oferă un set de W-2 și 1099 și i se cere să emită un Formular 1040. Pregătirea unei declarații este un flux de lucru, nu o singură generație. Agenți specializați preiau diferite părți ale acelui flux de lucru: Unul citește și clasifică documente, altul planifică declarația, altul populează foi de lucru, altul revizuiește rezultatul pentru inconsecvențe.
Software-ul înconjurător se ocupă de restul: colectarea și stocarea documentelor clientului, validarea față de un motor fiscal deterministic și interfețe de revizuire care îi ghidează pe practicieni prin modificări și semnalează ceea ce necesită judecata umană înainte de a fi depus ceva. În practică, acest lucru transformă munca din generarea unei declarații de la zero în revizuirea unei schițe citate, rezolvarea problemelor semnalate și validarea apelurilor de judecată.
Benchmark-urile măsoară modelul. Sistemele de producție sunt modelul plus tot ceea ce îl înconjoară. Confundarea celor două duce la concluzia greșită.
**Șase motive pentru care genul actual de benchmark ratează esențialul**
1. Ignoră sistemele deterministice cu care este cuplat modelul
Aceasta este cea mai mare lacună. Unui model lingvistic căruia i se cere să calculeze nativ un Formular 1040 va utiliza greșit tabelele fiscale IRS, va recurge la matematică bracket și va rata regulile de eligibilitate pentru Creditul Fiscal pentru Copii. TaxCalcBench arată acest lucru clar. Dar această constatare vă spune foarte puțin despre ceea ce se întâmplă atunci când modelul este asociat cu un motor fiscal, care este modul în care sistemele de producție sunt de fapt construite.
Asocierea schimbă munca în două moduri. În primul rând, diviziunea muncii: Motorul fiscal se ocupă de calcul deterministic, în timp ce modelul se ocupă de înțelegerea documentelor, raționament și popularea foilor de lucru. Fiecare sistem face ceea ce face bine. În al doilea rând, interfața dintre ele: Modelul nu este rugat să 'scrie o declarație de impozit' într-un format doar text inventat pentru benchmark. Populează câmpuri specifice, tastate, de foi de lucru pe care motorul fiscal le validează și le calculează. Aceasta creează constrângeri, semnale de feedback și moduri de eșec complet diferite decât generarea liberă, notată față de o ieșire de referință.
2. Acesta oferă agentului mai puțin context decât ar avea un preparator uman
Aproximativ un sfert din fișierele necesare pentru a pregăti o declarație nu sunt documente fiscale. Sunt e-mailuri, note de la clienți, lucrări de lucru din anii anteriori și comunicări nestructurate între firmă și client. Când am rulat primul nostru pilot, acuratețea noastră a fost deficitară în cazurile în care acest context nu era disponibil, nu pentru că agentul nu putea raționa, ci pentru că raționa despre o imagine incompletă. De atunci, ne-am construit căsuța de e-mail, bibliorașii dinamici și baza de cunoștințe a clienților pentru a ne asigura că agentul are aceleași informații pe care le-ar avea preparatorul uman. Benchmark-urile care oferă modelului doar setul minim de formulare fiscale îl testează în condiții cu care s-ar lupta și un preparator uman.
3. Nu țin cont de ierarhia de revizuire existentă
Munca de contabilitate este muncă revizuită. Există o cadență îndelungată de stagiari și preparatori juniori care produc primele schițe, seniori și manageri care revizuiesc și parteneri care semnează. Nimeni nu propune ca un client să primească o declarație finală la care niciun om nu s-a uitat vreodată. Ceea ce se întâmplă este că AI începe să înlocuiască primul nivel de pregătire, iar ierarhia de revizuire continuă să funcționeze deasupra ei. Întrebarea relevantă nu este 'poate agentul să producă o declarație perfectă?' Este 'poate agentul să producă o primă schiță care să fie mai rapidă și mai bună decât procesul actual al firmei de a începe revizuirea?' Benchmark-urile construite în jurul notării de totul sau nimic ratează procesul de revizuire pe care firmele îl implementează efectiv.
4. Sarcinile one-shot care, în viața reală, sunt iterative
O declarație nu este pregătită într-o singură trecere, iar sistemele moderne de producție nu sunt bucle cu un singur agent. Documentele sosesc în valuri: W-2 în februarie, 1099 în martie, K-1 în august. În fiecare trecere, rezultatul agentului este revizuit de un agent secundar care semnalează inconsecvențe. Între treceri, agentul generează o schiță, preparatorul revizuiește, întrebările de urmărire sunt semnalate, clientul răspunde, schița este actualizată, ciclul continuă. Un benchmark care evaluează o singură trecere de către un singur model nu surprinde nimic din toate acestea. Testează un sprint când munca efectivă este un maraton, iar apoi concluzionează că erorile se agravează atunci când sistemul de producție este special conceput pentru a le prinde.
5. Nu măsoară ceea ce sistemele de producție sunt concepute pentru a scoate la iveală
În designul Accrual, atunci când agentul nu este sigur de ceva, ridică o problemă. Nu ghicește. Îi spune recenzorului: 'Dependentul clientului, Jane, are peste 19 ani. Ar trebui totuși să fie revendicat ca dependent?' Acesta este cel mai valoros comportament pe care îl poate avea un agent, deoarece direcționează atenția recenzorului exact către locurile în care contează judecata. Așteptarea nu poate și nu ar trebui să fie o acuratețe de 100% asupra muncii de mare complexitate. Așteptarea corectă este orele economisite și ponderea muncii rămase pe care agentul o poate identifica proactiv. Gândiți-vă la un preparator junior: Este mai bine când vă spun cu ce au nevoie de ajutor decât atunci când fac o greșeală greu de observat. Un benchmark care evaluează dacă modelul a produs numărul corect, complet, tratează 'Nu știu, vă rog să revizuiți' ca pe un eșec. În producție, este una dintre cele mai utile rezultate pe care le poate produce sistemul.
6. Ei ratează nepotrivirea de cadență dintre îmbunătățirea modelului și practica contabilă
Modelele de frontieră se îmbunătățesc în luni. Firmele de contabilitate funcționează pe sezonalitate anuală. Este posibil să fi revizuit un benchmark în trecut și să fi ratat ceea ce va fi posibil mai târziu în an. Am văzut acest lucru jucând cu propria noastră bază de clienți: Acum un an, majoritatea firmelor mari erau pe margine, evaluând. Acele firme au ratat, de asemenea, un sezon de învățături interne despre cum să-i aducă pe practicieni de-a lungul schimbării. Astăzi, cererea vine de la aproape fiecare firmă cu o practică fiscală, deoarece firmele care s-au mutat mai devreme au produs rezultate măsurabile. Firmele care au evaluat instrumentele fiscale AI anul trecut și au concluzionat 'nu încă' au ratat o categorie complet diferită de instrumente pentru acest sezon fiscal.
**Cum arată măsurarea reală a acurateței**
Merită să spunem ce necesită un benchmark de producție semnificativ, deoarece ne-am concentrat pe acest lucru prin rularea de piloți și implementarea lor în producție.
Măsurăm acuratețea ca o comparație A/B adevărată: Agentul primește aceleași intrări pe care le-a folosit preparatorul, generează schița sa și o comparăm foaie de lucru cu foaie de lucru cu declarația depusă a firmei. Această comparație este în mod deliberat asimetrică. Prima schiță a agentului este măsurată în raport cu declarația finală, revizuită, semnată a omului. Obiectivul nu este finalizarea autonomă. Produce cea mai completă și precisă schiță posibilă, cu note explicite ale preparatorului care semnalează tot ceea ce necesită judecată profesională.
Am început cu acuratețea ponderată în dolari și am învățat rapid limitele sale. Un singur document lipsă se poate extinde în variație aparentă pe o duzină de elemente de linie, făcând o declarație corectă structural să pară greșită sau făcând o declarație cu o omisiune evidentă să pară bună. Un recenzor cu experiență le prinde în câteva secunde. Acuratețea agregată a dolarului nu o face.
Ceea ce ne-am orientat spre este măsurarea numărului discret de pași necesari pentru a trece de la schița agentului la declarația finală depusă. Acest număr se traduce direct în ore economisite, iar orele economisite se traduc în capacitate pe care firmele o pot redirecționa către munca de consultanță, declarații complexe sau pur și simplu depuneri mai devreme, cu mai puțin burnout. Este un cadru de măsurare care se potrivește cu modul în care se face munca.
Când rulăm piloți, constatăm adesea că firmele nu au un standard de acuratețe definit pentru declarațiile lor existente pregătite de oameni. Presupunerea implicită este că declarațiile depuse sunt corecte 100%. În practică, există o variație naturală în jurul marjelor. Doi preparatori din aceeași firmă pot produce schițe diferite ale aceleiași declarații. Evaluările AI nu introduc acea variație. Pur și simplu o fac vizibilă.
**Ce înseamnă asta pentru firme**
Dacă sunteți un lider de firmă care încearcă să ia o decizie cu privire la AI, concluzia onestă din benchmark-urile actuale este aceasta: Nu le citiți ca dovezi despre ceea ce poate face AI pentru practica dvs. Ele măsoară modele de frontieră izolate, ceea ce este o intrare de cercetare utilă și o intrare de achiziție înșelătoare.
Întrebarea corectă de diligență nu este 'Ce scor are această AI pe un benchmark?' Este 'Este acest sistem conceput pentru a funcționa așa cum funcționează de fapt pregătirea taxelor?' Este AI cuplată cu un motor fiscal deterministic sau i se cere să facă calcul nativ? Sistemul oferă agentului acces la tot contextul pe care l-ar avea un preparator uman, inclusiv declarații din anii anteriori și date nestructurate, cum ar fi e-mailuri? Agentul scoate la iveală incertitudinea ca note acționabile pentru preparator sau ghicește în tăcere? Există un strat secundar de revizuire care prinde erorile înainte ca acestea să ajungă la un recenzor uman? Poate fi urmărită fiecare valoare din ieșire înapoi la un document sursă specific? Fluxul de lucru acceptă pregătirea iterativă, cu revizuiri incrementale pe măsură ce sosesc informații noi?
Aceste întrebări descriu arhitectura unui sistem care funcționează în producție. Un scor de benchmark simplificat singur nu le răspunde.
**Ce urmează**
Suntem încrezători în trei lucruri.
Primul este că AI poate face deja o parte semnificativă din munca de pregătire a taxelor astăzi. În toate firmele cu care am lucrat în acest sezon, agentul a generat schițe gata de revizuire, cu citări complete pe zeci de mii de declarații. Firmele au văzut economii de timp măsurabile. Practicienii și-au adaptat fluxul de lucru de la 'pregătiți declarația' la 'revizuiți schița și rezolvați problemele'.
Al doilea este că saltul de la acest sezon la următorul va fi mai ușor decât saltul de la sezonul trecut la acesta. Modelele de frontieră se îmbunătățesc. Orchestrarea noastră a agenților devine din ce în ce mai bună. Fiecare implementare scoate la iveală cazuri limită pe care le putem remedia înainte ca următoarea firmă să le întâmpine. Și munca nu se resetează în fiecare an. Fiecare client care revine oferă agentului un punct de plecare mai bogat: foi de lucru din anii anteriori, clasificări ale activităților, istoric al comunicațiilor și problemele deja rezolvate în ciclul anterior. Efectul de cumulare este real, atât între firme, cât și în interiorul acestora.
Al treilea este că narațiunea dominantă a industriei ('AI nu poate face asta încă') va arăta din ce în ce mai mult în dezacord cu ceea ce se expediază. Firmele care așteaptă ca benchmark-urile să valideze tehnologia vor întârzia. Firmele care pilotează, măsoară pe propriile date și construiesc intuiție internă vor fi devreme. Această diferență va conta.
Întrebarea nu este dacă AI poate face pregătirea taxelor. O face deja, în producție, în acest sezon. Întrebarea este dacă să începeți să vă cumulați acum sau să petreceți sezonul următor recuperând.

