Generalist Artificial Intelligence Receives a C+ Grade in Accounting

Furnizorul de ERP de contabilitate axat pe inteligență artificială, DualEntry, a testat unele dintre cele mai populare modele AI pe diverse fluxuri de lucru contabile și a constatat că, în cel mai bun caz, acestea au o precizie de 77,3%.

"Modelele lingvistice mari sunt instrumente puternice de redactare, dar finanțele nu funcționează cu proiecte; funcționează cu înregistrări validate", a declarat Santiago Nestares, co-fondator al DualEntry. "Benchmark-ul arată că AI poate accelera fluxurile de lucru contabile, dar fără controale și validare la nivel de sistem, erorile pot escalada rapid prin raportarea financiară."

Compania a testat 19 modele AI generaliste diferite (de exemplu, ChatGPT, Claude, Gemini) pe 101 fluxuri de lucru contabile diferite care reprezintă funcțiile de bază ale unui sistem de contabilitate generală. Acestea includ clasificarea tranzacțiilor, crearea de înregistrări jurnal, conturi de plătit și de primit, reconcilierea bancară, raportarea financiară, închiderea de sfârșit de lună și cunoștințe conceptuale de contabilitate. Aceste fluxuri de lucru au fost reduse la un set de întrebări care să fie adresate modelelor AI.

Întrebat pentru un exemplu, Ignacio Brasca, un inginer software care a lucrat direct la proiect, a împărtășit unul într-un e-mail: "'Bright Ideas Marketing LLC a primit o tranzacție bancară pentru 450,00 USD plătită către Staples pe 2025-03-15. Sub ce cont ar trebui clasificată această tranzacție bancară? Plata de 450 USD către Staples pe 2025-03-15. Numiti contul și tipul contului.' Întrebarea reală a avut, de asemenea, instrucțiuni între paranteze pentru a ghida AI, care ar trebui să răspundă ceva de genul 'Consumabile de birou'."

Întrebările au fost concepute pe baza unui plan de conturi furnizat și a unui context minim capabil să ofere informațiile necesare pentru ca întrebările să funcționeze fără a încărca prea multe informații în solicitare. Fiecare benchmark a rulat într-un mediu izolat per organizație, fără nicio legătură cu un cont real din sistem. Fiecare a fost agnostic față de celelalte. Gradarea a fost deterministă, așa că nu a existat nicio "argumentare" în spatele răspunsurilor dincolo de o simplă decizie logică binară. Fiecare benchmark a avut voie să ruleze de mai multe ori.

"În esență, modelul nu face matematică, ci face contabilitate cu instrumentele pe care le ingestăm înainte de configurare înainte de fiecare testare", a spus Brasca într-un e-mail.

Ceea ce au descoperit a fost că marile modele generale nu erau foarte bune la contabilitate. ChatGPT 5.4 de la OpenAI a obținut cel mai mare scor cu o precizie de 77,3%, urmat de Gemini 3.1 Pro, care a obținut 66%, urmat de Z.ai GLM-5 cu 65,3%. Majoritatea modelelor au obținut un scor sub 65% precizie, iar modelele mai vechi, cum ar fi GPT-4, au obținut doar 19,8%.

Cu toate acestea, testul a arătat, de asemenea, că, deși niciun model nu era deosebit de bun la contabilitate, au existat încă puncte forte și puncte slabe clare. De exemplu, atunci când a venit vorba de reamintirea informațiilor, cum ar fi discuțiile despre întrebări referitoare la GAAP/IFRS, majoritatea modelelor au obținut rezultate foarte bune. Dar când a venit vorba de crearea efectivă de înregistrări structurate, scorurile au scăzut semnificativ.

"Cea mai interesantă împărțire pe care o vedem: un model poate obține 92% la clasificarea tranzacțiilor (alegerea contului corect pentru o taxă bancară), dar scade la 30-40% la crearea de înregistrări jurnal, unde trebuie să producă o intrare pe mai multe linii cu debitări/creditări exacte. Clasificarea este potrivire de modele; crearea de înregistrări este raționament structurat cu constrângeri. Reconcilierea bancară este un alt lucru interesant: modelele care sunt bune la aritmetică tind să se descurce bine (90% +), dar modelele care 'halucină' pași intermediari sau sar peste ajustarea depozitului în tranzit eșuează greu", a spus el, adăugând că a fost surprins de cât de deosebit de proaste au fost o mulțime de modele AI la sarcini ca aceasta.

Întrebat de ce s-au descurcat atât de prost, el a spus că un factor este lipsa contextului de domeniu, deoarece modelele generale sunt antrenate pe date largi de pe internet, spre deosebire de expunerea profundă la standardele, fluxurile de lucru și cazurile marginale de contabilitate. El a mai spus că au doar acces limitat la instrumente și date externe, spre deosebire de AI-urile de afaceri și de contabilitate specializate (cum ar fi cea oferită de DualEntry), care adesea se integrează cu baze de date, calculatoare sau sisteme de recuperare, spre deosebire de a se baza doar pe datele lor de antrenament. Și în al treilea rând, sistemele dedicate sunt de obicei reglate fin pe seturi de date financiare și scenarii contabile reale, ceea ce le oferă un avantaj clar pentru aceste sarcini specializate.

Rezultatele ar putea fi sobre pentru cei 82% care au declarat recent într-un sondaj că au încredere în AI cu sfaturi și îndrumări financiare, împreună cu aproape unul din doi respondenți care cred că AI este superioară tuturor persoanelor din viața lor atunci când vine vorba de a oferi informații și îndrumări financiare.

În timp ce Brasca a spus că scopul nu era să încoroneze "cel mai bun model", el a spus că DualEntry a vrut să le demistifice oarecum pentru a evalua mai bine cât de potrivite sunt pentru munca de contabilitate.

"Majoritatea benchmark-urilor publice testează raționamentul general sau întrebări despre cunoștințe. Este foarte diferit de modul în care funcționează software-ul de contabilitate în practică. În interiorul unui ERP, modelul nu scrie text - trebuie să creeze înregistrări financiare structurate, cum ar fi intrări jurnal, facturi și reconcilieri cu conturile, sumele și elementele de linie corecte. Așa că am construit un benchmark care oglindește modul în care funcționează de fapt un copilot de contabilitate", a spus el.

Inteligența Artificială generalistă primește nota C+ la contabilitate

Taxe & Contabilitate

Procesele Colective Legate de Contabilitate Scad la un Nivel Record

Mega-fuziuni generează clienți noi pentru audit SEC în 2025

Auvenir devine independentă de Deloitte și se lansează ca Streamworks Tech

De la piramidă la clepsidră: Noua arhitectură a firmelor de contabilitate

Probleme majore descoperite la firmele de consultanță fiscală