Un nou studiu de cercetare de la OpenAI se întreabă de ce modelele lingvistice mari, precum GPT-5 și chatbot-uri precum ChatGPT, încă halucinatează și dacă se poate face ceva pentru a reduce aceste halucinații.
Într-o postare pe blog care rezumă lucrarea, OpenAI definește halucinațiile ca „declarații plauzibile, dar false generate de modele lingvistice” și recunoaște că, în ciuda îmbunătățirilor, halucinațiile „rămân o provocare fundamentală pentru toate modelele lingvistice mari” - una care nu va fi niciodată complet eliminată.
Pentru a ilustra ideea, cercetătorii spun că, atunci când au întrebat „un chatbot utilizat pe scară largă” despre titlul disertației de doctorat a lui Adam Tauman Kalai, au primit trei răspunsuri diferite, toate greșite. (Kalai este unul dintre autorii lucrării.) Apoi au întrebat despre ziua lui de naștere și au primit trei date diferite. Încă o dată, toate erau greșite.
Cum poate un chatbot să greșească atât de mult - și să sune atât de sigur pe greșeala sa? Cercetătorii sugerează că halucinațiile apar, în parte, din cauza unui proces de pre-antrenament care se concentrează pe a face modelele să prezică corect următorul cuvânt, fără etichete adevărate sau false atașate declarațiilor de antrenament: „Modelul vede doar exemple pozitive de limbaj fluent și trebuie să aproximeze distribuția generală.”
„Ortografia și parantezele urmează modele consistente, astfel încât erorile de acolo dispar cu scara”, scriu ei. „Dar faptele arbitrare de joasă frecvență, cum ar fi ziua de naștere a unui animal de companie, nu pot fi prezise doar din modele și, prin urmare, duc la halucinații.”
Soluția propusă de lucrare, totuși, se concentrează mai puțin pe procesul inițial de pre-antrenament și mai mult pe modul în care sunt evaluate modelele lingvistice mari. Aceasta susține că modelele actuale de evaluare nu provoacă halucinații în sine, dar „stabilesc stimulentele greșite.”
Cercetătorii compară aceste evaluări cu tipul de teste cu răspunsuri multiple în care ghicitul aleatoriu are sens, deoarece „s-ar putea să ai noroc și să ai dreptate”, în timp ce lăsarea răspunsului necompletat „garantează un zero.”
„În același mod, atunci când modelele sunt notate doar pentru acuratețe, procentul de întrebări la care răspund exact corect, sunt încurajate să ghicească decât să spună „Nu știu””, spun ei.
Soluția propusă, așadar, este similară cu testele (precum SAT) care includ „[scorare] negativă pentru răspunsuri greșite sau credit parțial pentru lăsarea întrebărilor necompletate pentru a descuraja ghicitul orb.” În mod similar, OpenAI spune că evaluările modelului trebuie să „penalizeze erorile încrezătoare mai mult decât penalizează incertitudinea și să acorde credit parțial pentru exprimări adecvate de incertitudine.”
Și cercetătorii susțin că nu este suficient să se introducă „câteva teste noi, conștiente de incertitudine, pe margine”. În schimb, „evaluările bazate pe acuratețe, utilizate pe scară largă, trebuie actualizate, astfel încât scorarea lor să descurajeze ghicitul.”
„Dacă panourile de bord principale continuă să recompenseze ghicirile norocoase, modelele vor continua să învețe să ghicească”, spun cercetătorii.