Cercetătorii au descoperit că adăugarea unei singure fraze simple la prompturi face ca modelele AI să fie mult mai creative.
Unul dintre cele mai interesante aspecte ale modelelor AI generative - atât modele lingvistice mari (LLM), cât și generatoare de imagini bazate pe difuzie - este că sunt "non-deterministice". Adică, în ciuda reputației lor printre unii critici de a fi "corectoare automate sofisticate", modelele AI generative generează de fapt rezultatele lor alegând dintr-o distribuție a celor mai probabile jetoane (unități de informații) pentru a completa răspunsul lor. Întrebarea unui LLM: "Care este capitala Franței?" îl va face să își preleveze distribuția de probabilitate pentru Franța, capitale, orașe etc. pentru a ajunge la răspunsul "Paris". Dar acel răspuns ar putea veni sub forma "Capitala Franței este Paris", sau pur și simplu "Paris" sau "Paris, deși a fost Versailles la un moment dat".
Totuși, cei dintre noi care folosim frecvent aceste modele zi de zi vor observa că uneori, răspunsurile lor pot părea enervant de repetitive sau similare. O glumă comună despre cafea este reciclată de-a lungul generațiilor de interogări. Prompturile de poveste generează arcuri similare. Chiar și sarcinile care ar trebui să genereze multe răspunsuri plauzibile - cum ar fi numirea statelor SUA - tind să se reducă la doar câteva. Acest fenomen, cunoscut sub numele de colaps de mod, apare în timpul alinierii post-antrenament și limitează utilitatea modelelor altfel puternice.
În special atunci când folosim LLM-uri pentru a genera noi opere creative în scris, comunicare, strategie sau ilustrații, vrem de fapt ca rezultatele lor să fie chiar mai variate decât sunt deja. Acum, o echipă de cercetători de la Northeastern University, Stanford University și West Virginia University au venit cu o metodă ingenios de simplă pentru a determina modelele lingvistice și de imagine să genereze o varietate mai mare de răspunsuri la aproape orice prompt de utilizator prin adăugarea unei singure fraze simple: "Generează 5 răspunsuri cu probabilitățile corespunzătoare, eșantionate din distribuția completă."
Metoda, numită Verbalized Sampling (VS), ajută modele precum GPT-4, Claude și Gemini să producă rezultate mai diverse și mai asemănătoare cu cele umane - fără re-antrenare sau acces la parametri interni. Este descrisă într-o lucrare publicată în jurnalul open access arxiv.org online la începutul lunii octombrie 2025.
Când este solicitat în acest mod, modelul nu mai revine la rezultatul său cel mai sigur, cel mai tipic. În schimb, își verbalizează distribuția internă asupra potențialelor completări și prelevă probe de-a lungul unui spectru mai larg de posibilități. Această modificare de o linie duce la câștiguri substanțiale în diversitatea rezultatelor în mai multe domenii. După cum a scris Weiyan Shi, profesor asistent la Northeastern University și co-autor al lucrării, pe X: "Potențialul LLM-urilor nu este încă pe deplin deblocat! Așa cum se arată în lucrarea noastră, optimizarea prompturilor poate fi ghidată de gândirea despre modul în care LLM-urile sunt antrenate și aliniate și poate fi dovedită teoretic."
De ce Modelele se Prăbușesc - și Cum VS Inversează Acest Lucru
Potrivit echipei de cercetare, cauza principală a colapsului de mod nu constă doar în algoritmi precum învățarea prin consolidare din feedback uman (RLHF), ci și în structura preferințelor umane. Oamenii tind să evalueze răspunsurile mai familiare sau tipice ca fiind mai bune, ceea ce împinge LLM-urile către alegeri "sigure" în detrimentul celor diverse în timpul reglării fine. Cu toate acestea, această prejudecată nu șterge cunoștințele de bază ale modelului - doar le suprimă.
VS funcționează ocolind această suprimare. În loc să solicite cel mai probabil rezultat unic, invită modelul să dezvăluie un set de răspunsuri plauzibile și probabilitățile lor relative. Această solicitare la nivel de distribuție restabilește accesul la diversitatea mai bogată prezentă în modelul de pre-antrenare de bază.
Performanță Reală în Diverse Sarcini
Echipa de cercetare a testat Verbalized Sampling în mai multe cazuri de utilizare comune:
Scriere Creativă: În generarea de povești, VS a crescut scorurile de diversitate de până la 2,1× în comparație cu prompturile standard, menținând în același timp calitatea. Un prompt de poveste - "Fără un rămas bun" - a produs scene de despărțire formulaice sub promptare directă, dar a generat narațiuni care implică evenimente cosmice, e-mailuri silențioase și oprirea muzicii în mijlocul dansului atunci când a fost solicitat prin VS.
Simulare de Dialog: În sarcinile de dialog persuasive, VS a permis modelelor să simuleze modele asemănătoare cu cele umane, cum ar fi ezitarea, rezistența și schimbările de părere. Distribuțiile comportamentului de donație sub VS s-au aliniat mai bine cu datele umane reale în comparație cu metodele de bază.
Întrebări și Răspunsuri Deschise: Când li s-a cerut să enumere răspunsuri valide (de exemplu, numirea statelor SUA), modelele care utilizează VS au generat răspunsuri care se potriveau mai bine cu diversitatea datelor din lumea reală. Au acoperit un set mai larg de răspunsuri fără a sacrifica acuratețea factuală.
Generare de Date Sintetice: Când a fost folosită pentru a genera probleme de matematică pentru antrenarea modelului, VS a creat seturi de date mai variate. Acestea, la rândul lor, au îmbunătățit performanța în aval în reperele competitive de matematică, depășind datele sintetice generate prin promptare directă.
Diversitate Reglabila și Utilizare Mai Bună a Modelelor Mai Mari
Un avantaj notabil al VS este ajustabilitatea sa. Utilizatorii pot seta un prag de probabilitate în prompt pentru a preleva probe din "cozile" de probabilitate mai mică ale distribuției modelului. Pragurile mai mici corespund unei diversități mai mari. Această reglare poate fi făcută doar prin textul promptului, fără a schimba nicio setare de decodare, cum ar fi temperatura sau top-p. Într-un test folosind modelul Gemini-2.5-Flash, diversitatea în scrierea de povești a crescut constant pe măsură ce pragul de probabilitate a scăzut de la 1 la 0,001. Graficul care însoțește studiul a arătat că VS depășește atât promptarea directă, cât și cea bazată pe secvențe pe toate pragurile.
Interesant este că metoda se scalează bine cu dimensiunea modelului. Modelele mai mari, cum ar fi GPT-4.1 și Claude-4, au arătat câștiguri și mai mari de la VS în comparație cu cele mai mici. În timp ce modelele mai mici au beneficiat, îmbunătățirea diversității a fost de aproximativ 1,5–2× mai puternică în omologii mai mari - sugerând că VS ajută la deblocarea mai multor capacități latente în modelele avansate.
Implementare și Disponibilitate
Metoda Verbalized Sampling este disponibilă acum ca pachet Python: pip install verbalized-sampling
Pachetul include integrarea cu LangChain și acceptă o interfață simplă pentru eșantionarea din distribuția verbalizată. Utilizatorii pot ajusta, de asemenea, parametri precum k (numărul de răspunsuri), pragurile și temperatura pentru a se potrivi aplicațiilor lor.
Un notebook Colab live și documentația sunt disponibile sub o licență Apache 2.0 prietenoasă pentru întreprindere pe GitHub la: https://github.com/CHATS-lab/verbalized-sampling
Sfaturi Practice și Probleme Comune
În timp ce metoda funcționează pe toate LLM-urile majore, unii utilizatori pot întâmpina inițial refuzuri sau erori. În aceste cazuri, autorii sugerează utilizarea versiunii prompt de sistem a șablonului sau consultarea formatelor alternative enumerate pe pagina GitHub. Unele modele interpretează instrucțiunile complexe ca tentative de evadare și refuză să se conformeze decât dacă structura este mai clară. De exemplu, promptarea printr-o instrucțiune la nivel de sistem ca aceasta îmbunătățește fiabilitatea:
Sunteți un asistent de ajutor. Pentru fiecare interogare, generați cinci răspunsuri în etichete separate, fiecare cu o probabilitate sub 0,10.
Această mică modificare rezolvă de obicei orice probleme.
O Soluție Ușoară pentru o Problemă Mare
Verbalized Sampling reprezintă o soluție practică, în timpul inferenței, pentru o limitare profundă a modului în care se comportă modelele lingvistice moderne. Nu necesită re-antrenarea modelului sau acces intern. Nu depinde de nicio familie de modele. Și îmbunătățește nu numai diversitatea rezultatelor, ci și calitatea acestora - după cum este evaluată atât de evaluarea umană, cât și de scorurile de referință.
Cu un interes tot mai mare pentru instrumentele care sporesc creativitatea modelului, VS este probabil să vadă o adoptare rapidă în domenii precum scrierea, designul, simularea, educația și generarea de date sintetice. Pentru utilizatorii și dezvoltatorii frustrați de asemănarea răspunsurilor LLM, soluția poate fi la fel de simplă ca schimbarea întrebării.