Guide Labs Launches a New Interpretable Language Model

Provocarea gestionării unui model de învățare profundă constă adesea în înțelegerea motivului pentru care face ceea ce face: fie că este vorba de sesiunile repetate ale xAI pentru a ajusta politica ciudată a lui Grok, de dificultățile ChatGPT cu siconia, fie de halucinații banale, cercetarea unei rețele neuronale cu miliarde de parametri nu este ușoară.

Guide Labs, un start-up din San Francisco fondat de CEO-ul Julius Adebayo și directorul științific Aya Abdelsalam Ismail, oferă astăzi un răspuns la această problemă. Luni, compania a lansat open-source un LLM de 8 miliarde de parametri, Steerling-8B, antrenat cu o nouă arhitectură concepută pentru a face acțiunile sale ușor interpretabile: fiecare token produs de model poate fi urmărit până la originile sale în datele de antrenament ale LLM-ului. Aceasta poate fi la fel de simplă ca determinarea materialelor de referință pentru faptele citate de model, sau la fel de complexă ca înțelegerea de către model a umorului sau a genului.

"Dacă am un trilion de moduri de a codifica genul și îl codific în 1 miliard din cele 1 trilion de lucruri pe care le am, trebuie să mă asigur că găsesc toate acele 1 miliarde de lucruri pe care le-am codificat și apoi trebuie să pot porni, opri în mod fiabil acest lucru," a declarat Adebayo pentru TechCrunch. "Puteți face acest lucru cu modelele actuale, dar este foarte fragil... Este un fel de una dintre întrebările sacre."

Adebayo a început această lucrare în timp ce își obținea doctoratul la MIT, fiind coautor al unei lucrări din 2020 citată pe scară largă, care a arătat că metodele existente de înțelegere a modelelor de învățare profundă nu erau fiabile. Această lucrare a condus în cele din urmă la crearea unei noi modalități de construire a LLM-urilor: dezvoltatorii introduc un strat de concept în model care grupează datele în categorii urmăribile. Acest lucru necesită o adnotare mai amănunțită a datelor în avans, dar folosind alte modele AI pentru a ajuta, au reușit să antreneze acest model ca cea mai mare dovadă de concept de până acum.

"Tipul de interpretabilitate pe care oamenii îl fac este... neuroștiință pe un model, și noi inversăm asta", a spus Adebayo. "Ceea ce facem este de fapt să proiectăm modelul de la zero, astfel încât să nu mai fie nevoie să facem neuroștiință."

O preocupare cu privire la această abordare este că ar putea elimina unele dintre comportamentele emergente care fac LLM-urile atât de intrigante: capacitatea lor de a generaliza în moduri noi despre lucruri pe care nu au fost încă antrenate. Adebayo spune că acest lucru se întâmplă în continuare în modelul companiei sale: echipa sa urmărește ceea ce ei numesc "concepte descoperite" pe care modelul le-a descoperit singur, cum ar fi calculul cuantic.

Adebayo susține că această arhitectură interpretabilă va fi ceva de care toată lumea are nevoie. Pentru LLM-urile orientate către consumatori, aceste tehnici ar trebui să permită creatorilor de modele să facă lucruri precum blocarea utilizării materialelor protejate de drepturi de autor sau un control mai bun al rezultatelor în jurul unor subiecte precum violența sau abuzul de droguri. Industriile reglementate vor necesita LLM-uri mai controlabile, de exemplu în finanțe, unde un model care evaluează solicitanții de împrumut trebuie să ia în considerare lucruri precum evidențele financiare, dar nu și rasa.

Există, de asemenea, o nevoie de interpretabilitate în munca științifică, un alt domeniu în care Guide Labs a dezvoltat tehnologie. Plierea proteinelor a fost un mare succes al modelelor de învățare profundă, dar oamenii de știință au nevoie de mai multe informații despre motivul pentru care software-ul lor a descoperit combinații de succes.

"Ceea ce demonstrează acest model este că antrenarea modelelor interpretabile nu mai este un fel de știință; este acum o problemă de inginerie", a spus Adebayo. "Ne-am dat seama de știință și le putem scala și nu există niciun motiv pentru care acest tip de lucru nu s-ar potrivi cu performanța modelelor de nivel frontieră", care au mult mai mulți parametri.

Guide Labs spune că Steerling-8B poate atinge 90% din capacitatea modelelor existente, dar folosește mai puține date de antrenament, datorită arhitecturii sale inovatoare. Următorul pas pentru companie, care a ieșit din Y Combinator și a strâns o rundă de finanțare de 9 milioane de dolari de la Initialized Capital în noiembrie 2024, este să construiască un model mai mare și să înceapă să ofere utilizatorilor acces API și agentic.

"Modul în care antrenăm modelele actuale este super primitiv, și, prin urmare, democratizarea interpretabilității inerente va fi, de fapt, un lucru bun pe termen lung pentru rasa umană", a declarat Adebayo pentru TechCrunch. "Pe măsură ce urmărim aceste modele care vor fi super inteligente, nu vrei ca ceva să ia decizii în numele tău, care să fie un fel de mister pentru tine."

Guide Labs lansează un nou model lingvistic interpretabil

Tech & AI

Anthropic acuză laboratoarele chineze de IA că folosesc Claude pentru a-și îmbunătăți propriile modele

Primul Joc PS Plus Essential din Martie 2026 Scurge Mai Devreme - Push Square

Intrarea AI pedepsește Big Tech, dar nu și Apple

Ultimele 5 zile pentru a obține bilete la TechCrunch Disrupt 2026 la cel mai mic preț!

OpenAI își aprofundează parteneriatele pentru AI Enterprise