Latam-GPT este un nou model lingvistic de mari dimensiuni dezvoltat în și pentru America Latină. Proiectul, condus de organizația nonprofit Centrul Național Chilean de Inteligență Artificială (CENIA), își propune să ajute regiunea să obțină independența tehnologică prin dezvoltarea unui model AI open source, antrenat pe limbile și contextele latino-americane.
“Această lucrare nu poate fi întreprinsă de un singur grup sau o singură țară din America Latină: este o provocare care necesită participarea tuturor,” spune Álvaro Soto, directorul CENIA, într-un interviu cu WIRED en Español. “Latam-GPT este un proiect care caută să creeze un model AI deschis, gratuit și, mai presus de toate, colaborativ. Lucrăm de doi ani cu un proces de jos în sus, reunind cetățeni din diferite țări care doresc să colaboreze. Recent, a cunoscut și inițiative de sus în jos, cu guverne care s-au arătat interesate și au început să participe la proiect.”
Proiectul se remarcă prin spiritul său colaborativ. “Nu căutăm să concurăm cu OpenAI, DeepSeek sau Google. Vrem un model specific pentru America Latină și Caraibe, conștient de cerințele și provocările culturale pe care le implică acest lucru, cum ar fi înțelegerea diferitelor dialecte, istoria regiunii și aspectele culturale unice,” explică Soto.
Grație a 33 de parteneriate strategice cu instituții din America Latină și Caraibe, proiectul a adunat un corpus de date de peste opt terabytes de text, echivalentul a milioane de cărți. Această bază de informații a permis dezvoltarea unui model lingvistic cu 50 de miliarde de parametri, o scară care îl face comparabil cu GPT-3.5 și îi oferă o capacitate medie până la ridicată de a efectua sarcini complexe precum raționamentul, traducerea și asocierile.
Latam-GPT este antrenat pe o bază de date regională care compilează informații din 20 de țări din America Latină și Spania, cu un total impresionant de 2.645.500 de documente. Distribuția datelor arată o concentrare semnificativă în cele mai mari țări din regiune, Brazilia fiind lider cu 685.000 de documente, urmată de Mexic cu 385.000, Spania cu 325.000, Columbia cu 220.000 și Argentina cu 210.000 de documente. Cifrele reflectă dimensiunea acestor piețe, dezvoltarea lor digitală și disponibilitatea conținutului structurat.
“Inițial, vom lansa un model lingvistic. Ne așteptăm ca performanța sa în sarcini generale să fie aproape de cea a marilor modele comerciale, dar cu o performanță superioară în subiecte specifice Americii Latine. Ideea este că, dacă îl întrebăm despre subiecte relevante pentru regiunea noastră, cunoștințele sale vor fi mult mai profunde,” explică Soto.
Primul model este punctul de plecare pentru dezvoltarea unei familii de tehnologii mai avansate în viitor, inclusiv cele cu imagini și video, și pentru extinderea la modele mai mari. “Deoarece acesta este un proiect deschis, dorim ca alte instituții să îl poată utiliza. Un grup din Columbia ar putea să-l adapteze pentru sistemul de învățământ școlar sau unul din Brazilia ar putea să-l adapteze pentru sectorul sănătății. Ideea este de a deschide ușa pentru diferite organizații pentru a genera modele specifice pentru anumite domenii precum agricultura, cultura și altele,” explică directorul CENIA.
Infrastructura de supercalcul de la Universitatea din Tarapacá (UTA) din Arica, Chile, este un pilon fundamental pentru Latam-GPT. Cu o investiție proiectată de 10 milioane de dolari, noul centru are un cluster de 12 noduri, fiecare echipat cu opt GPU-uri NVIDIA H200 de ultimă generație. Această capacitate, fără precedent în Chile și în regiune în general, nu numai că permite antrenarea modelului la scară largă în țară pentru prima dată, dar încurajează și descentralizarea și eficiența energetică.
Prima versiune a Latam-GPT va fi lansată în acest an. Modelul va fi rafinat și extins pe măsură ce noi parteneri strategici se alătură efortului și seturi de date mai robuste sunt integrate în el.
Interviul a fost editat pentru lungime și claritate.
WIRED: Giganții tehnologici precum Google, OpenAI și Anthropic au investit miliarde în modelele lor. Care este argumentul tehnic și strategic pentru dezvoltarea unui model separat, specific pentru America Latină?
Álvaro Soto: Indiferent cât de puternice ar fi aceste alte modele, ele sunt incapabile să cuprindă tot ceea ce este relevant pentru realitatea noastră. Simt că astăzi sunt prea concentrate pe nevoile altor părți ale lumii. Imaginați-vă dacă am vrea să le folosim pentru a moderniza sistemul de învățământ din America Latină. Dacă ați cere unuia dintre aceste modele un exemplu, probabil că v-ar vorbi despre George Washington. Ar trebui să ne preocupe propriile nevoi; nu putem aștepta ca alții să găsească timp să ne întrebe de ce avem nevoie. Având în vedere că acestea sunt tehnologii noi și foarte disruptive, există spațiu și o nevoie pentru noi, în regiunea noastră, de a profita de beneficiile lor și de a înțelege riscurile lor. Având această experiență este esențial pentru a ghida utilizarea tehnologiei înainte pe cea mai bună cale. Acest lucru deschide, de asemenea, posibilități pentru cercetătorii noștri. Astăzi, cadrele universitare latino-americane au puține oportunități de a interacționa în profunzime cu aceste modele. Este ca și cum am vrea să studiem imagistica prin rezonanță magnetică, dar nu avem un rezonator. Latam-GPT caută să fie acel instrument fundamental, astfel încât comunitatea științifică să poată experimenta și avansa.
Intrarea cheie sunt datele. Care este stadiul corpusului Latam-GPT și cum abordați provocarea de a include nu numai variante de spaniolă și portugheză, ci și limbi indigene?
Am pus mult accent pe generarea de date de înaltă calitate. Nu este vorba doar de volum, ci și de compoziție. Analizăm diversitatea regională pentru a ne asigura că datele nu provin în mod disproporționat doar dintr-o singură țară, ci că există o reprezentare echilibrată. Dacă observăm că Nicaragua este subreprezentată în date, de exemplu, vom căuta activ colaboratori acolo. Analizăm, de asemenea, diversitatea subiectelor - politică, sport, artă și alte domenii - pentru a avea un corpus echilibrat. Și, bineînțeles, există diversitate culturală. În această primă versiune, ne-am concentrat pe existența informațiilor culturale despre popoarele noastre ancestrale, cum ar fi aztecii și incașii, mai degrabă decât pe limbajul în sine. În viitor, ideea este să încorporăm și limbi indigene. La CENIA, lucrăm deja la traducători pentru Mapuche și Rapanui, iar alte grupuri din regiune fac același lucru cu Guaraní. Este un exemplu clar de ceva ce trebuie să facem noi înșine, pentru că nimeni altcineva nu o va face.
Ne puteți spune mai multe despre CENIA și despre modul în care această inițiativă a fost înființată în Chile?
Între 2017 și 2018, un grup de experți, care mă includea și pe mine ca membru, a elaborat Politica Națională de Inteligență Artificială a Chile. Una dintre concluziile grupului a fost că este necesară crearea unei instituții care să supravegheze dezvoltarea unui ecosistem AI sinergic și sănătos, care să cuprindă știința, transferul de tehnologie către industrie și responsabilitatea socială. CENIA a fost creată pentru a fi această instituție. Deși a început în Chile, avem o viziune regională și credem că împreună suntem mai puternici. Am promovat inițiative precum Indexul Latino-American de Inteligență Artificială, un studiu colaborativ care măsoară progresul IA în țările din întreaga regiune.
Specialitatea dumneavoastră este robotica cognitivă. Cum se raportează un model lingvistic regional la capacitatea unui agent autonom de a interacționa într-un context latino-american?
În robotica cognitivă, partea cognitivă este inteligența. Cariera mea s-a concentrat pe dezvoltarea inteligenței pentru mașinile fizice. Astăzi, modelele lingvistice și modelele fundamentale sunt în fruntea IA. Ele sunt cele mai puternice instrumente pe care le avem, așa că munca mea este dedicată înțelegerii și contribuției la dezvoltarea științifică și aplicată a acestui tip de tehnologie.
Modelele se confruntă cu probleme legate de geopolitică și putere, care au fost acoperite de mass-media. Care sunt provocările specifice din America Latină când vine vorba de aceste modele?
Ne confruntăm cu multe provocări, dar avem și multe puncte forte, cum ar fi deschiderea noastră și capacitatea noastră de colaborare, pe care le-am văzut în proiectul Latam-GPT. Acestea fiind spuse, unul dintre domeniile cheie pe care trebuie să ne concentrăm este educația. Aceste tehnologii vor schimba abilitățile necesare generațiilor mai tinere. Învățarea pe de rost va fi mai puțin critică; ceea ce va fi important este să știi cum să folosești cunoștințele IA. Trebuie să ne pregătim tinerii pentru aceasta, promovând în același timp științele sociale și gândirea critică. Dacă ar trebui să aleg unde să aplic aceste tehnologii, ar fi în educație, deoarece abordează cauza principală a multora dintre problemele noastre.
Un proiect ca acesta necesită o putere de calcul masivă. Este realist să credem că regiunea noastră poate dezvolta infrastructura necesară? Ce implicații are acest lucru pentru suveranitatea tehnologică a Americii Latine?
Este esențial. Dacă vrei să joci fotbal, ai nevoie de un teren și de o minge. Aici, puterea de calcul este terenul. Trebuie să o dezvoltăm, fie în cloud, fie în propriile noastre centre de date. Este o infrastructură necesară pentru această nouă eră tehnologică, așa cum a fost infrastructura de telecomunicații pentru internet.
Privind spre 2030, care ar fi un scenariu de succes pentru un model precum Latam-GPT? Vom fi dezvoltatori de tehnologie și nu doar consumatori?
Succesul ar însemna că Latam-GPT a jucat un rol important în dezvoltarea inteligenței artificiale în această regiune. Că diferite organizații pot lua această tehnologie și o pot aplica, de exemplu, în educație. Că noile generații de latino-americani sunt mai bine pregătite, deoarece au avut acces la instrumente care le-au vorbit în contextul lor, cu referințele lor culturale, cu figuri din istoria noastră și nu doar folosind exemple din alte părți ale lumii. Dacă reușim să dăm acestei tehnologii o amprentă latino-americană și să contribuim la dezvoltarea sa, proiectul va fi un mare succes.
Acest interviu a fost publicat pentru prima dată de Wired en Español. A fost tradus de John Newton.