Modelele AI Granite 4.0 Nano de la IBM pot rula local, direct în browser
Carl Franzen 28 Octombrie 2025
Într-o industrie în care dimensiunea modelului este adesea văzută ca un indicator al inteligenței, IBM abordează o direcție diferită - una care valorizează eficiența în detrimentul enormității și accesibilitatea în detrimentul abstracției. Cele patru noi modele Granite 4.0 Nano ale gigantului tehnologic de 114 ani, lansate astăzi, variază de la doar 350 de milioane la 1,5 miliarde de parametri, o fracțiune din dimensiunea verilor lor aflați pe servere, de la companii precum OpenAI, Anthropic și Google.
Aceste modele sunt concepute pentru a fi extrem de accesibile: variantele de 350M pot rula confortabil pe un CPU modern de laptop cu 8-16GB de RAM, în timp ce modelele de 1,5B necesită, de obicei, un GPU cu cel puțin 6-8GB de VRAM pentru o performanță lină - sau suficientă RAM de sistem și swap pentru inferențe doar cu CPU. Acest lucru le face potrivite pentru dezvoltatorii care construiesc aplicații pe hardware-ul consumatorului sau la margine, fără a se baza pe calculele cloud. De fapt, cele mai mici pot rula chiar și local în propriul browser web, după cum a scris Joshua Lochner aka Xenova, creatorul Transformer.js și inginer de învățare automată la Hugging Face, pe rețeaua socială X.
Toate modelele Granite 4.0 Nano sunt lansate sub licența Apache 2.0 - perfecte pentru utilizare de către cercetători și dezvoltatori enterprise sau independenți, chiar și pentru utilizare comercială. Ele sunt compatibile nativ cu llama.cpp, vLLM și MLX și sunt certificate conform ISO 42001 pentru dezvoltarea responsabilă a AI - un standard pe care IBM a ajutat să îl creeze.
Dar, în acest caz, mic nu înseamnă mai puțin capabil - ar putea însemna doar un design mai inteligent. Aceste modele compacte sunt construite nu pentru centre de date, ci pentru dispozitive edge, laptopuri și inferențe locale, unde calculul este limitat și latența contează. Și, în ciuda dimensiunilor lor mici, modelele Nano prezintă rezultate de referință care rivalizează sau chiar depășesc performanța modelelor mai mari din aceeași categorie. Lansarea este un semnal că se formează rapid o nouă frontieră AI - una nu dominată de scara pură, ci de scalarea strategică.
Ce a lansat exact IBM?
Familia Granite 4.0 Nano include patru modele open-source disponibile acum pe Hugging Face:
Granite-4.0-H-1B (~1.5B parametri) – Arhitectură hibridă SSM Granite-4.0-H-350M (~350M parametri) – Arhitectură hibridă SSM Granite-4.0-1B – Variantă bazată pe Transformer, număr de parametri mai apropiat de 2B Granite-4.0-350M – Variantă bazată pe Transformer
Modelele din seria H - Granite-4.0-H-1B și H-350M - utilizează o arhitectură hibridă state space (SSM) care combină eficiența cu performanța puternică, ideală pentru mediile edge cu latență scăzută. Între timp, variantele standard transformer - Granite-4.0-1B și 350M - oferă o compatibilitate mai largă cu instrumente precum llama.cpp, concepute pentru cazuri de utilizare în care arhitectura hibridă nu este încă acceptată. În practică, modelul transformer 1B este mai aproape de 2B de parametri, dar se aliniază performanțelor cu fratele său hibrid, oferind dezvoltatorilor flexibilitate în funcție de constrângerile lor de runtime.
„Varianta hibridă este un model adevărat de 1B. Cu toate acestea, varianta non-hibridă este mai aproape de 2B, dar am optat să menținem denumirea aliniată cu varianta hibridă pentru a face conexiunea ușor vizibilă”, a explicat Emma, liderul de marketing de produs pentru Granite, în timpul unei sesiuni Reddit "Ask Me Anything" (AMA) pe r/LocalLLaMA.
O clasă competitivă de modele mici
IBM intră pe o piață aglomerată și în evoluție rapidă a modelelor lingvistice mici (SLM), concurând cu oferte precum Qwen3, Gemma de la Google, LFM2 de la LiquidAI și chiar modelele dense ale Mistral în spațiul de parametri sub 2B. În timp ce OpenAI și Anthropic se concentrează pe modele care necesită clustere de GPU-uri și optimizare sofisticată a inferențelor, familia Nano de la IBM vizează direct dezvoltatorii care doresc să ruleze LLM-uri performante pe hardware local sau constrâns.
În testele de referință, noile modele IBM depășesc în mod constant topurile din clasa lor. Conform datelor partajate pe X de David Cox, VP of AI Models la IBM Research:
[Image: Benchmarks shared by IBM for performance of its Granite 4.0 Nano models in October 2025. Credit: IBM]
În IFEval (urmărirea instrucțiunilor), Granite-4.0-H-1B a obținut un scor de 78.5, depășind Qwen3-1.7B (73.1) și alte modele de 1-2B. În BFCLv3 (apelarea funcțiilor/instrumentelor), Granite-4.0-1B a condus cu un scor de 54.8, cel mai mare din clasa sa de dimensiune. În testele de referință de siguranță (SALAD și AttaQ), modelele Granite au obținut peste 90%, depășind concurenții de dimensiuni similare.
[Image: Overall benchmark scores for IBM's Granite 4.0 Nano models. Credit: IBM]
În general, Granite-4.0-1B a obținut un scor mediu de referință de top de 68.3% în domenii de cunoștințe generale, matematică, cod și siguranță. Această performanță este semnificativă mai ales având în vedere constrângerile hardware pentru care sunt concepute aceste modele. Ele necesită mai puțină memorie, rulează mai rapid pe CPU-uri sau dispozitive mobile și nu au nevoie de infrastructură cloud sau accelerare GPU pentru a oferi rezultate utilizabile.
De ce dimensiunea modelului contează încă - dar nu ca înainte
În valul incipient al LLM-urilor, mai mare însemna mai bine - mai mulți parametri se traduceau într-o mai bună generalizare, raționament mai profund și ieșire mai bogată. Dar, pe măsură ce cercetarea transformatoare a evoluat, a devenit clar că arhitectura, calitatea instruirii și reglarea fină specifică sarcinii ar putea permite modelelor mai mici să lovească cu mult peste greutatea lor.
IBM se bazează pe această evoluție. Prin lansarea de modele open, mici, care sunt competitive în sarcinile din lumea reală, compania oferă o alternativă la API-urile AI monolitice care domină stiva de aplicații de astăzi. De fapt, modelele Nano abordează trei nevoi din ce în ce mai importante:
Flexibilitate de implementare - rulează oriunde, de la mobil la microservere. Confidențialitate a inferențelor - utilizatorii își pot păstra datele local, fără a fi nevoie să apeleze la API-uri cloud. Deschidere și auditabilitate - codul sursă și greutățile modelului sunt disponibile public sub o licență deschisă.
Răspunsul comunității și semnalele foii de parcurs
Echipa Granite de la IBM nu a lansat doar modelele și a plecat - au apelat la comunitatea open source r/LocalLLaMA de pe Reddit pentru a se angaja direct cu dezvoltatorii. Într-un fir de tip AMA, Emma (Marketing de produs, Granite) a răspuns la întrebări tehnice, a abordat preocupările legate de convențiile de denumire și a oferit indicii despre ce urmează.
Confirmări notabile din fir:
Un model Granite 4.0 mai mare este în prezent în curs de instruire Modelele axate pe raționament ("omologii de gândire") sunt în curs de elaborare IBM va lansa în curând rețete de reglare fină și o lucrare de instruire completă Mai multe instrumente și compatibilitate cu platforma sunt pe foaia de parcurs
Utilizatorii au răspuns cu entuziasm la capacitățile modelelor, în special în sarcinile de urmărire a instrucțiunilor și de răspuns structurat. Un comentator a rezumat: "Acesta este un lucru mare dacă este adevărat pentru un model 1B - dacă calitatea este bună și oferă rezultate consistente. Sarcini de apelare a funcțiilor, dialog multilingv, completări FIM... acesta ar putea fi un cal de bătaie adevărat." Un alt utilizator a remarcat: "Granite Tiny este deja modelul meu de bază pentru căutarea web în LM Studio - mai bun decât unele modele Qwen. Sunt tentat să încerc Nano."
Context: IBM Granite și cursa AI Enterprise
Impulsul IBM către modelele lingvistice mari a început cu seriozitate la sfârșitul anului 2023, odată cu debutul familiei de modele de bază Granite, începând cu modele precum Granite.13b.instruct și Granite.13b.chat. Lansate pentru utilizare în cadrul platformei sale Watsonx, aceste modele inițiale doar cu decodor au semnalat ambiția IBM de a construi sisteme AI de nivel enterprise care prioritizează transparența, eficiența și performanța.
Compania a făcut open-source anumite modele de cod Granite sub licența Apache 2.0 la mijlocul anului 2024, punând bazele unei adopții mai largi și a experimentării dezvoltatorilor. Punctul de inflexiune real a venit cu Granite 3.0 în octombrie 2024 - o suită complet open-source de modele de uz general și specializate pe domenii, variind de la 1B la 8B de parametri. Aceste modele au pus accent pe eficiență mai degrabă decât pe scară brută, oferind capacități precum ferestre de context mai lungi, reglarea instrucțiunilor și măsuri de protecție integrate. IBM a poziționat Granite 3.0 ca un concurent direct al Llama de la Meta, Qwen de la Alibaba și Gemma de la Google - dar cu o perspectivă unică, enterprise-first.
Versiunile ulterioare, inclusiv Granite 3.1 și Granite 3.2, au introdus inovații și mai prietenoase pentru întreprinderi: detectarea încorporată a halucinațiilor, prognoza seriilor temporale, modele de vizualizare a documentelor și comutatoare de raționament condițional.
Familia Granite 4.0, lansată în octombrie 2025, reprezintă cea mai ambițioasă lansare tehnică a IBM de până acum. Ea introduce o arhitectură hibridă care combină straturi transformer și Mamba-2 - urmărind să combine precizia contextuală a mecanismelor de atenție cu eficiența memoriei modelelor state-space. Acest design permite IBM să reducă semnificativ costurile de memorie și latență pentru inferențe, făcând modelele Granite viabile pe hardware mai mic, depășind totuși colegii în sarcinile de urmărire a instrucțiunilor și de apelare a funcțiilor. Lansarea include, de asemenea, certificarea ISO 42001, semnarea criptografică a modelului și distribuția pe platforme precum Hugging Face, Docker, LM Studio, Ollama și watsonx.ai.
În toate iterațiile, accentul IBM a fost clar: construirea de modele AI de încredere, eficiente și lipsite de ambiguitate juridică pentru cazurile de utilizare enterprise. Cu o licență Apache 2.0 permisivă, repere publice și accent pe guvernanță, inițiativa Granite nu numai că răspunde preocupărilor tot mai mari cu privire la modelele proprietare black-box, dar oferă și o alternativă deschisă aliniată cu Occidentul la progresul rapid al echipelor precum Qwen de la Alibaba. Făcând acest lucru, Granite poziționează IBM ca o voce de frunte în ceea ce ar putea fi următoarea fază a AI open-weight, gata de producție.
O trecere către eficiența scalabilă
În cele din urmă, lansarea de către IBM a modelelor Granite 4.0 Nano reflectă o schimbare strategică în dezvoltarea LLM: de la urmărirea recordurilor de numărare a parametrilor la optimizarea gradului de utilizare, a deschiderii și a sferei de implementare. Prin combinarea performanței competitive, a practicilor de dezvoltare responsabile și a angajamentului profund cu comunitatea open-source, IBM poziționează Granite nu doar ca o familie de modele - ci și ca o platformă pentru construirea următoarei generații de sisteme AI ușoare și de încredere.
Pentru dezvoltatorii și cercetătorii care caută performanță fără overhead, lansarea Nano oferă un semnal convingător: nu aveți nevoie de 70 de miliarde de parametri pentru a construi ceva puternic - doar de cei potriviți.

