SenseTime, o companie chineză de AI cunoscută mai ales pentru tehnologia sa de recunoaștere facială, a lansat marți un nou model open source care, potrivit afirmațiilor sale, poate atât genera, cât și interpreta imagini mult mai rapid decât modelele de top dezvoltate de concurenții americani. SenseNova U1 ar putea ajuta compania să recupereze terenul pierdut după ce a alunecat de pe locul său printre principalii jucători în cursa dezvoltării AI din China.
Secretul modelului este capacitatea sa de a "citi" imagini fără a le traduce mai întâi în text, accelerând procesul și reducând cantitatea de putere de calcul necesară. "Întregul proces de raționament al modelului nu mai este limitat la text. Poate raționa și cu imagini", a declarat Dahua Lin, cofondator și cercetător șef la SenseTime, într-un interviu pentru WIRED. Lin, care este și profesor de inginerie informatică la Universitatea Chineză din Hong Kong, spune că modelele capabile să proceseze direct imagini vor permite roboților să înțeleagă mai bine lumea fizică în viitor.
La fel ca ultimul model emblematic al DeepSeek, SenseTime spune că U1 poate fi alimentat de cipuri fabricate în China. "Mai mulți producători chinezi de cipuri au terminat optimizarea compatibilității cu noul nostru model", spune Lin. În ziua lansării, 10 designeri chinezi de cipuri, inclusiv Cambricon și Biren Technology, au anunțat că hardware-ul lor suportă U1.
Această flexibilitate contează deoarece controalele exporturilor din SUA restricționează companiile chineze să acceseze cele mai avansate cipuri AI din lume, în special cele utilizate pentru instruire, care în acest moment sunt dezvoltate în principal de companii occidentale precum Nvidia. "Vom continua să ne străduim pentru antrenarea pe mai multe cipuri diferite", spune Lin. Dar el recunoaște, de asemenea, că SenseTime "ar putea avea încă nevoie să folosească cele mai bune cipuri pentru a asigura viteza iterației noastre".
SenseTime a lansat U1 gratuit pe Hugging Face și GitHub, un alt semn al modului în care companiile chineze devin unii dintre cei mai activi contributori la AI open source.
SenseTime a fost fondată în 2014 și a devenit un lider mondial în viziunea computerizată, care este utilizată în aplicații precum recunoașterea facială și conducerea autonomă. Dar când ChatGPT și alte sisteme AI alimentate de procesarea limbajului natural au devenit cel mai popular lucru din industria tehnologică, SenseTime a început să se lupte pentru a obține profit și a rămas în urmă față de startup-urile chineze mai noi, precum DeepSeek și MiniMax.
SenseTime spune că speră că lansarea publică a SenseNova-U1 pentru oricine o poate folosi o va ajuta să ajungă din urmă atât jucătorii AI interni, cât și cei occidentali. Lin spune că compania a luat în sfârșit decizia anul trecut de a se concentra pe open source din cauza feedback-ului util pe care îl primește de la cercetători, ceea ce permite companiei să itereze mai rapid. "În ziua de azi, a fi open source sau closed source nu este factorul câștigător; viteza de iterație este", explică Lin.
A fi open source ajută, de asemenea, SenseTime să continue să colaboreze cu cercetători internaționali fără interferența geopoliticii. Compania a fost sancționată în mod repetat de guvernul SUA în ultimii ani, sub acuzația că tehnologia sa de recunoaștere facială a ajutat la alimentarea sistemelor de supraveghere utilizate pentru a monitoriza și reține uigurii și alte grupuri minoritare din regiunea Xinjiang din China. Ca urmare, companiilor americane li se interzice să investească în SenseTime și să-i vândă anumite tehnologii fără licență. (SenseTime a negat acuzațiile.)
Într-un raport tehnic însoțitor, SenseTime susține că SenseNova-U1 generează imagini de calitate superioară față de toate celelalte modele open source aflate în prezent pe piață. Performanța sa este comparabilă cu modelele chineze de top cu sursă închisă, precum Qwen de la Alibaba și Seedream de la ByteDance, dar încă rămâne în urmă față de liderii din industrie, precum GPT-Image-2.0, care a apărut abia săptămâna trecută.
Dar principalul punct de vânzare al modelului este capacitatea sa de a genera imagini mult mai rapid decât toate aceste modele. Se bazează pe o structură tehnică inovatoare numită NEO-Unify pe care SenseTime a prezentat-o anterior în acest an. Noua arhitectură a modelului, care ar putea îmbunătăți eficiența și performanța, este ceea ce diferențiază U1, spune Adina Yakefu, cercetător AI la Hugging Face. "Aceasta este o abordare mai ambițioasă, deoarece se confruntă încă cu provocări practice semnificative", spune ea. "Este bine că au decis să o facă open source, astfel încât comunitatea să o poată explora și testa mai larg."
Modelul este, de asemenea, suficient de mic pentru a rula pe PC-uri și telefoane, făcându-l potențial util în multe scenarii.
Lin spune că tehnica dezvoltată de SenseTime va fi utilă mai ales în robotică. Atunci când un robot încearcă să proceseze lumea vizuală, trebuie să sorteze o cantitate enormă de informații. "Trebuie să se gândească: 'cum ar trebui să mă descurc cu toată dezordinea din această cameră? Dacă există o mașină complicată în fața mea, ce buton ar trebui să apăs?' Toate acestea sunt forme de informație și trebuie integrate în judecata internă a modelului", spune el. Deoarece poate înțelege nativ imaginile, Lin speră că tehnologia SenseTime va ajuta roboții să acționeze mai repede și să facă mai puține greșeli în medii complexe.
China se află în mijlocul unui boom al roboților umanoizi. Deși SenseTime nu își dezvoltă în prezent proprii roboți, Lin spune că lucrează îndeaproape cu ACE Robotics, un startup condus de un alt cofondator SenseTime. De asemenea, dezvoltă modele care se specializează în înțelegerea geospatială, sau crearea de simulări ale lumii reale.

