An Exclusive Tour of Amazon's Trainium Lab, the Chip That Has Conquered Anthropic, OpenAI, Even Apple

An exclusive tour of Amazon’s Trainium lab, the chip that’s won over Anthropic, OpenAI, even Apple Shortly after Amazon CEO Andy Jassy announced AWS’s groundbreaking $50 billion investment deal with OpenAI, Amazon invited me on a private tour of the chip development lab at the heart of the deal, at (mostly*) its own expense.

Industry experts are watching Amazon’s Trainium chip, created at that facility, for its implications for lower-cost AI inference and, potentially, a dent in Nvidia’s near monopoly. Curious, I agreed to go.

My tour guides for the day were the lab’s director, Kristopher King (pictured below right) and director of engineering Mark Carroll (below left), as well as the team’s PR person who arranged the visit, Doron Aronson (pictured with yours truly later in the story).

AWS has been Anthropic’s major cloud platform since the AI lab’s early days — a relationship significant enough to survive Anthropic later adding Microsoft as a cloud partner as well, and Amazon’s growing partnership with OpenAI.

The OpenAI deal makes AWS the exclusive provider of the model maker’s new AI agent builder, Frontier, which could become an important part of OpenAI’s business if agents become as big as Silicon Valley thinks they will. We’ll see if that exclusivity stands exactly as announced. The Financial Times reported this week that Microsoft may believe OpenAI’s deal with Amazon violates its own deal with OpenAI, namely with Redmond getting access to all of OpenAI’s models and tech .

What makes AWS so appealing to OpenAI? As part of this deal, the cloud giant has agreed to supply OpenAI with 2 gigawatts of Trainium computing capacity. This is a giant commitment, given that Anthropic and Amazon’s own Bedrock service are already consuming Trainium chips faster than Amazon can produce them.

There are 1.4 million Trainium chips deployed across all three generations, and Anthropic’s Claude runs on over 1 million of the Trainium2 chips deployed, the company said.

It’s worth noting that while Trainium was originally geared toward faster, cheaper model training (a bigger priority a couple of years ago), it’s now tuned and used for inference as well. Inference — the process of actually running an AI model to generate responses — is currently the biggest performance bottleneck in the industry.

Case in point: Trainium2 handles the majority of the inference traffic on Amazon’s Bedrock service , which supports the building of AI applications by Amazon’s many enterprise customers and allows the apps to use multiple models. “Our customer base is just expanding as fast as we can get capacity out there,” King said. “Bedrock could be as big as EC2 one day,” he added, referring to AWS’s behemoth compute cloud service.

Beyond offering an alternative to Nvidia’s backlogged, hard-to-acquire GPUs, Amazon says its new chips running on its new specialty Trn3 UltraServers cost up to 50% less to run for comparable performance than using classic cloud servers.

Along with Trainium3, released in December , this AWS team also built new Neuron switches, and Carroll says that combo is transformative. “What that gives us is something huge,” Carroll said. The switches allow every Trainium3 chip to talk to every other chip in a mesh configuration, reducing latency. “That’s why Trainium3 is breaking all kinds of records,” particularly in “price per power,” he said. When trillions of tokens a day are involved, such improvements add up.

In fact, Amazon’s chip team was lauded by Apple in 2024 . In a rare moment of openness for the secretive company, Apple’s director of AI publicly described how it used another of the team’s chips — Graviton, a low-power, ARM-based server CPU and the first breakout chip this team designed. Apple also lauded Inferentia — a chip specifically designed for inference — and gave a nod to Trainium, which was new at the time.

These chips represent the classic Amazon playbook: See what people want to buy, then build an in-house alternative that competes on price. The catch for chips, historically, has been switching costs. Applications written for Nvidia’s chips must be re-architected to work with others — a time-consuming process that discourages developers from switching.

But the AWS chip team proudly told me that Trainium now supports PyTorch , a popular open source framework for building AI models. That includes many of the ones hosted on Hugging Face, a vast library where developers share open source models. The transition, Carroll told me, requires “basically a one-line change, and then recompile, and then run on Trainium.” In other words, Amazon is attempting to chip away at Nvidia’s market dominance wherever possible.

AWS has also this month announced a partnership with Cerebras Systems , integrating that company’s inference chip on servers running Trainium for what Amazon promises will be superpowered, low-latency AI performance.

But Amazon’s ambitions go beyond the chips themselves. It also designs the server that hosts the chips. Besides the networking components, this team has designed “Nitro,” a hardware-software combo that provides virtualization tech (which allows many instances of software to run separately on the same server); new state-of-the-art liquid cooling technology; and the server sleds (pictured below) that host this gear. All of that is to control cost and performance.

Amazon’s custom chip-designing unit was born when the cloud giant bought Israeli chip designer Annapurna Labs in January 2015 for about $350 million. So this team has now had more than 10 years designing chips for AWS. The unit has retained its Annapurna roots and name — its logo is everywhere in the office.

This chip lab is located in a shiny, chrome-windowed building in Austin’s upscale “The Domain” district, a walkable area filled with shops and restaurants that’s sometimes called Austin’s Silicon Valley . The offices have your classic tech corporate vibe: desks in cubicles, gathering spots, and conference rooms.

But tucked away at the back of a high floor in the building is the actual lab, with sweeping views of the city. The shelving-filled lab, about the size of two large conference rooms, is a noisy industrial space thanks to the fans on the equipment. It looks like a cross between a high school shop class and a Hollywood set for a high-end lab, except the engineers are dressed in jeans, not white lab coats.

Note that this is not where the chips are manufactured, so no white hazmat suits were necessary. The Trainium3 is a state-of-the-art 3-nanometer chip, produced by TSMC, arguably the leader in 3-nanometer manufacturing, with other chips produced by Marvell.

But this is the room where the magic of the “bring-up” occurs. “A silicon bring-up is when you get the chip for the first time, and it’s like a big overnight party. You stay here, like a lock-in,” King explains. After 18 months of work, the chip is activated for the first time to verify it works as designed. The team even filmed some of the Trainium3 bring-up and posted it on YouTube . Spoiler alert: It’s never problem-free.

For Trainium3, the prototype chip was originally air-cooled, like previous versions. The current chip is now liquid-cooled, which offers energy advantages and was quite an engineering feat. During the bring-up, the dimensions for how the chip attached to the air-cooling heat sink were off, so the chip couldn’t be activated. Unfazed, the team “immediately got a grinder and just started grinding off the metal,” King said. Because they didn’t want the noise disrupting the bring-up pizza party atmosphere, they snuck off and did the grinding in a conference room.

Staying up all night and solving problems “is what silicon bring-up is all about,” King said. The lab even has a welding station, where hardware lab engineer and master welder Isaac Guevara demonstrated welding tiny integrated circuit components through a microscope. This is such insanely difficult work that senior leader Carroll openly admitted he couldn’t do it, to the guffaws of Guevara and the rest of the engineers in the room.

The lab also contains both custom-made and commercial tools for testing and analyzing issues with chips. Here’s signal engineer Arvind Srinivasan demonstrating how the lab tests each tiny component on the chip:

But the star of the lab is an entire row showcasing each generation of the “sleds” the team designed.

Sleds are the trays that house the Trainium AI chips, Graviton CPU chips, and supporting boards and components. Stack them together on a rack with the networking component, also custom-designed by this team, and you get the systems that are at the heart of Anthropic Claude’s success. Here’s the sled that was shown off during the AWS re:invent conference in December:

I expected my guides to crow about the OpenAI deal during the tour. But they didn’t. The reticence could have been related to the aforementioned potential legal haze that might hang over the deal. But the sense I got was that these boots-on-the-ground engineers (who are currently designing the next version, Trainium4) haven’t had much chance to work with OpenAI yet. Their day-to-day work has so far been focused on Anthropic’s and Amazon’s needs.

Currently, the biggest chunk of Trainium2 chips is deployed in Project Rainier — one of the world’s largest AI compute clusters — which went live in late 2025 with 500,000 chips. It’s used by Anthropic. But there was a wall monitor in the main office displaying a quote about how OpenAI will be using Trainium. The pride was there, if subtle.

In addition to this lab, the team also has its own private data center for quality and testing purposes. A short drive away, it doesn’t run customer workloads, so it’s housed at a co-location facility, not an AWS data center. Security is tight: There are strict protocols to enter the building and to access Amazon’s area within. The data center’s cooling system is so loud that earplugs are mandatory, and the air is thick with the acrid smell of heated metal. It’s not a pleasant place for the average person to hang out.

At this data center, there are rows and rows of servers filled with sleds that integrate all of Amazon’s newest custom chips: Graviton CPU, liquid-cooled Trainium3, Amazon Nitro, all happily computing away. The liquid runs on a closed system, meaning it is reused, which should also help reduce the environmental impact, the engineers said. Here’s what a current Trn3 UltraServer looks like: Multiple sleds are on top and bottom, with the Neuron switches in the middle. Hardware development engineer David Martinez-Darrow is seen here performing maintenance on a sled:

While attention on the team has always been high, the scrutiny has really ratcheted up as of late. Amazon CEO Andy Jassy keeps a close eye on this lab, publicly bragging about its products like a proud dad. In December, he said Trainium was already a multibillion-dollar business for AWS and called it one piece of AWS tech he’s most excited about. He also gave the chip a shout-out when announcing the OpenAI agreement.

The team feels the pressure, too. Engineers will work 24/7 for three to four weeks around each bring-up event to fix any issues so the chips can be mass-produced and put into data centers. “It’s very important that we get as fast as possible to prove that it’s actually going to work,” Carroll said. “So far, we’ve been doing really well.”

**Un tur exclusiv al laboratorului Trainium al Amazon, cipul care a cucerit Anthropic, OpenAI, chiar și Apple** La scurt timp după ce CEO-ul Amazon, Andy Jassy, a anunțat acordul revoluționar de investiții de 50 de miliarde de dolari al AWS cu OpenAI, Amazon m-a invitat într-un tur privat al laboratorului de dezvoltare a cipurilor aflat în centrul acordului, (în mare parte*) pe cheltuiala sa.

Experții din industrie urmăresc cipul Trainium al Amazon, creat în acea unitate, pentru implicațiile sale pentru inferența AI cu costuri mai mici și, potențial, o fisură în aproape monopolul Nvidia. Curios, am fost de acord să merg.

Ghizii mei pentru ziua respectivă au fost directorul laboratorului, Kristopher King (fotografiat mai jos în dreapta) și directorul de inginerie Mark Carroll (mai jos în stânga), precum și persoana de PR a echipei care a aranjat vizita, Doron Aronson (fotografiat cu al vostru cu adevărat mai târziu în poveste).

AWS a fost principala platformă cloud a Anthropic încă de la începuturile laboratorului AI - o relație suficient de semnificativă pentru a supraviețui adăugării ulterioare a Microsoft ca partener cloud, precum și parteneriatului tot mai mare al Amazon cu OpenAI.

Acordul OpenAI face din AWS furnizorul exclusiv al noului constructor de agenți AI al producătorului de modele, Frontier, care ar putea deveni o parte importantă a activității OpenAI dacă agenții devin la fel de mari pe cât crede Silicon Valley. Vom vedea dacă acea exclusivitate se menține exact așa cum a fost anunțată. Financial Times a raportat săptămâna aceasta că Microsoft ar putea crede că acordul OpenAI cu Amazon încalcă propriul acord cu OpenAI, și anume Redmond având acces la toate modelele și tehnologia OpenAI.

Ce face AWS atât de atractiv pentru OpenAI? Ca parte a acestui acord, gigantul cloud a fost de acord să furnizeze OpenAI cu 2 gigawați de capacitate de calcul Trainium. Acesta este un angajament uriaș, având în vedere că Anthropic și propriul serviciu Bedrock al Amazon consumă deja cipuri Trainium mai repede decât le poate produce Amazon.

Există 1,4 milioane de cipuri Trainium implementate în toate cele trei generații, iar Claude de la Anthropic rulează pe peste 1 milion din cipurile Trainium2 implementate, a spus compania.

Merită menționat faptul că, deși Trainium a fost inițial orientat către o instruire a modelului mai rapidă și mai ieftină (o prioritate mai mare acum câțiva ani), acum este reglat și utilizat și pentru inferență. Inferența - procesul de rulare efectivă a unui model AI pentru a genera răspunsuri - este în prezent cel mai mare blocaj de performanță din industrie.

Un exemplu în acest sens: Trainium2 gestionează majoritatea traficului de inferență de pe serviciul Bedrock al Amazon, care acceptă construirea de aplicații AI de către numeroșii clienți enterprise ai Amazon și permite aplicațiilor să utilizeze mai multe modele. „Baza noastră de clienți se extinde la fel de repede pe cât putem obține capacitate acolo”, a spus King. „Bedrock ar putea fi la fel de mare ca EC2 într-o zi”, a adăugat el, referindu-se la serviciul cloud de calcul masiv al AWS.

Pe lângă faptul că oferă o alternativă la GPU-urile Nvidia congestionate și greu de achiziționat, Amazon spune că noile sale cipuri care rulează pe noile sale Trn3 UltraServer-uri specializate costă cu până la 50% mai puțin pentru a rula pentru performanțe comparabile decât utilizarea serverelor cloud clasice.

Împreună cu Trainium3, lansat în decembrie, această echipă AWS a construit și noi switch-uri Neuron, iar Carroll spune că această combinație este transformatoare. „Ceea ce ne oferă asta este ceva uriaș”, a spus Carroll. Switch-urile permit fiecărui cip Trainium3 să vorbească cu fiecare alt cip într-o configurație de rețea, reducând latența. „De aceea, Trainium3 doboară tot felul de recorduri”, în special în „prețul per putere”, a spus el. Când sunt implicate trilioane de jetoane pe zi, astfel de îmbunătățiri se adună.

De fapt, echipa de cipuri Amazon a fost lăudată de Apple în 2024. Într-un moment rar de deschidere pentru compania secretă, directorul AI al Apple a descris public modul în care a folosit un alt cip al echipei - Graviton, un CPU de server cu consum redus de energie, bazat pe ARM și primul cip inovator pe care l-a proiectat această echipă. Apple a lăudat, de asemenea, Inferentia - un cip special conceput pentru inferență - și a dat un semn către Trainium, care era nou la acea vreme.

Aceste cipuri reprezintă manualul clasic Amazon: vezi ce vor oamenii să cumpere, apoi construiește o alternativă internă care concurează la preț. Problema cu cipurile, din punct de vedere istoric, au fost costurile de comutare. Aplicațiile scrise pentru cipurile Nvidia trebuie re-arhitecturate pentru a funcționa cu altele - un proces consumator de timp care descurajează dezvoltatorii să schimbe.

Dar echipa de cipuri AWS mi-a spus cu mândrie că Trainium acceptă acum PyTorch, un cadru open source popular pentru construirea de modele AI. Aceasta include multe dintre cele găzduite pe Hugging Face, o bibliotecă vastă în care dezvoltatorii partajează modele open source. Tranziția, mi-a spus Carroll, necesită „practic o modificare de o singură linie, apoi recompilare, apoi rulare pe Trainium”. Cu alte cuvinte, Amazon încearcă să îndepărteze dominația Nvidia pe piață ori de câte ori este posibil.

AWS a anunțat, de asemenea, în această lună un parteneriat cu Cerebras Systems, integrând cipul de inferență al acestei companii pe serverele care rulează Trainium pentru ceea ce Amazon promite că va fi o performanță AI supraalimentată, cu latență scăzută.

Dar ambițiile Amazon depășesc cipurile în sine. De asemenea, proiectează serverul care găzduiește cipurile. Pe lângă componentele de rețea, această echipă a proiectat „Nitro”, o combinație hardware-software care oferă tehnologie de virtualizare (care permite rularea separată a mai multor instanțe de software pe același server); o nouă tehnologie de răcire cu lichid de ultimă generație; și sled-urile serverului (ilustrate mai jos) care găzduiesc acest echipament. Toate acestea sunt pentru a controla costurile și performanța.

Unitatea personalizată de proiectare a cipurilor Amazon a luat naștere când gigantul cloud a cumpărat proiectantul israelian de cipuri Annapurna Labs în ianuarie 2015 cu aproximativ 350 de milioane de dolari. Așa că această echipă are acum mai bine de 10 ani de proiectare a cipurilor pentru AWS. Unitatea și-a păstrat rădăcinile și numele Annapurna - logo-ul său este peste tot în birou.

Acest laborator de cipuri este situat într-o clădire lucioasă, cu ferestre cromate, în cartierul de lux „The Domain” din Austin, o zonă accesibilă pe jos, plină de magazine și restaurante, care este uneori numită Silicon Valley din Austin. Birourile au vibrația corporativă clasică a tehnologiei: birouri în cabine, locuri de adunare și săli de conferințe.

Dar ascuns în spatele unui etaj superior al clădirii se află laboratorul propriu-zis, cu vederi panoramice asupra orașului. Laboratorul plin de rafturi, de dimensiunea a două săli mari de conferințe, este un spațiu industrial zgomotos datorită ventilatoarelor de pe echipamente. Arată ca o combinație între o oră de atelier de liceu și un platou de la Hollywood pentru un laborator de ultimă generație, cu excepția faptului că inginerii sunt îmbrăcați în blugi, nu în halate albe de laborator.

Rețineți că aici nu sunt fabricate cipurile, deci nu au fost necesare costume albe de protecție. Trainium3 este un cip de 3 nanometri de ultimă generație, produs de TSMC, probabil liderul în fabricarea de 3 nanometri, cu alte cipuri produse de Marvell.

Dar aceasta este camera în care are loc magia „bring-up”. „O aducere de siliciu este atunci când primești cipul pentru prima dată și este ca o petrecere mare peste noapte. Stai aici, ca un lock-in”, explică King. După 18 luni de muncă, cipul este activat pentru prima dată pentru a verifica dacă funcționează conform proiectului. Echipa a filmat chiar și o parte din bring-up-ul Trainium3 și l-a postat pe YouTube. Spoiler alert: Nu este niciodată fără probleme.

Pentru Trainium3, cipul prototip a fost inițial răcit cu aer, la fel ca versiunile anterioare. Cipul actual este acum răcit cu lichid, ceea ce oferă avantaje energetice și a fost o realizare inginerească considerabilă. În timpul aducerii, dimensiunile pentru modul în care cipul s-a atașat la radiatorul de răcire cu aer erau oprite, astfel încât cipul nu a putut fi activat. Neînfricată, echipa „a luat imediat o polizor și a început să șlefuiască metalul”, a spus King. Pentru că nu au vrut ca zgomotul să perturbe atmosfera petrecerii cu pizza bring-up, s-au furișat și au făcut măcinarea într-o sală de conferințe.

A sta treaz toată noaptea și a rezolva problemele „despre asta este vorba despre aducerea siliciului”, a spus King. Laboratorul are chiar și o stație de sudură, unde inginerul de laborator hardware și maestrul sudor Isaac Guevara a demonstrat sudarea componentelor minuscule ale circuitelor integrate printr-un microscop. Aceasta este o muncă atât de nebunește de dificilă încât liderul senior Carroll a recunoscut deschis că nu o poate face, spre râsetele lui Guevara și ale restului inginerilor din cameră.

Laboratorul conține, de asemenea, instrumente personalizate și comerciale pentru testarea și analiza problemelor cu cipurile. Iată inginerul de semnal Arvind Srinivasan care demonstrează modul în care laboratorul testează fiecare componentă minusculă de pe cip:

Dar vedeta laboratorului este un rând întreg care prezintă fiecare generație de „sled-uri” pe care le-a proiectat echipa.

Sled-urile sunt tăvile care găzduiesc cipurile Trainium AI, cipurile CPU Graviton și plăcile și componentele de suport. Puneți-le împreună pe un rack cu componenta de rețea, de asemenea proiectată personalizat de această echipă, și obțineți sistemele care se află în centrul succesului lui Anthropic Claude. Iată sled-ul care a fost prezentat în timpul conferinței AWS re:Invent din decembrie:

Mă așteptam ca ghizii mei să se laude cu acordul OpenAI în timpul turului. Dar nu au făcut-o. Reținerea ar fi putut fi legată de potențialul ceață juridică menționată mai sus, care ar putea atârna asupra acordului. Dar sentimentul pe care l-am avut a fost că acești ingineri de la firul ierbii (care proiectează în prezent următoarea versiune, Trainium4) nu au avut încă prea multe șanse să lucreze cu OpenAI. Munca lor de zi cu zi s-a concentrat până acum pe nevoile Anthropic și Amazon.

În prezent, cea mai mare parte a cipurilor Trainium2 este implementată în Project Rainier - unul dintre cele mai mari clustere de calcul AI din lume - care a fost lansat la sfârșitul anului 2025 cu 500.000 de cipuri. Este folosit de Anthropic. Dar pe un monitor de perete din biroul principal era afișat un citat despre modul în care OpenAI va folosi Trainium. Mândria era acolo, dacă subtilă.

În plus față de acest laborator, echipa are și propriul său centru de date privat în scopuri de calitate și testare. La o scurtă distanță cu mașina, nu rulează sarcini de lucru ale clienților, așa că este găzduit într-o unitate de co-locație, nu într-un centru de date AWS. Securitatea este strictă: există protocoale stricte pentru a intra în clădire și pentru a accesa zona Amazon din interior. Sistemul de răcire al centrului de date este atât de puternic încât dopurile pentru urechi sunt obligatorii, iar aerul este gros cu mirosul acru de metal încălzit. Nu este un loc plăcut pentru o persoană obișnuită să se relaxeze.

În acest centru de date, există rânduri și rânduri de servere pline cu sled-uri care integrează toate cele mai noi cipuri personalizate Amazon: Graviton CPU, Trainium3 răcit cu lichid, Amazon Nitro, toate calculând cu plăcere. Lichidul rulează pe un sistem închis, ceea ce înseamnă că este refolosit, ceea ce ar trebui să contribuie, de asemenea, la reducerea impactului asupra mediului, au spus inginerii. Iată cum arată un Trn3 UltraServer actual: Mai multe sled-uri sunt în partea de sus și de jos, cu switch-urile Neuron la mijloc. Inginerul de dezvoltare hardware David Martinez-Darrow este văzut aici efectuând întreținere pe un sled:

În timp ce atenția asupra echipei a fost întotdeauna ridicată, controlul a crescut cu adevărat în ultima vreme. CEO-ul Amazon, Andy Jassy, supraveghează îndeaproape acest laborator, lăudându-se public cu produsele sale ca un tată mândru. În decembrie, el a spus că Trainium este deja o afacere de miliarde de dolari pentru AWS și a numit-o o piesă a tehnologiei AWS de care este cel mai încântat. De asemenea, el a dat un shout-out cipului când a anunțat acordul OpenAI.

Echipa simte și presiunea. Inginerii vor lucra 24/7 timp de trei până la patru săptămâni în jurul fiecărui eveniment de punere în funcțiune pentru a remedia orice probleme, astfel încât cipurile să poată fi produse în serie și introduse în centrele de date. „Este foarte important să ajungem cât mai repede posibil pentru a dovedi că va funcționa efectiv”, a spus Carroll. „Până acum, ne-am descurcat foarte bine.”

Un tur exclusiv al laboratorului Trainium al Amazon, cipul care a cucerit Anthropic, OpenAI, chiar și Apple

Tech & AI

Chatbot-ul 'Xoli' din Mexico City va ajuta turiștii la Cupa Mondială

Musk anunță „Terafab” pentru producția internă de cipuri Tesla și SpaceX

Cum Inteligența Artificială Schimbă Percepția Securității Software

Trump amenință cu trimiterea agenților ICE în aeroporturi din cauza impasului finanțării

Acțiuni Semiconductor: Broadcom vs. Marvell, O Comparatie