De ce ne costă mai puțin să dăm unui AI un text enorm de citit, dar ne costă de cinci ori mai mult să-l facem să ne scrie un răspuns lung? Răspunsul ține de limitările fizice ale cipurilor, în memoria hardware și în cablurile care le conectează. Într-un interviu cu Dwarkesh Patel, Reiner Pope, fost arhitect hardware la Google pe seria TPU și actual CEO MatX, a explicat economia și limitările infrastructurii AI din spatele OpenAI, Google sau Anthropic.
Discuția abordează infrastructura de machine learning, arhitectura modelelor și mecanica de inferență și antrenament din interiorul unui cluster de servere.
Limite fizice
Dacă serverele ar procesa o singură cerere la un moment dat, costul ar fi astronomic. Memoria GPU-ului pierde enorm de mult timp doar pentru a aduce greutățile întregului model pe procesor. Soluția este să procesezi mii de secvențe unice simultan, un batch de aproximativ 2.000-3.000 de cereri. Astfel, costul încărcării memoriei se amortizează la maximum pe toți utilizatorii, iar factorul limitator devine strict capacitatea matematică de calcul a cipului.
În inferența modelelor mari de limbaj (LLMs), este un fapt documentat că la batch-uri mici sistemul este limitat de lățimea de bandă a memoriei, iar la batch-uri mari depinde de procesare.
Un model bazat pe „Mixture of Experts” (cum este DeepSeek) împarte datele către mai mulți experți. Limitările nu țin doar de soft, ci de fizică absolută: spațiul pentru cabluri, raza de îndoire a acestora, greutatea de tone a metalului dintr-un rack și soluțiile de răcire.
Topologiile centrelor de date moderne confirmă acest lucru. Rețeaua din interiorul unui rack Nvidia (Scale-up via NVLink) este de aproximativ 8 ori mai rapidă decât rețeaua care conectează rack-uri separate între ele (Scale-out via InfiniBand/Ethernet).
Input versus Output
În prețurile API-urilor, output-ul este de multe ori facturat de 5 ori mai scump decât input-ul. Pope demonstrează de ce: faza de Prefill (citirea prompt-ului tău) poate procesa toți tokenii în paralel. Acest lucru face operațiunea eficientă (compute-bound). În schimb, Decode-ul (generarea răspunsului) se face secvențial, literă cu literă, pas cu pas. La fiecare pas, sistemul trebuie să încarce iarăși o cantitate uriașă de parametri din memorie, făcând generarea complet limitată de latența memoriei.
Gemini, de exemplu, taxează cu 50% mai mult atunci când treci de pragul de 200.000 de tokeni per prompt. Matematic, la acel nivel, timpul necesar pentru a extrage KV Cache-ul (memoria de lucru care stochează ce au înțeles deja cip-urile din tokenii precedenți) îl depășește efectiv pe cel necesar pentru a procesa greutățile propriu-zise ale modelului. Așadar, pragurile de preț din API-uri oglindesc limitările hardware exacte la care modelele își pierd eficiența termodinamică și de memorie.
KV Cache-ul crește liniar direct proporțional cu lungimea contextului și dimensiunea batch-ului. La contexte foarte mari, KV Cache-ul devine dominant și mănâncă aproape toată memoria HBM disponibilă, forțând costuri gigantice la infrastructură.
Overtraining
Deși legea de scalare Chinchilla spune clar cât trebuie să antrenezi un model de o anumită dimensiune ca să obții un optim pe antrenament, modelele moderne sunt antrenate pe cantități gigantice de date care depășesc uneori de 100 de ori limitele legii. De ce? Pentru că este mai eficient financiar să ai un model puțin mai mic (chiar dacă l-ai antrenat excesiv plătind costuri masive o singură dată la antrenare) pe care apoi să îl oferi foarte rapid și ieftin sutelor de milioane de utilizatori zilnici.
Toate modelele puternice lansate recent (cum ar fi Llama 3) sunt extra-antrenate în comparație cu optimul teoretic Chinchilla, exclusiv pentru a oferi clienților latențe mai mici și costuri operaționale mai blânde.
Rețelele Neurale & Criptografia
Cele două domenii fac proceduri oarecum inverse: criptografia ia date structurate și le amestecă pentru a părea complet aleatoare, în timp ce AI-ul ia zgomot sau date haotice și le distilează pentru a extrage modele semantice și structură curată. Cu toate astea, din criptografie a fost împrumutată o procedură numită cifrul Feistel, care permite o prelucrare reversibilă a datelor. Aplicat sub forma de Reversible Networks (RevNets), permite GPU-urilor să ruleze backpropagation fără a fi nevoie să salveze în memoria principală toți pașii făcuți inițial, sacrificând putere de calcul suplimentară pentru a economisi spațiu esențial din memoria serverului.
Modelele RevNets folosesc o proprietate a blocurilor de tip Feistel pentru a reconstrui activările exact în faza de backpropagation (în mod invers). Calculul matematic suplimentar este o concesie excelentă având în vedere că memoria (VRAM) este mereu elementul cel mai prețios la scalarea antrenamentelor.























