NVIDIA NeMo RL Obține o Accelerare de 48% cu Antrenament de Precizie FP8 End-to-End

Jessie A Ellis 20 apr. 2026 23:41

Noua rețetă FP8 a NVIDIA pentru învățarea prin întărire oferă un antrenament cu 48% mai rapid, egalând acuratețea BF16 și reducând semnificativ costurile infrastructurii AI.

NVIDIA NeMo RL Obține o Accelerare de 48% cu Antrenament de Precizie FP8 End-to-End

NVIDIA a lansat o rețetă cuprinzătoare de precizie FP8 pentru învățarea prin întărire care oferă un debit de antrenament cu până la 48% mai rapid, menținând în același timp paritatea de acuratețe cu abordările tradiționale BF16 - o dezvoltare cu implicații semnificative pentru costurile infrastructurii AI și economia calculului GPU.

Tehnica, detaliată într-o postare tehnică de blog de către Guyue Huang de la NVIDIA, abordează una dintre cele mai spinoase probleme ale antrenamentului RL: dezacordul numeric între fazele de generare și antrenament atunci când se folosesc niveluri diferite de precizie pe motoare separate.

Descoperirea Tehnică

Pipeline-urile RL tradiționale folosesc vLLM pentru rulaje și Megatron Core pentru antrenament - fiecare cu nucleuri CUDA unice care introduc diferențe numerice cumulative. Aceste discrepanțe se amplifică la niveluri de precizie mai mici, limitând istoric adoptarea FP8.

Soluția NVIDIA? Aplicarea FP8 în mod consistent atât pentru generare, cât și pentru antrenament, în loc să amestece nivelurile de precizie. Testarea pe Llama 3.1 8B Instruct a arătat o acuratețe de validare de 0,613 cu FP8 end-to-end versus 0,616 pentru BF16 - închizând efectiv decalajul. În timp ce utilizarea FP8 doar pentru generare a scăzut acuratețea la 0,586.

Rețeta folosește FP8 cuantizat pe blocuri (format E4M3) cu granularitate de 128x128 pentru ponderi și 1x128 pentru activări. Straturile liniare rulează calcule FP8 la un debit maxim teoretic de 2x versus BF16, în timp ce funcțiile de atenție, normalizare și non-liniare rămân în BF16.

Câștiguri de Performanță în Lumea Reală

Doar pentru straturile liniare, rețeta FP8 oferă îmbunătățiri consistente ale debitului de 15-25%. Decalajul dintre accelerarea teoretică de 2x și câștigurile reale provine din straturile de atenție care rămân în BF16 plus costul general al nucleului de cuantizare.

Extinderea FP8 la operațiunile de cache KV și atenție împinge accelerarea totală la aproximativ 48% peste valorile de bază BF16. Prinderea: ponderile de politică ale RL care se actualizează constant necesită recalibrare dinamică a scalelor de cuantizare după fiecare pas de antrenament. Abordarea NVIDIA adaugă aproximativ 2-3% cost general pentru această recalibrare - un cost minor pentru o accelerare substanțială.

Testarea pe Qwen3-30B (un model mixture-of-experts) a arătat curbe de acuratețe corespunzătoare între configurațiile FP8 și BF16, sugerând că tehnica se scalează pe diverse arhitecturi.

De Ce Contează Acest Lucru pentru Economia AI

Antrenamentul RL pentru modele capabile de raționament, cum ar fi cele din spatele asistenților AI avansați, necesită calcul masiv. O accelerare de 48% se traduce direct în ore-GPU reduse și facturi de electricitate mai mici pentru organizațiile care antrenează aceste sisteme.

Tehnica de eșantionare a importanței care permite păstrarea acurateței ar putea dovedi la fel de valoroasă. Prin corectarea nepotrivirilor de distribuție între modelele de generare și antrenament pe bază de token, permite reducerea agresivă a preciziei fără a sacrifica calitatea modelului.

Implementarea completă este disponibilă în biblioteca open-source NeMo RL a NVIDIA, cu rețete preconfigurare pentru modelele Llama 3.1 8B și Moonlight 16B. Utilizatorii avansați pot ajusta fin abordarea - menținând anumite straturi transformer în BF16 sau comutând la factori de scalare putere-de-2 pentru optimizare suplimentară.

Pentru operatorii de infrastructură AI care urmăresc creșterea costurilor de calcul odată cu complexitatea modelului, acest lucru reprezintă o pârghie de eficiență semnificativă care nu necesită actualizări hardware - doar o utilizare mai inteligentă a capabilităților H100 existente.

Sursa imaginii: Shutterstock

nvidia
antrenament ai
precizie fp8
învățare automată
nemo rl

NVIDIA NeMo RL Obține o Accelerare de 48% cu Antrenament End-to-End la Precizie FP8

NVIDIA NeMo RL Obține o Accelerare de 48% cu Antrenament de Precizie FP8 End-to-End

Descoperirea Tehnică

Câștiguri de Performanță în Lumea Reală

De Ce Contează Acest Lucru pentru Economia AI

Poate îți place și

Procurorul general MAGA a recunoscut sub jurământ încălcarea eticii pe măsură ce cursa pentru Senat se intensifică: WSJ

ETF-ul Bitcoin al Morgan Stanley a atras peste 100 de milioane de dolari în prima săptămână

Strategia lui Saylor crește deținerile de Bitcoin peste 815.000 BTC

Știri în tendințe

Am normalizat complexul mesianic al lui Trump — și ce înseamnă asta pentru America

Bitmine Cumpără 101K ETH, Se Apropie de Obiectivul de 5% din Supply

Alegerea lui Trump pentru salvarea economiei Americii are un obstacol uriaș

Ripple Stabilește Obiectivul 2028 pentru a Face XRP Ledger Rezistent la Calculatoare Cuantice

Revolut amână IPO-ul până în 2028 după obținerea licenței bancare din Regatul Unit

Știri în timp real 24/7

Prețuri cripto