Noua rețetă FP8 de la NVIDIA pentru învățarea prin consolidare oferă antrenament cu 48% mai rapid, egalând acuratețea BF16 și reducând semnificativ costurile infrastructurii AI. (ReadNoua rețetă FP8 de la NVIDIA pentru învățarea prin consolidare oferă antrenament cu 48% mai rapid, egalând acuratețea BF16 și reducând semnificativ costurile infrastructurii AI. (Read

NVIDIA NeMo RL Obține o Accelerare de 48% cu Antrenament End-to-End la Precizie FP8

2026/04/21 07:41
3 min de lectură
Pentru opinii sau preocupări cu privire la acest conținut, contactează-ne la [email protected]
```html

NVIDIA NeMo RL Obține o Accelerare de 48% cu Antrenament de Precizie FP8 End-to-End

Jessie A Ellis 20 apr. 2026 23:41

Noua rețetă FP8 a NVIDIA pentru învățarea prin întărire oferă un antrenament cu 48% mai rapid, egalând acuratețea BF16 și reducând semnificativ costurile infrastructurii AI.

NVIDIA NeMo RL Obține o Accelerare de 48% cu Antrenament de Precizie FP8 End-to-End

NVIDIA a lansat o rețetă cuprinzătoare de precizie FP8 pentru învățarea prin întărire care oferă un debit de antrenament cu până la 48% mai rapid, menținând în același timp paritatea de acuratețe cu abordările tradiționale BF16 - o dezvoltare cu implicații semnificative pentru costurile infrastructurii AI și economia calculului GPU.

Tehnica, detaliată într-o postare tehnică de blog de către Guyue Huang de la NVIDIA, abordează una dintre cele mai spinoase probleme ale antrenamentului RL: dezacordul numeric între fazele de generare și antrenament atunci când se folosesc niveluri diferite de precizie pe motoare separate.

Descoperirea Tehnică

Pipeline-urile RL tradiționale folosesc vLLM pentru rulaje și Megatron Core pentru antrenament - fiecare cu nucleuri CUDA unice care introduc diferențe numerice cumulative. Aceste discrepanțe se amplifică la niveluri de precizie mai mici, limitând istoric adoptarea FP8.

Soluția NVIDIA? Aplicarea FP8 în mod consistent atât pentru generare, cât și pentru antrenament, în loc să amestece nivelurile de precizie. Testarea pe Llama 3.1 8B Instruct a arătat o acuratețe de validare de 0,613 cu FP8 end-to-end versus 0,616 pentru BF16 - închizând efectiv decalajul. În timp ce utilizarea FP8 doar pentru generare a scăzut acuratețea la 0,586.

Rețeta folosește FP8 cuantizat pe blocuri (format E4M3) cu granularitate de 128x128 pentru ponderi și 1x128 pentru activări. Straturile liniare rulează calcule FP8 la un debit maxim teoretic de 2x versus BF16, în timp ce funcțiile de atenție, normalizare și non-liniare rămân în BF16.

Câștiguri de Performanță în Lumea Reală

Doar pentru straturile liniare, rețeta FP8 oferă îmbunătățiri consistente ale debitului de 15-25%. Decalajul dintre accelerarea teoretică de 2x și câștigurile reale provine din straturile de atenție care rămân în BF16 plus costul general al nucleului de cuantizare.

Extinderea FP8 la operațiunile de cache KV și atenție împinge accelerarea totală la aproximativ 48% peste valorile de bază BF16. Prinderea: ponderile de politică ale RL care se actualizează constant necesită recalibrare dinamică a scalelor de cuantizare după fiecare pas de antrenament. Abordarea NVIDIA adaugă aproximativ 2-3% cost general pentru această recalibrare - un cost minor pentru o accelerare substanțială.

Testarea pe Qwen3-30B (un model mixture-of-experts) a arătat curbe de acuratețe corespunzătoare între configurațiile FP8 și BF16, sugerând că tehnica se scalează pe diverse arhitecturi.

De Ce Contează Acest Lucru pentru Economia AI

Antrenamentul RL pentru modele capabile de raționament, cum ar fi cele din spatele asistenților AI avansați, necesită calcul masiv. O accelerare de 48% se traduce direct în ore-GPU reduse și facturi de electricitate mai mici pentru organizațiile care antrenează aceste sisteme.

Tehnica de eșantionare a importanței care permite păstrarea acurateței ar putea dovedi la fel de valoroasă. Prin corectarea nepotrivirilor de distribuție între modelele de generare și antrenament pe bază de token, permite reducerea agresivă a preciziei fără a sacrifica calitatea modelului.

Implementarea completă este disponibilă în biblioteca open-source NeMo RL a NVIDIA, cu rețete preconfigurare pentru modelele Llama 3.1 8B și Moonlight 16B. Utilizatorii avansați pot ajusta fin abordarea - menținând anumite straturi transformer în BF16 sau comutând la factori de scalare putere-de-2 pentru optimizare suplimentară.

Pentru operatorii de infrastructură AI care urmăresc creșterea costurilor de calcul odată cu complexitatea modelului, acest lucru reprezintă o pârghie de eficiență semnificativă care nu necesită actualizări hardware - doar o utilizare mai inteligentă a capabilităților H100 existente.

Sursa imaginii: Shutterstock
  • nvidia
  • antrenament ai
  • precizie fp8
  • învățare automată
  • nemo rl
```
Declinarea responsabilității: Articolele publicate pe această platformă provin de pe platforme publice și sunt furnizate doar în scop informativ. Acestea nu reflectă în mod necesar punctele de vedere ale MEXC. Toate drepturile rămân la autorii originali. Dacă consideri că orice conținut încalcă drepturile terților, contactează [email protected] pentru eliminare. MEXC nu oferă nicio garanție cu privire la acuratețea, exhaustivitatea sau actualitatea conținutului și nu răspunde pentru nicio acțiune întreprinsă pe baza informațiilor furnizate. Conținutul nu constituie consiliere financiară, juridică sau profesională și nici nu trebuie considerat o recomandare sau o aprobare din partea MEXC.

USD1 Genesis: 0 Fees + 12% APR

USD1 Genesis: 0 Fees + 12% APRUSD1 Genesis: 0 Fees + 12% APR

New users: stake for up to 600% APR. Limited time!