NVIDIA NeMo RL 以端到端 FP8 精度訓練實現 48% 加速
Jessie A Ellis Apr 20, 2026 23:41
NVIDIA 針對強化學習推出的全新 FP8 配方在匹配 BF16 準確度的同時,訓練速度提升了 48%,大幅降低 AI 基礎設施成本。
NVIDIA 發布了一套針對強化學習的完整 FP8 精度配方,在保持與傳統 BF16 方法準確度相當的同時,訓練吞吐量提升了多達 48%——這項發展對 AI 基礎設施成本和 GPU 運算經濟學具有重大意義。
這項技術在 NVIDIA 的 Guyue Huang 撰寫的技術部落格文章中有詳細說明,解決了 RL 訓練最棘手的問題之一:在不同引擎中使用不同精度級別時,生成階段和訓練階段之間的數值差異。
技術突破
傳統的 RL 流程使用 vLLM 進行推演,使用 Megatron Core 進行訓練——每個都有獨特的 CUDA 核心,會引入累積的數值差異。這些差異在較低精度級別下會被放大,歷史上限制了 FP8 的採用。
NVIDIA 的解決方案?在生成和訓練中一致地應用 FP8,而不是混合使用精度級別。在 Llama 3.1 8B Instruct 上的測試顯示,端到端 FP8 的驗證準確度為 0.613,而 BF16 為 0.616——有效地縮小了差距。同時,僅在生成中使用 FP8 會使準確度降低到 0.586。
該配方使用區塊化量化 FP8(E4M3 格式),權重的粒度為 128x128,啟動值為 1x128。線性層以 FP8 數學運算,理論峰值吞吐量是 BF16 的 2 倍,而注意力、正規化和非線性函數則保持在 BF16。
實際性能提升
僅就線性層而言,FP8 配方提供了一致的 15-25% 吞吐量改進。理論 2 倍加速與實際收益之間的差距來自注意力層仍保持在 BF16,加上量化核心的開銷。
將 FP8 擴展到 KV 快取和注意力操作,可將總加速提升到約 48%,超過 BF16 基準。問題在於:RL 不斷更新的策略權重需要在每個訓練步驟後動態重新校準量化比例。NVIDIA 的方法為這種重新校準增加了大約 2-3% 的開銷——這是獲得大幅加速的微小成本。
在 Qwen3-30B(一個專家混合模型)上的測試顯示,FP8 和 BF16 配置之間的準確度曲線相匹配,表明該技術可在不同架構間擴展。
為何這對 AI 經濟學很重要
像先進 AI 助手背後那些具備推理能力的模型進行 RL 訓練需要大量運算。48% 的加速直接轉化為訓練這些系統的組織減少的 GPU 小時數和更低的電費。
實現準確度保持的重要性採樣技術可能同樣有價值。通過在逐個標記的基礎上糾正生成模型和訓練模型之間的分布不匹配,它允許大幅降低精度而不犧牲模型品質。
完整實作可在 NVIDIA 的開源 NeMo RL 函式庫中取得,並預先配置了 Llama 3.1 8B 和 Moonlight 16B 模型的配方。進階使用者可以微調該方法——將特定的 Transformer 層保持在 BF16,或切換到 2 的冪次縮放因子以進行額外優化。
對於關注運算成本隨著模型複雜度攀升的 AI 基礎設施營運商來說,這代表了一個有意義的效率槓桿,不需要硬體升級——只需更聰明地使用現有的 H100 能力。
圖片來源:Shutterstock- nvidia
- ai 訓練
- fp8 精度
- 機器學習
- nemo rl








