買幣行情現貨交易合約GOLD 理財活動中心

更多

NVIDIA 的新 FP8 配方為強化學習提供快 48% 的訓練速度，同時匹配 BF16 準確度，大幅降低 AI 基礎設施成本。(閱讀NVIDIA 的新 FP8 配方為強化學習提供快 48% 的訓練速度，同時匹配 BF16 準確度，大幅降低 AI 基礎設施成本。(閱讀

NVIDIA NeMo RL 透過端到端 FP8 精度訓練實現 48% 速度提升

來源：BlockChain News

2026/04/21 07:41

閱讀時長 5 分鐘

分享

如需對本內容提供反饋或相關疑問，請通過郵箱 [email protected] 聯絡我們。

NVIDIA NeMo RL 以端到端 FP8 精度訓練實現 48% 加速

Jessie A Ellis Apr 20, 2026 23:41

NVIDIA 針對強化學習推出的全新 FP8 配方在匹配 BF16 準確度的同時，訓練速度提升了 48%，大幅降低 AI 基礎設施成本。

NVIDIA NeMo RL 以端到端 FP8 精度訓練實現 48% 加速

NVIDIA 發布了一套針對強化學習的完整 FP8 精度配方，在保持與傳統 BF16 方法準確度相當的同時，訓練吞吐量提升了多達 48%——這項發展對 AI 基礎設施成本和 GPU 運算經濟學具有重大意義。

這項技術在 NVIDIA 的 Guyue Huang 撰寫的技術部落格文章中有詳細說明,解決了 RL 訓練最棘手的問題之一：在不同引擎中使用不同精度級別時，生成階段和訓練階段之間的數值差異。

技術突破

傳統的 RL 流程使用 vLLM 進行推演，使用 Megatron Core 進行訓練——每個都有獨特的 CUDA 核心，會引入累積的數值差異。這些差異在較低精度級別下會被放大，歷史上限制了 FP8 的採用。

NVIDIA 的解決方案？在生成和訓練中一致地應用 FP8，而不是混合使用精度級別。在 Llama 3.1 8B Instruct 上的測試顯示，端到端 FP8 的驗證準確度為 0.613，而 BF16 為 0.616——有效地縮小了差距。同時，僅在生成中使用 FP8 會使準確度降低到 0.586。

該配方使用區塊化量化 FP8（E4M3 格式），權重的粒度為 128x128，啟動值為 1x128。線性層以 FP8 數學運算，理論峰值吞吐量是 BF16 的 2 倍，而注意力、正規化和非線性函數則保持在 BF16。

實際性能提升

僅就線性層而言，FP8 配方提供了一致的 15-25% 吞吐量改進。理論 2 倍加速與實際收益之間的差距來自注意力層仍保持在 BF16，加上量化核心的開銷。

將 FP8 擴展到 KV 快取和注意力操作，可將總加速提升到約 48%，超過 BF16 基準。問題在於：RL 不斷更新的策略權重需要在每個訓練步驟後動態重新校準量化比例。NVIDIA 的方法為這種重新校準增加了大約 2-3% 的開銷——這是獲得大幅加速的微小成本。

在 Qwen3-30B（一個專家混合模型）上的測試顯示，FP8 和 BF16 配置之間的準確度曲線相匹配，表明該技術可在不同架構間擴展。

為何這對 AI 經濟學很重要

像先進 AI 助手背後那些具備推理能力的模型進行 RL 訓練需要大量運算。48% 的加速直接轉化為訓練這些系統的組織減少的 GPU 小時數和更低的電費。

實現準確度保持的重要性採樣技術可能同樣有價值。通過在逐個標記的基礎上糾正生成模型和訓練模型之間的分布不匹配，它允許大幅降低精度而不犧牲模型品質。

完整實作可在 NVIDIA 的開源 NeMo RL 函式庫中取得，並預先配置了 Llama 3.1 8B 和 Moonlight 16B 模型的配方。進階使用者可以微調該方法——將特定的 Transformer 層保持在 BF16，或切換到 2 的冪次縮放因子以進行額外優化。

對於關注運算成本隨著模型複雜度攀升的 AI 基礎設施營運商來說，這代表了一個有意義的效率槓桿，不需要硬體升級——只需更聰明地使用現有的 H100 能力。

圖片來源：Shutterstock

nvidia
ai 訓練
fp8 精度
機器學習
nemo rl

$200,000 U 狂歡獎池不容錯過

$200,000 U 狂歡獎池不容錯過

$200,000 U 狂歡獎池不容錯過

解鎖驚喜盲盒、12% 加息券及 $200 新用戶好禮！

免責聲明: 本網站轉載的文章均來源於公開平台，僅供參考。這些文章不代表 MEXC 的觀點或意見。所有版權歸原作者所有。如果您認為任何轉載文章侵犯了第三方權利，請聯絡 [email protected] 以便將其刪除。MEXC 不對轉載文章的及時性、準確性或完整性作出任何陳述或保證，並且不對基於此類內容所採取的任何行動或決定承擔責任。轉載材料僅供參考，不構成任何商業、金融、法律和/或稅務決策的建議、認可或依據。

您可能也會喜歡

川普拯救美國經濟的人選面臨巨大障礙

川普拯救美國經濟的人選面臨巨大障礙

唐納德·川普總統挑選的聯準會領導人需要扭轉美國經濟——但令人意外的問題是川普本人。「走鋼索

Alternet2026/04/21 10:23

蘋果庫克掌門 15 年下台，工程師 Ternus坐上王座，4 兆美元傳奇交棒

蘋果庫克掌門 15 年下台，工程師 Ternus坐上王座，4 兆美元傳奇交棒

蘋果宣布，硬體工程資深副總裁 John Ternus 將於 2026 年 9 月 1 日正式接任執行長，現任 […] 〈蘋果庫克掌門 15 年下台，工程師 Ternus坐上王座，4 兆美元傳奇交棒〉這篇文章最早發佈於動區BlockTempo《動區動趨-最具影響力的區塊鏈新聞媒體》。

Blocktempo ZH2026/04/21 10:02

摩根士丹利比特幣ETF首週吸金逾1億美元

摩根士丹利比特幣ETF首週吸金逾1億美元

關鍵洞察摩根士丹利的比特幣現貨交易所交易基金（ETF）MSBT 僅在首週就錄得超過1億美元的資金流入，這顯示了大規模機構

Themarketperiodical2026/04/21 10:29

8 週年：組隊瓜分 10,000,000 USDT

8 週年：組隊瓜分 10,000,000 USDT

8 週年：組隊瓜分 10,000,000 USDT

贏取 $200,000 等值黃金及早鳥盲盒

熱門新聞

Palantir 拋 22 點宣言：矽谷除了造 App 更應造武器！呼籲美國恢復徵兵、新 AI 威懾時代來臨

歐盟「強制手機可換電池」新規 2027 上路，蘋果、三星面臨重大生產挑戰

Polymarket 最新估值 150 億美元，一個月內二度融資；但仍輸 Kalshi 220 億鎂估值

阿聯酋央行警告美國要「美元救援」：給不了就改人民幣賣石油，石油美元面臨最直接挑戰

亞馬遜加碼投資 Anthropic 250 億美元：買的不是 AI 模型，是算力的護城河

實時快訊

比特幣彩虹圖揭示情緒循環的各個階段；藍色代表恐慌情緒。瞭解市場週期至關重要。

作者：Cryptking.eth 👑 🦍11:52

BSB 出現極端波動，一度短暫突破前高。低位放量提供支撐；短期趨勢仍偏多頭。

作者：Seven.七七11:29

BTC 被認為價格偏高；潛在買家正在等待更低的入場點位。市場情緒趨於謹慎，關注可能的底部區間。

作者：無名先生11:06

美伊停火協議將於 4 月 22 日到期。談判在核緊張局勢下重啟。潛在市場影響波及原油、股票與 BTC。

作者：Seven.七七10:36

交易者 0x2d2e 在 24 小時內買入了 3.83B 枚 $ASTEROID，花費 495 枚 $ETH（約 113 萬美元）。

作者：Lookonchain10:36

快速閱讀

MEXC 怎麼讀？官方發音指南，一次學會，永遠不忘

比特幣跌破$75K：伊朗停火談判破裂，加密市場還有多少下行空間？

BEEG會是下一個PEPE嗎？2026年最值得關注的Meme幣深度解析

BEEG vs BONK：2026年哪個Meme幣的上漲空間更大？深度對比分析

2026最大加密安全事件：Kelp DAO跨鏈橋遭黑客攻擊，損失2.93億美元，Aave等DeFi協議深陷壞賬危機

加密貨幣價格

比特幣圖標

比特幣

BTC

$75,646.79$75,646.79

-0.08%

以太幣圖標

以太幣

ETH

$2,306.63$2,306.63

-0.32%

Solana 圖標

Solana

SOL

-0.88%

USDCoin 圖標

USDCoin

USDC

-0.01%

瑞波幣圖標

瑞波幣

XRP

-0.53%

USD1 Genesis：0 費率 + 12% APR

USD1 Genesis：0 費率 + 12% APR

USD1 Genesis：0 費率 + 12% APR

新用戶：質押最高享 600% APR。限時福利！