NVIDIA Blackwell 以 3.2 倍速度提升打破金融 AI 基準測試紀錄

Iris Coleman 2026 年 3 月 5 日 18:17（UTC +8）

NVIDIA 的 GB200 NVL72 在金融交易的 LLM 推理方面創下新的 STAC-AI 紀錄，效能較 Hopper 架構提升了多達 3.2 倍。

NVIDIA Blackwell 以 3.2 倍速度提升打破金融 AI 基準測試紀錄

NVIDIA 的 Blackwell 架構剛在金融 LLM 推理的 STAC-AI 基準測試中創下有史以來最快的成績，GB200 NVL72 的單 GPU 效能較上一代 Hopper 提升了多達 3.2 倍。2026 年 3 月 5 日的測試結果對於競相從非結構化資料分析中提取 Alpha 值的交易公司而言至關重要。

策略技術分析中心已對金融技術工作負載進行基準測試超過 15 年，該中心使用 EDGAR 10-K 申報文件測試 Blackwell 在真實場景中的表現——這些密集的年度報告是量化基金用來解析投資訊號的資料來源。執行 Meta 的 Llama 3.1 模型時，GB200 NVL72 在中等長度的金融提示下達到每秒 37,480 個字，相比之下雙 GH200 系統為每秒 8,237 個字。

原始數據說明一切

在使用 EDGAR4 資料的 Llama 3.1 8B 模型上，Blackwell 處理每秒 224 個請求，而 Hopper 為每秒 51.5 個請求——在系統層級上提升了 4.3 倍。在運算負荷更重的任務上，差距進一步擴大：在長文本 EDGAR5 申報文件上執行的 70B 參數模型，吞吐量從每秒 41.4 個字躍升到每秒 150 個字。

是什麼讓這些提升成為可能？NVIDIA 專為 Blackwell 設計的全新 NVFP4 量化格式，在不犧牲準確性的情況下將模型壓縮到更小的記憶體佔用空間。Hopper 執行 FP8 量化；Blackwell 在架構上躍升到四位元精度，釋放了吞吐量的差異。

互動式效能對交易至關重要

批次處理是一回事。即時交易決策需要快速反應。在這方面，即使在推向最大吞吐量時，Blackwell 仍保持較低的反應時間（類似於首個權標的時間）和更佳的字間延遲。在匹配的使用率水平下，GB200 NVL72 在大多數測試場景中的響應性指標上始終優於 GH200。

對於在財報電話會議上執行情緒分析或解析突發新聞的交易台而言，這種延遲優勢直接轉化為更快的決策速度。基準測試明確測試了包括權標化在內的完整推理管道——這是實際部署無法跳過的工作。

市場背景

NVIDIA 股價在 3 月 5 日收於 181.41 美元，當日上漲了 1.1%，公司市值達到 4.42 兆美元。在 GTC 2024 上宣布的 Blackwell 架構，專門針對生成式 AI 工作負載而設計。執行長黃仁勳將其定位為推動「新工業革命」的動力，而這些基準測試結果為該主張在金融領域提供了具體證據。

GB200 Grace Blackwell 超級晶片結合了兩顆 B200 GPU 和一顆 Grace CPU，配備重新設計的 AI Tensor 核心和第五代 NVLink，可擴展至多達 576 顆 GPU。先前的 MLPerf 結果顯示在 Llama 3.1 405B 上的訓練提升了 2.2 倍；這些 STAC-AI 數據確認類似的優勢也延伸到推理領域。