NVIDIA Blackwell 以 3.2 倍速度提升打破金融 AI 基準測試紀錄
Iris Coleman 2026 年 3 月 5 日 18:17(UTC +8)
NVIDIA 的 GB200 NVL72 在金融交易的 LLM 推理方面創下新的 STAC-AI 紀錄,效能較 Hopper 架構提升了多達 3.2 倍。
NVIDIA 的 Blackwell 架構剛在金融 LLM 推理的 STAC-AI 基準測試中創下有史以來最快的成績,GB200 NVL72 的單 GPU 效能較上一代 Hopper 提升了多達 3.2 倍。2026 年 3 月 5 日的測試結果對於競相從非結構化資料分析中提取 Alpha 值的交易公司而言至關重要。
策略技術分析中心已對金融技術工作負載進行基準測試超過 15 年,該中心使用 EDGAR 10-K 申報文件測試 Blackwell 在真實場景中的表現——這些密集的年度報告是量化基金用來解析投資訊號的資料來源。執行 Meta 的 Llama 3.1 模型時,GB200 NVL72 在中等長度的金融提示下達到每秒 37,480 個字,相比之下雙 GH200 系統為每秒 8,237 個字。
原始數據說明一切
在使用 EDGAR4 資料的 Llama 3.1 8B 模型上,Blackwell 處理每秒 224 個請求,而 Hopper 為每秒 51.5 個請求——在系統層級上提升了 4.3 倍。在運算負荷更重的任務上,差距進一步擴大:在長文本 EDGAR5 申報文件上執行的 70B 參數模型,吞吐量從每秒 41.4 個字躍升到每秒 150 個字。
是什麼讓這些提升成為可能?NVIDIA 專為 Blackwell 設計的全新 NVFP4 量化格式,在不犧牲準確性的情況下將模型壓縮到更小的記憶體佔用空間。Hopper 執行 FP8 量化;Blackwell 在架構上躍升到四位元精度,釋放了吞吐量的差異。
互動式效能對交易至關重要
批次處理是一回事。即時交易決策需要快速反應。在這方面,即使在推向最大吞吐量時,Blackwell 仍保持較低的反應時間(類似於首個權標的時間)和更佳的字間延遲。在匹配的使用率水平下,GB200 NVL72 在大多數測試場景中的響應性指標上始終優於 GH200。
對於在財報電話會議上執行情緒分析或解析突發新聞的交易台而言,這種延遲優勢直接轉化為更快的決策速度。基準測試明確測試了包括權標化在內的完整推理管道——這是實際部署無法跳過的工作。
市場背景
NVIDIA 股價在 3 月 5 日收於 181.41 美元,當日上漲了 1.1%,公司市值達到 4.42 兆美元。在 GTC 2024 上宣布的 Blackwell 架構,專門針對生成式 AI 工作負載而設計。執行長黃仁勳將其定位為推動「新工業革命」的動力,而這些基準測試結果為該主張在金融領域提供了具體證據。
GB200 Grace Blackwell 超級晶片結合了兩顆 B200 GPU 和一顆 Grace CPU,配備重新設計的 AI Tensor 核心和第五代 NVLink,可擴展至多達 576 顆 GPU。先前的 MLPerf 結果顯示在 Llama 3.1 405B 上的訓練提升了 2.2 倍;這些 STAC-AI 數據確認類似的優勢也延伸到推理領域。
Hopper 仍然具有相關性
值得注意的是:已有三年歷史的 Hopper 架構也創下了可觀的數據。擁有現有 GH200 部署的交易公司不會在一夜之間過時。但對於新建置或推理速度直接影響回報的公司而言,Blackwell 的經濟效益看起來極具吸引力——NVIDIA 聲稱相較於前幾代產品,LLM 推理營運成本降低了多達 25 倍。
完整的 STAC 報告,包括不同到達率下的詳細互動模式指標,可透過 STAC 官方管道取得。評估 AI 基礎設施升級的金融機構現在擁有經審計的第三方資料,可為採購決策提供依據。
圖片來源:Shutterstock- nvidia
- blackwell
- ai 推理
- 金融交易
- llm


