NVIDIA於2026年聖荷西GTC大會前夕宣布推出具有120B參數的Nemotron 3 Super開源混合專家模型,其中包含12B活耀參數,Nemotron 3 Super強調為Blackwell架構最佳化設計,旨在大規模執行複雜的代理式AI系統,用於解決長推理與情境膨脹挑戰加速自主代理流程。
NVIDIA已經透過NVIDIA NIM微服務形式開放使用,涵蓋自地端系統製雲端的部署,為自主代理以高效率完成任務並維持高精準度。目前可透過可透過build.nvidia.com、Perplexity、OpenRouter與Hugging Face存取,企業與開發者亦可在雲端服務供應商、NVDIA雲端夥伴、推論服務供應商、資料平台與服務業者提供企業與開發者部署。
Perplexity已為其用戶提供Nemotron 3 Super納入搜尋與作為Computer產品中20個協作模型之一; CodeRabbit、Factory與Greptile也正將Nemotron 3 Super與既有模型整合至AI代理藉此降低成本;Edison Scientific與 Lila Sciences等生命科學及頂尖AI機構將Nemotron 3 Super應用於深度文獻搜尋、資料科學、分子層級理解任務的代理系統;Amdocs、Palantir、Cadence、達梭系統與西門子等領導廠商正在部署並客製化 Nemotron 3 Super 模型,用於電信、資安、半導體設計與製造等領域的工作流程自動化。
▲具有120B參數的Nemotron 3 Super在執行時啟用12B活躍參數,並支援Blackwell可執行的NVFP4參數降低記憶體占用
Nemotron 3 Super旨在解決企業自聊天機器人邁向多代理應用的兩大限制,包括長推理與情境膨脹;由於多代理工作流程因每次互動都需重新傳送包含工具輸出與中間推論流程的完整歷史紀錄,導致產生的詞元相對一般聊天互動可能高達15倍,導致產生情境膨脹;同時處理較長的任務時,龐大的情境資料除了增加成本,還可能導致代理偏離原始任務。
另一個挑戰則是思考稅(Thinking Tax),這是指複雜代理需在每個步驟進行推論,但如果每個子任務都動用大型模型,將會使多代理應用成本過高且執行緩慢,難以在實務環境進行部署。Nemotron 3 Super透過提供100萬個詞元的情境窗口,使代理可將完整工作流程保留於記憶避免目標偏移。
Nemotron 3 Super不僅在效率與開放性方面於Artificial Analysis評比中排名第一,並在同級模型中展現領先的準確度,並使NVIDIA AI-Q研究代理在DeepResearch Bench與 DeepResearch Bench II排行榜上登上榜首,具備多步驟研究與維持推論連貫的出色能力。
Nemotron 3 Super卓越的表現建構在採用混合式專家架構(MoE)及整合三大創新,相較前一代Nemotron Super具有5倍的資料傳輸量,同時準確度提升2倍。
其混合式架構的Mamba層提供達4倍的記憶體與運算效率,而Transformerh層則驅動進階推論;同時透過混合專家架構,於推論階段使120B參數當中的12B參數處於活躍,同時導入創新的潛在混合專家(Lattent MoE)技術,於推論階段透過一個專家成本啟動4個專家模型產生下一個詞元,藉此提高精準度,另外導入多詞元預測(Multi-Token Prediction),可同步預測多個未來詞元,使推論速度提高3倍。
在Blackwell執行Nemotron 3 Super時,將受惠透過NVFP4精度執行,可大幅降低記憶體用量,還將推論速度提升製Hopper平台使用FP8精度的4倍,並維持相同準確度。
作為NVDIA加速AI創新的策略,Nemotron 3 Super使用寬鬆授權釋出其模型開放權重,開發者可在工作站、資料中心或雲端進行部署Nemotron 3 Super模型並進行客製化。
Nemotron 3 Super由前沿推論模型產生的合成資料進行訓練,NVIDIA亦公開完整研究方式,包括高達10兆詞元的訓練前與訓練後資料集、15個強化尋席訓練環境與評估流程,開發者還可進一步透過NVDIIA NeMo平台對模型進行微調貨自行建構全新模型。
Nemotron 3 Super為多代理系統的複雜子任務設計,軟體開發代理可一次性將完整程式碼庫載入情境,在不須分割資料的情況實現端到端程式碼生成與除錯;於財務分析場景則可一次性將數千頁報告載入記憶體避免長時間對話反覆推論,進而提升效率。
Nemotron 3 Super具備高準確度的工具調度能力,使自主代理可可靠在龐大函式庫選擇正確功能,避免於資安領域的自動化安全編排等高風險環境發生執行錯誤。


