亞馬遜網路服務公司週五表示，將在一項專注於人工智慧推理的多年合作夥伴關係下，在其資料中心內部署 Cerebras 的處理器。此協議讓亞馬遜網路服務公司週五表示，將在一項專注於人工智慧推理的多年合作夥伴關係下，在其資料中心內部署 Cerebras 的處理器。此協議讓

Amazon 運用 Cerebras 晶圓級晶片加速 AWS 上的 AI 模型

作者：Cryptopolitan

來源：Cryptopolitan

2026/03/14 08:32

閱讀時長 7 分鐘

如需對本內容提供反饋或相關疑問，請通過郵箱 [email protected] 聯絡我們。

Amazon Web Services 週五表示,將在多年合作協議下,於其資料中心部署 Cerebras 的處理器,專注於 AI 推論。

這項協議為 Amazon 提供了新方式來加速 AI 模型回答提示、編寫程式碼和處理即時使用者請求。AWS 表示將使用 Cerebras 技術,包括晶圓級引擎(Wafer-Scale Engine),用於推論任務。

兩家公司未透露財務條款。該設置計畫部署於 AWS 資料中心內的 Amazon Bedrock,將合作關係直接置於 Amazon 主要 AI 產品之中。

AWS 表示,該系統將結合 Amazon Trainium 驅動的伺服器、Cerebras CS-3 系統和 Amazon 的 Elastic Fabric Adapter 網路。

今年稍晚,AWS 還計畫在 Cerebras 硬體上提供領先的開源大型語言模型和 Amazon Nova。AWS 運算與機器學習服務副總裁 David Brown 表示,速度仍然是 AI 推論的主要問題,尤其是即時編碼協助和互動式應用程式。

David 表示:「推論是 AI 為客戶提供真正價值的地方,但對於即時編碼協助和互動式應用程式等高需求工作負載而言,速度仍然是關鍵瓶頸。」

Amazon 將預填充和解碼分配到不同晶片

AWS 表示,該設計使用一種稱為推論分解的方法。這意味著將 AI 推論分為兩個部分。第一部分是提示處理,也稱為預填充(prefill)。第二部分是輸出生成,也稱為解碼(decode)。

AWS 表示,這兩項工作的行為截然不同。預填充是並行的、運算密集的,需要適度的記憶體頻寬。解碼是串行的、運算較輕,且更依賴記憶體頻寬。解碼在這些情況下也佔用大部分時間,因為每個輸出標記都必須逐一產生。

這就是為什麼 AWS 為每個階段分配不同的硬體。Trainium 將處理預填充。Cerebras CS-3 將處理解碼。

AWS 表示,低延遲、高頻寬的 EFA 網路將連接雙方,使系統能夠作為單一服務運作,同時每個處理器專注於各自的任務。

David 表示:「我們與 Cerebras 共同打造的解決方案解決了這個問題:透過將推論工作負載分配到 Trainium 和 CS-3,並使用 Amazon 的 Elastic Fabric Adapter 連接它們,每個系統都能發揮其最擅長的功能。結果將是比目前可用技術快一個數量級且性能更高的推論。」

AWS 還表示,該服務將在 AWS Nitro System 上運行,這是其雲端基礎設施的基礎層。

這意味著 Cerebras CS-3 系統和 Trainium 驅動的執行個體預計將以 AWS 客戶已在使用的相同安全性、隔離性和一致性運作。

Amazon 更積極推動 Trainium,Nvidia 面臨另一威脅

這項宣布也為 Amazon 提供了另一個機會,讓 Trainium 對抗來自 Nvidia、AMD 和其他大型晶片公司的晶片。AWS 將 Trainium 描述為其內部 AI 晶片,專為訓練和推論的可擴展性能和成本效益而打造。

AWS 表示,已有兩家主要 AI 實驗室承諾使用它。Anthropic 已將 AWS 指定為其主要訓練合作夥伴,並使用 Trainium 訓練和部署模型。OpenAI 將透過 AWS 基礎設施消耗 2 GW 的 Trainium 容量,用於 Stateful Runtime Environment、前沿模型和其他進階工作負載。

AWS 補充說,Trainium3 自最近發布以來獲得了強勁採用,各行業的客戶承諾了大量容量。

Cerebras 負責處理設置的解碼端。AWS 表示,CS-3 專用於解碼加速,為快速輸出標記提供更多空間。Cerebras 表示,CS-3 是全球最快的 AI 推論系統,提供比最快 GPU 高出數千倍的記憶體頻寬。

該公司表示,推理模型現在在推論工作中佔據更大份額,並在處理問題時每次請求生成更多標記。Cerebras 還表示,OpenAI、Cognition、Mistral 等公司將其系統用於高需求工作負載,特別是代理編碼。

Cerebras Systems 創辦人兼執行長 Andrew Feldman 表示:「與 AWS 合作打造分解推論解決方案,將為全球客戶群帶來最快的推論。」

Andrew 補充說:「全球每家企業都能在其現有的 AWS 環境中受益於極快的推論。」

這項協議為 Nvidia 增加了更多壓力,Nvidia 在 12 月與 Groq 簽署了 200 億美元的授權協議,並計畫下週推出使用 Groq 技術的新推論系統。

如果您正在閱讀此內容,您已經領先一步。訂閱我們的電子報,保持領先。

免責聲明: 本網站轉載的文章均來源於公開平台，僅供參考。這些文章不代表 MEXC 的觀點或意見。所有版權歸原作者所有。如果您認為任何轉載文章侵犯了第三方權利，請聯絡 [email protected] 以便將其刪除。MEXC 不對轉載文章的及時性、準確性或完整性作出任何陳述或保證，並且不對基於此類內容所採取的任何行動或決定承擔責任。轉載材料僅供參考，不構成任何商業、金融、法律和/或稅務決策的建議、認可或依據。