Amazon Web Services 週五表示,將在多年合作協議下,於其資料中心部署 Cerebras 的處理器,專注於 AI 推論。
這項協議為 Amazon 提供了新方式來加速 AI 模型回答提示、編寫程式碼和處理即時使用者請求。AWS 表示將使用 Cerebras 技術,包括晶圓級引擎(Wafer-Scale Engine),用於推論任務。
兩家公司未透露財務條款。該設置計畫部署於 AWS 資料中心內的 Amazon Bedrock,將合作關係直接置於 Amazon 主要 AI 產品之中。
AWS 表示,該系統將結合 Amazon Trainium 驅動的伺服器、Cerebras CS-3 系統和 Amazon 的 Elastic Fabric Adapter 網路。
今年稍晚,AWS 還計畫在 Cerebras 硬體上提供領先的開源大型語言模型和 Amazon Nova。AWS 運算與機器學習服務副總裁 David Brown 表示,速度仍然是 AI 推論的主要問題,尤其是即時編碼協助和互動式應用程式。
David 表示:「推論是 AI 為客戶提供真正價值的地方,但對於即時編碼協助和互動式應用程式等高需求工作負載而言,速度仍然是關鍵瓶頸。」
AWS 表示,該設計使用一種稱為推論分解的方法。這意味著將 AI 推論分為兩個部分。第一部分是提示處理,也稱為預填充(prefill)。第二部分是輸出生成,也稱為解碼(decode)。
AWS 表示,這兩項工作的行為截然不同。預填充是並行的、運算密集的,需要適度的記憶體頻寬。解碼是串行的、運算較輕,且更依賴記憶體頻寬。解碼在這些情況下也佔用大部分時間,因為每個輸出標記都必須逐一產生。
這就是為什麼 AWS 為每個階段分配不同的硬體。Trainium 將處理預填充。Cerebras CS-3 將處理解碼。
AWS 表示,低延遲、高頻寬的 EFA 網路將連接雙方,使系統能夠作為單一服務運作,同時每個處理器專注於各自的任務。
David 表示:「我們與 Cerebras 共同打造的解決方案解決了這個問題:透過將推論工作負載分配到 Trainium 和 CS-3,並使用 Amazon 的 Elastic Fabric Adapter 連接它們,每個系統都能發揮其最擅長的功能。結果將是比目前可用技術快一個數量級且性能更高的推論。」
AWS 還表示,該服務將在 AWS Nitro System 上運行,這是其雲端基礎設施的基礎層。
這意味著 Cerebras CS-3 系統和 Trainium 驅動的執行個體預計將以 AWS 客戶已在使用的相同安全性、隔離性和一致性運作。
這項宣布也為 Amazon 提供了另一個機會,讓 Trainium 對抗來自 Nvidia、AMD 和其他大型晶片公司的晶片。AWS 將 Trainium 描述為其內部 AI 晶片,專為訓練和推論的可擴展性能和成本效益而打造。
AWS 表示,已有兩家主要 AI 實驗室承諾使用它。Anthropic 已將 AWS 指定為其主要訓練合作夥伴,並使用 Trainium 訓練和部署模型。OpenAI 將透過 AWS 基礎設施消耗 2 GW 的 Trainium 容量,用於 Stateful Runtime Environment、前沿模型和其他進階工作負載。
AWS 補充說,Trainium3 自最近發布以來獲得了強勁採用,各行業的客戶承諾了大量容量。
Cerebras 負責處理設置的解碼端。AWS 表示,CS-3 專用於解碼加速,為快速輸出標記提供更多空間。Cerebras 表示,CS-3 是全球最快的 AI 推論系統,提供比最快 GPU 高出數千倍的記憶體頻寬。
該公司表示,推理模型現在在推論工作中佔據更大份額,並在處理問題時每次請求生成更多標記。Cerebras 還表示,OpenAI、Cognition、Mistral 等公司將其系統用於高需求工作負載,特別是代理編碼。
Cerebras Systems 創辦人兼執行長 Andrew Feldman 表示:「與 AWS 合作打造分解推論解決方案,將為全球客戶群帶來最快的推論。」
Andrew 補充說:「全球每家企業都能在其現有的 AWS 環境中受益於極快的推論。」
這項協議為 Nvidia 增加了更多壓力,Nvidia 在 12 月與 Groq 簽署了 200 億美元的授權協議,並計畫下週推出使用 Groq 技術的新推論系統。
如果您正在閱讀此內容,您已經領先一步。訂閱我們的電子報,保持領先。


