Внимание, розыск! Пропала задержка инференса. Последний раз ее видели с чипом Cerebras.Пока все следили за гонкой вооружений в мире LLM – кто кого переплюнет поВнимание, розыск! Пропала задержка инференса. Последний раз ее видели с чипом Cerebras.Пока все следили за гонкой вооружений в мире LLM – кто кого переплюнет по

[Перевод] Сначала я не поверил глазам: GPT-5.3-Codex-Spark выдает код моментально. Cerebras просто засунул память внутрь чипа

2026/02/22 21:31
15м. чтение
050b07a8d778344f483ac3d37253a80a.jpg

Внимание, розыск! Пропала задержка инференса. Последний раз ее видели с чипом Cerebras.

Пока все следили за гонкой вооружений в мире LLM – кто кого переплюнет по количеству параметров, – OpenAI взяла и сделала неожиданный ход. Они выпустили модель, которая даже не новая, но работает в 20 раз быстрее конкурентов. GPT-5.3 Codex Spark летает. Буквально.

И тут возникает вопрос: а на чём она, собственно, летит? Оказалось, что “двигатель” для неё поставила не Nvidia, а компания с безумной, на первый взгляд, идеей – использовать процессор размером с кремниевую пластину.

Проблема современных GPU в том, что они вынуждены постоянно “танцевать” с памятью, тратя время на пересылку данных туда-обратно. Cerebras предложила радикальное решение: убрать “танцпол” и заставить память и вычисления жить в одном доме – на огромном кристалле размером с пластину.

Как инженерам удалось обуздать производственные дефекты, нагревание и законы физики, чтобы достичь скорости 1000 токенов/с, и почему это не панацея для ИИ-агентов – разбираемся в статье.

Приятного погружения в мир wafer-scale-инженерии!


OpenAI GPT-5.3 Codex Spark – 1000 токенов в секунду. Но как?

Среди целой россыпи моделей, появившихся в последнее время, одна явно выбилась вперёд. Речь о новом флагманском кодинговом решении от OpenAI – модели, способной отвечать со скоростью 1 000 токенов в секунду.

Для ориентира: это примерно в 20 раз быстрее, чем у других моделей фронтирного класса.

Но как такое вообще возможно?

Что любопытно, ответ почти не связан с самой моделью – и куда больше с одной малоизвестной компанией, которая с высокой вероятностью выйдет на IPO уже в этом году.

Выход на орбиту

GPT-5.3 Codex Spark – это новая модель OpenAI в режиме превью, доступная только Pro-пользователям. И она быстрая. Неприлично быстрая.

Заранее извиняюсь за качество, но сравнение ниже отлично передаёт масштаб: насколько стремительно эта модель собирает игру “змейка” (я укоротил запись, но у другой модели на это ушло на 30–40 секунд больше):

0e0b01fd50c16d9c1998f36940a47513.gif

От запроса до готовой игры – пять секунд. И было бы ещё быстрее, если бы не вызовы инструментов (позже станет ясно, почему это крайне важно для инвесторов).

К счастью, мне удалось протестировать модель лично, и впечатления оказались более чем сильными. Да, сжатие видео в GIF убило детализацию, но характерную “взрывную” скорость модели всё равно прекрасно видно:

f117d2c59781c5143f13c59a264554cd.gif

И тут логичный вопрос: это вообще новая, обученная с нуля модель?

Точно нет – это не диффузионная модель (по поведению ясно, что она по-прежнему предсказывает следующий токен в последовательности). Для сравнения: диффузионные LLM (dLLM) работают иначе – они не авторегрессионны, там все токены генерируются одновременно, а не по одному.

63804b9e1a6a53570817edf2e14ff186.gif

Кроме того, кодовое имя модели прямо намекает: это всего лишь новая версия базового фронтирного GPT-5.3. Да, подтверждено, что она меньше по размеру (скорее всего, результат дистилляции), но уж точно не настолько, чтобы объяснить столь безумный прирост скорости.

Spark с большим отрывом демонстрирует лучшую производительность в задачах программирования относительно затраченного времени
Spark с большим отрывом демонстрирует лучшую производительность в задачах программирования относительно затраченного времени

Так что же, как им это удалось?

И вот тут выясняется: дело почти не в усилиях OpenAI над самой моделью, а в компании, которая может выйти на IPO в 2026 году, – Cerebras.


Ускоряйте рутинные задач вместе с BotHub! Для доступа не нужен VPN. По ссылке вы получите 300 000 бесплатных токенов, чтобы перейти к работе с нейросетями прямо сейчас!


Cerebras: ставка против рынка, которая в итоге сыграла

Главное отличие здесь в том, что для обслуживания этой модели используется не привычное железо – не графические процессоры от Nvidia или AMD. Вместо этого применяются WSE – Wafer Scale Engines, то есть “процессоры размером с пластину”.

Но что это вообще такое?

Несколько лет назад группа опытных компьютерных инженеров заглянула в будущее – и увиденное им совсем не понравилось. Они пришли к выводу, что GPU вскоре упрётся в потолок своих возможностей. И у этого есть две фундаментальные причины, которые с каждым днём становятся всё очевиднее:

  • Проблема производительности инференса: инференс в ИИ жёстко упирается в пропускную способность памяти – и так будет и дальше.

  • Физическое ограничение: сложность упаковки чипов способна в буквальном смысле остановить прогресс.

Разберём оба пункта по порядку.

Танец данных на GPU

GPU – это, по сути, компьютеры, то есть машины, выполняющие вычисления.

И особенно хорошо GPU справляются с одним конкретным типом вычислений: простых, но отлично параллелящихся. Их можно выполнять массово и одновременно – а именно этого и требует искусственный интеллект.

Проблема в другом. Чтобы GPU могли выполнять такие вычисления, им нужно вовремя получать данные в вычислительные ядра, поскольку сама модель ИИ находится не там, где происходят вычисления.

Из-за этого между вычислительными чипами (где, собственно, и происходит магия) и чипами памяти (где хранятся модель и данные) постоянно идёт интенсивный обмен.

Ключевая проблема в том, что расстояние здесь совсем не маленькое. В идеале память должна находиться прямо внутри вычислительных чипов, но модели ИИ настолько огромны, что, как уже говорилось, их приходится размещать во внешней памяти, а не на самом кристалле GPU.

Увы, данные не умеют телепортироваться, поэтому здесь неизбежно появляется фактор времени: информации требуется заметное время, чтобы добраться до вычислительных кристаллов. Если говорить конкретнее, возникают периоды – крошечные по человеческим меркам, но крайне значимые в масштабах систем, – когда вычислительные чипы попросту простаивают.

Представьте, что вычислительным ядрам внезапно понадобилось, скажем, 20 терабайт данных, а шина памяти способна пропускать лишь около 8 терабайт в секунду. В таком случае вычислительные кристаллы будут бездействовать целых 2,5 секунды – что, без преувеличения, катастрофа.

На практике подобное не происходит за пределами начальной загрузки модели, и GPU почти всегда чем-то заняты.

Однако реальная проблема не в том, работают ли они вообще, а в том, насколько эффективно.

Чтобы измерить объём полезной работы, используют метрику под названием арифметическая интенсивность – количество операций на один переданный байт данных. Проще говоря, сколько вычислений выполняют ядра GPU на каждый новый кусок информации, полученный из памяти.

Число это интуитивно понятное. Если ваш GPU теоретически способен выполнять 100 операций на единицу данных, но фактически делает лишь 10, значит, он использует всего 10% своей пиковой вычислительной мощности.

И к слову, это состояние по умолчанию для инференса ИИ на GPU – а именно инференс сегодня и потребляет львиную долю вычислительных ресурсов.

Хотя тема техническая, сами инженеры Cerebras объясняют её через ключевой принцип своей архитектуры, о котором мы поговорим позже, – учёт разреженности (sparsity awareness).

Они утверждают, что более разреженные вычисления – то есть с меньшей степенью параллелизма, вроде умножений “матрица – вектор” (а это доминирующая операция в инференсе ИИ) требуют существенно большей пропускной способности памяти, чем GPU способны эффективно обеспечить. И, по сути, доказывают очевидное: GPU изначально не проектировались под такие задачи, в отличие от чипов Cerebras, как мы скоро увидим.

958940128188c3dcaf9c44e7e6adc42f.png

Проще говоря: Cerebras изначально задумывалась как движок для инференса ИИ, тогда как GPU – нет.

Но прежде чем переходить к технологии Cerebras, нужно разобрать ещё одну фундаментальную проблему GPU – сложность упаковки чипов. Помимо того что она дополнительно подтверждает правоту Cerebras, это ещё и отличный повод понять, как именно сегодня ведёт себя индустрия и рынки.

Пределы упаковки

Современные GPU – это уже давно не просто вычислительные чипы, как многие до сих пор думают. На практике это целые сборки из нескольких компонентов. Ключевую роль здесь играют чипы памяти, расположенные совсем рядом с вычислительными кристаллами и образующие так называемый advanced package – именно он и является тем, что мы в быту называем GPU.

Как уже отмечалось, внешняя память внутри корпуса GPU появилась не из прихоти: современные ИИ-нагрузки требуют колоссальных объёмов памяти и столь же колоссальной пропускной способности.

Фактически современный GPU-пакет выглядит куда больше похожим на “нечто” показанное на схеме ниже. Не пугайтесь первого впечатления – диаграмма куда понятнее, чем кажется на первый взгляд.

1e26e7030a3614b4a91c1eb896784433.png
  • Оранжевые прямоугольники – это собственно вычислительные чиплеты GPU (сейчас их, как правило, уже несколько, аккуратно “сшитых” между собой).

  • Именно здесь происходит вся вычислительная магия. Внутри этих чиплетов есть немного SRAM-памяти – очень быстрой, счёт идёт на сотни мегабайт, – но для нужд ИИ этого катастрофически мало (нам не хватает примерно шести порядков, ведь требуются объёмы уровня терабайтов).

  • Поэтому сами модели и кэш размещаются в фиолетовых блоках – стеках High Bandwidth Memory (HBM). Это несколько DRAM-чипов, уложенных друг на друга (сейчас обычно от 8 до 12, а в ближайшем будущем – до 16).

  • Стекование нужно затем, чтобы уместить как можно больше памяти максимально близко к вычислительным чиплетам. В самом низу, серым цветом, показан интерпозер – слой, который соединяет все компоненты тончайшими проводниками и обеспечивает обмен данными между “двумя мирами”.

128b19ea1b9c22a86170fddeb9137294.jpg

И всё это подводит к большому вопросу: а как масштабироваться дальше? Как вообще сделать GPU ещё лучше?

Первый вариант – улучшать сами чипы. Под “лучше” обычно понимают рост числа транзисторов, а значит – рост вычислительной мощности.

Но транзисторы уже сейчас микроскопичны (в буквальном смысле – в миллиард раз меньше человека) и вплотную подошли к физическим пределам миниатюризации. На таких размерах полупроводниковые материалы начинают вести себя непредсказуемо, и именно поэтому закон Мура фактически буксует.

Следовательно, чтобы уместить больше вычислений в одном корпусе, остаётся увеличивать размер самого чипа (того самого оранжевого прямоугольника на схеме выше). Однако сделать это без взрывного роста стоимости производства практически невозможно – резко падает выход годных кристаллов, и на этом мы углубляться не будем.

Третий путь – и именно по нему сегодня идёт индустрия GPU, – это собрать несколько чиплетов максимального размера в один модуль, вынеся значительную часть памяти за пределы вычислительных кристаллов.

Любопытно, что всё это можно увидеть буквально своими глазами. На изображении ниже хорошо различимы два полноразмерных GPU-чиплета в центре и восемь стеков HBM сверху и снизу:

Чип Nvidia Blackwell
Чип Nvidia Blackwell

Но зачем я вообще всё это рассказываю? Затем, что выбранный нами путь – а по большому счёту, путь вынужденный, – чрезвычайно сложен. И ключ к пониманию этой сложности – светло-серые и светло-голубые прямоугольники на схеме, о которой шла речь выше:

Кремниевый интерпозер (светло-серый) и подложка (светло-голубая) во многом объясняют те производственные проблемы, с которыми GPU предстоит столкнуться в течение этого десятилетия.

Почему так?

Потому что сборка всего этого “бутерброда” – процесс, известный как advanced packaging, – сегодня, пожалуй, самая сложная задача во всей цепочке поставок для ИИ, если говорить о корректной работе в промышленных масштабах. До такой степени, что большинство ведущих разработчиков чипов по всему миру доверяют эту работу фактически одной-единственной компании – TSMC (хотя в будущем ситуация может измениться, но это уже отдельная история... кхм, Samsung... Intel, кхм...).

Самое больное место здесь – интерпозер: тонкая кремниевая пластина под всем этим “пирогом”, которая служит связующим звеном между вычислительными и памятью-чипами.

Проблема в том, что интерпозеры невероятно хрупкие – и это ещё мягко сказано. А чтобы жизнь совсем не казалась простой, в дело вмешивается термодинамика.

Материалы при нагреве расширяются, а GPU умеют нагреваться так, что любая серия Love Island покажется прохладным вечерком: температуры нередко переваливают за 100 °C (212 °F).

И если этого было недостаточно, под нежным интерпозером нужно разместить органическую подложку (на схеме она светло-голубая). Она обеспечивает соединение с печатной платой (PCB, ярко-зелёной на предыдущей схеме) и придаёт всей конструкции необходимую жёсткость, чтобы система попросту не развалилась. Проблема в том, что это другой материал, не такой, как интерпозер.

У каждого материала свой коэффициент теплового расширения (CTE): одни расширяются сильнее, другие слабее. В нашем случае интерпозер расширяется заметно больше, чем подложка.

Ну и что?

А то, что разница в поведении при нагреве приводит к эффекту, известному как warpage – буквальному изгибу GPU. В результате хрупкие соединения интерпозера разрушаются, и наш GPU стоимостью под 50 000 $ превращается в изысканно дорогой обогреватель, но уже не в рабочий процессор.

da0b5891f0f0b046b094f28a86eff068.jpg

Именно поэтому сложность advanced packaging может в обозримом будущем стать серьёзным узким местом, потенциально способным притормозить аппаратный прогресс.

И это притом, что сегодня мы с трудом справляемся даже с упаковкой двух чипов бок о бок. А ведь параллельно всерьёз обсуждается идея укладывать вычислительные чипы друг на друга, что наглядно показывает, насколько тяжёлой станет ситуация на уровне упаковки.

4d6f4dbce5836fe5e875233bdb9c7d71.png

Я не берусь утверждать, что всё это в итоге сделает производство GPU невозможным, но совершенно точно можно сказать одно: легче этот путь уже не станет.

Cerebras увидела все эти проблемы заранее, сказала решительное “к чёрту” и подошла к обслуживанию ИИ совершенно иначе – через WSE. Итак, наконец, что же это такое?

WSE: память – вплотную

WSE – это альтернатива GPU, заточенная именно под инференс. По своей сути такие системы полностью отказываются от HBM-чипов и заставляют всю память находиться “на кристалле”. Признав ограничения на размер вычислительных чиплетов, инженеры переработали архитектуру ускорителя сразу по двум направлениям.

  • Чипы Cerebras совмещают в себе и вычисления, и память – примерно в одинаковых пропорциях по площади кристалла (это хорошо видно на изображении ниже). Значительная часть поверхности отводится под сверхбыструю SRAM, расположенную максимально близко к вычислительным блокам.

  • Чтобы компенсировать потерю производительности на уровне отдельного чиплета, они решили рассматривать всю кремниевую пластину как “один-единственный чип”.

С первым пунктом всё достаточно просто. Понятия “внешней памяти” здесь попросту не существует (если не считать хранилище, которое в инференсе почти не играет роли): всё целиком живёт внутри чипа.

Половина – память, половина – вычисления
Половина – память, половина – вычисления

Именно поэтому Cerebras сознательно наращивает объём on-chip-памяти, чтобы полностью избежать необходимости во внешней DRAM.

Второй пункт объясняет и сам физический форм-фактор WSE. В стандартном производственном процессе TSMC изготавливает кремниевую пластину, на которой размещается множество отдельных чипов.

Обычно после проверки их разрезают, отбраковывают дефектные и упаковывают в GPU – по одному или по два (например, у Google TPUv8 есть версия с двумя вычислительными кристаллами и более дешёвая – с одним).

d763ef01137d5e97a9442318c8437330.jpg

В случае Cerebras всё иначе: их продукт – это вся пластина целиком, отсюда и название – Wafer-Scale Engine.

8c6eb4337823151d158ab96f9ffe553e.png

И вот ключевой момент: хотя каждый отдельный чиплет по вычислительной мощности заметно уступает чипу от Nvidia, в масштабе всей пластины WSE оказывается несоизмеримо мощнее. Речь идёт о триллионах транзисторов и петабайтах в секунду пропускной способности памяти – уровне производительности, принципиально недостижимом для одного GPU.

Так что, отвечая на главный вопрос – почему эта модель такая быстрая? – всё сводится к одному: к пропускной способности памяти, которую дают WSE-системы Cerebras. В мире, где инференс почти всегда упирается в память, тот факт, что память и вычисления находятся фактически “в одном месте”, позволяет обрабатывать модели куда быстрее, резко повышая загрузку железа. Именно этим и объясняется столь внушительный скачок скорости у модели OpenAI.

Для наглядности – вот ещё несколько реализаций моделей на Cerebras, которые без особых усилий оставляют GPU позади:

2d0e2d12218135f4c7cdb0d9035260ed.jpg

И что же из всего этого следует? На самом деле – очень многое.

“Да, но”, оговорки и CPUs

Как и почти всегда в инженерии, у этого подхода есть своя цена – в виде компромиссов.

Сложность внедрения

Первый из них – сложность. Поскольку каждый отдельный чип обладает меньшей вычислительной мощностью, базовая логика внутри них вынужденно упрощается.

WSE при этом остаются весьма программируемыми (каждый тайл выполняет код), но ради максимальной производительности на уровне всей пластины, огромного объёма on-chip SRAM и детерминированных коммуникаций им приходится отказаться от универсальной микроархитектурной “всеядности”, характерной для GPU. В результате компиляция и маппинг становятся куда более важной частью достижения высокой производительности, чем в случае с обычными GPU. Проще говоря, железо упрощается, а значительная доля сложности переезжает в софт, то есть в компилятор, который всем этим управляет.

Отсюда и следствие: если на GPU новую модель можно запустить почти сразу – чип сам подстраивается под новые ограничения, – то реализации под Cerebras требуют серьёзных усилий со стороны инженеров-программистов.

Чаще всего альтернативы GPU – будь то Cerebras или Groq (которую недавно приобрела Nvidia) – означают заметно более долгий путь до рынка. В то время как на GPU новую модель можно запустить почти мгновенно.

Вторая проблема – стоимость

Если оптимизировать именно по деньгам, выбор WSE вместо GPU выглядит крайне маловероятным, если вообще возможным. Масштаб инвестиций, необходимых для обслуживания ИИ-моделей на WSE, ещё выше.

Каждый WSE располагает “всего лишь” 44 гигабайтами SRAM, а значит, для обслуживания одной только Kimi K2.5 потребуется более двадцати таких систем – два десятка кремниевых пластин, чтобы запустить модель среднего размера.

Поэтому, хотя сам подход и работает, он, по всей видимости, обречён на ниши, где скорость решает всё: быстрые итеративные рабочие процессы в программировании (как в обсуждаемом здесь примере) или, скажем, автономное вождение – если когда-нибудь удастся поставить WSE прямо в автомобиль.

Но куда более серьёзная проблема возникает, если говорить об агентах.

CPU – настоящее узкое место

Не знаю, кому нужно это услышать, но скажу предельно ясно: в ИИ-агентах бутылочное горлышко – это CPU, а вовсе не GPU.

Как показывает исследование Intel (https://arxiv.org/pdf/2511.00739), основным источником задержек в агентах являются вызовы инструментов, а сами инструменты в подавляющем большинстве случаев нагружают именно CPU. То есть именно центральный процессор и становится реальным ограничителем производительности.

bef90bfa68def083331a2872ef394ad3.png

Если внимательно посмотреть на примеры из начала статьи, задержки, вызванные обращениями к инструментам, бросаются в глаза, особенно в первом случае – со “змейкой”. Если бы не эти вызовы, модель ответила бы не за пять секунд, а скорее ближе к двум.

Отсюда вытекает важное следствие: у меня есть серьёзные сомнения, что подобные аппаратные решения вообще имеют смысл для агентных систем, где вызовы инструментов происходят почти при каждом ответе. Большая часть выигрыша в скорости просто исчезнет, а стоимость инференса при этом вырастет.

Более того, достигнутые экстремальные скорости наглядно показывают, какую огромную долю задержек сегодня создают именно CPU-нагрузки. Это заставляет меня думать, что в ближайшее время вокруг CPU в контексте ИИ развернётся куда более активный нарратив, а компании, которые раньше не ассоциировались напрямую с ИИ именно из-за своих процессоров, могут оказаться в выигрыше. Такие игроки, как AMD, ARM и Intel, вполне способны извлечь выгоду из этого “агентного” узкого места, выступая ключевыми поставщиками CPU.

Волнительные времена

Кто сказал, что ИИ – это нечто статичное? Мы привыкли мерить прогресс ИИ моделями, но аппаратная часть сегодня не менее важна – а возможно, и важнее, чем когда-либо.

WSE от Cerebras – это действительно впечатляющая технология. Она не является прямой угрозой Nvidia, особенно теперь, когда та приобрела Groq (LPU от Groq во многом следуют тем же принципам, что и решения Cerebras, пусть и реализованы иначе), но она заняла свою нишу в индустрии – там, где задержка критичнее всего.

Сейчас у Cerebras больше доказательств работоспособности технологии, чем когда-либо прежде, и это ставит компанию в выгодное положение перед IPO в этом году – цели, к которой они шли уже довольно давно и которая, согласно оценкам, может реализоваться уже в следующем квартале.

Технология действительно мощная и вполне легитимная. Но, как и всегда, главный вопрос остаётся прежним: будет ли цена правильной?

Источник

Возможности рынка
Логотип CodexField
CodexField Курс (CODEX)
$32.9622
$32.9622$32.9622
-8.06%
USD
График цены CodexField (CODEX) в реальном времени
Отказ от ответственности: Статьи, размещенные на этом веб-сайте, взяты из общедоступных источников и предоставляются исключительно в информационных целях. Они не обязательно отражают точку зрения MEXC. Все права принадлежат первоисточникам. Если вы считаете, что какой-либо контент нарушает права третьих лиц, пожалуйста, обратитесь по адресу [email protected] для его удаления. MEXC не дает никаких гарантий в отношении точности, полноты или своевременности контента и не несет ответственности за любые действия, предпринятые на основе предоставленной информации. Контент не является финансовой, юридической или иной профессиональной консультацией и не должен рассматриваться как рекомендация или одобрение со стороны MEXC.

Быстрое чтение

Еще

Цена Conway Research (CONWAY) в сравнении с ценой Bitcoin (BTC) дает инвесторам четкое представление о том, как этот развивающийся мемкоин соотносится с крупнейшей криптовалютой. Поскольку BTC остается эталоном крипторынка, анализ динамики цен CONWAY vs BTC выявляет относительную силу, волатильность и возможности для трейдеров, ищущих прогнозы цены Conway Research и данные для сравнения цен Bitcoin.

Сравнение цены Conway Research (CONWAY) с ценой Ethereum (ETH) предлагает ценную перспективу для трейдеров и инвесторов. Поскольку ETH является второй по величине криптовалютой по рыночной капитализации и краеугольным камнем децентрализованных финансов, анализ его производительности по сравнению с CONWAY помогает выявить как конкурентные преимущества, так и потенциальные возможности роста.