В этом интервью мы беседуем с Эштоном, инженером-основателем Theta, чтобы обсудить передовые технологии инфраструктуры Обучения с подкреплением. Он объясняетВ этом интервью мы беседуем с Эштоном, инженером-основателем Theta, чтобы обсудить передовые технологии инфраструктуры Обучения с подкреплением. Он объясняет

Знакомьтесь с автором: Эштон Чью, инженер-основатель Theta

2025/12/15 04:25


Давайте начнем! Расскажите немного о себе. Например, имя, профессия и личные интересы.

Привет! Меня зовут Эштон, и я инженер-основатель в Theta, где я работаю над инфраструктурой RL, RL и распределенными системами. Я специализируюсь на компьютерном использовании и использовании инструментов. В прошлом я работал в Amazon AGI и занимался инфраструктурой для вывода и использования инструментов. В свободное время я люблю графический дизайн, побочные проекты и боулдеринг.

Интересно! О чем была ваша последняя популярная статья на Hackernoon?

Моя последняя статья "Может ли ваш ИИ действительно использовать компьютер? Карта эталонов компьютерного использования 2025 года" затронула одну из самых горячих тем в VC прямо сейчас: среды RL и оценки. Я дал всесторонний обзор наиболее используемых эталонов компьютерного использования, а также практические советы по выбору эталонов для обучения и тестирования агентов компьютерного использования.

Я постоянно сталкивался с одним и тем же пробелом: не так много статей, которые рассматривают сами эталоны. И по мере роста этой области жизненно важно, чтобы мы действительно оценивали качество, а не вознаграждали то, что случайно обыгрывает метрику. Мы уже были здесь раньше. В ранние дни LLM эталоны были достаточно случайными и разрозненными, что они лишь слабо отражали реального победителя.

Эталоны стали де-факто таблицей результатов для "лучшей модели", а затем люди поняли, что многие из них не измеряли то, что заявляли.

Одной из самых показательных неудач раннего периода было, когда "понимание прочитанного" тихо превратилось в "сопоставление шаблонов в структуре данных". Исследователи запустили намеренно провокационные базовые линии (только вопрос, только последнее предложение), и результаты были достаточно высокими, чтобы вызвать неудобную возможность: эталон не последовательно заставлял модели использовать весь отрывок. В критике 2018 года суть была не в том, что чтение никогда не имеет значения, а в том, что некоторые наборы данных случайно сделали его необязательным, чрезмерно вознаграждая такие ярлыки, как недавность и стереотипные предварительные ответы.

\

# Предполагаемая задача: ответить на вопрос, учитывая отрывок и вопрос Отрывок (резюме): - Предложения 1–8: День Джона в школе (в основном несущественные детали) - Предложение 9: "После школы Джон пошел на кухню." - Предложение 10: "Он съел кусок пиццы перед тем, как начать делать домашнее задание." Вопрос: "Что съел Джон?" Ответ: "пицца"

Эталон случайно вознаграждает ярлык, где модель переоценивает последнее предложение (потому что ответ часто находится ближе к концу) и просто извлекает прямой объект самого последнего действия ("съел ___"), что в данном случае дает "пицца".

А затем появляется еще более разрушительная базовая линия: полностью удалите отрывок и посмотрите, что произойдет. Если модель, основанная только на вопросе, конкурентоспособна, это признак того, что набор данных пропускает сигнал через повторение и предварительные знания, а не тестирует понимание, основанное на отрывке.

Вопрос: "Что съел Джон?"

Эта базовая линия по сути является проверкой здравого смысла: может ли модель по-прежнему хорошо оцениваться, опираясь на шаблоны ответов с высокой частотой без опоры на отрывок вообще? На практике она просто угадывает токен, который набор данных непропорционально вознаграждает ("пицца", "бутерброд"), и если это работает чаще, чем должно, вы измеряете не столько понимание, сколько предварительные знания набора данных.

Оценки компьютерного использования уже создали еще более буквальный ярлык: у агента есть браузер, эталон общедоступен, и оценка превращается в экзамен с открытой книгой с ключом ответа на последней странице. В статье о Holistic Agent Leaderboard (HAL) авторы сообщают о наблюдении за агентами, которые искали эталон на HuggingFace вместо решения задачи, поведение, которое вы заметите только при проверке логов.

\

# Предполагаемая задача: выполнить рабочий процесс в веб-среде Задача: "Настройте параметр X в приложении и убедитесь, что он включен." Режим отказа: 1) Открыть новую вкладку 2) Поиск: "эталон X ожидаемое включенное состояние" / "HAL <эталон> настройка X" 3) Найти: репозиторий / описание таблицы лидеров / карточку набора данных / тему проблемы 4) Воспроизвести ожидаемое конечное состояние (ответ)

В этот момент оценка измеряла, может ли он найти ключ ответа.

Задача: "Найдите правильную страницу и извлеките Y." Режим отказа: - Поиск: "<название эталона> Y" - Копирование из общедоступного артефакта (документы, сообщение на форуме, карточка набора данных) - Вставка значения в вывод агента, как будто оно пришло из взаимодействия

Если агент может извлечь значение из карточки набора данных или репозитория и все равно "пройти", проверка успеха оценивает правдоподобность, а не правильность взаимодействия. Общедоступные задачи плюс поверхностная проверка превращают веб-поиск в эксплойт.

Эти два примера являются предупреждающим выстрелом: если мы не будем придерживаться более высоких стандартов для эталонов компьютерного использования на раннем этапе, мы повторим эру LLM только с лучшими пользовательскими интерфейсами и более сложными способами обмана.

Вы обычно пишете на подобные темы? Если нет, о чем вы обычно пишете?

Да! Работая над средами RL и инфраструктурой RL вокруг компьютерного использования, я постоянно окружен лучшими моделями компьютерного использования и наиболее реалистичными средами обучения. Поэтому я написал еще одну статью, "Экран - это API", которая является аргументом в пользу компьютерного использования и почему это будущее моделей ИИ.

Это пространство крайне недостаточно освещено по двум причинам:

  1. Модели не так способны в компьютерном использовании, как в других задачах (кодирование, математика и т.д.).
  2. Компьютерное использование быстро развивается и чрезвычайно ново.

Я хочу это изменить.

Отлично! Какова ваша обычная рутина письма (если она у вас есть)

Я обычно читаю кучу исследовательских статей и разговариваю с коллегами в отрасли об их мыслях по теме. Кроме того, я трачу много времени на чтение статей великих блогеров, таких как PG. Так что я обычно черпаю много вдохновения от других людей в своем письме.

Быть писателем в технологиях может быть вызовом. Это часто не наша основная роль, а дополнение к другой. Какой самый большой вызов у вас, когда дело доходит до письма?

Найти время, чтобы сесть и облечь свой жизненный опыт в слова.

Чего вы надеетесь достичь следующим в своей карьере?

Решать более сложные проблемы с отличными людьми, учиться у этих людей и делиться своим опытом.

Вау, это достойно восхищения. Теперь что-то более повседневное: Какое у вас любимое виноватое удовольствие?

Смотреть фильмы! Мой любимый фильм сейчас - "Поймай меня, если сможешь" (2002).

У вас есть хобби, не связанное с технологиями? Если да, то какое?

Я люблю боулдеринг, потому что он заставляет меня чувствовать себя человеческим агентом компьютерного использования, взаимодействующим со стеной для скалолазания. Я шучу. Я думаю, что боулдеринг очень увлекателен, потому что он позволяет мне отвлечься от работы и упорядочить свои мысли.

Что сообщество Hacker Noon может ожидать прочитать от вас в следующий раз?

В настоящее время я пишу еще одну статью об инфраструктуре среды RL!

Каково ваше мнение о HackerNoon как о платформе для писателей?

Я думаю, что структура рецензирования потрясающая, и это было отличное место для меня, чтобы представить свои мысли перед техническими читателями.

Спасибо, что нашли время присоединиться к нашей серии "Познакомьтесь с писателем". Это было удовольствие. У вас есть какие-нибудь заключительные слова?

Я люблю писать. Спасибо, HackerNoon!

Отказ от ответственности: Статьи, размещенные на этом веб-сайте, взяты из общедоступных источников и предоставляются исключительно в информационных целях. Они не обязательно отражают точку зрения MEXC. Все права принадлежат первоисточникам. Если вы считаете, что какой-либо контент нарушает права третьих лиц, пожалуйста, обратитесь по адресу [email protected] для его удаления. MEXC не дает никаких гарантий в отношении точности, полноты или своевременности контента и не несет ответственности за любые действия, предпринятые на основе предоставленной информации. Контент не является финансовой, юридической или иной профессиональной консультацией и не должен рассматриваться как рекомендация или одобрение со стороны MEXC.