こんにちは!私の名前はアシュトンで、Thetaの創業エンジニアとして、RL(強化学習)インフラ、RL、分散システムに取り組んでいます。特にコンピュータ利用とツール利用に焦点を当てています。以前はAmazon AGIで働き、推論とツール利用インフラに取り組んでいました。空き時間には、グラフィックデザイン、サイドプロジェクト、ボルダリングを楽しんでいます。
私の最新の記事「あなたのAIは本当にコンピュータを使えるのか?2025年のコンピュータ利用ベンチマークマップ」は、現在VCで最もホットな分野の一つであるRL環境と評価に触れています。最も使用されているコンピュータ利用ベンチマークの包括的な概要と、コンピュータ利用エージェントのトレーニングとテストのためのベンチマークの選び方に関する実用的なアドバイスを提供しました。
私は同じギャップに何度も遭遇しました:ベンチマーク自体をレビューする記事があまりないのです。そしてこの分野が成長するにつれて、指標を操作するものを報酬するのではなく、実際に品質を評価することが重要です。私たちはこれまでにも経験しています。LLMの初期の頃、ベンチマークはランダムで異なるものが多く、実際の勝者を弱く反映するだけでした。
ベンチマークは「最高のモデル」を示す事実上のスコアボードとなりましたが、その後、多くのベンチマークが主張していることを測定していないことが判明しました。
初期時代の最も明らかな失敗の一つは、「読解力」が静かに「データセット構造上のパターンマッチング」になったときでした。研究者たちは意図的に挑発的なベースライン(質問のみ、最後の文のみ)を実行し、その結果は不快な可能性を提起するほど高かったのです:ベンチマークはモデルに一貫して全文を使用させることができませんでした。2018年の批評では、読むことが重要でないという点ではなく、一部のデータセットが最近性や固定観念的な回答の先行知識のようなショートカットを過度に報酬することで、それを任意にしてしまったということでした。
\
# 想定されるタスク:文章と質問が与えられた質問に答える 文章(要約): - 文1〜8:ジョンの学校での一日(ほとんど無関係な詳細) - 文9:「放課後、ジョンはキッチンに行きました。」 - 文10:「彼は宿題を始める前にピザを一切れ食べました。」 質問:「ジョンは何を食べましたか?」 回答:「ピザ」
このベンチマークは偶然にも、モデルが最後の文に過度の重みを置く(答えがしばしば最後にあるため)ショートカットを報酬し、単に最新のアクション(「食べた___」)の直接目的語を抽出するだけで、この場合は「ピザ」となります。
そしてさらに深刻なベースラインが登場します:文章を完全に削除して何が起こるかを見るのです。質問のみのモデルが競争力を持つ場合、それはデータセットが文章に基づいた理解をテストするのではなく、繰り返しや先行知識を通じてシグナルを漏らしている兆候です。
質問:「ジョンは何を食べましたか?」
このベースラインは基本的に健全性チェックです:モデルは文章に全く基づかずに高頻度の回答テンプレートに頼ることで、依然として良いスコアを出せるでしょうか?実際には、データセットが不釣り合いに報酬する(「ピザ」、「サンドイッチ」)トークンを単に推測するだけで、それがあるべき以上に頻繁に機能する場合、あなたは理解力を測定しているというよりも、データセットの先行知識を測定していることになります。
コンピュータ利用評価はすでにさらに文字通りのショートカットを生み出しています:エージェントはブラウザを持ち、ベンチマークは公開されており、評価は最終ページに解答キーがある開かれた本の試験に変わります。Holistic Agent Leaderboard(HAL)論文では、著者たちはタスクを解決する代わりにHuggingFaceでベンチマークを検索するエージェントを観察したと報告しており、これはログを検査した場合にのみ捕捉できる行動です。
\
# 想定されるタスク:ウェブ環境内でワークフローを完了する タスク:「アプリで設定Xを構成し、それが有効になっていることを確認する。」 失敗モード: 1) 新しいタブを開く 2) 検索:「ベンチマークX 期待される有効状態」/「HAL <ベンチマーク> 設定X」 3) 発見:リポジトリ/リーダーボード記述/データセットカード/問題スレッド 4) 期待される最終状態(回答)を再現する
その時点で、評価は解答キーを見つけることができるかどうかを測定していました。
タスク:「正しいページを見つけてYを抽出する。」 失敗モード: - 検索:「<ベンチマーク名> Y」 - 公開アーティファクト(ドキュメント、フォーラム投稿、データセットカード)からコピー - その値をインタラクションから得たかのようにエージェント出力に貼り付ける
エージェントがデータセットカードやリポジトリから値を引き出して「合格」できる場合、成功チェックはインタラクションの正確さではなく、もっともらしさを評価しています。公開タスクと浅い検証によって、ウェブ検索が悪用に変わります。
これら2つの例は警告です:もし私たちがコンピュータ利用ベンチマークを早期に高い基準で保持しなければ、より良いUIとより精巧な不正行為の方法を持つだけでLLM時代を繰り返すことになるでしょう。
はい!コンピュータ利用に関するRL環境とRLインフラに取り組んでいるため、常に最高のコンピュータ利用モデルと最も現実的なトレーニング環境に囲まれています。そこで、「画面がAPIである」という別の記事を書きました。これはコンピュータ利用の事例であり、なぜそれがAIモデルの未来であるかについてです。
この分野は2つの理由から非常に報告が少ないです:
私はそれを変えたいと思っています。
通常、多くの研究論文を読み、業界の同僚とトピックについての考えを話し合います。それ以外にも、PGのような素晴らしいブロガーの記事を読むのに多くの時間を費やしています。そのため、私の執筆では通常、他の人々から多くのインスピレーションを得ています。
自分の経験を言葉にするために腰を据えて時間を見つけることです。
素晴らしい人々と一緒により難しい問題に取り組み、その人々から学び、私の経験を共有することです。
映画鑑賞です!現在のお気に入りの映画は「キャッチ・ミー・イフ・ユー・キャン」(2002年)です。
ボルダリングが大好きです。それは私が人間のコンピュータ利用エージェントとしてクライミングウォールと対話しているように感じさせてくれるからです。冗談です。ボルダリングは仕事から気を紛らわせ、思考を整理することができるので、とても楽しいと思います。
現在、RL環境インフラに関する別の記事を執筆中です!
レビュー構造は素晴らしいと思います。そして、技術的な読者の前に私の考えを置くための素晴らしい場所でした。
執筆が大好きです。ありがとう、HackerNoon!

