Dans cette interview, nous retrouvons Ashton, un ingénieur fondateur chez Theta, pour discuter de la pointe de l'infrastructure d'Apprentissage par Renforcement. Il expliqueDans cette interview, nous retrouvons Ashton, un ingénieur fondateur chez Theta, pour discuter de la pointe de l'infrastructure d'Apprentissage par Renforcement. Il explique

Rencontrez l'auteur : Ashton Chew, ingénieur fondateur chez Theta

2025/12/15 04:25


Commençons ! Parlez-nous un peu de vous. Par exemple, votre nom, votre profession et vos centres d'intérêt personnels.

Salut ! Je m'appelle Ashton, et je suis ingénieur fondateur chez Theta où je travaille sur l'infrastructure RL, le RL et les systèmes distribués. Je me concentre spécifiquement sur l'utilisation d'ordinateurs et d'outils. Dans mon passé, j'ai travaillé chez Amazon AGI et j'ai abordé l'inférence et l'infrastructure d'utilisation d'outils. Dans mon temps libre, j'aime le design graphique, les projets parallèles et l'escalade de bloc.

Intéressant ! Sur quoi portait votre dernière histoire populaire sur Hackernoon ?

Mon dernier article, "Votre IA peut-elle vraiment utiliser un ordinateur ? Une carte 2025 des benchmarks d'utilisation d'ordinateur", abordait l'un des domaines les plus en vogue dans le capital-risque actuellement : les environnements RL et les évaluations. J'ai donné un aperçu complet des benchmarks d'utilisation d'ordinateur les plus utilisés, ainsi que des conseils pratiques sur la façon de choisir des benchmarks pour former et tester des agents d'utilisation d'ordinateur.

Je me heurtais constamment au même problème : il n'y a pas beaucoup d'articles qui examinent les benchmarks eux-mêmes. Et à mesure que ce domaine se développe, il est essentiel que nous évaluions réellement la qualité au lieu de récompenser ce qui arrive à manipuler la métrique. Nous avons déjà vécu cela. Aux débuts des LLM, les benchmarks étaient suffisamment aléatoires et disparates pour ne refléter que faiblement le véritable gagnant.

Les benchmarks sont devenus le tableau de bord de facto pour le "meilleur modèle", puis les gens ont réalisé que beaucoup d'entre eux ne mesuraient pas ce qu'ils prétendaient.

L'un des échecs les plus révélateurs de la première ère a été lorsque la "compréhension de lecture" est discrètement devenue "correspondance de motifs sur la structure des données". Les chercheurs ont exécuté des lignes de base intentionnellement provocatrices (question uniquement, dernière phrase uniquement), et les résultats étaient suffisamment élevés pour soulever une possibilité inconfortable : le benchmark ne forçait pas systématiquement les modèles à utiliser le passage complet. Dans une critique de 2018, le point n'était pas que la lecture n'importe jamais, mais que certains ensembles de données rendaient accidentellement cela facultatif en surrécompensant des raccourcis comme la récence et les réponses stéréotypées.

\

# Tâche supposée : répondre à la question en fonction du passage et de la question Passage (résumé) : - Phrases 1–8 : La journée de John à l'école (détails majoritairement non pertinents) - Phrase 9 : "Après l'école, John est allé à la cuisine." - Phrase 10 : "Il a mangé une part de pizza avant de commencer ses devoirs." Question : "Qu'a mangé John ?" Réponse : "pizza"

Le benchmark récompense accidentellement un raccourci où le modèle surpondère la dernière phrase (car la réponse est souvent vers la fin) et extrait simplement l'objet direct de l'action la plus récente ("a mangé ___"), ce qui dans ce cas donne "pizza".

Et puis vient la ligne de base encore plus dommageable : supprimez entièrement le passage et voyez ce qui se passe. Si un modèle basé uniquement sur la question est compétitif, c'est le signe que l'ensemble de données fuit du signal par la répétition et les a priori plutôt que de tester la compréhension fondée sur le passage.

Question : "Qu'a mangé John ?"

Cette ligne de base est essentiellement une vérification de bon sens : le modèle peut-il toujours bien performer en s'appuyant sur des modèles de réponses à haute fréquence sans se baser du tout sur le passage ? En pratique, il devine simplement un jeton que l'ensemble de données récompense de manière disproportionnée ("pizza", "sandwich"), et si cela fonctionne plus souvent que cela ne le devrait, vous ne mesurez pas tant la compréhension que les a priori de l'ensemble de données.

Les évaluations d'utilisation d'ordinateur ont déjà produit un raccourci encore plus littéral : l'agent a un navigateur, le benchmark est public, et l'évaluation se transforme en examen à livre ouvert avec une clé de réponse sur la dernière page. Dans l'article sur le Holistic Agent Leaderboard (HAL), les auteurs rapportent avoir observé des agents qui recherchaient le benchmark sur HuggingFace au lieu de résoudre la tâche, un comportement que vous ne détectez que si vous inspectez les journaux.

\

# Tâche supposée : compléter un flux de travail dans l'environnement web Tâche : "Configurer le paramètre X dans l'application et vérifier qu'il est activé." Mode d'échec : 1) Ouvrir un nouvel onglet 2) Rechercher : "état activé attendu du benchmark X" / "HAL <benchmark> paramètre X" 3) Trouver : dépôt / description du classement / carte de données / fil de discussion 4) Reproduire l'état final attendu (réponse)

À ce stade, l'évaluation mesurait s'il pouvait localiser la clé de réponse.

Tâche : "Trouver la bonne page et extraire Y." Mode d'échec : - Recherche : "<nom du benchmark> Y" - Copier depuis un artefact public (docs, post de forum, carte de données) - Coller la valeur dans la sortie de l'agent comme si elle provenait de l'interaction

Si un agent peut extraire la valeur d'une carte de données ou d'un dépôt et toujours "réussir", la vérification du succès évalue la plausibilité, pas l'exactitude de l'interaction. Les tâches publiques plus une vérification superficielle transforment la recherche web en une exploitation.

Ces deux exemples sont le coup de semonce : si nous n'imposons pas des normes plus élevées aux benchmarks d'utilisation d'ordinateur dès le début, nous répéterons l'ère des LLM, mais avec de meilleures interfaces utilisateur et des moyens plus élaborés de tricher.

Écrivez-vous habituellement sur des sujets similaires ? Si non, sur quoi écrivez-vous habituellement ?

Oui ! En travaillant sur les environnements RL et l'infrastructure RL autour de l'utilisation d'ordinateur, je suis constamment entouré des meilleurs modèles d'utilisation d'ordinateur et des environnements d'entraînement les plus réalistes. J'ai donc écrit un autre article, "L'écran est l'API", qui plaide en faveur de l'utilisation d'ordinateur et explique pourquoi c'est l'avenir des modèles d'IA.

Ce domaine est extrêmement sous-documenté pour deux raisons :

  1. Les modèles ne sont pas aussi capables dans l'utilisation d'ordinateur qu'ils le sont dans d'autres tâches (codage, mathématiques, etc.).
  2. L'utilisation d'ordinateur évolue rapidement et est extrêmement nouvelle.

Je veux changer cela.

Super ! Comment se déroule votre routine d'écriture habituelle (si vous en avez une)

Je lis généralement un tas d'articles de recherche et je parle à mes pairs dans l'industrie de leurs réflexions sur un sujet. À part cela, je passe beaucoup de temps à lire des articles de grands blogueurs comme PG. Donc je m'inspire généralement beaucoup d'autres personnes dans mon écriture.

Être un écrivain dans la tech peut être un défi. Ce n'est souvent pas notre rôle principal, mais un complément à un autre. Quel est le plus grand défi que vous rencontrez en matière d'écriture ?

Trouver le temps de m'asseoir et de mettre mon expérience vécue en mots.

Quelle est la prochaine chose que vous espérez réaliser dans votre carrière ?

Relever des problèmes plus difficiles avec des personnes formidables, apprendre de ces personnes et partager mes expériences.

Wow, c'est admirable. Maintenant, quelque chose de plus décontracté : Quel est votre plaisir coupable préféré ?

Regarder des films ! Mon film préféré en ce moment est Arrête-moi si tu peux (2002).

Avez-vous un passe-temps non lié à la technologie ? Si oui, lequel ?

J'adore l'escalade de bloc parce que cela me donne l'impression d'être un agent humain d'utilisation d'ordinateur interagissant avec le mur d'escalade. Je plaisante. Je pense que l'escalade de bloc est très amusante car elle me permet de me détacher du travail et de consolider ma réflexion.

Qu'est-ce que la communauté Hacker Noon peut s'attendre à lire de vous prochainement ?

Je suis actuellement en train d'écrire un autre article sur l'infrastructure des environnements RL !

Quelle est votre opinion sur HackerNoon en tant que plateforme pour les écrivains ?

Je pense que la structure de révision est géniale, et c'était un excellent endroit pour moi pour présenter mes réflexions devant des lecteurs techniques.

Merci d'avoir pris le temps de rejoindre notre série "Rencontrez l'écrivain". Ce fut un plaisir. Avez-vous des mots de conclusion ?

J'adore écrire. Merci, HackerNoon !

Clause de non-responsabilité : les articles republiés sur ce site proviennent de plateformes publiques et sont fournis à titre informatif uniquement. Ils ne reflètent pas nécessairement les opinions de MEXC. Tous les droits restent la propriété des auteurs d'origine. Si vous estimez qu'un contenu porte atteinte aux droits d'un tiers, veuillez contacter [email protected] pour demander sa suppression. MEXC ne garantit ni l'exactitude, ni l'exhaustivité, ni l'actualité des contenus, et décline toute responsabilité quant aux actions entreprises sur la base des informations fournies. Ces contenus ne constituent pas des conseils financiers, juridiques ou professionnels, et ne doivent pas être interprétés comme une recommandation ou une approbation de la part de MEXC.