La nouvelle recette FP8 de NVIDIA pour l'apprentissage par renforcement offre un entraînement 48 % plus rapide tout en égalant la précision BF16, réduisant considérablement les coûts d'infrastructure IA. (ReadLa nouvelle recette FP8 de NVIDIA pour l'apprentissage par renforcement offre un entraînement 48 % plus rapide tout en égalant la précision BF16, réduisant considérablement les coûts d'infrastructure IA. (Read

NVIDIA NeMo RL atteint une accélération de 48 % avec l'entraînement de précision FP8 de bout en bout

2026/04/21 07:41
Temps de lecture : 4 min
Pour tout commentaire ou toute question concernant ce contenu, veuillez nous contacter à l'adresse suivante : [email protected]

NVIDIA NeMo RL atteint une accélération de 48 % avec l'entraînement de précision FP8 de bout en bout

Jessie A Ellis 20 avr. 2026 23h41

La nouvelle recette FP8 de NVIDIA pour l'apprentissage par renforcement offre un entraînement 48 % plus rapide tout en égalant la précision BF16, réduisant considérablement les coûts d'infrastructure d'IA.

NVIDIA NeMo RL atteint une accélération de 48 % avec l'entraînement de précision FP8 de bout en bout

NVIDIA a publié une recette complète de précision FP8 pour l'apprentissage par renforcement qui offre un débit d'entraînement jusqu'à 48 % plus rapide tout en maintenant une parité de précision avec les approches BF16 traditionnelles — un développement ayant des implications importantes pour les coûts d'infrastructure d'IA et l'économie du calcul GPU.

La technique, détaillée dans un article de blog technique de Guyue Huang de NVIDIA, aborde l'un des problèmes les plus épineux de l'entraînement RL : le désaccord numérique entre les phases de génération et d'entraînement lors de l'utilisation de différents niveaux de précision sur des moteurs séparés.

La percée technique

Les pipelines RL traditionnels utilisent vLLM pour les déploiements et Megatron Core pour l'entraînement — chacun avec des noyaux CUDA uniques qui introduisent des différences numériques cumulatives. Ces écarts s'amplifient aux niveaux de précision inférieurs, limitant historiquement l'adoption du FP8.

La solution de NVIDIA ? Appliquer le FP8 de manière cohérente à la fois pour la génération et l'entraînement plutôt que de mélanger les niveaux de précision. Les tests sur Llama 3.1 8B Instruct ont montré une précision de validation de 0,613 avec FP8 de bout en bout contre 0,616 pour BF16 — comblant efficacement l'écart. Pendant ce temps, l'utilisation du FP8 pour la génération uniquement a fait chuter la précision à 0,586.

La recette utilise le FP8 quantifié par blocs (format E4M3) avec une granularité de 128x128 pour les poids et 1x128 pour les activations. Les couches linéaires exécutent les calculs FP8 à un débit maximal théorique 2x supérieur par rapport au BF16, tandis que l'attention, la normalisation et les fonctions non linéaires restent en BF16.

Gains de performance dans le monde réel

Pour les couches linéaires seules, la recette FP8 offre des améliorations de débit constantes de 15 à 25 %. L'écart entre l'accélération théorique 2x et les gains réels provient des couches d'attention restant en BF16 plus la surcharge du noyau de quantification.

L'extension du FP8 au cache KV et aux opérations d'attention pousse l'accélération totale à environ 48 % par rapport aux références BF16. Le piège : les poids de politique constamment mis à jour du RL nécessitent un réétalonnage dynamique des échelles de quantification après chaque étape d'entraînement. L'approche de NVIDIA ajoute environ 2 à 3 % de surcharge pour ce réétalonnage — un coût mineur pour une accélération substantielle.

Les tests sur Qwen3-30B (un modèle de mélange d'experts) ont montré des courbes de précision correspondantes entre les configurations FP8 et BF16, suggérant que la technique s'adapte à différentes architectures.

Pourquoi c'est important pour l'économie de l'IA

L'entraînement RL pour des modèles capables de raisonnement comme ceux derrière les assistants d'IA avancés nécessite un calcul massif. Une accélération de 48 % se traduit directement par une réduction des heures-GPU et des factures d'électricité plus faibles pour les organisations qui entraînent ces systèmes.

La technique d'échantillonnage d'importance qui permet la préservation de la précision pourrait s'avérer tout aussi précieuse. En corrigeant les décalages de distribution entre les modèles de génération et d'entraînement sur une base par jeton, elle permet une réduction agressive de la précision sans sacrifier la qualité du modèle.

L'implémentation complète est disponible dans la bibliothèque open source NeMo RL de NVIDIA, avec des recettes préconfigurées pour les modèles Llama 3.1 8B et Moonlight 16B. Les utilisateurs avancés peuvent affiner l'approche — en conservant des couches de transformateur spécifiques en BF16 ou en passant à des facteurs d'échelle en puissance de 2 pour une optimisation supplémentaire.

Pour les opérateurs d'infrastructure d'IA qui voient les coûts de calcul grimper parallèlement à la complexité des modèles, cela représente un levier d'efficacité significatif qui ne nécessite pas de mises à niveau matérielles — juste une utilisation plus intelligente des capacités H100 existantes.

Source de l'image : Shutterstock
  • nvidia
  • entraînement de l'IA
  • précision fp8
  • apprentissage automatique
  • nemo rl
Clause de non-responsabilité : les articles republiés sur ce site proviennent de plateformes publiques et sont fournis à titre informatif uniquement. Ils ne reflètent pas nécessairement les opinions de MEXC. Tous les droits restent la propriété des auteurs d'origine. Si vous estimez qu'un contenu porte atteinte aux droits d'un tiers, veuillez contacter [email protected] pour demander sa suppression. MEXC ne garantit ni l'exactitude, ni l'exhaustivité, ni l'actualité des contenus, et décline toute responsabilité quant aux actions entreprises sur la base des informations fournies. Ces contenus ne constituent pas des conseils financiers, juridiques ou professionnels, et ne doivent pas être interprétés comme une recommandation ou une approbation de la part de MEXC.

0 frais + 12 % de TAEG

0 frais + 12 % de TAEG0 frais + 12 % de TAEG

Nouveaux utilisateurs : TAEG 600 %. Durée limitée !