EAGLE (Extrapolation Algorithm for Greater Language-model Efficiency)

EAGLE est un framework de décodage spéculatif qui accélère l’inférence des LLM de 2x à 6,5x sans modifier la distribution de sortie du modèle, en prédisant plusieurs tokens en parallèle via une tête de draft légère greffée directement sur les couches internes du modèle cible.

Nom complet: Extrapolation Algorithm for Greater Language-model Efficiency
Type: Framework de décodage spéculatif (optimisation d’inférence)
Auteurs: Yuhui Li, Fangyun Wei, Chao Zhang, Hongyang Zhang (SafeAILab)
Versions: EAGLE-1 (ICML 2024), EAGLE-2 (EMNLP 2024), EAGLE-3 (NeurIPS 2025)
Speedup: Jusqu’à 6,5x vs décodage autorégressif standard (EAGLE-3)
Licence: Open Source
Intégrations: vLLM, SGLang, TensorRT-LLM, NeMo, AWS SageMaker, PaddleNLP
Repo: github.com/SafeAILab/EAGLE

Le problème : pourquoi l’inférence des LLM est lente

La génération de texte par un Transformer est intrinsèquement séquentielle. Chaque nouveau token nécessite un forward pass complet du modèle, avec rechargement des poids et synchronisation mémoire à chaque étape. Sur un GPU moderne, cela signifie que la puissance de calcul massive reste largement sous-utilisée : les Tensor Cores attendent pendant que la mémoire transfère les données.

Ce goulot d’étranglement porte un nom technique : le décodage autorégressif est memory-bound (limité par la bande passante mémoire), pas compute-bound. En clair, votre GPU a la puissance de traiter 10 tokens en parallèle, mais l’algorithme classique l’oblige à n’en produire qu’un seul à la fois.

Le décodage spéculatif résout ce problème en prédisant plusieurs tokens candidats à l’avance, puis en les vérifiant tous en un seul forward pass. Si les prédictions sont bonnes, on accepte plusieurs tokens d’un coup. EAGLE est la méthode la plus performante dans cette catégorie.

Comment fonctionne EAGLE

L’approche classique à deux modèles

Avant EAGLE, le décodage spéculatif classique reposait sur deux modèles séparés : un petit modèle « draft » (brouillon) qui propose rapidement des tokens candidats, et le grand modèle « cible » qui les vérifie en un seul pass. Par exemple, on utiliserait Llama-8B comme draft pour accélérer Llama-70B.

Cette approche pose plusieurs problèmes. Le modèle draft fonctionne de manière totalement indépendante : il ne réutilise aucune représentation interne du modèle cible. Il doit maintenir sa propre pile complète de couches pour produire ses prédictions. Cela crée des coûts d’entraînement supplémentaires, des problèmes de disponibilité (il faut un draft model pour chaque modèle cible), et surtout un décalage de distribution entre les deux modèles qui réduit le taux d’acceptation.

L’innovation EAGLE : une tête de draft greffée

EAGLE prend une approche radicalement différente. Au lieu d’utiliser un modèle séparé, il entraîne une tête de draft légère (1 à 2 couches Transformer seulement) qui se greffe directement sur le modèle cible et réutilise ses représentations internes.

Le principe fondamental d’EAGLE-1 repose sur deux observations clés :

1. L’autorégression au niveau des features est plus simple qu’au niveau des tokens. Les vecteurs de caractéristiques de l’avant-dernière couche du modèle (second-to-top layer) présentent plus de régularité que les distributions de probabilité sur le vocabulaire. Prédire le prochain vecteur de features est donc un problème plus facile que prédire le prochain token.

2. L’incertitude inhérente au processus d’échantillonnage limite la performance. Quand le modèle hésite entre « am » et « always », les séquences de features qui en découlent divergent complètement. EAGLE résout ce problème en incorporant la séquence de tokens réellement échantillonnée (décalée d’un pas temporel) comme entrée supplémentaire du draft head.

En combinant ces deux idées, EAGLE peut prédire précisément les features de l’avant-dernière couche avec un overhead minimal, puis utiliser la tête LM existante du modèle cible pour convertir ces features en distributions de tokens.

Garantie mathématique EAGLE ne modifie pas le modèle cible. La vérification utilise un échantillonnage par rejet (rejection sampling) qui garantit mathématiquement que la distribution du texte généré reste identique à celle du décodage standard, que ce soit en mode greedy ou non-greedy. Ce n’est pas le cas de méthodes concurrentes comme Medusa ou Lookahead.

Évolution des versions : EAGLE-1, 2 et 3

EAGLE-1 (ICML 2024)

La version initiale pose les fondations : autorégression au niveau features avec injection du token échantillonné pour résoudre l’incertitude. Sur LLaMA2-Chat 70B, EAGLE-1 atteint un speedup de 2,7x à 3,5x selon les tâches, tout en doublant le throughput. Le draft head est extrêmement léger, ce qui rend le surcoût de la phase de draft négligeable.

EAGLE-2 (EMNLP 2024)

EAGLE-2 introduit les arbres de draft dynamiques. Au lieu de générer une séquence linéaire de tokens candidats, EAGLE-2 construit un arbre de possibilités dont la structure s’adapte dynamiquement en fonction des scores de confiance du draft model. Quand le modèle est confiant, l’arbre s’approfondit (plus de tokens en séquence) ; quand il est incertain, l’arbre s’élargit (plus de branches alternatives).

Cette adaptation dynamique améliore significativement les performances par rapport à EAGLE-1, atteignant un speedup allant jusqu’à 5,6x sur Vicuna 13B (mesuré sur 2x RTX 3090 en FP16), soit 1,8x plus rapide qu’EAGLE-1 dans les mêmes conditions.

EAGLE-3 (NeurIPS 2025)

EAGLE-3 représente une refonte conceptuelle majeure. Les chercheurs ont identifié une limitation fondamentale des versions précédentes : le passage à l’échelle des données d’entraînement n’apportait que des améliorations limitées, à cause de la contrainte de prédiction au niveau features.

EAGLE-3 apporte deux changements architecturaux :

Prédiction directe de tokens. Exit la prédiction de features de l’avant-dernière couche. EAGLE-3 prédit directement les tokens, ce qui élimine le goulot d’étranglement du passage à l’échelle.

Fusion multi-couches via « training-time testing ». Au lieu de s’appuyer uniquement sur les features de la couche supérieure, EAGLE-3 fusionne les informations sémantiques de couches basses, moyennes et hautes du modèle cible. La technique dite de « training-time testing » simule les conditions réelles d’inférence pendant l’entraînement, ce qui corrige le décalage de distribution qui pénalisait les méthodes classiques.

Le résultat : un speedup allant jusqu’à 6,5x, soit environ 1,4x d’amélioration par rapport à EAGLE-2. Dans le framework SGLang, EAGLE-3 atteint un gain de throughput de 1,38x même à un batch size de 64, ce qui est remarquable pour une méthode de décodage spéculatif (généralement plus efficace à faible batch size).

Version	Conférence	Mécanisme clé	Speedup max	Avancée principale
EAGLE-1	ICML 2024	Autorégression feature-level + injection token	~3,5x	Draft head léger, garantie de distribution
EAGLE-2	EMNLP 2024	Arbres de draft dynamiques	~5,6x	Structure adaptative selon la confiance
EAGLE-3	NeurIPS 2025	Token prediction + fusion multi-couches	~6,5x	Scalabilité des données, training-time testing

Performances et benchmarks

Speedup par type de tâche

Les gains d’EAGLE varient selon la nature de la tâche. Les tâches dont les patterns sont proches des données d’entraînement du draft head (typiquement des conversations de type chat) bénéficient des meilleurs speedups. Les tâches de raisonnement mathématique et de RAG offrent également d’excellents résultats, avec des accélérations allant jusqu’à 2,1x sur le modèle de base.

En revanche, les tâches de traduction (par exemple allemand vers anglais) montrent des performances nettement moins bonnes. Les patterns linguistiques d’une langue étrangère sont plus difficiles à prédire pour un draft head entraîné principalement sur des données anglaises.

Latence vs throughput : le compromis fondamental

Le décodage spéculatif est fondamentalement un échange : on dépense un peu de calcul supplémentaire (pour le draft) afin de réduire les transferts mémoire. À faible taux de requêtes, le système est memory-bound, et la réduction des accès mémoire apporte de gros gains de latence. À haut throughput ou avec de grands batch sizes, le système devient compute-bound, et le décodage spéculatif peut devenir contre-productif.

Des benchmarks menés avec GuideLLM sur Llama 3.1 8B (1x A100) et Llama 3.3 70B (4x A100) montrent une réduction de latence allant jusqu’à 1,8x pour le modèle 8B, avec des gains plus prononcés à faible taux de requêtes.

Attention au batch size EAGLE brille en inférence à faible concurrence (1 à quelques requêtes simultanées). À mesure que le batch size augmente, les gains diminuent car le GPU devient compute-bound plutôt que memory-bound. Testez toujours avec votre charge réelle avant de déployer.

Intégrations et écosystème

EAGLE est intégré dans la quasi-totalité des frameworks de serving LLM majeurs. Cette adoption massive en fait un standard de facto pour le décodage spéculatif en production.

Framework	Support EAGLE	Notes
vLLM	EAGLE-1/2/3	Intégration native, support n-grams + EAGLE
SGLang	EAGLE-3 (recommandé)	Via SpecForge pour l’entraînement, inférence optimisée
NVIDIA TensorRT-LLM	EAGLE-2/3	Optimisé pour GPU NVIDIA data center
NVIDIA NeMo	EAGLE	Intégration dans le pipeline NeMo
AWS SageMaker	EAGLE-2/3	Sélection automatique entre v2 et v3 selon l’architecture
AMD ROCm	EAGLE	Support via la stack ROCm
Intel Extension for Transformers	EAGLE	Optimisé pour CPU et GPU Intel
PaddleNLP	EAGLE	Écosystème PaddlePaddle (Baidu)

SpecForge : entraînement simplifié pour EAGLE-3

SpecForge est le framework d’entraînement officiel pour EAGLE-3, développé conjointement avec l’équipe LMSYS. Il propose deux modes : entraînement en ligne (online), qui collecte les données pendant l’inférence du modèle cible, et entraînement hors ligne (offline), qui utilise un dataset préparé à l’avance. SpecForge s’intègre directement avec le serveur d’inférence SGLang pour un déploiement fluide.

AWS SageMaker intègre également des jobs d’optimisation automatiques qui utilisent soit des datasets curés, soit vos propres données applicatives pour entraîner des prediction heads spécialisées, sans nécessiter de changement d’infrastructure.

Modèles supportés

EAGLE supporte officiellement une large gamme de modèles. Les checkpoints officiels pour EAGLE-3 couvrent notamment les familles LLaMA (3.x et 4), Qwen (2 et 3), Vicuna, et Mixtral 8x7B. Le support de LLaMA-4 et Qwen-3 fait partie de la roadmap active.

Checkpoints officiels uniquement Le repo EAGLE ne reconnaît que les checkpoints EAGLE-3 officiels. Les performances de checkpoints non officiels peuvent varier significativement. Si vous souhaitez comparer avec EAGLE-3, utilisez exclusivement les checkpoints et configurations d’arbres de draft officiels.

EAGLE vs autres méthodes de décodage spéculatif

Plusieurs approches concurrentes existent dans l’espace du décodage spéculatif. Voici comment EAGLE se positionne :

Méthode	Approche	Modifie la distribution ?	Speedup typique	Verdict
EAGLE-3	Draft head greffé + fusion multi-couches	Non (garanti)	2x–6,5x	État de l’art, le plus performant
Draft-target classique	Petit modèle séparé comme draft	Non (garanti)	1,5x–3x	Simple mais moins performant
Medusa	Têtes de prédiction parallèles	Oui (pas de garantie)	1,5x–2,5x	Pas de garantie lossless
Lookahead Decoding	Jacobi iteration, pas de draft model	Oui (pas de garantie)	1,5x–2x	Pas de garantie lossless
Self-speculative	Early exit dans le modèle cible lui-même	Non (garanti)	1,3x–2x	Pas de modèle supplémentaire, gains modestes

Verdict : EAGLE-3 est la méthode de décodage spéculatif la plus performante disponible, combinant les meilleurs speedups du marché avec une garantie mathématique de préservation de la distribution. Son intégration dans tous les frameworks majeurs en fait le choix par défaut pour quiconque cherche à accélérer l’inférence d’un LLM en production.

Combinaison avec d’autres optimisations

Un avantage majeur d’EAGLE est sa compatibilité avec d’autres techniques d’optimisation d’inférence. EAGLE peut être combiné avec :

FlashAttention pour accélérer le calcul d’attention durant la vérification. La quantization (FP8, INT4, GPTQ, AWQ) pour réduire la mémoire et augmenter le throughput du modèle cible. vLLM et le paged attention pour une gestion optimisée du KV cache. Les architectures MoE, comme en témoigne le support natif de Mixtral 8x7B.

Ces optimisations se cumulent : un modèle quantifié en INT4, servi via vLLM avec paged attention, et accéléré par EAGLE-3, offre des gains composés sur la latence et le throughput.

Mise en pratique

Installation rapide

Pour utiliser EAGLE avec vLLM (le cas le plus courant en production) :

pip install vllm
# Le support EAGLE est intégré nativement dans vLLM
# Spécifier le draft model EAGLE au lancement du serveur
python -m vllm.entrypoints.openai.api_server 
  --model meta-llama/Llama-3.1-8B-Instruct 
  --speculative-model eagle-3-llama-3.1-8b 
  --num-speculative-tokens 5

Pour entraîner votre propre draft head avec SpecForge (SGLang) :

# Installation de SpecForge
pip install specforge

# Entraînement offline avec un dataset existant
specforge train 
  --target-model meta-llama/Llama-3.1-8B-Instruct 
  --dataset your_data.jsonl 
  --output-dir ./eagle3-head

Quand utiliser EAGLE

EAGLE est particulièrement pertinent dans ces scénarios :

Applications interactives à faible concurrence : chatbots, assistants personnels, outils de génération de code en temps réel. La réduction de latence est immédiatement perceptible par l’utilisateur.

Inférence sur GPU coûteux : quand vous payez un H100 ou A100 à l’heure, accélérer l’inférence de 2 à 6x se traduit directement en réduction de coûts.

Tâches proches des données chat : conversation, Q&A, raisonnement, RAG. Les taux d’acceptation sont les plus élevés sur ces tâches.

EAGLE est moins adapté pour : les workloads à très haut throughput avec de gros batch sizes (le gain diminue voire s’inverse), la traduction entre langues éloignées (faibles taux d’acceptation), et les cas où la mémoire GPU est déjà saturée (le draft head consomme un peu de mémoire supplémentaire).

EAGLE et le KV cache

Le fonctionnement d’EAGLE est intimement lié au KV cache. Durant la phase de vérification, le modèle cible traite tous les tokens candidats en un seul forward pass, ce qui nécessite de gérer correctement le cache des clés et valeurs d’attention. Les tokens acceptés voient leur KV cache conservé ; les tokens rejetés voient le cache tronqué au point de divergence.

Certaines méthodes avancées comme GliDe et LongSpec permettent au draft model d’effectuer une cross-attention sur le KV cache du modèle cible, ce qui améliore encore la qualité des prédictions. EAGLE-3 va plus loin en fusionnant les features de multiples couches, tirant parti des représentations riches du modèle cible sans nécessiter de cross-attention explicite.

Perspectives et avenir

L’espace du décodage spéculatif évolue rapidement. Plusieurs directions de recherche prolongent le travail d’EAGLE :

Speculative Speculative Decoding (SSD), publié à ICLR 2026, propose de paralléliser la spéculation elle-même : pendant que le modèle cible vérifie une séquence, le draft model prépare déjà les spéculations pour le tour suivant, couvrant plusieurs scénarios d’acceptation/rejet possibles.

La combinaison avec les architectures Mixture-of-Experts fait l’objet de recherches actives. La structure creuse des modèles MoE (comme DeepSeek V3 ou Mixtral) offre des opportunités spécifiques pour le décodage spéculatif, puisque seuls une fraction des paramètres sont activés à chaque token.

L’intégration matérielle progresse également. NVIDIA pousse l’optimisation du décodage spéculatif dans TensorRT-LLM et NeMo, tandis qu’AWS SageMaker propose désormais des jobs d’optimisation EAGLE intégrés. On peut s’attendre à ce que cette technique devienne un paramètre de configuration standard, activable en un clic, dans tous les services d’inférence cloud.

Questions fréquentes sur EAGLE

Quelle est la différence entre EAGLE et le décodage spéculatif classique ?

Le décodage spéculatif classique utilise un modèle séparé (par exemple Llama-8B pour accélérer Llama-70B). EAGLE utilise une tête de draft ultra-légère (1 à 2 couches) greffée sur le modèle cible, qui réutilise ses représentations internes. Cela élimine le besoin d’un second modèle complet, réduit la consommation mémoire, et améliore significativement les taux d’acceptation (donc les gains de vitesse). EAGLE-3 atteint jusqu’à 6,5x de speedup, contre 1,5x à 3x pour l’approche classique.

EAGLE modifie-t-il la qualité du texte généré ?

Non. C’est l’un des points forts d’EAGLE : la technique utilise un échantillonnage par rejet (rejection sampling) qui garantit mathématiquement que la distribution du texte produit est strictement identique à celle du décodage autorégressif standard. Que vous utilisiez le mode greedy ou un sampling avec température, le résultat sera identique, seule la vitesse change. Ce n’est pas le cas de certaines méthodes concurrentes comme Medusa.

Quels GPU sont nécessaires pour utiliser EAGLE ?

EAGLE fonctionne sur tous les GPU compatibles avec votre modèle cible. Il n’y a pas d’exigence matérielle spécifique au-delà de celle du modèle lui-même. Le draft head est suffisamment léger pour ne pas poser de problème de mémoire. Les benchmarks officiels sont réalisés sur des GPU NVIDIA (A100, H100, RTX 3090), mais le support AMD ROCm et Intel existe via les frameworks intégrés. Le surcoût mémoire du draft head est négligeable par rapport au modèle cible.

Comment choisir entre EAGLE-2 et EAGLE-3 ?

EAGLE-3 est supérieur dans la grande majorité des cas. Il offre des speedups environ 1,4x meilleurs que EAGLE-2, avec une meilleure scalabilité. Le seul cas où EAGLE-2 pourrait être préférable est si vous n’avez pas accès à un checkpoint EAGLE-3 officiel pour votre modèle spécifique, ou si vous utilisez un framework qui ne supporte pas encore la version 3. AWS SageMaker choisit automatiquement entre les deux versions selon l’architecture du modèle.

EAGLE est-il compatible avec la quantization et FlashAttention ?

Oui. EAGLE est explicitement conçu pour être combinable avec d’autres techniques d’optimisation. Vous pouvez utiliser EAGLE avec un modèle quantifié (FP8, INT4, GPTQ, AWQ), avec FlashAttention pour accélérer le calcul d’attention, et avec des systèmes de serving comme vLLM qui implémentent le paged attention pour optimiser le KV cache. Ces optimisations sont cumulatives.