Long Context (Contexte Long)

Le long context désigne la capacité d’un LLM à traiter efficacement des séquences de grande taille (typiquement 128K tokens et au-delà), en maintenant une compréhension cohérente et une récupération fiable de l’information sur l’ensemble de la fenêtre de contexte, grâce à une combinaison d’innovations architecturales (FlashAttention, RoPE + scaling, GQA) et de techniques de gestion du KV cache.

Définition: Capacité à exploiter des fenêtres de contexte ≥ 128K tokens avec des performances fiables
Seuil courant: 128K tokens (« long »), 1M+ tokens (« ultra-long »)
Modèles leaders: Claude Opus 4.6 (1M, meilleure rétention), Gemini 3.1 Pro (1M), GPT-5.4 (~1M), Grok 4 Fast (2M), Llama 4 Scout (10M)
Benchmarks clés: Needle-in-a-Haystack (NIAH), RULER, LongBench, Video-MME
Défi principal: « Context rot » : dégradation de performance avant la limite annoncée
Technologies clés: FlashAttention, RoPE + YaRN, GQA, KV cache optimization, SWA

Ce que « long context » signifie vraiment

Le terme « long context » ne désigne pas simplement un grand nombre dans la spécification du modèle. Il représente la capacité effective du modèle à exploiter l’information distribuée sur une vaste fenêtre de texte. Un modèle qui annonce 1M tokens de context length mais qui « oublie » l’information au-delà de 200K tokens n’est pas réellement un modèle long-context fonctionnel.

Le long context est une propriété composite qui dépend de trois facteurs : la taille de la fenêtre (combien de tokens le modèle accepte), la rétention (avec quelle fidélité le modèle récupère l’information à différentes positions), et la cohérence (la qualité de raisonnement du modèle sur l’ensemble du contexte).

Pour donner un ordre de grandeur concret : 128K tokens représentent environ un roman de taille moyenne, ou un codebase de 50 à 100 fichiers. 1M tokens correspond à 4 à 5 romans, ou un projet logiciel complet de grande taille. 10M tokens équivaut à une bibliothèque entière de documents techniques.

La révolution du long context (2024-2026)

Avant 2024, les fenêtres de contexte des LLM étaient modestes : 4K pour GPT-3.5, 8K à 32K pour GPT-4, 128K pour les versions étendues. Le RAG (Retrieval-Augmented Generation) était la solution standard pour accéder à de grandes quantités d’information : on indexait les documents dans une base vectorielle et on ne récupérait que les passages pertinents.

Gemini 1.5 Pro a changé la donne début 2024 en proposant 1M tokens de contexte, une première à cette échelle. Malgré des problèmes de qualité sur les contextes très longs (dégradation significative au-delà de 600K tokens), cette démonstration a déclenché une course entre les laboratoires.

En mars 2026, le paysage s’est transformé. Claude Opus 4.6 offre 1M tokens en GA (disponibilité générale) avec une rétention de haute qualité sur l’ensemble de la fenêtre et sans surcoût. GPT-5.4 propose environ 1M tokens via l’API. Grok 4 Fast/4.1 Fast atteint 2M tokens. Et Llama 4 Scout repousse les limites à 10M tokens, bien que cette capacité nécessite une infrastructure GPU considérable pour être exploitée.

Mesurer la qualité du long context

Needle-in-a-Haystack (NIAH)

Le benchmark le plus connu pour évaluer le long context. Le principe est simple : un fait spécifique (la « needle », aiguille) est inséré à une position variable dans un long texte de remplissage (le « haystack », botte de foin). On demande ensuite au modèle de retrouver ce fait. Le test est répété pour différentes longueurs de contexte et différentes positions d’insertion.

Le résultat est typiquement visualisé sous forme de heatmap : l’axe X représente la longueur du contexte, l’axe Y la position de la needle (début, milieu, fin), et la couleur indique le taux de récupération. Un modèle parfait afficherait une couleur uniforme (récupération à 100% partout). En réalité, la plupart des modèles montrent une dégradation au milieu du contexte et aux longueurs extrêmes.

Les résultats publiés par Anthropic pour Claude Opus 4.6 montrent des taux de récupération élevés sur l’ensemble de la fenêtre de 1M tokens, tandis que GPT-5.4 et Gemini 3.1 Pro montrent des difficultés au-delà de 256K tokens, tombant sous les 50% de match ratio à 1M. Ces comparaisons proviennent du laboratoire qui a intérêt à mettre en avant son propre modèle, mais les tests indépendants confirment généralement l’avantage de Claude sur la rétention long-contexte.

RULER et LongBench

RULER est un benchmark plus sophistiqué que NIAH, composé de 13 tâches synthétiques qui testent différents aspects de la compréhension long-contexte : récupération de faits multiples, raisonnement sur des informations dispersées, suivi d’entités à travers le contexte, et agrégation d’information. LongRoPE2 utilise RULER pour valider ses extensions de contexte.

LongBench propose des tâches sur des documents réels (pas synthétiques) : résumé de documents longs, Q&A sur des textes étendus, complétion de code multi-fichiers. Ces benchmarks sont plus représentatifs des cas d’usage réels mais aussi plus bruités (la « bonne réponse » est parfois ambiguë).

Les limites des benchmarks

Le NIAH basique (une seule aiguille, recherche factuelle) est un test nécessaire mais insuffisant. Un modèle peut retrouver une aiguille sans pour autant être capable de raisonner sur l’ensemble du contexte. Les variantes avancées (multi-needle, raisonnement multi-hop) sont plus exigeantes mais aussi plus rares dans les évaluations publiées.

Un biais systémique existe : chaque laboratoire publie les benchmarks qui flattent son modèle. Anthropic met en avant la rétention NIAH, Google met en avant la taille brute de la fenêtre et les capacités multimodales, et OpenAI met en avant la qualité de raisonnement. Pour une évaluation fiable, testez sur votre cas d’usage réel avec vos propres données.

Phénomènes spécifiques au long context

Context rot (dégradation du contexte)

À mesure qu’une session avec un LLM s’allonge, la qualité des réponses tend à se dégrader. Le modèle commence à « oublier » des éléments mentionnés plus tôt, à confondre des concepts, et à halluciner davantage. Ce phénomène, appelé « context rot », est l’un des principaux obstacles à l’utilisation fiable du long contexte.

Les causes sont multiples. L’effet « lost in the middle » (l’information au centre du contexte est moins bien récupérée). La saturation attentionnelle (avec beaucoup de tokens, les scores d’attention deviennent plus uniformément distribués, diluant le signal des tokens importants). Et les artefacts de l’encodage positionnel (les positions très éloignées peuvent produire des interactions moins stables dans le mécanisme d’attention).

La suppression du surcoût long-contexte par Anthropic (mars 2026) est significative dans ce contexte : elle encourage les développeurs à utiliser des sessions longues sans pénalité économique, signalant la confiance d’Anthropic dans la qualité de rétention de Claude Opus 4.6 sur l’ensemble de sa fenêtre de 1M tokens.

Attention sinks

Un phénomène découvert par la recherche StreamingLLM : les tout premiers tokens d’une séquence (souvent le token BOS ou les premiers tokens du system prompt) reçoivent une attention disproportionnée, indépendamment de leur contenu sémantique. Ces « attention sinks » jouent un rôle stabilisateur dans le calcul d’attention. Les évincer du KV cache (par exemple dans une sliding window) dégrade significativement la qualité, même si leur contenu est sémantiquement vide. C’est pourquoi les implémentations modernes de SWA conservent toujours ces premiers tokens en cache.

Compaction de contexte

Pour les sessions très longues (agents multi-heures, conversations étendues), certains systèmes compressent automatiquement le contexte ancien. Claude utilise un mécanisme de compaction qui résume les parties anciennes de la conversation. L’avantage est évident : plus de place pour le nouveau contenu. L’inconvénient est la perte d’information subtile. Les « minutes de réunion » d’une compaction ne capturent pas toute l’énergie et les nuances de la conversation originale. Avec les fenêtres de 1M tokens, la compaction est moins nécessaire, mais reste utile pour les sessions qui dépassent cette limite.

Cas d’usage transformés par le long context

Analyse de codebases

Le long context a transformé l’assistance au développement logiciel. Avec 1M tokens, un agent de codage comme Claude Code peut charger un projet entier (dizaines de fichiers, documentation, tests) en contexte et comprendre les relations architecturales entre les composants. C’est qualitativement différent du RAG sur du code, qui ne récupère que des fichiers individuels sans vue d’ensemble. Les sessions autonomes de 14+ heures documentées par METR pour Claude Code démontrent la viabilité de cette approche.

Analyse de documents longs

Les cas d’usage documentaires bénéficient directement du long context : analyse de contrats juridiques (100+ pages), revue de littérature scientifique (plusieurs articles en un seul prompt), traitement de rapports financiers, et transcription de longues réunions ou conférences. L’avantage sur le RAG est que le modèle voit l’ensemble du document simultanément et peut identifier des contradictions, des thèmes récurrents, ou des connections que le RAG par fragments manquerait.

Agents autonomes

Les agents IA qui exécutent des tâches complexes sur plusieurs heures accumulent un historique d’actions, d’observations et de raisonnements qui remplit rapidement le contexte. Avec des fenêtres de 1M tokens, l’agent peut maintenir son état mental complet sans perte d’information, évitant les erreurs de « mémoire » qui affligeaient les agents à contexte court. La combinaison long context + compaction permet des sessions théoriquement illimitées, bien que la qualité dépende de l’efficacité de la compaction.

Traitement multimodal

Le long context est particulièrement puissant pour les données multimodales. Une vidéo de 30 minutes tokenisée en frames + audio peut consommer des centaines de milliers de tokens. Les modèles comme Gemini exploitent nativement ce long contexte multimodal pour l’analyse vidéo, la compréhension de présentations (slides + audio), et le traitement de documents avec images intégrées.

Long context vs RAG : un faux dilemme

Le débat « long context vs RAG » est souvent présenté comme un choix binaire, mais c’est un faux dilemme. Les deux approches sont complémentaires et ont des forces distinctes :

Le long context excelle quand vous avez besoin de comprendre un document dans sa globalité (thèmes, structure, contradictions), quand l’information pertinente est difficile à localiser par similarité sémantique (le RAG pourrait la manquer), ou quand le coût du prefill est amorti par le prompt caching entre requêtes.

Le RAG excelle quand le corpus est trop volumineux pour tenir dans n’importe quelle fenêtre de contexte (bibliothèques de milliers de documents), quand vous avez besoin de précision factuelle sur des requêtes spécifiques (la récupération ciblée bat le « lost in the middle »), ou quand le coût par requête doit être minimisé (le RAG ne charge que quelques Ko de contexte pertinent vs des centaines de Ko de contexte complet).

L’approche hybride combine les deux : le RAG récupère les documents pertinents, qui sont ensuite chargés en long contexte pour une analyse approfondie. C’est la configuration optimale pour la plupart des applications en production.

Calcul économique Pour 1 000 requêtes par jour sur un corpus de 500 pages, comparez : (1) Long context brut : 500 pages × ~1 500 tokens/page × 1 000 requêtes = 750M tokens/jour d’input. À 5 $/M tokens, c’est 3 750 $/jour. (2) RAG : ~5 pages pertinentes × 1 500 tokens × 1 000 requêtes = 7,5M tokens/jour. À 5 $/M, c’est 37,50 $/jour. Le RAG est 100x moins cher pour ce cas d’usage. Mais si vous avez besoin de compréhension globale du corpus (pas juste des réponses ponctuelles), le long context avec prompt caching peut être rentabilisé.

Stack technique du long context

La capacité long-context des LLM modernes repose sur un empilement de techniques, chacune résolvant un goulot d’étranglement spécifique :

FlashAttention réduit la complexité mémoire de l’attention de O(n²) à O(n), rendant les calculs sur 1M+ tokens physiquement possibles. Sans FlashAttention, l’attention sur 1M tokens nécessiterait une matrice de 1 trillion d’éléments en mémoire.

RoPE + YaRN/LongRoPE2 permettent à l’encodage positionnel de fonctionner au-delà de la longueur d’entraînement. YaRN étend le contexte de 32x+ avec seulement 0,1% des données de pré-entraînement. LongRoPE2 préserve 98,5% de la précision originale sur les fenêtres courtes.

GQA réduit la taille du KV cache de 4 à 8x, permettant de stocker les K/V de 1M tokens dans un budget mémoire raisonnable.

KV cache offloading + prefix caching étend la capacité effective au-delà de la mémoire GPU et permet la réutilisation du cache entre requêtes partageant des préfixes.

Sliding Window Attention borne le cache à une fenêtre fixe, permettant des contextes théoriquement illimités au prix d’une perte d’information longue distance. Les architectures hybrides (SWA + couches d’attention complète) offrent le meilleur compromis.

Décodage spéculatif réduit le nombre de forward passes du modèle cible, accélérant la génération même avec de longs contextes. EAGLE-3 atteint jusqu’à 6,5x de speedup, partiellement compensant le surcoût du long contexte.

L’avenir du long context

Plusieurs tendances se dessinent pour l’évolution du long context. L’augmentation continue des fenêtres (10M tokens avec Llama 4 Scout, et des rumeurs de 100M+ tokens pour les prochaines générations) repousse les limites de ce qui est possible en une seule requête. Les architectures hybrides combinant attention complète et mécanismes récurrents ou sub-quadratiques (Mamba, DeltaNet, attention hybride Qwen3-Next) promettent un meilleur passage à l’échelle que l’attention pure.

La persistance du KV cache (via des solutions comme LMCache, NVIDIA ICMS, et le routage KV-cache-aware de llm-d) transforme le long context d’un calcul ponctuel en un actif réutilisable, réduisant drastiquement les coûts pour les workloads répétitifs. Et l’amélioration de la rétention (via des techniques comme RoPE++, l’attention guidée par entropie, et la compression sémantique ChunkKV) réduit progressivement l’écart entre la fenêtre annoncée et la fenêtre effective.

Questions fréquentes sur le long context

Quelle est la différence entre context length et long context ?

La context length est le nombre maximal de tokens que le modèle accepte (une spécification technique). Le « long context » désigne la capacité effective du modèle à exploiter de très grandes fenêtres (typiquement 128K+ tokens) avec des performances fiables. Un modèle peut avoir une context length de 1M tokens mais un long context effectif de seulement 200K tokens si la qualité se dégrade au-delà. La context length est un chiffre marketing ; le long context effectif est ce qui compte en production.

Le long context remplace-t-il le RAG ?

Non. Le long context et le RAG sont complémentaires. Le long context est supérieur pour la compréhension globale de documents individuels (résumé, analyse, raisonnement). Le RAG est supérieur pour la recherche d’information dans de grands corpus (plus précis, moins cher, pas de « lost in the middle »). L’approche hybride (RAG pour la récupération + long context pour l’analyse des documents récupérés) est optimale pour la plupart des applications de production.

Comment tester la qualité du long context d’un modèle ?

Utilisez le benchmark Needle-in-a-Haystack (NIAH) avec vos propres données. Injectez un fait spécifique à différentes positions (début, milieu, fin) et à différentes longueurs de contexte, puis vérifiez que le modèle le retrouve. Testez aussi avec des tâches multi-needle (plusieurs faits dispersés) et de raisonnement (le modèle doit combiner des informations de différentes positions). Ne vous fiez pas aux chiffres annoncés par les laboratoires : testez sur votre cas d’usage réel.

Pourquoi le modèle « hallucine » plus sur les longs contextes ?

Trois facteurs. L’effet « lost in the middle » fait que l’information au centre du contexte est moins bien récupérée, poussant le modèle à « inventer » plutôt qu’à récupérer. La saturation attentionnelle dilue les signaux importants dans la masse de tokens. Et les artefacts de l’encodage positionnel rendent les interactions à très longue distance moins stables. Ces problèmes sont atténués (pas éliminés) par les techniques de scaling de RoPE et les architectures optimisées pour le long context.

Quel modèle a le meilleur long context en mars 2026 ?

En termes de rétention et qualité sur l’ensemble de la fenêtre, Claude Opus 4.6 (1M tokens, GA, sans surcoût) est considéré comme le leader, avec des scores NIAH élevés même à 1M tokens. Gemini 3.1 Pro offre également 1M tokens avec d’excellentes capacités multimodales mais une dégradation plus marquée au-delà de 256K. GPT-5.4 (~1M tokens) offre de bonnes performances mais applique un surcoût au-delà de 272K tokens. Grok 4 Fast (2M) et Llama 4 Scout (10M) proposent les plus grandes fenêtres brutes, mais les tests de rétention à ces échelles sont moins documentés.