Context Length (Longueur de Contexte)
La context length (ou fenêtre de contexte) est le nombre maximal de tokens qu’un LLM peut traiter en une seule requête, incluant le prompt d’entrée et la réponse générée. Elle détermine la quantité d’information que le modèle peut « voir » simultanément et constitue l’un des paramètres les plus critiques pour le choix d’un modèle en production.
- Définition
- Nombre max de tokens (entrée + sortie) en une seule requête
- Unité
- Tokens (≈ 0,75 mot en anglais, ≈ 0,5 à 0,6 mot en français)
- Historique
- 4K (GPT-3.5, 2022) → 128K (GPT-4, 2023) → 1M (Gemini/Claude, 2024-2026) → 10M (Llama 4 Scout, 2025)
- Leaders actuels
- Llama 4 Scout (10M), Gemini 3 Pro (2M), Grok 4 Fast (2M), Claude Opus 4.6 (1M), GPT-5.4 (~1M)
- Facteur limitant
- Taille du KV cache en mémoire GPU
- Piège courant
- La performance se dégrade bien avant la limite annoncée (« context rot »)
Le concept : un « tableau blanc » limité
Imaginez un tableau blanc sur lequel vous et le LLM écrivez votre conversation. Tout ce que vous tapez, tout ce que le modèle répond, et tout document que vous collez prend de la place sur ce tableau. La context length est la taille de ce tableau. Quand il est plein, le contenu le plus ancien est effacé ou tronqué, et le modèle « oublie » cette information.
Un token représente environ 3 à 4 caractères en anglais, soit environ 0,75 mot. En français, la tokenisation est généralement moins efficace : un mot français moyen peut consommer 1,2 à 1,8 tokens selon le tokenizer. 1 000 tokens en anglais correspondent à environ 750 mots (deux pages A4), contre environ 550 à 650 mots en français.
La context length inclut à la fois l’entrée et la sortie. Si votre modèle a une fenêtre de 128K tokens et que vous envoyez 100K tokens d’entrée, il ne reste que 28K tokens pour la réponse. C’est un piège courant : les utilisateurs envoient un long document et s’étonnent que la réponse soit tronquée.
L’évolution explosive de la context length
La progression des fenêtres de contexte est l’une des évolutions les plus spectaculaires de l’IA ces dernières années :
| Période | Modèle représentatif | Context length | Équivalent texte |
|---|---|---|---|
| 2022 | GPT-3.5 | 4 096 tokens | ~6 pages |
| 2023 | GPT-4 | 32 768 tokens | ~50 pages |
| 2023 | GPT-4 Turbo / Claude 3 | 128 000 tokens | ~200 pages |
| 2024 | Gemini 1.5 Pro | 1 000 000 tokens | ~1 500 pages |
| 2025 | Gemini 1.5 Pro (étendu) | 2 000 000 tokens | ~3 000 pages |
| 2025 | Llama 4 Scout | 10 000 000 tokens | ~15 000 pages |
| Mars 2026 | Claude Opus 4.6 (GA) | 1 000 000 tokens | ~1 500 pages (sans surcoût) |
Cette progression de 4K à 10M tokens (un facteur 2 500x) en 3 ans a été rendue possible par une combinaison d’innovations : FlashAttention (réduction de la complexité mémoire de l’attention), RoPE + YaRN (extension de l’encodage positionnel), GQA (réduction du KV cache), et sliding window attention (bornage du cache).
Ce qui détermine la context length
Le KV cache : le vrai facteur limitant
La context length est principalement limitée par la mémoire GPU disponible pour le KV cache. Chaque token dans la fenêtre de contexte nécessite le stockage de ses vecteurs Key et Value dans toutes les couches d’attention. Pour un modèle 70B en FP16, un prompt de 128K tokens consomme environ 30 à 40 Go de KV cache, soit autant ou plus que les poids du modèle lui-même.
C’est pourquoi la GQA a été si importante : en réduisant le nombre de têtes K/V de 4 à 8x, elle a permis de multiplier d’autant la longueur de contexte supportable avec le même budget mémoire. De même, les techniques de compression du KV cache (quantization, éviction, offloading) permettent de repousser cette limite.
L’encodage positionnel
Les encodages positionnels appris imposaient une limite dure (N_max) à la context length. RoPE avec ses techniques de scaling (YaRN, LongRoPE2) a levé cette contrainte, permettant d’étendre le contexte de 16x à 64x au-delà de la longueur d’entraînement avec un fine-tuning minimal. C’est cette avancée qui a rendu possibles les fenêtres de 1M+ tokens.
Le coût computationnel
L’attention complète a une complexité O(n²) par rapport à la longueur de séquence. Même avec FlashAttention, le prefill d’un prompt de 1M tokens est très coûteux en calcul. La sliding window attention et les architectures hybrides (couches SWA + couches attention complète) atténuent ce coût pour les modèles qui les utilisent.
Le problème de la dégradation : « context rot »
L’effet « Lost in the Middle »
Un phénomène bien documenté par la recherche (Stanford/Berkeley, 2023) est que les LLM récupèrent mieux l’information placée au début et à la fin de leur contexte que celle placée au milieu. L’exactitude pour les éléments en début et fin de contexte atteint typiquement 85-95%, tandis que les éléments au milieu tombent à 76-82%.
Cela signifie qu’un modèle affichant 1M tokens de context length ne récupère pas l’information de manière uniforme sur ces 1M tokens. Il y a un « creux » au milieu du contexte. Ce phénomène est appelé « context rot » ou « context degradation ».
La limite réelle vs la limite annoncée
En pratique, la plupart des modèles deviennent peu fiables bien avant leur limite annoncée. Les tests indépendants montrent typiquement une dégradation significative à environ 65-70% de la fenêtre annoncée. Le benchmark Needle-in-a-Haystack (NIAH) et ses variantes (RULER, LongBench) mesurent cette capacité de récupération effective.
Anthropic a publié des résultats montrant que Claude Opus 4.6 maintient des performances élevées sur l’ensemble de sa fenêtre de 1M tokens, là où GPT-5.4 et Gemini 3.1 Pro montrent des dégradations significatives au-delà de 256K tokens. Ce type de benchmark est cependant à prendre avec précaution : chaque laboratoire a intérêt à choisir les métriques qui flattent son modèle.
Impact sur les coûts API
La context length a un impact direct et souvent sous-estimé sur les coûts d’utilisation des API LLM.
Les surcharges long-contexte
Plusieurs fournisseurs appliquent des surcharges au-delà d’un seuil. GPT-5.4 double le prix de l’input au-delà de 272K tokens (de 2,50 $ à 5 $ par million) et majore l’output de 1,5x (de 15 $ à 22,50 $). Gemini 3.1 Pro applique une tarification spécifique plus élevée au-delà d’environ 200K tokens.
Exception notable : Claude Opus 4.6 et Sonnet 4.6 ont supprimé toute surcharge long-contexte depuis le 13 mars 2026. Une requête de 900K tokens coûte le même prix au token qu’une requête de 9K tokens. C’est un avantage concurrentiel explicitement positionné par Anthropic contre les surcharges de GPT et Gemini.
Stratégies d’optimisation des coûts
Prefix caching / prompt caching. Si vos requêtes partagent un préfixe commun (system prompt, contexte RAG), le cache de préfixe permet de ne payer le prefill qu’une seule fois. Claude offre un cache read à environ 0,1x du prix de base. GPT-5.4 offre un cache input à 50% de réduction.
Batch API. Les API batch (traitement différé) offrent des remises d’environ 50% chez Anthropic et des réductions similaires chez les autres fournisseurs. Idéal pour les traitements de documents en masse qui n’ont pas besoin de réponse temps réel.
Modèles flash/mini. Pour les tâches qui nécessitent un long contexte mais pas la puissance maximale, les modèles compacts (Gemini 3 Flash à 0,50 $/M, Claude Haiku 4.5 à ~1 $/M input) offrent des fenêtres de 128K+ tokens à une fraction du coût des modèles frontières.
Cas d’usage par taille de contexte
| Besoin en contexte | Taille typique | Cas d’usage | Modèles recommandés |
|---|---|---|---|
| Court (< 8K) | 1-8K tokens | Chat simple, Q&A, classification, résumé court | Tout modèle (même les plus petits) |
| Moyen (8K-32K) | 8-32K tokens | Articles longs, conversations multi-tours, code d’un fichier | 128K+ tokens suffit largement |
| Long (32K-128K) | 32-128K tokens | Documents juridiques, rapports, code multi-fichiers, conversations longues | Llama 3.x, Mistral, GPT-4.1, Claude Sonnet |
| Très long (128K-1M) | 128K-1M tokens | Codebases entières, livres, transcriptions longues, sessions agent multi-heures | Claude Opus 4.6, GPT-5.4, Gemini 3.1 Pro |
| Ultra-long (> 1M) | 1M-10M tokens | Analyse de corpus, vidéos longues + transcription, collections de documents | Gemini (2M), Grok (2M), Llama 4 Scout (10M) |
Alternatives au long contexte
Un contexte plus long n’est pas toujours la meilleure solution. Plusieurs stratégies alternatives existent :
RAG (Retrieval-Augmented Generation). Au lieu de tout mettre dans le contexte, on indexe les documents dans une base vectorielle et on ne récupère que les passages pertinents. Le RAG est souvent plus fiable que le long contexte car il cible précisément l’information utile, évitant la dégradation « lost in the middle ». Il est aussi beaucoup moins coûteux pour les corpus volumineux.
Résumé et compaction. Pour les conversations longues, résumer périodiquement le contexte ancien et ne conserver que le résumé libère de la fenêtre pour le nouveau contenu. Claude utilise un mécanisme de compaction automatique dans certains cas.
Chunking et traitement séquentiel. Découper un long document en morceaux, traiter chaque morceau séparément, puis synthétiser les résultats. Moins élégant que le long contexte mais plus fiable et moins coûteux.
Le choix entre long contexte et RAG dépend du cas d’usage. Pour la compréhension globale d’un document unique (« résumez ce livre »), le long contexte est préférable. Pour la recherche d’information spécifique dans un large corpus (« trouvez la clause X dans ces 100 contrats »), le RAG est généralement plus efficace et moins cher.
Les techniques qui ont rendu le long contexte possible
L’expansion de 4K à 10M tokens n’est pas juste une question de « plus de mémoire GPU ». C’est le résultat de multiples innovations algorithmiques et architecturales, chacune contribuant à lever un goulot d’étranglement spécifique :
FlashAttention (2022-2026) : réduit la complexité mémoire de l’attention de O(n²) à O(n) et accélère le calcul de 2 à 15x. Sans FlashAttention, les fenêtres de 1M tokens seraient impraticables.
RoPE + YaRN (2021-2024) : encodage positionnel extensible qui permet de dépasser la longueur d’entraînement avec un fine-tuning minimal (0,1% des données).
GQA (2023) : réduit la taille du KV cache de 4 à 8x, permettant de stocker 4 à 8x plus de tokens dans le même budget mémoire.
Sliding Window Attention : borne le KV cache à une taille fixe W, indépendamment de la longueur de séquence. Permet des contextes théoriquement illimités au prix d’une perte d’information au-delà de la fenêtre.
KV cache offloading : décharge les parties inactives du cache vers la mémoire CPU ou le stockage distribué, étendant la capacité effective au-delà de la mémoire GPU. NVIDIA rapporte des gains de TTFT allant jusqu’à 14x pour les longues séquences quand le KV cache est lu depuis le stockage plutôt que recalculé.
Architectures MoE : les modèles Mixture-of-Experts comme Llama 4 Scout n’activent qu’une fraction de leurs paramètres par token, réduisant le coût computationnel par token et rendant les très longs contextes plus abordables.
Conseils pratiques pour exploiter le long contexte
Placez l’information critique au début et à la fin du prompt. C’est là que le modèle la récupère le plus fiablement. Évitez de noyer l’information essentielle au milieu d’un long contexte.
Testez avec NIAH avant de déployer. Injectez un fait spécifique à différentes positions de votre contexte réel et vérifiez que le modèle le retrouve. Le taux de récupération varie considérablement selon le modèle, la longueur, et la position.
Surveillez le ratio entrée/sortie. Si vous envoyez 900K tokens et n’avez besoin que d’une réponse de 200 mots, vous payez pour lire 900K tokens et générer 300 tokens. Assurez-vous que le long contexte est réellement nécessaire pour votre tâche.
Utilisez le prompt caching pour les contextes répétitifs. Si 80% de votre prompt est un system prompt + un document de référence partagé entre requêtes, le prefix caching réduit le coût de 50 à 90% sur les requêtes suivantes.
Considérez les modèles compacts pour le long contexte budgétaire. Gemini 3 Flash (0,50 $/M input, 128K+ contexte) ou Claude Haiku 4.5 (~1 $/M input) offrent des rapports coût/contexte imbattables pour les tâches qui ne nécessitent pas la puissance d’un modèle frontière.
Comparez les surcharges long-contexte. Claude Opus/Sonnet 4.6 n’applique aucun surcoût quelle que soit la longueur. GPT-5.4 double le prix au-delà de 272K tokens. Ce différentiel peut représenter des milliers d’euros d’économie pour les workloads intensifs en long contexte.
Questions fréquentes sur la context length
Quelle est la context length de Claude, GPT et Gemini ?
En mars 2026 : Claude Opus 4.6 et Sonnet 4.6 offrent 1M tokens (GA, sans surcoût). GPT-5.4 supporte environ 1M tokens via l’API (avec surcoût au-delà de 272K). Gemini 3.1 Pro offre 1M tokens (avec surcoût long-contexte). Grok 4 Fast/4.1 Fast offre jusqu’à 2M tokens. Llama 4 Scout propose la fenêtre la plus grande à 10M tokens, mais nécessite une infrastructure GPU significative pour en tirer parti.
Pourquoi mon modèle « oublie » des informations alors que je suis dans la limite de contexte ?
C’est le phénomène de « context rot » ou « lost in the middle ». Les LLM récupèrent mieux l’information placée au début et à la fin du contexte qu’au milieu. L’exactitude peut chuter de 95% (début/fin) à 76% (milieu). En pratique, la performance se dégrade significativement à environ 65-70% de la fenêtre annoncée. Testez votre cas d’usage avec le benchmark Needle-in-a-Haystack pour déterminer votre limite réelle.
Long contexte ou RAG : que choisir ?
Pour la compréhension globale d’un document unique (résumé, analyse, réécriture), le long contexte est préférable car le modèle voit tout simultanément. Pour la recherche d’information spécifique dans un large corpus (questions sur un ensemble de documents), le RAG est généralement plus efficace, plus fiable (pas de « lost in the middle »), et moins coûteux. Pour les tâches de codage avec des codebases moyennes (10-100 fichiers), le long contexte offre une meilleure compréhension architecturale que le RAG. Les deux approches peuvent aussi être combinées.
Comment réduire les coûts API avec de longs contextes ?
Trois leviers principaux. Le prefix caching (réutilisation des préfixes communs comme les system prompts) réduit le coût du prefill de 50 à 90%. Les modèles compacts (Gemini Flash, Claude Haiku) offrent des fenêtres longues à une fraction du coût. Et les batch API offrent des remises d’environ 50%. Aussi, choisissez un fournisseur sans surcharge long-contexte : Claude Opus/Sonnet 4.6 facture le même prix au token quelle que soit la longueur, contrairement à GPT-5.4 et Gemini qui majorent au-delà de 200-272K tokens.
Quelle est la différence entre context length et context window ?
Les deux termes sont synonymes et désignent la même chose : le nombre maximal de tokens qu’un LLM peut traiter en une seule requête. « Context window » (fenêtre de contexte) est le terme le plus courant dans la communauté technique, tandis que « context length » (longueur de contexte) est souvent utilisé dans la documentation des API. La capacité long-contexte fait référence à l’aptitude d’un modèle à exploiter efficacement de très grandes fenêtres de contexte.