GPT-5.3-Codex : le modèle d’OpenAI optimisé pour le coding agentique

GPT-5.3-Codex est le modèle d’OpenAI spécifiquement entraîné pour l’ingénierie logicielle agentique. Lancé le 5 février 2026, il fusionne les capacités de coding de GPT-5.2-Codex avec le raisonnement de GPT-5.2, tout en étant 25% plus rapide. C’est le premier modèle d’OpenAI classé « High » en cybersécurité, et le premier à avoir contribué à sa propre création.

Lancement: 5 février 2026
Type: Modèle spécialisé coding + raisonnement agentique
Contexte: 400K tokens avec mécanisme « Perfect Recall ». Output max : 128K tokens.
Benchmarks: SWE-Bench Pro : 56,8% | Terminal-Bench 2.0 : 77,3% | OSWorld : 64,7%
Vitesse: 25% plus rapide que GPT-5.2-Codex
Accès: Inclus dans ChatGPT Plus/Pro/Business/Enterprise/Edu. API : gpt-5.3-codex
Variante: GPT-5.3-Codex-Spark : >1 000 tokens/sec sur Cerebras (Pro uniquement)
Successeur: GPT-5.4 (5 mars 2026) intègre les capacités de GPT-5.3-Codex dans un modèle généraliste

Pourquoi GPT-5.3-Codex existe

Avant GPT-5.3-Codex, OpenAI maintenait deux modèles séparés : GPT-5.2 (raisonnement généraliste) et GPT-5.2-Codex (optimisé coding). Les développeurs devaient choisir entre la puissance de raisonnement et les capacités de coding. GPT-5.3-Codex fusionne les deux dans un seul modèle, éliminant ce compromis.

Le résultat est un modèle qui ne se contente pas d’écrire des fonctions. Il comprend le travail autour du code : rédiger des spécifications, mettre à jour des tickets Jira, créer de la documentation, analyser des métriques. C’est un agent de travail général qui excelle en ingénierie logicielle.

Fait marquant : OpenAI décrit GPT-5.3-Codex comme le premier modèle ayant contribué de manière instrumentale à sa propre création. L’équipe Codex a utilisé des versions préliminaires pour débugger son propre entraînement, gérer son déploiement, diagnostiquer les résultats de tests, et écrire des scripts pour scaler dynamiquement les clusters GPU pendant le lancement.

Benchmarks et performances

Benchmark	GPT-5.3-Codex	GPT-5.2-Codex	GPT-5.4	Claude Opus 4.6
SWE-Bench Pro	56,8%	56,4%	57,7% (xhigh)	N/A
Terminal-Bench 2.0	77,3%	64,0%	75,1%	~65,4%
OSWorld-Verified	64,7%	38,0%	75,0%	N/A
SWE-Bench Verified	~80%	N/A	~80%	~72,7%

Les points saillants :

Terminal-Bench 2.0 est le benchmark où GPT-5.3-Codex excelle le plus. Le score de 77,3% représente un bond de 13 points par rapport à GPT-5.2-Codex (64%) et reste supérieur à GPT-5.4 (75,1%). Si votre workflow est principalement terminal (DevOps, scripts, outils CLI), GPT-5.3-Codex est le meilleur modèle disponible.

OSWorld-Verified (tâches computer-use) passe de 38% (GPT-5.2-Codex) à 64,7%, presque doublé. C’est une progression spectaculaire, bien que GPT-5.4 l’ait depuis dépassé avec 75%, au-delà du baseline humain (72,4%).

SWE-Bench Pro montre une amélioration incrémentale (56,8% vs 56,4%), pas un bond. Mais OpenAI souligne que GPT-5.3-Codex atteint ce score avec moins de tokens que tout modèle précédent, ce qui réduit le coût par patch accepté.

Efficacité token : c’est l’avantage le plus concret au quotidien. GPT-5.3-Codex consomme moins de tokens de sortie par tâche que ses prédécesseurs. Pour les équipes facturées au token, cela signifie des coûts réels plus bas même sans changement de prix nominal.

Fonctionnalités clés

Mid-task steering

GPT-5.3-Codex introduit la capacité de rediriger l’agent pendant qu’il travaille, sans perdre le contexte. Auparavant, si l’agent partait dans la mauvaise direction, vous deviez arrêter, reformuler, et relancer. Avec le mid-task steering, vous pouvez injecter une nouvelle instruction pendant l’exécution et l’agent s’adapte immédiatement.

En test chez Turing College, un habit tracker complet (intégration calendrier, suivi quotidien, états colorés) a été construit en 3 minutes et 8 secondes, avec une redirection mid-build. L’agent a changé de direction sans restart et le résultat correspondait au brief mis à jour. C’est ce qui fait passer l’expérience de « outil qu’on prompte » à « collègue qu’on peut interrompre ».

Perfect Recall (fenêtre 400K tokens)

Le contexte de 400K tokens est équipé d’un mécanisme d’attention spécialisé appelé « Perfect Recall », conçu pour prévenir la dégradation de l’information au milieu des prompts étendus. C’est un problème courant avec les grands contextes : le modèle « oublie » les informations au milieu de la fenêtre. Perfect Recall maintient la fidélité sur toute la longueur.

Le plafond de sortie est de 128K tokens, ce qui élimine la nécessité de générer le code par morceaux. Le modèle peut réécrire des modules entiers en une seule passe.

Context compaction

Pour les sessions très longues (plusieurs heures), la compaction de contexte résume automatiquement la session quand elle approche la limite de la fenêtre. Cela permet des sessions de raisonnement multi-heures sans atteindre les limites de contexte, ni nécessiter de relancer la conversation. OpenAI rapporte avoir testé des sessions autonomes de plus de 7 heures continues avec GPT-5.3-Codex.

Niveaux de raisonnement ajustables

GPT-5.3-Codex supporte plusieurs niveaux de raisonnement : low, medium, high, et xhigh. Le modèle adapte son temps de réflexion selon le niveau choisi :

low : réponses quasi-instantanées, idéal pour les éditions simples et l’autocomplétion. medium : équilibre intelligence/vitesse, recommandé pour le pair-programming interactif. high : raisonnement approfondi pour les tâches complexes. xhigh : raisonnement maximal avec vérification interne, pour les problèmes les plus difficiles (refactoring architectural, debugging de race conditions).

Sur le trafic interne OpenAI, pour les 10% de tours les plus simples, GPT-5.3-Codex utilise 93,7% moins de tokens de raisonnement que GPT-5.2. Pour les 10% les plus complexes, il raisonne deux fois plus longtemps. Le modèle sait calibrer son effort.

GPT-5.3-Codex-Spark : l’ultra-rapide sur Cerebras

Lancé le 12 février 2026 en research preview, Spark est une version plus légère de GPT-5.3-Codex optimisée pour l’inférence ultra-rapide. Elle tourne sur le matériel Cerebras Wafer Scale Engine 3, atteignant plus de 1 000 tokens par seconde, soit environ 15x plus rapide que le modèle standard.

Caractéristique	GPT-5.3-Codex	GPT-5.3-Codex-Spark
Contexte	400K tokens	128K tokens
Vitesse	Standard	>1 000 tokens/sec (~15x)
Multimodal	Texte + images	Texte uniquement
Accès	ChatGPT Plus/Pro/Business/Enterprise	ChatGPT Pro uniquement (research preview)
Limites	Quota ChatGPT standard	Limite séparée, ajustable selon la demande
Cas d’usage	Tâches autonomes longues, refactoring	Prototypage rapide, itération temps réel

Spark est le premier déploiement de production d’OpenAI en dehors de Nvidia. Il est conçu pour les workflows où la latence compte autant que l’intelligence : éditions ciblées, ajustement de logique, affinement d’interfaces avec feedback immédiat. C’est un complément au modèle standard, pas un remplaçant.

Classification cybersécurité « High »

GPT-5.3-Codex est le premier modèle d’OpenAI classé « High » pour les capacités de cybersécurité selon le Preparedness Framework interne. OpenAI indique ne pas avoir de preuve définitive que le modèle peut automatiser entièrement des cyberattaques, mais adopte une approche préventive en déployant son stack de sécurité le plus complet : entraînement safety, monitoring automatisé, accès trusted pour les capacités avancées, et pipelines d’enforcement incluant la threat intelligence.

Cette classification a motivé un déploiement plus prudent : l’accès API a été retardé par rapport au lancement ChatGPT pour permettre des contrôles supplémentaires. C’est un signal important pour l’industrie sur les tensions entre capacité et sécurité des modèles de coding.

En pratique, cette capacité cybersécurité se traduit par des avantages concrets pour les développeurs légitimes. Le modèle détecte mieux les vulnérabilités dans le code existant, comprend plus finement les patterns de sécurité (injection SQL, IDOR, fixation de session, XSS), et produit du code plus sûr par défaut. Codex Security, le produit de scan de vulnérabilités, tire parti de ces capacités pour analyser des repos entiers et identifier des failles que les scanners SAST traditionnels manquent.

GPT-5.3-Codex vs Claude Opus 4.6

La comparaison avec Claude Opus 4.6 (lancé le même jour, 5 février 2026) est inévitable. Les deux modèles prennent des approches différentes :

Raisonnement profond : Opus 4.6 mène sur SWE-Bench Verified (~72,7% vs ~80% pour les deux en configurations optimales, mais les scores varient selon les harnesses). Sur les tâches nécessitant une compréhension architecturale profonde, Opus a un avantage perçu par la communauté.

Exécution terminale : GPT-5.3-Codex domine avec 77,3% vs ~65,4% sur Terminal-Bench. Pour les workflows DevOps et scripting, la différence est significative.

Contexte : Opus 4.6 offre 1M tokens GA sans surcoût. GPT-5.3-Codex a 400K tokens. Pour les très gros codebases, Opus peut maintenir plus de contexte simultanément.

Coût : GPT-5.3-Codex est plus efficient en tokens (moins de tokens de sortie par tâche). Un test comparatif a montré ~4x moins de tokens pour une tâche Figma identique. Le prix nominal est aussi plus bas en input ($1,75 vs $5 pour Opus).

Le pattern hybride qui émerge chez les équipes avancées : Claude Code pour les tâches de raisonnement complexe et le pair-programming interactif, GPT-5.3-Codex (ou GPT-5.4) pour les tâches autonomes en arrière-plan, la review de code, et les workflows terminal.

GPT-5.3-Codex vs GPT-5.4 : faut-il migrer ?

GPT-5.4, lancé le 5 mars 2026 (un mois après GPT-5.3-Codex), intègre les capacités coding de son prédécesseur dans un modèle généraliste plus large. La question de migration est légitime.

Critère	GPT-5.3-Codex	GPT-5.4
SWE-Bench Pro	56,8%	57,7% (xhigh)
Terminal-Bench 2.0	77,3%	75,1%
OSWorld	64,7%	75,0%
GDPval (knowledge work)	Comparable à GPT-5.2	83,0%
Contexte	400K	~1,05M
Computer use natif	Non	Oui (API dédiée)
Prix API (input/1M)	~$1,75	~$2,50

Notre verdict :

Migrez vers GPT-5.4 si vous avez besoin de computer use, d’un contexte >400K, d’un modèle unique pour tout (coding + knowledge work), ou si vous êtes encore sur GPT-5.2 (qui sera retiré le 5 juin 2026).

Restez sur GPT-5.3-Codex si votre travail est essentiellement terminal-natif (il mène encore de 2,2 points sur Terminal-Bench), si vous avez des pipelines d’input volumineux où le tarif plus bas ($1,75 vs $2,50/M input) fait une différence, ou si vos skills et automations sont déjà calibrées et que le coût de migration ne se justifie pas ce trimestre.

La direction est claire : GPT-5.4 est le successeur généraliste. GPT-5.3-Codex reste pertinent pour les workflows spécialisés terminal-heavy, mais sa fenêtre de pertinence se réduit à mesure que GPT-5.4 mûrit.

Accès et API

GPT-5.3-Codex est disponible sur toutes les surfaces Codex (app, CLI, extension IDE, web) pour les abonnés ChatGPT payants. Dans l’API, le modèle est accessible via l’identifiant gpt-5.3-codex.

Le prix API est d’environ $1,75/M tokens en input et $14/M en output, ce qui le positionne entre GPT-5.4 ($2,50/$15) et GPT-5.4 mini en termes de coût. Le prompt caching est supporté.

Spark (gpt-5.3-codex-spark) est en research preview pour les abonnés Pro uniquement, avec des limites séparées qui peuvent varier selon la demande. Il n’est pas encore disponible dans l’API publique.

Usage pratique : quand choisir GPT-5.3-Codex

Workflows terminal-natifs

Si vous passez l’essentiel de votre temps dans le terminal (scripting Bash/Zsh, administration système, pipelines CI/CD, outils CLI), GPT-5.3-Codex reste le meilleur choix. Son score de 77,3% sur Terminal-Bench 2.0 n’a pas été dépassé, y compris par GPT-5.4 (75,1%) ou Claude Opus 4.6 (~65,4%). La différence est tangible sur les tâches d’automatisation système, de manipulation de fichiers, et de configuration d’infrastructure.

Sessions autonomes de longue durée

GPT-5.3-Codex a été testé en exécution continue pendant plus de 7 heures, itérant sur son implémentation, corrigeant les échecs de test, et livrant un résultat fonctionnel. Pour les refactorings massifs, les migrations de codebase, ou la génération de suites de tests complètes, cette capacité de persévérance est un avantage concret. La compaction de contexte garantit que le modèle ne perd pas le fil même sur les sessions les plus longues.

Optimisation budgétaire sur les pipelines volumineux

À $1,75/M tokens en input contre $2,50 pour GPT-5.4, GPT-5.3-Codex est environ 30% moins cher en input. Pour les pipelines qui traitent de gros volumes (scan de codebase, review automatique de PRs, audit de dépendances), cette différence s’accumule. Combinez avec l’efficacité token supérieure du modèle (moins de tokens de sortie par tâche) et l’économie devient significative sur un mois.

Compatibilité avec les skills existantes

Les fichiers SKILL.md et AGENTS.md sont portables entre GPT-5.3-Codex et GPT-5.4. Si vous avez investi du temps à calibrer vos skills pour GPT-5.3-Codex, elles fonctionneront aussi sur GPT-5.4. La migration est donc incrémentale : testez vos 3-5 skills les plus utilisées sur GPT-5.4, comparez la qualité, et basculez progressivement.

Comment sélectionner GPT-5.3-Codex

Par défaut, Codex utilise désormais GPT-5.4 depuis le 5 mars 2026. Pour sélectionner explicitement GPT-5.3-Codex :

# Dans la CLI : flag --model
codex --model gpt-5.3-codex "Refactoriser le module auth"

# Dans le TUI : commande /model
/model gpt-5.3-codex

# Dans config.toml : modèle par défaut
model = "gpt-5.3-codex"

# Via un profil dédié
[profiles.codex-specialist]
model = "gpt-5.3-codex"
model_reasoning_effort = "high"

Dans l’app Codex, changez le modèle depuis les settings du thread ou créez un profil dédié. Les automations permettent de spécifier le modèle par automation, ce qui vous permet de garder GPT-5.3-Codex pour certains workflows spécialisés tout en utilisant GPT-5.4 ailleurs.

Chronologie des modèles Codex

Date	Modèle	Événement
Mai 2025	codex-1 (basé sur o3)	Lancement de Codex en research preview
Juin 2025	codex-mini-latest	Modèle léger pour la CLI, $1,50/$6 par M tokens
Oct 2025	GPT-5-Codex	Premier modèle GPT-5 optimisé coding
Déc 2025	GPT-5.2-Codex	Compaction, cybersécurité, refactors massifs
5 fév 2026	GPT-5.3-Codex	Fusion coding + raisonnement, 25% plus rapide, mid-task steering
12 fév 2026	GPT-5.3-Codex-Spark	Ultra-rapide sur Cerebras, >1000 tok/sec (Pro uniquement)
5 mars 2026	GPT-5.4	Modèle généraliste intégrant les capacités de GPT-5.3-Codex

La trajectoire est claire : OpenAI est passé de modèles spécialisés (codex-1, codex-mini) à des modèles de plus en plus généralistes (GPT-5.4) qui absorbent les capacités coding. GPT-5.3-Codex représente le dernier modèle dont l’identité entière est celle d’un spécialiste. Les futures itérations seront probablement des modèles généralistes avec des modes coding optimisés, plutôt que des modèles coding séparés.

Questions fréquentes

GPT-5.3-Codex est-il toujours le modèle par défaut dans Codex ?

Depuis le lancement de GPT-5.4 le 5 mars 2026, le modèle par défaut pour la plupart des tâches Codex est GPT-5.4. GPT-5.3-Codex reste disponible comme choix explicite dans le sélecteur de modèle (/model dans le TUI ou dans les settings de l’app). Pour les tâches de code review en cloud et sur GitHub, GPT-5.3-Codex est encore le modèle par défaut.

Quelle est la différence entre GPT-5.3-Codex et GPT-5.4 pour le coding ?

GPT-5.4 a absorbé les capacités coding de GPT-5.3-Codex et les a combinées avec des capacités élargies (computer use, knowledge work, contexte plus large). Pour la plupart des tâches de coding, les performances sont très proches. GPT-5.3-Codex garde un avantage mesurable sur les tâches terminales (77,3% vs 75,1% sur Terminal-Bench) et coûte moins cher en input ($1,75 vs $2,50/M). GPT-5.4 gagne sur OSWorld, GDPval, et offre un contexte 2,5x plus grand.

GPT-5.3-Codex-Spark sera-t-il disponible pour les plans Plus ?

Pas encore. En mars 2026, Spark est en research preview réservée aux abonnés ChatGPT Pro ($200/mois). OpenAI n’a pas annoncé de calendrier pour un élargissement aux plans Plus. L’accès dépend aussi de la montée en capacité des datacenters Cerebras, qui est en cours.

Faut-il s’inquiéter de la classification cybersécurité « High » ?

En tant qu’utilisateur légitime de Codex, non. La classification « High » signifie que le modèle est suffisamment capable pour potentiellement faciliter des cyberattaques s’il était utilisé malicieusement. OpenAI a déployé des mitigations (training safety, monitoring, accès contrôlé aux capacités avancées). Pour les développeurs, ces capacités se traduisent par une meilleure détection de vulnérabilités et une compréhension plus profonde des enjeux de sécurité dans le code.

GPT-5.3-Codex sera-t-il retiré prochainement ?

OpenAI n’a pas annoncé de date de retrait pour GPT-5.3-Codex. GPT-5.2 Thinking sera retiré le 5 juin 2026, mais GPT-5.3-Codex est un modèle plus récent avec une base d’utilisateurs active. Il restera probablement disponible pendant plusieurs mois au minimum, le temps que GPT-5.4 le remplace naturellement dans les workflows. Si vous préparez une migration, testez vos top 3 skills sur GPT-5.4 et comparez les résultats.