Aider : quels modèles LLM utiliser ? Benchmarks, coûts et configuration

Aider fonctionne avec plus de 50 modèles LLM via API cloud ou modèles locaux. Mais tous ne se valent pas pour le coding. Ce guide classe les meilleurs modèles par performance (benchmarks Aider Polyglot), par coût (prix par heure de coding) et par cas d’usage, avec les commandes de configuration pour chaque fournisseur.

Classement des modèles pour Aider

Aider publie un leaderboard public basé sur son benchmark Polyglot : 225 exercices de programmation réels en C++, Go, Java, JavaScript, Python et Rust. Le modèle reçoit deux tentatives par exercice, avec un feedback d’erreur entre les deux. C’est un test exigeant qui mesure à la fois la capacité de génération de code et la capacité à corriger en itérant sur des erreurs.

Voici le classement actualisé des principaux modèles, avec leurs scores benchmark et leurs coûts API.

Modèle	Score Polyglot (pass rate)	Input ($/M tokens)	Output ($/M tokens)	Coût estimé par heure de coding	Tier
GPT-5 (OpenAI)	88,0 %	1,25 $	10,00 $	~2-4 $	S-tier
Claude Opus 4.6	~80,8 %	5,00 $	25,00 $	~5-10 $	S-tier
Claude Sonnet 4.6	~79,6 %	3,00 $	15,00 $	~1-3 $	S-tier
Gemini 3.1 Pro	~79,7 %	2,00 $	12,00 $	~2-4 $	S-tier
GPT-5.4	~76 %	2,50 $	15,00 $	~3-5 $	A-tier
o3-mini	~74,1 %	~1,10 $	~4,40 $	~1-2 $	A-tier
DeepSeek V3.2	~58,5 %	0,28 $	0,42 $	~0,10-0,30 $	B-tier
Mistral Large 3	~55 %	0,50 $	1,50 $	~0,20-0,50 $	B-tier
Gemini 3 Flash	~50 %	0,50 $	3,00 $	~0,30-0,60 $	B-tier
GPT-4.1 (OpenAI)	~65 %	2,00 $	8,00 $	~1,50-3 $	A-tier
Modèles locaux (14B+)	Variable (30-50 %)	0 $	0 $	0 $ (coût hardware)	C-tier

Scores indicatifs. Les scores exacts varient selon la version du benchmark et les paramètres utilisés. Consultez le leaderboard officiel d’Aider pour les valeurs les plus récentes. Les coûts par heure sont des estimations basées sur une consommation typique de 200K à 400K tokens par heure de coding actif.

Quel modèle pour quel usage ?

Usage quotidien : Claude Sonnet 4.6

Claude Sonnet 4.6 offre le meilleur rapport qualité-prix pour le coding quotidien avec Aider. Score Polyglot élevé (~79,6 %), coût modéré (3 $/M tokens en entrée, 15 $ en sortie), et depuis mars 2026, plus de surcoût sur les longs contextes chez Anthropic. Pour la majorité des tâches (ajout de features, corrections de bugs, refactoring modéré), c’est le choix par défaut.

aider --model sonnet --api-key anthropic=sk-ant-VOTRE_CLE

Tâches complexes : Claude Opus 4.6 ou GPT-5

Pour les refactors multi-fichiers, la conception architecturale et le mode Architect d’Aider, Opus 4.6 et GPT-5 sont les meilleurs choix. GPT-5 mène le leaderboard Polyglot (88 %) et coûte moins cher qu’Opus en input. Opus excelle sur la compréhension contextuelle et le raisonnement approfondi.

Le mode Architect d’Aider est particulièrement efficace avec Opus comme modèle de planification et Sonnet comme modèle d’exécution. Vous bénéficiez du raisonnement profond d’Opus pour la stratégie et de la rapidité de Sonnet pour l’implémentation.

# Mode Architect avec Opus (planification) + Sonnet (exécution)
aider --architect --model opus --editor-model sonnet --api-key anthropic=sk-ant-VOTRE_CLE

Budget serré : DeepSeek V3.2

DeepSeek V3.2 est imbattable sur le rapport coût/performance pour les développeurs soucieux de leur budget. À ~0,28 $/M tokens en entrée et ~0,42 $ en sortie, une heure de coding coûte entre 10 et 30 centimes. Le score Polyglot est inférieur aux modèles premium (B-tier), mais pour le prototypage rapide, les petites modifications et le code simple, c’est amplement suffisant.

Avec le cache hit de DeepSeek (~0,028 $/M tokens), le coût descend encore plus sur les sessions longues où le contexte est réutilisé.

aider --model deepseek --api-key deepseek=sk-VOTRE_CLE

Gratuit : modèles locaux via Ollama ou OpenRouter Free

Pour un coût zéro (hors hardware), deux options existent.

Ollama permet d’exécuter des modèles locaux. Les modèles de 14B+ paramètres (CodeLlama, Mistral, DeepSeek-Coder) offrent des résultats corrects pour les tâches simples. La qualité est nettement inférieure aux API cloud sur les tâches complexes, mais pour du code sensible ou un usage hors-ligne, c’est la seule option viable.

# Installation Ollama (macOS)
brew install ollama
ollama pull deepseek-coder:33b-instruct

# Lancement avec Aider
aider --model ollama/deepseek-coder:33b-instruct

OpenRouter offre un tier gratuit avec certains modèles. Par exemple, DeepSeek Chat V3 est disponible gratuitement (avec des limites de débit) :

aider --model openrouter/deepseek/deepseek-chat:free --api-key openrouter=VOTRE_CLE

Raisonnement logique : o3-mini

Les modèles de raisonnement d’OpenAI (o3-mini) excellent sur les problèmes algorithmiques et le débogage logique. Leur approche « chain-of-thought » les rend particulièrement efficaces pour les bugs subtils qui nécessitent de suivre un raisonnement multi-étapes. Le coût est raisonnable (~1,10 $/M tokens en entrée). Attention : les tokens de raisonnement sont facturés comme des tokens de sortie, ce qui peut augmenter le coût réel de façon imprévisible.

aider --model o3-mini --api-key openai=sk-VOTRE_CLE

Configuration par fournisseur

Anthropic (Claude)

Obtenez votre clé sur console.anthropic.com. Anthropic propose le prompt caching (lecture du cache à ~10 % du prix standard), ce qui réduit les coûts sur les sessions longues. Depuis mars 2026, il n’y a plus de surcoût long contexte sur Sonnet 4.6 et Opus 4.6 (1M tokens au tarif standard).

# Fichier .env
ANTHROPIC_API_KEY=sk-ant-votre-cle

# Alias disponibles dans Aider
aider --model sonnet   # Claude Sonnet 4.6
aider --model opus     # Claude Opus 4.6
aider --model haiku    # Claude Haiku 4.5

OpenAI (GPT, o-series)

Clé API sur platform.openai.com. Minimum 5 $ de crédits prépayés. OpenAI propose aussi le prompt caching (50 % de réduction sur les inputs cachés) et le Batch API (50 % de réduction, résultats en 24h).

# Fichier .env
OPENAI_API_KEY=sk-votre-cle

# Modèles principaux
aider --model gpt-5.4     # Flagship
aider --model gpt-5       # Meilleur rapport qualité/prix
aider --model gpt-4.1     # Production recommandé
aider --model o3-mini      # Raisonnement

DeepSeek

Clé API sur platform.deepseek.com. DeepSeek offre un cache automatique avec ~90 % de réduction sur les inputs en cache hit. La tarification est unifiée pour le chat et le mode raisonneur.

# Fichier .env
DEEPSEEK_API_KEY=sk-votre-cle

aider --model deepseek   # DeepSeek V3.2 (chat + raisonnement)

Google (Gemini)

Clé API sur ai.google.dev. Google offre un tier gratuit généreux via AI Studio (quotas à vérifier). Gemini 3.1 Pro a une fenêtre de contexte allant jusqu’à 1M tokens, mais avec un surcoût au-delà de ~200K tokens (contrairement à Anthropic qui a supprimé le surcoût).

# Fichier .env
GOOGLE_API_KEY=votre-cle

aider --model gemini/gemini-3.1-pro

OpenRouter (multi-fournisseurs)

OpenRouter est un proxy qui donne accès à des dizaines de modèles via une seule clé API. C’est la solution la plus pratique si vous voulez tester plusieurs modèles sans créer un compte chez chaque fournisseur. Le pricing est légèrement majoré par rapport aux API directes.

# Fichier .env
OPENROUTER_API_KEY=votre-cle

aider --model openrouter/anthropic/claude-sonnet-4.6
aider --model openrouter/deepseek/deepseek-chat:free  # Tier gratuit

Ollama (modèles locaux)

Ollama fonctionne sans clé API. Installez Ollama, téléchargez un modèle, et lancez Aider. Le contexte est automatiquement ajusté à la taille supportée par le modèle.

ollama pull codellama:34b
aider --model ollama/codellama:34b

# Ou avec d'autres modèles
aider --model ollama/mistral:7b
aider --model ollama/deepseek-coder:33b-instruct

Modèles locaux : gérez vos attentes. Les modèles locaux de 7B à 14B paramètres sont corrects pour les modifications simples et le code de base. Pour du refactoring multi-fichiers ou des tâches complexes, ils sont nettement inférieurs aux API cloud. Les modèles de 33B+ offrent de meilleurs résultats mais nécessitent un GPU puissant (16 Go+ de VRAM). Si vous n’avez pas le hardware, les API cloud restent plus productives.

Basculer entre modèles en cours de session

L’un des grands avantages d’Aider : vous pouvez changer de modèle à la volée sans quitter votre session. Utilisez la commande /model suivie du nom du modèle :

/model deepseek    # Basculer vers DeepSeek (pas cher)
/model sonnet      # Basculer vers Claude Sonnet (qualité)
/model opus        # Basculer vers Claude Opus (raisonnement avancé)

Cette flexibilité permet une stratégie de coût optimale : utilisez un modèle bon marché (DeepSeek) pour les tâches routinières et basculez vers un modèle premium (Opus, GPT-5) quand la complexité l’exige. Le changement est instantané et le contexte de la session est préservé.

Stratégie de coût optimale

Voici la stratégie recommandée pour minimiser vos coûts tout en maintenant la qualité :

Démarrez avec DeepSeek V3.2 pour les tâches de base : corrections simples, ajout de fonctionnalités standards, formatage, documentation. Coût : quelques centimes par heure.

Basculez vers Sonnet 4.6 quand la tâche nécessite une compréhension plus profonde : refactoring de fonctions complexes, ajout de logique métier, optimisation de performance. Coût : 1 à 3 $ par heure.

Utilisez Opus 4.6 ou GPT-5 uniquement pour le mode Architect ou les problèmes vraiment difficiles : conception d’architecture, refactoring de 10+ fichiers, débogage de problèmes systémiques. Coût : 5 à 10 $ par heure.

Avec cette approche, un développeur intensif peut maintenir un coût mensuel de 30 à 60 $, contre 100 à 200 $ en utilisant un modèle premium pour tout.

Prompt caching : économisez jusqu’à 90 %

Le prompt caching est une fonctionnalité qui réduit considérablement le coût des sessions longues avec Aider. Le principe : quand vous envoyez des requêtes successives avec le même contexte (repo map, fichiers en lecture seule, conventions), le fournisseur met en cache cette partie du prompt et la facture à prix réduit.

Chez Anthropic, le cache read coûte environ 10 % du prix de l’input standard. Concrètement, si votre repo map et vos fichiers de contexte représentent 50K tokens (ce qui est courant sur un projet de taille moyenne), et que vous envoyez 20 requêtes dans une session, les 19 dernières paient ce contexte à 10 % du tarif. L’économie est réelle : sur une session d’une heure, le caching peut réduire votre facture de 30 à 50 %.

Chez OpenAI, le cache fonctionne différemment selon les modèles. GPT-5 offre un cache read à 90 % de réduction sur l’input (le meilleur du marché). GPT-4.1 propose 75 % de réduction. DeepSeek a un cache automatique avec environ 90 % de réduction sur les inputs en cache hit.

Aider active le prompt caching automatiquement quand le fournisseur le supporte. Vous n’avez rien à configurer. Pour maximiser les bénéfices du cache, évitez de changer fréquemment les fichiers ajoutés au chat : chaque changement invalide le cache pour ce contenu.

Modèles de raisonnement : quand les utiliser avec Aider

Les modèles de raisonnement (o3, o3-mini d’OpenAI, DeepSeek R1) utilisent une approche « chain-of-thought » : ils réfléchissent étape par étape avant de répondre. Ces tokens de réflexion internes sont facturés comme des tokens de sortie, ce qui peut augmenter considérablement le coût réel d’une requête.

Avec Aider, les modèles de raisonnement excellent dans trois scénarios. Le débogage de problèmes logiques subtils (conditions de course, erreurs off-by-one, problèmes d’état). L’optimisation algorithmique (transformer un O(n²) en O(n log n)). L’analyse de sécurité (identifier les failles dans du code d’authentification ou de validation).

Ils sont en revanche moins adaptés aux tâches de refactoring pur (renommer des variables, restructurer des fichiers) ou à la génération de code boilerplate, où un modèle standard comme Sonnet sera plus rapide et moins cher.

Un piège courant : une même requête envoyée à o3-mini peut consommer 500 tokens de raisonnement dans un cas et 5 000 dans un autre selon la formulation. Utilisez le paramètre --thinking-tokens d’Aider pour plafonner la consommation de tokens de raisonnement et éviter les surprises sur votre facture. Aider affiche un avertissement si vous appliquez des paramètres de raisonnement à un modèle qui ne les supporte pas.

Conseils pour choisir votre modèle

Le modèle que vous utilisez impacte plus que la qualité du code : il influence aussi la vitesse de réponse, la taille de contexte disponible, et le format d’édition optimal. Quelques règles pratiques :

Testez toujours sur votre propre codebase. Les benchmarks Polyglot sont utiles comme point de départ, mais les performances varient selon le langage, le framework et le style de code. Un modèle qui excelle sur les exercices Python d’Exercism n’est pas forcément le meilleur pour votre projet Rust avec des macros complexes.

Ne choisissez pas uniquement sur le score. DeepSeek V3.2 à 58 % de pass rate coûte 10× moins que Claude Opus 4.6 à 80 %. Pour les 60 % de tâches que les deux résolvent, DeepSeek est le choix rationnel. Réservez les modèles premium pour les 20 % de tâches que seuls eux résolvent.

Considérez la latence. Les modèles de raisonnement (o3, o3-mini) sont plus lents car ils « pensent » avant de répondre. Sur des sessions avec beaucoup de petites modifications rapides, un modèle standard rapide (Sonnet, GPT-4.1) offre un flux de travail plus fluide.

Exploitez le mode Architect pour combiner le meilleur des deux mondes : un modèle puissant pour la planification (Opus, GPT-5) et un modèle rapide pour l’exécution (Sonnet, GPT-4.1). Cette combinaison offre souvent un meilleur résultat qu’un seul modèle sur toute la chaîne.

Questions fréquentes sur les modèles Aider

Quel est le meilleur modèle pour Aider en mars 2026 ?

GPT-5 d’OpenAI mène le leaderboard Polyglot avec un score de 88 %. Claude Sonnet 4.6 offre le meilleur rapport qualité/prix global (score élevé, coût modéré, pas de surcoût long contexte). Pour un budget limité, DeepSeek V3.2 est imbattable.

Combien coûte une journée de coding avec Aider ?

Avec DeepSeek V3.2 : 0,50 à 2 $ par jour. Avec Claude Sonnet 4.6 : 5 à 15 $ par jour. Avec Claude Opus 4.6 ou GPT-5 : 20 à 50 $ par jour. La stratégie mixte (DeepSeek + Sonnet pour les tâches difficiles) permet de rester autour de 3 à 8 $ par jour en usage intensif.

Peut-on utiliser plusieurs fournisseurs dans la même session ?

Oui. Configurez plusieurs clés API dans votre fichier .env et basculez avec /model en cours de session. Aider gère le routage vers le bon fournisseur automatiquement. Vous pouvez passer de Claude à DeepSeek à GPT sans redémarrer.

Les modèles locaux via Ollama sont-ils viables pour du vrai travail ?

Pour des modifications simples et du code standard, les modèles 33B+ via Ollama produisent des résultats corrects. Pour des tâches complexes (refactoring multi-fichiers, architecture), ils sont nettement inférieurs aux API cloud. Leur principal intérêt est la confidentialité : votre code ne quitte jamais votre machine. Si la sécurité des données est prioritaire et que vous avez le hardware (GPU 16 Go+ VRAM), c’est une option valable.

OpenRouter vaut-il le coup par rapport aux API directes ?

OpenRouter ajoute une légère marge sur les prix API directs, mais offre deux avantages : une seule clé pour tous les fournisseurs (pratique pour tester) et un tier gratuit sur certains modèles (DeepSeek Chat gratuit). Si vous utilisez principalement un seul fournisseur, l’API directe est moins chère. Si vous testez régulièrement plusieurs modèles, OpenRouter simplifie la gestion.