OpenClaw Modèles : choisir et configurer votre LLM
OpenClaw supporte une dizaine de fournisseurs LLM : Anthropic (Claude), OpenAI (GPT), Google (Gemini), DeepSeek, MiniMax, Moonshot (Kimi), et des modèles locaux via Ollama. Vous pouvez configurer des tiers (primaire, fallback, économique), router par canal ou par type de tâche, et basculer entre modèles en pleine conversation. Le choix du modèle est la décision de configuration la plus impactante sur la qualité et le coût de votre assistant.
- Fournisseurs cloud
- Anthropic, OpenAI, Google, DeepSeek, MiniMax, Moonshot, xAI
- Agrégateurs
- OpenRouter, Together AI, haimaker.ai
- Local
- Ollama, llama.cpp, vLLM, SGLang
- Recommandé
- Claude Sonnet 4.6 (meilleur rapport qualité/coût)
- Meilleure qualité
- Claude Opus 4.6 ($5/$25 par M tokens)
- Plus économique (cloud)
- DeepSeek V3.2 ($0,28/$0,42 par M tokens)
- Gratuit
- Ollama (modèles locaux, coût matériel uniquement)
- Configuration
openclaw config set agents.defaults.model.primary
Les fournisseurs supportés
Anthropic (Claude) : le choix recommandé
Claude est le fournisseur le plus recommandé pour OpenClaw. Les modèles Anthropic excellent en tool calling (invocation fiable d’outils et d’API), en suivi de contexte long, et en respect précis des instructions. Ce sont exactement les compétences critiques pour un agent autonome.
| Modèle | Input/Output (par M tokens) | Contexte | Usage recommandé |
|---|---|---|---|
| Claude Opus 4.6 | $5 / $25 | 1M tokens | Tâches complexes, debugging, architecture |
| Claude Sonnet 4.6 | $3 / $15 | 1M tokens | Usage quotidien (meilleur rapport qualité/coût) |
| Claude Haiku 4.5 | ~$1 / $5 | ~200K tokens | Tâches simples, haute fréquence, économique |
L’authentification se fait via clé API (sk-ant-...) ou OAuth avec un abonnement Claude Pro/Max. La clé API offre un contrôle total sur les coûts (pay-as-you-go). L’OAuth est plus simple mais moins prévisible en termes de budget.
OpenAI (GPT)
OpenAI est le deuxième fournisseur le plus populaire dans l’écosystème OpenClaw. GPT-4o est un bon polyvalent avec un large support communautaire. Les coûts sont comparables à ceux de Claude Sonnet.
| Modèle | Input/Output (par M tokens) | Contexte | Notes |
|---|---|---|---|
| GPT-5.4 | $2,50 / $15 | ~1,05M tokens | Dernier modèle flagship, computer use natif |
| GPT-4o | ~$2,50 / $10 | ~128K tokens | Legacy très populaire, bon all-rounder |
| GPT-4o-mini | ~$0,15 / $0,60 | 128K tokens | Très économique pour les tâches simples |
Google (Gemini)
Gemini 3.1 Pro offre la plus grande fenêtre de contexte du marché (~1M tokens) et des scores de benchmark très élevés. Gemini Flash est l’option économique de Google. OpenClaw supporte Google comme fournisseur de première classe.
DeepSeek
DeepSeek V3.2 est le modèle cloud le moins cher du marché ($0,28/$0,42 par M tokens, avec un cache hit à $0,028 input). Beaucoup d’utilisateurs OpenClaw l’utilisent pour 80-90% des tâches routinières et basculent vers Claude ou GPT uniquement pour les tâches complexes. Le tool calling est moins fiable que Claude mais acceptable pour les cas simples.
Ollama (modèles locaux)
Pour une confidentialité totale et zéro coût API, Ollama permet d’exécuter des modèles open-weight localement. OpenClaw est fournisseur officiel Ollama depuis mars 2026. Les modèles locaux recommandés :
| Modèle | VRAM nécessaire | Vitesse (RTX 4090) | Notes |
|---|---|---|---|
| Qwen3.5 27B | 20 Go+ | ~40 t/s | Meilleure qualité locale, proche GPT-5 Mini |
| Qwen3.5 35B-A3B (MoE) | 16 Go | ~112 t/s | Très rapide, bon pour le boilerplate |
| Qwen3.5 9B | 8 Go | Rapide | Léger, suffisant pour les tâches simples |
L’installation Ollama avec OpenClaw est directe :
# Installer Ollama
curl -fsSL https://ollama.com/install.sh | sh
# Tirer un modèle (choisir selon votre GPU)
ollama pull qwen3.5:27b # Meilleure qualité, 20 Go+ VRAM
ollama pull qwen3.5:35b-a3b # Rapide MoE, 16 Go VRAM
ollama pull qwen3.5:9b # Léger, 8 Go VRAM
# Configurer OpenClaw pour Ollama
openclaw config set agents.defaults.model.primary "ollama/qwen3.5:27b"
openclaw gateway restart
Le compromis est clair : les modèles locaux sont en dessous de GPT-4o et Claude Sonnet pour le raisonnement multi-étapes complexe. Mais pour les tâches d’automatisation personnelle, la gestion de calendrier et la recherche web simple, un modèle 7B-14B local est largement suffisant. L’intégration Ollama fournit automatiquement le plugin web search and fetch, ce qui donne au modèle local la capacité de chercher sur le web.
Agrégateurs de modèles
Les agrégateurs comme OpenRouter, Together AI et haimaker.ai permettent d’accéder à plusieurs fournisseurs via une seule API. L’avantage : vous pouvez basculer entre Claude, GPT, Mistral, DeepSeek et des modèles open-source sans changer de fournisseur. L’inconvénient : un léger surcoût et une latence additionnelle.
OpenClaw supporte tout endpoint compatible OpenAI via le champ "Custom OpenAI-compatible endpoint" dans le wizard. Configurez le baseUrl vers l’agrégateur de votre choix et utilisez la clé API de l’agrégateur.
Cette approche est particulièrement utile pour les équipes qui veulent centraliser la gestion des clés API et bénéficier du failover automatique entre fournisseurs proposé par l’agrégateur.
Configurer les modèles
Via le wizard d’onboarding
Lors de l’installation, le wizard vous guide dans le choix du fournisseur et du modèle. Vous pouvez y revenir à tout moment avec openclaw configure.
Via la ligne de commande
# Authentification
openclaw models auth paste-token --provider anthropic
# Collez votre clé : sk-ant-api03-xxxxx
# Définir le modèle primaire
openclaw config set agents.defaults.model.primary claude-sonnet-4-6-20250514
# Définir un fallback
openclaw config set agents.defaults.model.secondary gpt-4o
# Vérifier la configuration
openclaw doctor --check models
# Tester un modèle spécifique
openclaw agent --model anthropic/claude-opus-4-6 --message "Test"
Via le fichier de configuration
{
"models": {
"providers": {
"anthropic": {
"apiKey": "${ANTHROPIC_API_KEY}",
"baseUrl": "https://api.anthropic.com"
},
"openai": {
"apiKey": "${OPENAI_API_KEY}",
"baseUrl": "https://api.openai.com/v1"
},
"ollama": {
"baseUrl": "http://localhost:11434/v1",
"apiKey": "ollama-local",
"api": "openai-completions"
}
}
},
"agents": {
"defaults": {
"model": {
"primary": "anthropic/claude-sonnet-4-6-20250514",
"secondary": "openai/gpt-4o"
}
}
}
}
Les clés API sont stockées localement dans votre répertoire home et ne sont jamais transmises ailleurs qu’au fournisseur LLM pendant l’inférence.
Système de tiers et fallback
OpenClaw utilise un système à trois tiers, chacun servant un objectif différent.
Primaire. Votre modèle principal. Il gère la génération de code, le debugging complexe, l’analyse d’architecture, tout ce qui demande un raisonnement fort. Mettez le meilleur modèle que votre budget autorise.
Fallback. S’active automatiquement quand le modèle primaire échoue (erreur 429 rate limit, timeout, erreur 500). Choisissez un fournisseur différent du primaire pour vous protéger contre les pannes fournisseur. Une légère dégradation de qualité est acceptable : c’est un filet de sécurité.
Économique. Pour les tâches simples, les lectures de fichiers, le boilerplate. Un modèle peu coûteux ou local suffit largement.
{
"models": {
"fallback": [
{
"model": "anthropic/claude-sonnet-4-6",
"condition": "rate_limit",
"maxRetries": 3
},
{
"model": "openai/gpt-4o",
"condition": "error",
"maxRetries": 2
},
{
"model": "ollama/qwen3.5:27b",
"condition": "always"
}
]
}
}
Routage par canal et par tâche
OpenClaw permet de router des modèles différents selon le canal ou le type de session.
{
"agents": {
"byChannel": {
"telegram": { "model": "anthropic/claude-haiku-4-5" },
"whatsapp": { "model": "anthropic/claude-sonnet-4-6" }
},
"bySessionType": {
"main": { "model": "anthropic/claude-opus-4-6" },
"group": { "model": "anthropic/claude-haiku-4-5" }
},
"taskModels": {
"code": "anthropic/claude-opus-4-6",
"reasoning": "anthropic/claude-opus-4-6",
"chat": "anthropic/claude-sonnet-4-6",
"simple": "anthropic/claude-haiku-4-5"
}
}
}
Ce routage granulaire optimise le rapport coût/qualité. Opus pour les tâches critiques, Haiku pour les groupes Telegram où la vitesse compte plus que la profondeur, Sonnet pour l’usage courant sur WhatsApp.
Coûts mensuels réalistes
OpenClaw consomme beaucoup plus de tokens qu’un chat classique. Chaque tâche déclenche 5 à 10 appels API (lecture de fichiers, exécution d’outils, raisonnement, révisions), et chaque appel renvoie le contexte complet de la conversation. Les estimations basées sur les retours communautaires :
| Modèle | Léger (10-15 tâches/j) | Modéré (30-50 tâches/j) | Intensif (100+/j) |
|---|---|---|---|
| Claude Opus 4.6 | 80-150 $/mois | 200-400 $/mois | 500-750+ $/mois |
| Claude Sonnet 4.6 | 15-30 $/mois | 40-80 $/mois | 100-200 $/mois |
| GPT-4o | 12-25 $/mois | 30-60 $/mois | 80-150 $/mois |
| DeepSeek / Haiku | 5-15 $/mois | 15-30 $/mois | < 30 $/mois |
| Ollama (local) | 0 $ (coût électricité + matériel uniquement) | ||
L’approche hybride est la plus populaire : un modèle local (Ollama) pour les tâches simples (60-70% du volume), et un modèle cloud pour les tâches complexes (30-40%). Cela réduit les coûts de 50 à 70% par rapport à un usage cloud exclusif.
openclaw usage --today. Une facture qui double sans raison peut indiquer un problème de sécurité ou un emballement de l’agent. Utilisez /compact régulièrement pour réduire le contexte et donc la consommation de tokens.
Quel modèle choisir ?
Le choix se résume à trois critères qui se font concurrence : qualité, coût et confidentialité. Vous pouvez optimiser deux sur trois, rarement les trois.
Pour commencer. Claude Sonnet 4.6. Il gère la plupart des tâches quotidiennes sans surprendre la facture, et la majorité des guides communautaires sont écrits pour lui.
Pour du code de production. Claude Opus 4.6. Le surcoût se justifie quand vous debuggez un problème async complexe à 2h du matin et que le modèle trouve la solution du premier coup.
Pour les documents longs. Gemini 3.1 Pro. Rien d’autre ne vous donne 1M tokens de contexte. Alimentez-le avec un repo entier, un contrat complet, ou un fil de discussion entier.
Pour la confidentialité. Modèles locaux via Ollama. Qwen3.5 27B ou Llama 3.3 70B. Vos données ne quittent jamais votre machine.
Pour le budget minimum. DeepSeek V3.2 pour les tâches simples, ou Ollama si vous avez le matériel.
L’approche hybride. La configuration la plus répandue dans la communauté :
{
"agents": {
"defaults": {
"model": {
"primary": "ollama/qwen3.5:27b",
"thinking": "anthropic/claude-sonnet-4-6"
}
}
}
}
Le modèle local gère les lectures de fichiers, les éditions simples et le boilerplate. Le modèle cloud intervient pour le raisonnement complexe.
Basculer entre modèles en cours de session
OpenClaw rend le changement de modèle trivial. En cours de conversation, tapez /model anthropic/claude-opus-4-6 pour basculer vers Opus sur une tâche complexe, puis /model ollama/qwen3.5:27b pour revenir sur le modèle local pour la suite. Le changement prend effet immédiatement, sans perte de contexte de la conversation. C’est l’un des avantages d’OpenClaw par rapport aux assistants mono-modèle : vous adaptez le niveau de puissance (et le coût) à chaque tâche plutôt que de payer le prix fort pour tout.
Pour les utilisateurs qui veulent automatiser ce choix, le routage par type de tâche (taskModels) laisse OpenClaw sélectionner automatiquement le bon modèle selon la nature de la requête : Opus pour le code et le raisonnement, Sonnet pour le chat courant, Haiku pour les tâches simples. Cette configuration se fait une fois et fonctionne ensuite sans intervention.
Dépannage
Erreur « maximum context length exceeded »
Votre conversation plus le contexte de la codebase dépasse la fenêtre du modèle. Solutions : réduisez max_context_usage dans la config agent, activez la compression agressive (compress_after_messages: 10), limitez la taille des fichiers inclus, ou basculez vers un modèle avec une fenêtre plus grande (Gemini 3.1 Pro avec 1M tokens).
Ollama : « Connection refused » sur localhost:11434
Ollama n’est pas démarré. Lancez ollama serve dans un terminal séparé. Vérifiez avec curl http://localhost:11434/api/tags. Si vous êtes dans Docker, assurez-vous que le container OpenClaw peut accéder au réseau hôte.
Le modèle local donne des réponses génériques
Le contexte est probablement trop petit. Les instructions d’OpenClaw (SKILL.md, mémoire, system prompt) ne tiennent pas dans 8K tokens. Augmentez le contextWindow à au moins 32K (idéalement 64K). Vérifiez aussi que le champ reasoning est correctement configuré pour votre modèle.
Les appels d’outils échouent avec un modèle local
Tous les modèles locaux ne gèrent pas correctement le format de tool calling d’OpenClaw. Réglez "reasoning": false dans la config du modèle et préférez les modèles Qwen3.5 qui sont les plus fiables pour ce format. Mettez à jour Ollama à la dernière version car le support officiel a corrigé plusieurs cas limites.
Questions fréquentes
Peut-on utiliser plusieurs modèles simultanément dans OpenClaw ?
Oui. OpenClaw supporte un modèle primaire et un modèle secondaire (fallback), plus un modèle économique. Vous pouvez aussi router par canal (Haiku pour Telegram, Sonnet pour WhatsApp) ou par type de tâche (Opus pour le code, Haiku pour le chat simple). Le basculement entre modèles se fait aussi en cours de conversation avec la commande /model. La seule limite : un seul modèle actif par session à un instant donné.
Les modèles locaux Ollama sont-ils assez bons pour un usage quotidien ?
Pour les tâches simples et la confidentialité, oui. Un Qwen3.5 27B avec un bon GPU gère les lectures de fichiers, les résumés, les réponses simples et le boilerplate de manière satisfaisante. Pour le raisonnement multi-étapes complexe, le debugging avancé, ou les conversations très longues, les modèles cloud (Claude Opus, GPT-4o) restent nettement supérieurs. La plupart des utilisateurs avancés adoptent un setup hybride : local pour 60-70% des interactions, cloud pour le reste.
Combien coûte OpenClaw par mois en utilisation réelle ?
Le coût varie énormément selon le modèle et l’intensité d’usage. Avec Claude Sonnet 4.6, un usage modéré (30-50 tâches/jour) coûte 40 à 80 $/mois. Avec Opus, le même usage monte à 200-400 $/mois. Avec DeepSeek ou Haiku pour les tâches routinières, vous restez sous 30 $/mois. Un setup hybride (Ollama + Claude Sonnet pour les tâches complexes) revient à 15-40 $/mois. Ajoutez le coût du VPS (5-10 $/mois) si vous ne tournez pas en local. Surveillez vos coûts avec openclaw usage --today pendant la première semaine.
Comment basculer entre Claude et GPT sans reconfigurer ?
Utilisez la commande /model en cours de conversation pour basculer à la volée. Pour un changement persistant, lancez openclaw config set agents.defaults.model.primary openai/gpt-4o et redémarrez le Gateway. Les deux fournisseurs peuvent coexister dans la même configuration : Claude comme primaire, GPT comme fallback (ou l’inverse). OpenClaw gère la transition automatiquement en cas d’erreur du fournisseur primaire.
Pourquoi Claude est-il recommandé plutôt que GPT pour OpenClaw ?
Claude excelle dans les trois compétences critiques pour un agent autonome : le tool calling (invocation fiable et précise des outils), le suivi de contexte long (se souvenir des instructions 50 messages plus tard), et le respect strict des instructions. Cela réduit les automatisations cassées et les risques de sécurité. GPT-4o est un bon all-rounder mais Claude est plus prévisible dans le contexte agentique. Le choix n’est pas absolu : pour certains usages (multilingue, vision, coût), GPT ou Gemini peuvent être préférables.