OpenClaw Modèles : choisir et configurer votre LLM

OpenClaw supporte une dizaine de fournisseurs LLM : Anthropic (Claude), OpenAI (GPT), Google (Gemini), DeepSeek, MiniMax, Moonshot (Kimi), et des modèles locaux via Ollama. Vous pouvez configurer des tiers (primaire, fallback, économique), router par canal ou par type de tâche, et basculer entre modèles en pleine conversation. Le choix du modèle est la décision de configuration la plus impactante sur la qualité et le coût de votre assistant.

Fournisseurs cloud: Anthropic, OpenAI, Google, DeepSeek, MiniMax, Moonshot, xAI
Agrégateurs: OpenRouter, Together AI, haimaker.ai
Local: Ollama, llama.cpp, vLLM, SGLang
Recommandé: Claude Sonnet 4.6 (meilleur rapport qualité/coût)
Meilleure qualité: Claude Opus 4.6 ($5/$25 par M tokens)
Plus économique (cloud): DeepSeek V3.2 ($0,28/$0,42 par M tokens)
Gratuit: Ollama (modèles locaux, coût matériel uniquement)
Configuration: openclaw config set agents.defaults.model.primary

Les fournisseurs supportés

Anthropic (Claude) : le choix recommandé

Claude est le fournisseur le plus recommandé pour OpenClaw. Les modèles Anthropic excellent en tool calling (invocation fiable d’outils et d’API), en suivi de contexte long, et en respect précis des instructions. Ce sont exactement les compétences critiques pour un agent autonome.

Modèle	Input/Output (par M tokens)	Contexte	Usage recommandé
Claude Opus 4.6	$5 / $25	1M tokens	Tâches complexes, debugging, architecture
Claude Sonnet 4.6	$3 / $15	1M tokens	Usage quotidien (meilleur rapport qualité/coût)
Claude Haiku 4.5	~$1 / $5	~200K tokens	Tâches simples, haute fréquence, économique

L’authentification se fait via clé API (sk-ant-...) ou OAuth avec un abonnement Claude Pro/Max. La clé API offre un contrôle total sur les coûts (pay-as-you-go). L’OAuth est plus simple mais moins prévisible en termes de budget.

OpenAI (GPT)

OpenAI est le deuxième fournisseur le plus populaire dans l’écosystème OpenClaw. GPT-4o est un bon polyvalent avec un large support communautaire. Les coûts sont comparables à ceux de Claude Sonnet.

Modèle	Input/Output (par M tokens)	Contexte	Notes
GPT-5.4	$2,50 / $15	~1,05M tokens	Dernier modèle flagship, computer use natif
GPT-4o	~$2,50 / $10	~128K tokens	Legacy très populaire, bon all-rounder
GPT-4o-mini	~$0,15 / $0,60	128K tokens	Très économique pour les tâches simples

Google (Gemini)

Gemini 3.1 Pro offre la plus grande fenêtre de contexte du marché (~1M tokens) et des scores de benchmark très élevés. Gemini Flash est l’option économique de Google. OpenClaw supporte Google comme fournisseur de première classe.

DeepSeek

DeepSeek V3.2 est le modèle cloud le moins cher du marché ($0,28/$0,42 par M tokens, avec un cache hit à $0,028 input). Beaucoup d’utilisateurs OpenClaw l’utilisent pour 80-90% des tâches routinières et basculent vers Claude ou GPT uniquement pour les tâches complexes. Le tool calling est moins fiable que Claude mais acceptable pour les cas simples.

Ollama (modèles locaux)

Pour une confidentialité totale et zéro coût API, Ollama permet d’exécuter des modèles open-weight localement. OpenClaw est fournisseur officiel Ollama depuis mars 2026. Les modèles locaux recommandés :

Modèle	VRAM nécessaire	Vitesse (RTX 4090)	Notes
Qwen3.5 27B	20 Go+	~40 t/s	Meilleure qualité locale, proche GPT-5 Mini
Qwen3.5 35B-A3B (MoE)	16 Go	~112 t/s	Très rapide, bon pour le boilerplate
Qwen3.5 9B	8 Go	Rapide	Léger, suffisant pour les tâches simples

L’installation Ollama avec OpenClaw est directe :

# Installer Ollama
curl -fsSL https://ollama.com/install.sh | sh

# Tirer un modèle (choisir selon votre GPU)
ollama pull qwen3.5:27b      # Meilleure qualité, 20 Go+ VRAM
ollama pull qwen3.5:35b-a3b  # Rapide MoE, 16 Go VRAM
ollama pull qwen3.5:9b       # Léger, 8 Go VRAM

# Configurer OpenClaw pour Ollama
openclaw config set agents.defaults.model.primary "ollama/qwen3.5:27b"
openclaw gateway restart

Le compromis est clair : les modèles locaux sont en dessous de GPT-4o et Claude Sonnet pour le raisonnement multi-étapes complexe. Mais pour les tâches d’automatisation personnelle, la gestion de calendrier et la recherche web simple, un modèle 7B-14B local est largement suffisant. L’intégration Ollama fournit automatiquement le plugin web search and fetch, ce qui donne au modèle local la capacité de chercher sur le web.

Contexte minimum pour les modèles locaux OpenClaw nécessite un contexte d’au moins 64K tokens pour fonctionner correctement. Les instructions système d’OpenClaw (fichiers .md, mémoire, skills) occupent déjà une partie significative du contexte. Si votre modèle local est configuré avec un contexte de 8K (le défaut de beaucoup de configurations), il ne pourra même pas charger les instructions d’OpenClaw. Configurez au minimum 32K, idéalement 64K+.

Agrégateurs de modèles

Les agrégateurs comme OpenRouter, Together AI et haimaker.ai permettent d’accéder à plusieurs fournisseurs via une seule API. L’avantage : vous pouvez basculer entre Claude, GPT, Mistral, DeepSeek et des modèles open-source sans changer de fournisseur. L’inconvénient : un léger surcoût et une latence additionnelle.

OpenClaw supporte tout endpoint compatible OpenAI via le champ "Custom OpenAI-compatible endpoint" dans le wizard. Configurez le baseUrl vers l’agrégateur de votre choix et utilisez la clé API de l’agrégateur.

Cette approche est particulièrement utile pour les équipes qui veulent centraliser la gestion des clés API et bénéficier du failover automatique entre fournisseurs proposé par l’agrégateur.

Configurer les modèles

Via le wizard d’onboarding

Lors de l’installation, le wizard vous guide dans le choix du fournisseur et du modèle. Vous pouvez y revenir à tout moment avec openclaw configure.

Via la ligne de commande

# Authentification
openclaw models auth paste-token --provider anthropic
# Collez votre clé : sk-ant-api03-xxxxx

# Définir le modèle primaire
openclaw config set agents.defaults.model.primary claude-sonnet-4-6-20250514

# Définir un fallback
openclaw config set agents.defaults.model.secondary gpt-4o

# Vérifier la configuration
openclaw doctor --check models

# Tester un modèle spécifique
openclaw agent --model anthropic/claude-opus-4-6 --message "Test"

Via le fichier de configuration

{
  "models": {
    "providers": {
      "anthropic": {
        "apiKey": "${ANTHROPIC_API_KEY}",
        "baseUrl": "https://api.anthropic.com"
      },
      "openai": {
        "apiKey": "${OPENAI_API_KEY}",
        "baseUrl": "https://api.openai.com/v1"
      },
      "ollama": {
        "baseUrl": "http://localhost:11434/v1",
        "apiKey": "ollama-local",
        "api": "openai-completions"
      }
    }
  },
  "agents": {
    "defaults": {
      "model": {
        "primary": "anthropic/claude-sonnet-4-6-20250514",
        "secondary": "openai/gpt-4o"
      }
    }
  }
}

Les clés API sont stockées localement dans votre répertoire home et ne sont jamais transmises ailleurs qu’au fournisseur LLM pendant l’inférence.

Système de tiers et fallback

OpenClaw utilise un système à trois tiers, chacun servant un objectif différent.

Primaire. Votre modèle principal. Il gère la génération de code, le debugging complexe, l’analyse d’architecture, tout ce qui demande un raisonnement fort. Mettez le meilleur modèle que votre budget autorise.

Fallback. S’active automatiquement quand le modèle primaire échoue (erreur 429 rate limit, timeout, erreur 500). Choisissez un fournisseur différent du primaire pour vous protéger contre les pannes fournisseur. Une légère dégradation de qualité est acceptable : c’est un filet de sécurité.

Économique. Pour les tâches simples, les lectures de fichiers, le boilerplate. Un modèle peu coûteux ou local suffit largement.

{
  "models": {
    "fallback": [
      {
        "model": "anthropic/claude-sonnet-4-6",
        "condition": "rate_limit",
        "maxRetries": 3
      },
      {
        "model": "openai/gpt-4o",
        "condition": "error",
        "maxRetries": 2
      },
      {
        "model": "ollama/qwen3.5:27b",
        "condition": "always"
      }
    ]
  }
}

Routage par canal et par tâche

OpenClaw permet de router des modèles différents selon le canal ou le type de session.

{
  "agents": {
    "byChannel": {
      "telegram": { "model": "anthropic/claude-haiku-4-5" },
      "whatsapp": { "model": "anthropic/claude-sonnet-4-6" }
    },
    "bySessionType": {
      "main": { "model": "anthropic/claude-opus-4-6" },
      "group": { "model": "anthropic/claude-haiku-4-5" }
    },
    "taskModels": {
      "code": "anthropic/claude-opus-4-6",
      "reasoning": "anthropic/claude-opus-4-6",
      "chat": "anthropic/claude-sonnet-4-6",
      "simple": "anthropic/claude-haiku-4-5"
    }
  }
}

Ce routage granulaire optimise le rapport coût/qualité. Opus pour les tâches critiques, Haiku pour les groupes Telegram où la vitesse compte plus que la profondeur, Sonnet pour l’usage courant sur WhatsApp.

Coûts mensuels réalistes

OpenClaw consomme beaucoup plus de tokens qu’un chat classique. Chaque tâche déclenche 5 à 10 appels API (lecture de fichiers, exécution d’outils, raisonnement, révisions), et chaque appel renvoie le contexte complet de la conversation. Les estimations basées sur les retours communautaires :

Modèle	Léger (10-15 tâches/j)	Modéré (30-50 tâches/j)	Intensif (100+/j)
Claude Opus 4.6	80-150 $/mois	200-400 $/mois	500-750+ $/mois
Claude Sonnet 4.6	15-30 $/mois	40-80 $/mois	100-200 $/mois
GPT-4o	12-25 $/mois	30-60 $/mois	80-150 $/mois
DeepSeek / Haiku	5-15 $/mois	15-30 $/mois	< 30 $/mois
Ollama (local)	0 $ (coût électricité + matériel uniquement)

L’approche hybride est la plus populaire : un modèle local (Ollama) pour les tâches simples (60-70% du volume), et un modèle cloud pour les tâches complexes (30-40%). Cela réduit les coûts de 50 à 70% par rapport à un usage cloud exclusif.

Surveillez vos coûts Configurez un plafond de dépense chez votre fournisseur LLM. Surveillez avec openclaw usage --today. Une facture qui double sans raison peut indiquer un problème de sécurité ou un emballement de l’agent. Utilisez /compact régulièrement pour réduire le contexte et donc la consommation de tokens.

Quel modèle choisir ?

Le choix se résume à trois critères qui se font concurrence : qualité, coût et confidentialité. Vous pouvez optimiser deux sur trois, rarement les trois.

Pour commencer. Claude Sonnet 4.6. Il gère la plupart des tâches quotidiennes sans surprendre la facture, et la majorité des guides communautaires sont écrits pour lui.

Pour du code de production. Claude Opus 4.6. Le surcoût se justifie quand vous debuggez un problème async complexe à 2h du matin et que le modèle trouve la solution du premier coup.

Pour les documents longs. Gemini 3.1 Pro. Rien d’autre ne vous donne 1M tokens de contexte. Alimentez-le avec un repo entier, un contrat complet, ou un fil de discussion entier.

Pour la confidentialité. Modèles locaux via Ollama. Qwen3.5 27B ou Llama 3.3 70B. Vos données ne quittent jamais votre machine.

Pour le budget minimum. DeepSeek V3.2 pour les tâches simples, ou Ollama si vous avez le matériel.

L’approche hybride. La configuration la plus répandue dans la communauté :

{
  "agents": {
    "defaults": {
      "model": {
        "primary": "ollama/qwen3.5:27b",
        "thinking": "anthropic/claude-sonnet-4-6"
      }
    }
  }
}

Le modèle local gère les lectures de fichiers, les éditions simples et le boilerplate. Le modèle cloud intervient pour le raisonnement complexe.

Basculer entre modèles en cours de session

OpenClaw rend le changement de modèle trivial. En cours de conversation, tapez /model anthropic/claude-opus-4-6 pour basculer vers Opus sur une tâche complexe, puis /model ollama/qwen3.5:27b pour revenir sur le modèle local pour la suite. Le changement prend effet immédiatement, sans perte de contexte de la conversation. C’est l’un des avantages d’OpenClaw par rapport aux assistants mono-modèle : vous adaptez le niveau de puissance (et le coût) à chaque tâche plutôt que de payer le prix fort pour tout.

Pour les utilisateurs qui veulent automatiser ce choix, le routage par type de tâche (taskModels) laisse OpenClaw sélectionner automatiquement le bon modèle selon la nature de la requête : Opus pour le code et le raisonnement, Sonnet pour le chat courant, Haiku pour les tâches simples. Cette configuration se fait une fois et fonctionne ensuite sans intervention.

Dépannage

Erreur « maximum context length exceeded »

Votre conversation plus le contexte de la codebase dépasse la fenêtre du modèle. Solutions : réduisez max_context_usage dans la config agent, activez la compression agressive (compress_after_messages: 10), limitez la taille des fichiers inclus, ou basculez vers un modèle avec une fenêtre plus grande (Gemini 3.1 Pro avec 1M tokens).

Ollama : « Connection refused » sur localhost:11434

Ollama n’est pas démarré. Lancez ollama serve dans un terminal séparé. Vérifiez avec curl http://localhost:11434/api/tags. Si vous êtes dans Docker, assurez-vous que le container OpenClaw peut accéder au réseau hôte.

Le modèle local donne des réponses génériques

Le contexte est probablement trop petit. Les instructions d’OpenClaw (SKILL.md, mémoire, system prompt) ne tiennent pas dans 8K tokens. Augmentez le contextWindow à au moins 32K (idéalement 64K). Vérifiez aussi que le champ reasoning est correctement configuré pour votre modèle.

Les appels d’outils échouent avec un modèle local

Tous les modèles locaux ne gèrent pas correctement le format de tool calling d’OpenClaw. Réglez "reasoning": false dans la config du modèle et préférez les modèles Qwen3.5 qui sont les plus fiables pour ce format. Mettez à jour Ollama à la dernière version car le support officiel a corrigé plusieurs cas limites.

Questions fréquentes

Peut-on utiliser plusieurs modèles simultanément dans OpenClaw ?

Oui. OpenClaw supporte un modèle primaire et un modèle secondaire (fallback), plus un modèle économique. Vous pouvez aussi router par canal (Haiku pour Telegram, Sonnet pour WhatsApp) ou par type de tâche (Opus pour le code, Haiku pour le chat simple). Le basculement entre modèles se fait aussi en cours de conversation avec la commande /model. La seule limite : un seul modèle actif par session à un instant donné.

Les modèles locaux Ollama sont-ils assez bons pour un usage quotidien ?

Pour les tâches simples et la confidentialité, oui. Un Qwen3.5 27B avec un bon GPU gère les lectures de fichiers, les résumés, les réponses simples et le boilerplate de manière satisfaisante. Pour le raisonnement multi-étapes complexe, le debugging avancé, ou les conversations très longues, les modèles cloud (Claude Opus, GPT-4o) restent nettement supérieurs. La plupart des utilisateurs avancés adoptent un setup hybride : local pour 60-70% des interactions, cloud pour le reste.

Combien coûte OpenClaw par mois en utilisation réelle ?

Le coût varie énormément selon le modèle et l’intensité d’usage. Avec Claude Sonnet 4.6, un usage modéré (30-50 tâches/jour) coûte 40 à 80 $/mois. Avec Opus, le même usage monte à 200-400 $/mois. Avec DeepSeek ou Haiku pour les tâches routinières, vous restez sous 30 $/mois. Un setup hybride (Ollama + Claude Sonnet pour les tâches complexes) revient à 15-40 $/mois. Ajoutez le coût du VPS (5-10 $/mois) si vous ne tournez pas en local. Surveillez vos coûts avec openclaw usage --today pendant la première semaine.

Comment basculer entre Claude et GPT sans reconfigurer ?

Utilisez la commande /model en cours de conversation pour basculer à la volée. Pour un changement persistant, lancez openclaw config set agents.defaults.model.primary openai/gpt-4o et redémarrez le Gateway. Les deux fournisseurs peuvent coexister dans la même configuration : Claude comme primaire, GPT comme fallback (ou l’inverse). OpenClaw gère la transition automatiquement en cas d’erreur du fournisseur primaire.

Pourquoi Claude est-il recommandé plutôt que GPT pour OpenClaw ?

Claude excelle dans les trois compétences critiques pour un agent autonome : le tool calling (invocation fiable et précise des outils), le suivi de contexte long (se souvenir des instructions 50 messages plus tard), et le respect strict des instructions. Cela réduit les automatisations cassées et les risques de sécurité. GPT-4o est un bon all-rounder mais Claude est plus prévisible dans le contexte agentique. Le choix n’est pas absolu : pour certains usages (multilingue, vision, coût), GPT ou Gemini peuvent être préférables.