Ollama
Ollama est un outil open source qui permet de télécharger, exécuter et gérer des LLM en local sur votre machine (Mac, Linux, Windows) en une seule commande, sans configuration complexe. Il utilise llama.cpp/GGML comme moteur d’inférence et les modèles au format GGUF, avec une API REST compatible OpenAI et Anthropic.
C’est le moyen le plus simple de faire tourner un LLM sur votre poste. Vous installez Ollama, vous tapez ollama run llama3.1, et le modèle se télécharge et démarre. Pas de Python à configurer, pas de dépendances à gérer, pas de GPU obligatoire. Ollama a évolué bien au-delà d’un simple lanceur de modèles locaux : il intègre désormais OpenClaw (un assistant IA personnel), le support de modèles cloud, la compatibilité avec Claude Code et Codex, la recherche web, et un écosystème d’intégrations très riche.
- Type
- Outil d’inférence et de gestion de LLM locaux (+ cloud)
- Version stable
- v0.18.1 (18 mars 2026)
- Plateformes
- macOS (14+), Linux, Windows, Docker
- Moteur
- llama.cpp / GGML (+ MLX sur Apple Silicon)
- Format de modèle
- GGUF
- API
- REST compatible OpenAI + Anthropic Messages API
- Bibliothèque de modèles
- Llama 3.1/3.2, DeepSeek, Qwen 3.5, Gemma 3, Mistral, Phi, Nemotron, gpt-oss, et plus
- Licence
- MIT
- URL
- ollama.com
Installation et premier lancement
L’installation est triviale sur toutes les plateformes :
# macOS / Linux
curl -fsSL https://ollama.com/install.sh | sh
# Lancer un modèle (téléchargement automatique)
ollama run llama3.1
# Modèle avec quantification spécifique
ollama run llama3.1:8b-q4_K_M
# Modèle de raisonnement
ollama run deepseek-r1:32b
Sur Windows, un installateur graphique est disponible sur ollama.com. Sur Docker : docker run -d --gpus all -p 11434:11434 ollama/ollama.
Ollama détecte automatiquement votre matériel au démarrage (GPU NVIDIA via CUDA, GPU AMD via ROCm, Apple Silicon via Metal, ou CPU). Il suggère la quantification optimale en fonction de votre VRAM/RAM disponible. Par défaut, les modèles sont téléchargés en Q4_K_M, le format GGUF recommandé par la communauté llama.cpp pour le meilleur compromis qualité/taille.
Bibliothèque de modèles
La bibliothèque Ollama (ollama.com/library) donne accès à des centaines de modèles pré-configurés, classés par catégorie : texte, vision, raisonnement (thinking), outils (tools), cloud, et agents. Parmi les plus populaires :
| Modèle | Taille | Spécialité | RAM/VRAM min (Q4) |
|---|---|---|---|
| Llama 3.1 | 8B / 70B | Généraliste, le plus téléchargé | ~5 Go / ~40 Go |
| DeepSeek-R1 | 1.5B à 671B | Raisonnement avancé (thinking) | ~1 Go à ~40 Go (distillé 32B) |
| Qwen 3.5 | 0.8B à 122B | Multimodal, multilingue, tools | Variable |
| Gemma 3 | 1B à 27B | Vision + texte (multimodal) | ~3 Go / ~16 Go |
| Mistral Small | 24B | Function calling, instruction following | ~14 Go |
| Phi-4-mini | 3.8B | Multilingue, maths, function calling | ~3 Go |
| gpt-oss | 20B / 120B | Code, agent (OpenAI open-weight) | ~12 Go / ~70 Go |
| Nemotron-3-Super | 122B (MoE, 12B actifs) | Raisonnement, tool calling, agents | Variable (MoE) |
| Nomic Embed Text | 274 Mo | Embeddings texte | < 1 Go |
Chaque modèle est disponible en plusieurs variantes de quantification (tags). Par exemple, llama3.1:8b-q4_K_M (4 bits, ~5 Go) ou llama3.1:8b-q8_0 (8 bits, ~8,5 Go). Le tag par défaut (sans précision) pointe généralement vers Q4_K_M.
OpenClaw : Ollama comme assistant IA personnel
OpenClaw est un assistant IA open source intégré à Ollama qui connecte vos applications de messagerie (WhatsApp, Telegram, Slack, Discord) à des agents IA locaux ou cloud. C’est l’évolution d’Ollama d’un simple lanceur de modèles vers une plateforme d’agents.
# Lancer OpenClaw
ollama launch openclaw
# OpenClaw avec un modèle spécifique
ollama launch openclaw --model nemotron-3-super:cloud
OpenClaw supporte aussi les plugins. La v0.18.1 introduit un plugin de recherche web et de fetch web, permettant aux modèles locaux de chercher des informations actuelles sur internet :
# Installer le plugin web search
openclaw plugins install @ollama/openclaw-web-search
ollama launch : agents et outils de code
La commande ollama launch configure et lance des outils de coding comme Claude Code, Codex (OpenAI), et OpenCode avec des modèles locaux ou cloud, sans variables d’environnement ni fichiers de configuration :
# Lancer Claude Code avec un modèle local
ollama launch claude
# Lancer Codex avec un modèle cloud
ollama launch codex --model gpt-oss:120b
# Mode non-interactif (CI/CD, scripts)
ollama launch claude
--model glm-5:cloud
--yes
-- "Review this PR and comment on GitHub."
Le mode non-interactif (--yes) permet d’intégrer Ollama dans des pipelines CI/CD, des GitHub Actions, et d’autres environnements automatisés.
API et intégrations
API REST
Ollama expose une API REST sur le port 11434. Elle est compatible avec l’API OpenAI Chat Completions et, depuis les versions récentes, avec l’API Anthropic Messages. Cela signifie que toute application conçue pour OpenAI ou Claude peut pointer vers Ollama sans modification de code :
# API chat (format OpenAI)
curl http://localhost:11434/v1/chat/completions
-H "Content-Type: application/json"
-d '{
"model": "llama3.1",
"messages": [{"role": "user", "content": "Bonjour !"}]
}'
# API native Ollama
curl http://localhost:11434/api/chat -d '{
"model": "gemma3",
"messages": [{"role": "user", "content": "Bonjour !"}],
"stream": false
}'
SDKs Python et JavaScript
from ollama import chat
response = chat(
model="llama3.1",
messages=[{"role": "user", "content": "Bonjour !"}],
)
print(response.message.content)
Intégrations tierces
L’écosystème d’intégrations Ollama est massif : Cline et Continue (extensions VS Code), LangChain, LlamaIndex, CrewAI, et des dizaines d’autres outils. La compatibilité API OpenAI + Anthropic signifie que quasiment tout outil qui supporte ces API fonctionne avec Ollama.
Ollama Cloud
Ollama a étendu son offre au-delà du local avec un service cloud. Les modèles tagués :cloud (comme nemotron-3-super:cloud ou glm-5:cloud) sont exécutés sur les serveurs d’Ollama, permettant d’accéder à des modèles très gros sans le matériel correspondant. Le service inclut aussi une API de recherche web avec un tier gratuit pour les utilisateurs individuels.
Modelfiles : personnalisation des modèles
Les Modelfiles sont le système de configuration d’Ollama, similaire aux Dockerfiles. Ils permettent de créer des modèles personnalisés avec un system prompt, des paramètres (température, top_p, top_k), et des templates de chat spécifiques :
FROM llama3.1:8b
SYSTEM "Vous êtes un assistant technique spécialisé en Python."
PARAMETER temperature 0.3
PARAMETER top_p 0.9
# Créer le modèle personnalisé
ollama create mon-assistant -f Modelfile
# Le lancer
ollama run mon-assistant
Matériel et performances
Ollama fonctionne sur une gamme de matériel très large :
Apple Silicon (M1-M4) : excellentes performances grâce à la mémoire unifiée et Metal. Un MacBook Air M2 16 Go fait tourner confortablement un modèle 8B en Q4_K_M. Ollama utilise aussi le runner MLX (optimisé pour Apple Silicon) en plus de llama.cpp.
GPU NVIDIA (CUDA) : offloading automatique. Les modèles qui tiennent dans la VRAM sont entièrement chargés sur le GPU. Sinon, Ollama utilise un split CPU+GPU transparent.
GPU AMD (ROCm) : supporté sous Linux.
CPU seul : fonctionnel mais plus lent. Comptez 8 à 15 tok/s pour un 8B en Q4_K_M sur un CPU moderne. Suffisant pour de la conversation mais pas pour du batch processing.
NVIDIA Jetson / DGX Spark : Ollama a annoncé un partenariat avec NVIDIA pour optimiser les performances sur DGX Spark et les appareils Jetson.
Cas d’usage concrets
Développement assisté par IA. Ollama + Claude Code ou Codex permet aux développeurs d’utiliser un LLM pour la revue de code, le débogage, et la génération de code directement depuis le terminal, avec des modèles locaux (pour la confidentialité du code source) ou cloud (pour les tâches complexes). Le mode non-interactif (--yes) intègre ces workflows dans les pipelines CI/CD.
RAG local (chat avec vos documents). En combinant un modèle de génération (Llama 3.1, Qwen 3.5) avec un modèle d’embeddings (Nomic Embed) et un vector store local (ChromaDB, Qdrant), vous construisez un système de Q&A sur vos documents sans aucune donnée envoyée vers le cloud. C’est le cas d’usage le plus populaire pour les entreprises soucieuses de confidentialité.
Prototypage et évaluation de modèles. Ollama est le moyen le plus rapide de tester un nouveau modèle. Un ollama run suffit pour évaluer un modèle sur vos propres prompts avant de décider s’il mérite un déploiement production via vLLM.
Assistants personnalisés. Les Modelfiles permettent de créer des assistants spécialisés (assistant juridique, assistant technique, chatbot support client) avec des system prompts et des paramètres ajustés, distribuables à toute une équipe via ollama push.
Éducation et apprentissage. Pour les étudiants et les curieux qui veulent comprendre comment fonctionnent les LLM sans budget cloud, Ollama offre un accès gratuit et immédiat à des modèles de pointe. Un ordinateur portable de base suffit pour les modèles jusqu’à 8B.
Ollama vs LM Studio vs Jan
| Critère | Ollama | LM Studio | Jan |
|---|---|---|---|
| Interface | CLI + API (pas de GUI native) | GUI complète | GUI complète |
| API serveur | OpenAI + Anthropic compatible | OpenAI compatible | OpenAI compatible |
| Gestion de modèles | ollama.com/library (intégré) | Browse HF Hub (intégré) | Browse + import |
| Agents / outils | OpenClaw, ollama launch (Claude Code, Codex) | Non | Extensions |
| Cloud models | Oui (:cloud) | Non (local uniquement) | Non (local uniquement) |
| Docker | Oui (image officielle) | Non | Non |
| Open source | Oui (MIT) | Non (propriétaire, gratuit) | Oui (AGPL) |
| Personnalisation | Modelfiles | Via UI | Via UI + fichiers |
| Public cible | Développeurs, CI/CD, agents | Tous publics, non-développeurs | Privacy-first, communauté |
Gestion avancée des modèles
Ollama fournit un ensemble de commandes pour gérer le cycle de vie complet des modèles :
# Lister les modèles installés
ollama list
# Télécharger un modèle sans le lancer
ollama pull qwen3.5:27b
# Supprimer un modèle
ollama rm llama3.1:8b
# Voir les détails d'un modèle (taille, quantification, paramètres)
ollama show llama3.1
# Copier/dupliquer un modèle (pour personnalisation)
ollama cp llama3.1 mon-llama
# Pousser un modèle personnalisé vers le cloud Ollama
ollama push mon-assistant
Les modèles sont stockés localement sous forme de blobs dans un répertoire de cache. Ollama utilise un système de couches (layers) similaire à Docker : les couches communes entre modèles sont partagées, ce qui économise l’espace disque. Par exemple, télécharger deux variantes de quantification du même modèle ne duplique pas le tokenizer ni les métadonnées.
Fonctionnalités avancées
Structured outputs. Ollama supporte la génération contrainte par schéma JSON, forçant le modèle à produire des sorties dans un format structuré prédéfini. C’est essentiel pour les workflows d’agents et l’intégration dans des pipelines de données.
Thinking mode. Ollama permet d’activer ou désactiver le mode « thinking » (réflexion) sur les modèles qui le supportent (DeepSeek-R1, Qwen QwQ, etc.). Cela donne la flexibilité de choisir entre des réponses rapides et directes ou des réponses avec raisonnement explicite, selon le cas d’usage.
Streaming avec tool calling. Les réponses peuvent être streamées en temps réel tout en appelant des outils (functions) simultanément. Les applications de chat peuvent ainsi afficher du contenu progressivement et exécuter des actions en parallèle.
Embeddings. Au-delà de la génération de texte, Ollama supporte les modèles d’embeddings (Nomic Embed, mxbai-embed, etc.) via l’endpoint /api/embed. Cela permet de construire des pipelines RAG entièrement locaux sans dépendance à une API cloud.
Génération d’images locale. Sur macOS, Ollama supporte la génération d’images localement (support Windows et Linux en cours). C’est une fonctionnalité récente qui étend Ollama au-delà du texte pur.
Scheduling intelligent multi-GPU. Le système de scheduling des modèles a été significativement amélioré pour réduire les crashs OOM, maximiser l’utilisation GPU, et mieux gérer les systèmes multi-GPU. Ollama détecte automatiquement la meilleure répartition des couches entre les GPU disponibles.
Limites
Pas d’interface graphique native. Ollama est un outil CLI et API. Pour une UI de chat, il faut utiliser une application tierce (Open WebUI, Chatbox, etc.) ou OpenClaw.
Throughput inférieur à vLLM pour le serving multi-utilisateurs. Ollama est conçu pour l’usage individuel ou l’intégration dans des outils, pas pour le serving haute concurrence à des centaines d’utilisateurs. Pour ça, utilisez vLLM.
Format GGUF uniquement. Ollama ne charge que des modèles au format GGUF. Les modèles GPTQ ou AWQ en SafeTensors ne sont pas compatibles directement. Il faut soit utiliser un modèle GGUF pré-converti, soit convertir soi-même depuis les poids FP16.
Questions fréquentes sur Ollama
Ollama est-il gratuit ?
Oui. Ollama est entièrement open source (MIT) et gratuit pour l’usage local. Le service Ollama Cloud propose un tier gratuit pour la recherche web et l’accès aux modèles cloud, avec des limites de taux plus élevées en abonnement.
Faut-il un GPU pour utiliser Ollama ?
Non. Ollama fonctionne sur CPU seul, bien que plus lentement. Un modèle 8B en Q4_K_M génère environ 8 à 15 tokens/seconde sur un CPU moderne, ce qui est suffisant pour de la conversation. Un GPU accélère considérablement les choses (30-50+ tok/s sur Apple Silicon M2+, 60-100+ tok/s sur RTX 4090).
Comment utiliser Ollama avec Claude Code ou Codex ?
Utilisez ollama launch claude pour configurer Claude Code avec un modèle local ou cloud. Ollama est compatible avec l’API Anthropic Messages, ce qui permet à Claude Code de fonctionner directement avec des modèles open source. Pour Codex : ollama launch codex --model gpt-oss:20b. Aucune variable d’environnement ni fichier de configuration nécessaire.
Quel modèle choisir pour commencer ?
Llama 3.1 8B est le choix le plus sûr pour débuter : polyvalent, rapide, et il tourne sur quasiment tout matériel avec 8+ Go de RAM. Pour le raisonnement avancé : DeepSeek-R1 (la version 32B distillée rivalise avec GPT-4 sur les tâches techniques). Pour la vision (analyse d’images) : Gemma 3 4B ou Llama 3.2 Vision 11B. Pour les embeddings : Nomic Embed Text.
Ollama peut-il servir plusieurs utilisateurs en même temps ?
Ollama gère les requêtes concurrentes via son API, mais il n’est pas optimisé pour le serving haute concurrence comme vLLM. Pour un usage personnel ou une petite équipe (quelques utilisateurs simultanés), Ollama fonctionne bien. Pour servir des dizaines ou centaines d’utilisateurs, utilisez vLLM avec des modèles AWQ/GPTQ et les kernels Marlin.