Ollama

Ollama est un outil open source qui permet de télécharger, exécuter et gérer des LLM en local sur votre machine (Mac, Linux, Windows) en une seule commande, sans configuration complexe. Il utilise llama.cpp/GGML comme moteur d’inférence et les modèles au format GGUF, avec une API REST compatible OpenAI et Anthropic.

C’est le moyen le plus simple de faire tourner un LLM sur votre poste. Vous installez Ollama, vous tapez ollama run llama3.1, et le modèle se télécharge et démarre. Pas de Python à configurer, pas de dépendances à gérer, pas de GPU obligatoire. Ollama a évolué bien au-delà d’un simple lanceur de modèles locaux : il intègre désormais OpenClaw (un assistant IA personnel), le support de modèles cloud, la compatibilité avec Claude Code et Codex, la recherche web, et un écosystème d’intégrations très riche.

Type: Outil d’inférence et de gestion de LLM locaux (+ cloud)
Version stable: v0.18.1 (18 mars 2026)
Plateformes: macOS (14+), Linux, Windows, Docker
Moteur: llama.cpp / GGML (+ MLX sur Apple Silicon)
Format de modèle: GGUF
API: REST compatible OpenAI + Anthropic Messages API
Bibliothèque de modèles: Llama 3.1/3.2, DeepSeek, Qwen 3.5, Gemma 3, Mistral, Phi, Nemotron, gpt-oss, et plus
Licence: MIT
URL: ollama.com

Installation et premier lancement

L’installation est triviale sur toutes les plateformes :

# macOS / Linux
curl -fsSL https://ollama.com/install.sh | sh

# Lancer un modèle (téléchargement automatique)
ollama run llama3.1

# Modèle avec quantification spécifique
ollama run llama3.1:8b-q4_K_M

# Modèle de raisonnement
ollama run deepseek-r1:32b

Sur Windows, un installateur graphique est disponible sur ollama.com. Sur Docker : docker run -d --gpus all -p 11434:11434 ollama/ollama.

Ollama détecte automatiquement votre matériel au démarrage (GPU NVIDIA via CUDA, GPU AMD via ROCm, Apple Silicon via Metal, ou CPU). Il suggère la quantification optimale en fonction de votre VRAM/RAM disponible. Par défaut, les modèles sont téléchargés en Q4_K_M, le format GGUF recommandé par la communauté llama.cpp pour le meilleur compromis qualité/taille.

Bibliothèque de modèles

La bibliothèque Ollama (ollama.com/library) donne accès à des centaines de modèles pré-configurés, classés par catégorie : texte, vision, raisonnement (thinking), outils (tools), cloud, et agents. Parmi les plus populaires :

Modèle	Taille	Spécialité	RAM/VRAM min (Q4)
Llama 3.1	8B / 70B	Généraliste, le plus téléchargé	~5 Go / ~40 Go
DeepSeek-R1	1.5B à 671B	Raisonnement avancé (thinking)	~1 Go à ~40 Go (distillé 32B)
Qwen 3.5	0.8B à 122B	Multimodal, multilingue, tools	Variable
Gemma 3	1B à 27B	Vision + texte (multimodal)	~3 Go / ~16 Go
Mistral Small	24B	Function calling, instruction following	~14 Go
Phi-4-mini	3.8B	Multilingue, maths, function calling	~3 Go
gpt-oss	20B / 120B	Code, agent (OpenAI open-weight)	~12 Go / ~70 Go
Nemotron-3-Super	122B (MoE, 12B actifs)	Raisonnement, tool calling, agents	Variable (MoE)
Nomic Embed Text	274 Mo	Embeddings texte	< 1 Go

Chaque modèle est disponible en plusieurs variantes de quantification (tags). Par exemple, llama3.1:8b-q4_K_M (4 bits, ~5 Go) ou llama3.1:8b-q8_0 (8 bits, ~8,5 Go). Le tag par défaut (sans précision) pointe généralement vers Q4_K_M.

OpenClaw : Ollama comme assistant IA personnel

OpenClaw est un assistant IA open source intégré à Ollama qui connecte vos applications de messagerie (WhatsApp, Telegram, Slack, Discord) à des agents IA locaux ou cloud. C’est l’évolution d’Ollama d’un simple lanceur de modèles vers une plateforme d’agents.

# Lancer OpenClaw
ollama launch openclaw

# OpenClaw avec un modèle spécifique
ollama launch openclaw --model nemotron-3-super:cloud

OpenClaw supporte aussi les plugins. La v0.18.1 introduit un plugin de recherche web et de fetch web, permettant aux modèles locaux de chercher des informations actuelles sur internet :

# Installer le plugin web search
openclaw plugins install @ollama/openclaw-web-search

ollama launch : agents et outils de code

La commande ollama launch configure et lance des outils de coding comme Claude Code, Codex (OpenAI), et OpenCode avec des modèles locaux ou cloud, sans variables d’environnement ni fichiers de configuration :

# Lancer Claude Code avec un modèle local
ollama launch claude

# Lancer Codex avec un modèle cloud
ollama launch codex --model gpt-oss:120b

# Mode non-interactif (CI/CD, scripts)
ollama launch claude 
    --model glm-5:cloud 
    --yes 
    -- "Review this PR and comment on GitHub."

Le mode non-interactif (--yes) permet d’intégrer Ollama dans des pipelines CI/CD, des GitHub Actions, et d’autres environnements automatisés.

API et intégrations

API REST

Ollama expose une API REST sur le port 11434. Elle est compatible avec l’API OpenAI Chat Completions et, depuis les versions récentes, avec l’API Anthropic Messages. Cela signifie que toute application conçue pour OpenAI ou Claude peut pointer vers Ollama sans modification de code :

# API chat (format OpenAI)
curl http://localhost:11434/v1/chat/completions 
    -H "Content-Type: application/json" 
    -d '{
        "model": "llama3.1",
        "messages": [{"role": "user", "content": "Bonjour !"}]
    }'

# API native Ollama
curl http://localhost:11434/api/chat -d '{
    "model": "gemma3",
    "messages": [{"role": "user", "content": "Bonjour !"}],
    "stream": false
}'

SDKs Python et JavaScript

from ollama import chat

response = chat(
    model="llama3.1",
    messages=[{"role": "user", "content": "Bonjour !"}],
)
print(response.message.content)

Intégrations tierces

L’écosystème d’intégrations Ollama est massif : Cline et Continue (extensions VS Code), LangChain, LlamaIndex, CrewAI, et des dizaines d’autres outils. La compatibilité API OpenAI + Anthropic signifie que quasiment tout outil qui supporte ces API fonctionne avec Ollama.

Ollama Cloud

Ollama a étendu son offre au-delà du local avec un service cloud. Les modèles tagués :cloud (comme nemotron-3-super:cloud ou glm-5:cloud) sont exécutés sur les serveurs d’Ollama, permettant d’accéder à des modèles très gros sans le matériel correspondant. Le service inclut aussi une API de recherche web avec un tier gratuit pour les utilisateurs individuels.

Modelfiles : personnalisation des modèles

Les Modelfiles sont le système de configuration d’Ollama, similaire aux Dockerfiles. Ils permettent de créer des modèles personnalisés avec un system prompt, des paramètres (température, top_p, top_k), et des templates de chat spécifiques :

FROM llama3.1:8b
SYSTEM "Vous êtes un assistant technique spécialisé en Python."
PARAMETER temperature 0.3
PARAMETER top_p 0.9

# Créer le modèle personnalisé
ollama create mon-assistant -f Modelfile

# Le lancer
ollama run mon-assistant

Matériel et performances

Ollama fonctionne sur une gamme de matériel très large :

Apple Silicon (M1-M4) : excellentes performances grâce à la mémoire unifiée et Metal. Un MacBook Air M2 16 Go fait tourner confortablement un modèle 8B en Q4_K_M. Ollama utilise aussi le runner MLX (optimisé pour Apple Silicon) en plus de llama.cpp.

GPU NVIDIA (CUDA) : offloading automatique. Les modèles qui tiennent dans la VRAM sont entièrement chargés sur le GPU. Sinon, Ollama utilise un split CPU+GPU transparent.

GPU AMD (ROCm) : supporté sous Linux.

CPU seul : fonctionnel mais plus lent. Comptez 8 à 15 tok/s pour un 8B en Q4_K_M sur un CPU moderne. Suffisant pour de la conversation mais pas pour du batch processing.

NVIDIA Jetson / DGX Spark : Ollama a annoncé un partenariat avec NVIDIA pour optimiser les performances sur DGX Spark et les appareils Jetson.

Règle de base pour la mémoire Un modèle 7B en Q4 nécessite environ 4 à 5 Go de RAM/VRAM. Un 13B en Q4 nécessite 8 à 9 Go. Laissez toujours 2 à 3 Go libres pour le système d’exploitation. Si un modèle ne tient pas dans la VRAM GPU, Ollama le répartit automatiquement entre GPU et CPU (plus lent mais fonctionnel).

Cas d’usage concrets

Développement assisté par IA. Ollama + Claude Code ou Codex permet aux développeurs d’utiliser un LLM pour la revue de code, le débogage, et la génération de code directement depuis le terminal, avec des modèles locaux (pour la confidentialité du code source) ou cloud (pour les tâches complexes). Le mode non-interactif (--yes) intègre ces workflows dans les pipelines CI/CD.

RAG local (chat avec vos documents). En combinant un modèle de génération (Llama 3.1, Qwen 3.5) avec un modèle d’embeddings (Nomic Embed) et un vector store local (ChromaDB, Qdrant), vous construisez un système de Q&A sur vos documents sans aucune donnée envoyée vers le cloud. C’est le cas d’usage le plus populaire pour les entreprises soucieuses de confidentialité.

Prototypage et évaluation de modèles. Ollama est le moyen le plus rapide de tester un nouveau modèle. Un ollama run suffit pour évaluer un modèle sur vos propres prompts avant de décider s’il mérite un déploiement production via vLLM.

Assistants personnalisés. Les Modelfiles permettent de créer des assistants spécialisés (assistant juridique, assistant technique, chatbot support client) avec des system prompts et des paramètres ajustés, distribuables à toute une équipe via ollama push.

Éducation et apprentissage. Pour les étudiants et les curieux qui veulent comprendre comment fonctionnent les LLM sans budget cloud, Ollama offre un accès gratuit et immédiat à des modèles de pointe. Un ordinateur portable de base suffit pour les modèles jusqu’à 8B.

Ollama vs LM Studio vs Jan

Critère	Ollama	LM Studio	Jan
Interface	CLI + API (pas de GUI native)	GUI complète	GUI complète
API serveur	OpenAI + Anthropic compatible	OpenAI compatible	OpenAI compatible
Gestion de modèles	ollama.com/library (intégré)	Browse HF Hub (intégré)	Browse + import
Agents / outils	OpenClaw, ollama launch (Claude Code, Codex)	Non	Extensions
Cloud models	Oui (:cloud)	Non (local uniquement)	Non (local uniquement)
Docker	Oui (image officielle)	Non	Non
Open source	Oui (MIT)	Non (propriétaire, gratuit)	Oui (AGPL)
Personnalisation	Modelfiles	Via UI	Via UI + fichiers
Public cible	Développeurs, CI/CD, agents	Tous publics, non-développeurs	Privacy-first, communauté

Verdict Ollama si vous êtes développeur, si vous avez besoin d’une API, si vous voulez intégrer un LLM dans vos outils (Claude Code, Codex, CI/CD), ou si vous voulez combiner local et cloud. LM Studio si vous préférez une interface graphique et que vous n’avez pas besoin d’API serveur. Jan si la vie privée et l’open source sont vos priorités absolues.

Gestion avancée des modèles

Ollama fournit un ensemble de commandes pour gérer le cycle de vie complet des modèles :

# Lister les modèles installés
ollama list

# Télécharger un modèle sans le lancer
ollama pull qwen3.5:27b

# Supprimer un modèle
ollama rm llama3.1:8b

# Voir les détails d'un modèle (taille, quantification, paramètres)
ollama show llama3.1

# Copier/dupliquer un modèle (pour personnalisation)
ollama cp llama3.1 mon-llama

# Pousser un modèle personnalisé vers le cloud Ollama
ollama push mon-assistant

Les modèles sont stockés localement sous forme de blobs dans un répertoire de cache. Ollama utilise un système de couches (layers) similaire à Docker : les couches communes entre modèles sont partagées, ce qui économise l’espace disque. Par exemple, télécharger deux variantes de quantification du même modèle ne duplique pas le tokenizer ni les métadonnées.

Fonctionnalités avancées

Structured outputs. Ollama supporte la génération contrainte par schéma JSON, forçant le modèle à produire des sorties dans un format structuré prédéfini. C’est essentiel pour les workflows d’agents et l’intégration dans des pipelines de données.

Thinking mode. Ollama permet d’activer ou désactiver le mode « thinking » (réflexion) sur les modèles qui le supportent (DeepSeek-R1, Qwen QwQ, etc.). Cela donne la flexibilité de choisir entre des réponses rapides et directes ou des réponses avec raisonnement explicite, selon le cas d’usage.

Streaming avec tool calling. Les réponses peuvent être streamées en temps réel tout en appelant des outils (functions) simultanément. Les applications de chat peuvent ainsi afficher du contenu progressivement et exécuter des actions en parallèle.

Embeddings. Au-delà de la génération de texte, Ollama supporte les modèles d’embeddings (Nomic Embed, mxbai-embed, etc.) via l’endpoint /api/embed. Cela permet de construire des pipelines RAG entièrement locaux sans dépendance à une API cloud.

Génération d’images locale. Sur macOS, Ollama supporte la génération d’images localement (support Windows et Linux en cours). C’est une fonctionnalité récente qui étend Ollama au-delà du texte pur.

Scheduling intelligent multi-GPU. Le système de scheduling des modèles a été significativement amélioré pour réduire les crashs OOM, maximiser l’utilisation GPU, et mieux gérer les systèmes multi-GPU. Ollama détecte automatiquement la meilleure répartition des couches entre les GPU disponibles.

Ollama pour le RAG local Combinaison puissante : Ollama (pour le LLM et les embeddings) + ChromaDB ou Qdrant (pour le vector store) + LangChain ou LlamaIndex (pour l’orchestration). Tout tourne en local, sans aucune donnée envoyée vers le cloud. L’API OpenAI-compatible d’Ollama permet d’utiliser les intégrations LangChain/LlamaIndex existantes sans modification.

Limites

Pas d’interface graphique native. Ollama est un outil CLI et API. Pour une UI de chat, il faut utiliser une application tierce (Open WebUI, Chatbox, etc.) ou OpenClaw.

Throughput inférieur à vLLM pour le serving multi-utilisateurs. Ollama est conçu pour l’usage individuel ou l’intégration dans des outils, pas pour le serving haute concurrence à des centaines d’utilisateurs. Pour ça, utilisez vLLM.

Format GGUF uniquement. Ollama ne charge que des modèles au format GGUF. Les modèles GPTQ ou AWQ en SafeTensors ne sont pas compatibles directement. Il faut soit utiliser un modèle GGUF pré-converti, soit convertir soi-même depuis les poids FP16.

Questions fréquentes sur Ollama

Ollama est-il gratuit ?

Oui. Ollama est entièrement open source (MIT) et gratuit pour l’usage local. Le service Ollama Cloud propose un tier gratuit pour la recherche web et l’accès aux modèles cloud, avec des limites de taux plus élevées en abonnement.

Faut-il un GPU pour utiliser Ollama ?

Non. Ollama fonctionne sur CPU seul, bien que plus lentement. Un modèle 8B en Q4_K_M génère environ 8 à 15 tokens/seconde sur un CPU moderne, ce qui est suffisant pour de la conversation. Un GPU accélère considérablement les choses (30-50+ tok/s sur Apple Silicon M2+, 60-100+ tok/s sur RTX 4090).

Comment utiliser Ollama avec Claude Code ou Codex ?

Utilisez ollama launch claude pour configurer Claude Code avec un modèle local ou cloud. Ollama est compatible avec l’API Anthropic Messages, ce qui permet à Claude Code de fonctionner directement avec des modèles open source. Pour Codex : ollama launch codex --model gpt-oss:20b. Aucune variable d’environnement ni fichier de configuration nécessaire.

Quel modèle choisir pour commencer ?

Llama 3.1 8B est le choix le plus sûr pour débuter : polyvalent, rapide, et il tourne sur quasiment tout matériel avec 8+ Go de RAM. Pour le raisonnement avancé : DeepSeek-R1 (la version 32B distillée rivalise avec GPT-4 sur les tâches techniques). Pour la vision (analyse d’images) : Gemma 3 4B ou Llama 3.2 Vision 11B. Pour les embeddings : Nomic Embed Text.

Ollama peut-il servir plusieurs utilisateurs en même temps ?

Ollama gère les requêtes concurrentes via son API, mais il n’est pas optimisé pour le serving haute concurrence comme vLLM. Pour un usage personnel ou une petite équipe (quelques utilisateurs simultanés), Ollama fonctionne bien. Pour servir des dizaines ou centaines d’utilisateurs, utilisez vLLM avec des modèles AWQ/GPTQ et les kernels Marlin.