Ollama : guide complet pour exécuter des LLM en local

Ollama est l’outil standard pour exécuter des LLM sur votre propre machine : 95 000+ étoiles GitHub, zéro coût API, zéro limite d’usage, 100% de confidentialité. Ce guide couvre l’installation, le choix des modèles, l’optimisation GPU, et les intégrations avec vos outils de développement.

Type: Runtime local pour LLM open source (basé sur llama.cpp)
Prix: Gratuit et open source
Plateformes: macOS, Linux, Windows (natif ARM64 depuis 2026), Docker
GPU supportés: NVIDIA (CUDA 525+), AMD (ROCm 6.x, Linux), Apple Silicon (Metal natif)
Modèles populaires: Llama 4, DeepSeek V3.2, Mistral Small 4, Qwen 3, Gemma 3, Phi-4
Site: ollama.com

Pourquoi exécuter un LLM en local

Trois raisons principales poussent les développeurs et les entreprises vers l’IA locale :

Confidentialité : vos données ne quittent jamais votre machine. C’est indispensable pour le code propriétaire sous NDA, les documents internes, les données clients, ou toute information soumise au RGPD. Avec Ollama, chaque prompt et chaque réponse restent sur votre disque dur.

Coûts : les API cloud facturent au token. Un usage intensif de Claude Opus 4.6 ou GPT-5.4 peut coûter des centaines d’euros par mois. Un modèle local, une fois téléchargé, s’utilise sans limite et sans facturation. Le seul coût est l’électricité et l’amortissement de votre hardware.

Disponibilité : pas de connexion internet requise, pas de rate limit, pas de panne de service. L’IA locale fonctionne dans le train, en avion, dans un bunker. Toujours disponible, toujours réactive.

Le compromis : les modèles locaux sont moins performants que les flagships cloud (Opus 4.6, GPT-5.4) sur les tâches de raisonnement complexe. Un modèle 8B local ne rivalisera pas avec un modèle de 675B paramètres hébergé sur un cluster de GPU. Mais pour la complétion de code, le résumé, la classification, la traduction et les tâches quotidiennes, les modèles locaux sont largement suffisants.

Installation

macOS / Linux

# macOS : téléchargez depuis ollama.com ou via Homebrew
brew install ollama

# Linux : script d'installation officiel
curl -fsSL https://ollama.com/install.sh | sh

Windows

Téléchargez l’installateur depuis ollama.com. Support natif ARM64 depuis 2026 (les versions précédentes nécessitaient l’émulation x86, avec une pénalité de performance).

Docker

docker pull ollama/ollama
docker run -d -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama

# Avec GPU NVIDIA (nécessite NVIDIA Container Toolkit)
docker run -d --gpus all -v ollama:/root/.ollama -p 11434:11434 --name ollama ollama/ollama

Vérification

# Vérifier que le daemon tourne
ollama list
# Doit retourner une liste vide (aucun modèle encore installé)

# Ou via l'API REST
curl http://localhost:11434
# Réponse : "Ollama is running"

Choisir et installer un modèle

Ollama maintient une bibliothèque de modèles sur ollama.com/library. Les modèles suivent la convention nom:tag où le tag encode la variante, le nombre de paramètres et le niveau de quantification.

# Télécharger et lancer un modèle
ollama pull llama3.2:8b
ollama run llama3.2:8b

# Quitter le mode interactif
/bye

Modèles recommandés par usage

Modèle	Taille	VRAM requise	Vitesse*	Idéal pour
Llama 4 Scout	17B actifs (MoE)	≈ 12 Go	Rapide	Généraliste, meilleur rapport qualité/taille
DeepSeek V3.2	≈ 37B actifs (MoE)	≈ 20 Go	Modéré	Raisonnement, code, math
Mistral Small 4	6B actifs (119B MoE)	Variable (quantifié)	Modéré	Code, vision, raisonnement configurable
Qwen 3 8B	8B	≈ 6 Go	Rapide	Multilingue, coding, agents
Gemma 3 4B	4B	≈ 3 Go	Très rapide	Tâches légères, edge, mobile
Phi-4 Mini	3.8B	≈ 3 Go	Très rapide	Raisonnement compact, Microsoft
DeepSeek Coder	6.7B / 33B	≈ 5-20 Go	Rapide / Modéré	Coding spécialisé
Qwen Coder	7B / 32B	≈ 5-20 Go	Rapide / Modéré	Coding, refactoring

*Vitesse indicative sur RTX 4090 (24 Go VRAM) en Q4_K_M. Rapide = 50-80+ tok/s, Modéré = 20-50 tok/s.

Par où commencer Si vous avez un GPU avec 8 Go de VRAM : ollama run qwen3:8b ou ollama run llama3.2:8b. Bon rapport qualité/taille pour un usage généraliste. Si vous n’avez pas de GPU dédié (Apple Silicon ou CPU uniquement) : ollama run gemma3:4b ou ollama run phi4-mini. Légers et rapides, même sans GPU.

Optimisation GPU

Ollama détecte automatiquement votre GPU et décharge les couches du modèle sur le GPU en fonction de la VRAM disponible.

NVIDIA : driver version 525+ requis (550+ recommandé). Vérifiez avec nvidia-smi. Si le driver est correctement installé, Ollama utilise CUDA automatiquement.

Apple Silicon : Metal est natif sur macOS. Aucune configuration supplémentaire. Les Mac M1/M2/M3/M4 avec 16+ Go de RAM unifié offrent d’excellentes performances pour les modèles 7-8B.

AMD : ROCm 6.x supporté sous Linux uniquement. Pas de support GPU AMD natif sous Windows.

Vérifier l’utilisation GPU :

# Pendant l'exécution d'un modèle
tail -f ~/.ollama/logs/server.log | grep "n_gpu_layers"
# Si n_gpu_layers = 33 (toutes les couches) → GPU complet
# Si n_gpu_layers = 0 → CPU uniquement (vérifiez vos drivers)

Quantification : le compromis taille/qualité

La quantification réduit la précision des poids du modèle pour diminuer la VRAM requise et accélérer l’inférence. Les niveaux courants :

Q4_K_M : le sweet spot pour la plupart des usages. Perte de qualité minimale, réduction de taille de ≈ 75% par rapport au FP16. C’est le défaut recommandé.

Q8_0 : meilleure qualité, mais 2× plus lourd que Q4. Utile si vous avez la VRAM disponible.

Q4_0 : le plus compact, légère dégradation supplémentaire. Pour les machines limitées en RAM.

FP16 : pleine précision. Réservé aux GPU avec beaucoup de VRAM (40+ Go).

# Télécharger un modèle en Q4_K_M (recommandé)
ollama pull llama3.1:8b-q4_K_M

# Télécharger en Q8 (meilleure qualité, plus lourd)
ollama pull llama3.1:8b-q8_0

L’API REST : intégrer Ollama dans vos projets

Ollama expose une API REST sur http://localhost:11434. Compatible avec le format OpenAI, ce qui signifie que de nombreuses bibliothèques et outils existants fonctionnent directement.

# Génération simple
curl http://localhost:11434/api/generate 
  -d '{"model": "qwen3:8b", "prompt": "Explique le RGPD en 3 phrases", "stream": false}'

# Chat (format messages)
curl http://localhost:11434/api/chat 
  -d '{"model": "qwen3:8b", "messages": [{"role": "user", "content": "Bonjour !"}]}'

Python : utilisez litellm pour une interface unifiée, ou le SDK officiel ollama-python :

import ollama

response = ollama.chat(model='qwen3:8b', messages=[
  {'role': 'user', 'content': 'Écris une fonction Python qui trie une liste'}
])
print(response['message']['content'])

Intégrations avec vos outils

IDE : Continue (VS Code)

Continue est une extension VS Code open source qui connecte votre éditeur à Ollama. Autocomplétion, chat, refactoring, le tout alimenté par vos modèles locaux. C’est l’alternative gratuite et privée à GitHub Copilot.

Installation : installez l’extension Continue dans VS Code, configurez Ollama comme provider dans config.json. Les modèles DeepSeek Coder ou Qwen Coder sont recommandés pour la complétion de code.

Terminal : Aider

Aider est un outil de coding IA open source en terminal, compatible avec Ollama. Connectez Aider à vos modèles locaux pour du pair programming sans envoyer de code sur des serveurs externes.

Interface chat : Open WebUI

Open WebUI est une interface web open source qui se connecte à Ollama et offre une expérience similaire à ChatGPT, mais 100% locale. Multi-utilisateurs, historique de conversations, upload de documents, RAG intégré.

# Docker Compose : Ollama + Open WebUI
docker compose up -d
# Accédez à http://localhost:3000

MCP : connecter Ollama à vos outils

Via le protocole MCP, vous pouvez connecter vos modèles locaux à des sources de données externes (GitHub, bases de données, API) tout en gardant le traitement sur votre machine.

Personnaliser un modèle avec Modelfile

Les Modelfiles permettent de customiser le comportement d’un modèle sans le réentraîner. Vous pouvez définir un system prompt, ajuster la température, et créer des « personnalités » spécialisées.

# Créer un fichier nommé "Modelfile"
FROM qwen3:8b
SYSTEM "Tu es un assistant de code Python senior. Tu réponds toujours avec du code commenté, des types hints, et des tests unitaires."
PARAMETER temperature 0.3
PARAMETER num_ctx 8192

# Créer le modèle custom
ollama create python-assistant -f Modelfile

# L'utiliser
ollama run python-assistant

Prérequis matériels

Taille modèle	RAM/VRAM minimum	Hardware recommandé
3-4B (Gemma 3, Phi-4 Mini)	4 Go	Tout ordinateur récent, y compris laptop
7-8B (Llama 3.2, Qwen 3)	8 Go	GPU 8 Go (RTX 3060+) ou Apple Silicon 16 Go
13-14B	12-16 Go	GPU 12+ Go (RTX 4070+) ou Apple Silicon 24 Go
33-70B	24-48 Go	RTX 4090 / A6000 ou Apple Silicon 64+ Go

Modèles MoE : attention à la VRAM Les modèles MoE comme Mistral Small 4 (119B total, 6B actifs) ont besoin de charger tous les paramètres en mémoire, même si seuls 6B sont actifs par token. Le VRAM requis dépend du total, pas des paramètres actifs. Un modèle « 119B MoE » nécessite autant de VRAM qu’un modèle dense de taille similaire en termes de stockage des poids.

Cas d’usage concrets

Assistant de code privé : vous travaillez sur du code propriétaire sous NDA. Impossible d’envoyer le code à ChatGPT ou Copilot. Avec Ollama + Continue (VS Code), vous avez un copilote de code 100% local. Modèle recommandé : DeepSeek Coder 6.7B ou Qwen Coder 7B.

RAG sur documents internes : connectez Ollama à une base vectorielle locale (ChromaDB, Qdrant) pour créer un chatbot qui répond aux questions sur vos documents internes. L’IA recherche dans vos fichiers et génère des réponses contextualisées, sans qu’aucune donnée ne quitte votre infrastructure. Open WebUI intègre le RAG nativement.

Tuteur étudiant gratuit : les 20 €/mois de ChatGPT Plus ne rentrent pas dans tous les budgets. Avec Ollama, vous avez un assistant gratuit et illimité pour expliquer des concepts, générer des quiz, et aider à la rédaction. Modèle recommandé : Llama 3.2 8B ou Qwen 3 8B.

Serveur IA pour l’équipe : déployez Ollama sur un serveur avec GPU via Docker, ajoutez Open WebUI comme interface, et toute votre équipe a accès à un assistant IA privé. Les conversations restent dans votre infrastructure. C’est l’alternative souveraine aux abonnements ChatGPT Team ou Claude Team.

Pipeline d’automatisation : intégrez Ollama dans vos workflows n8n ou Make via l’API REST. Classification automatique de tickets support, extraction de données depuis des emails, résumé de rapports. Zéro coût API, volume illimité.

Développement et tests de prompts : avant de déployer un système basé sur un LLM cloud (coûteux), développez et testez vos prompts localement avec Ollama. Une fois les prompts optimisés, basculez vers l’API cloud pour la production. Vous économisez les coûts de développement et d’itération.

Sécurité et bonnes pratiques

Ne pas exposer l’API publiquement : par défaut, Ollama écoute sur 127.0.0.1:11434 (localhost uniquement). Si vous configurez OLLAMA_HOST=0.0.0.0 pour un accès réseau, l’API est exposée sans authentification. Utilisez systématiquement un pare-feu ou un reverse proxy (Nginx, Caddy) avec authentification devant l’API.

Vérifier la provenance des modèles : téléchargez uniquement depuis la bibliothèque officielle Ollama ou des sources de confiance (Hugging Face, repos officiels des créateurs). Des modèles malveillants pourraient contenir des portes dérobées ou des poids altérés.

Isolation des conteneurs : en production Docker, limitez les capabilities du conteneur, montez les volumes en read-only quand possible, et surveillez les ressources consommées. Un modèle qui tourne en boucle peut saturer votre GPU/RAM.

Mises à jour régulières : Ollama publie des mises à jour fréquentes avec des corrections de sécurité, des optimisations de performance et le support de nouveaux modèles. Maintenez votre installation à jour.

Ollama vs LM Studio : quelle différence ?

LM Studio est l’alternative GUI (interface graphique) la plus populaire à Ollama. La différence fondamentale : Ollama est orienté CLI/API (développeurs, automatisation, intégration dans des pipelines), LM Studio est orienté interface graphique (utilisateurs non techniques, exploration de modèles, conversation).

Choisissez Ollama si vous êtes développeur, si vous voulez intégrer le LLM dans vos scripts et applications via l’API REST, ou si vous déployez sur un serveur. Choisissez LM Studio si vous voulez simplement chatter avec un modèle local via une interface agréable, sans toucher au terminal. Les deux sont gratuits et utilisent les mêmes modèles (format GGUF via llama.cpp).

Pour de nombreux utilisateurs, l’approche combinée fonctionne bien : LM Studio pour l’exploration et le test de modèles, Ollama pour l’intégration en production et les automatisations.

Limites de l’IA locale

Performance : un modèle 8B local ne rivalisera pas avec Claude Opus 4.6 (plusieurs centaines de milliards de paramètres, infrastructure GPU massive) sur les tâches complexes. L’IA locale excelle sur les tâches bien définies (complétion, classification, résumé, traduction) et reste en retrait sur le raisonnement profond.

Fenêtre de contexte : les modèles locaux ont généralement un contexte plus limité (4K à 128K tokens selon le modèle) que les modèles cloud (1M tokens pour Claude et Gemini). Pour des documents très longs, le cloud reste nécessaire.

Multimodal : le support image/vision existe (Llama 4 Scout, LLaVA) mais reste moins mature que GPT-4o ou Gemini en multimodal.

Approche recommandée : utilisez Ollama pour le quotidien (complétion, tâches courantes, données sensibles) et gardez un abonnement cloud (Claude Pro, ChatGPT Plus) pour les tâches complexes qui dépassent les capacités locales. C’est le meilleur compromis coût/performance/confidentialité.

Ollama transforme votre ordinateur en serveur d’IA personnel. Gratuit, privé, illimité. Le seul prérequis : un GPU correct et 10 minutes d’installation.

Questions fréquentes

Ollama est-il gratuit ?

Oui, entièrement. Ollama est open source, et tous les modèles de la bibliothèque sont gratuits à télécharger et à utiliser (sous leurs licences respectives, souvent Apache 2.0 ou Llama Community License). Le seul coût est votre hardware et l’électricité. Pas de limites d’utilisation, pas de facturation au token, pas d’abonnement.

De quel hardware ai-je besoin ?

Pour un modèle 7-8B (le sweet spot) : 8 Go de VRAM (NVIDIA RTX 3060 ou supérieur) ou un Mac Apple Silicon avec 16 Go de RAM. Les modèles plus petits (3-4B) tournent sur n’importe quel ordinateur récent, même sans GPU dédié. Les modèles plus gros (33B+) nécessitent des GPU haut de gamme (RTX 4090 24 Go ou Apple Silicon 64 Go). Ollama fonctionne aussi en CPU-only, mais c’est beaucoup plus lent.

Ollama peut-il remplacer ChatGPT ou Claude ?

Pour les tâches quotidiennes simples (complétion de code, résumé, traduction, questions factuelles) : oui, un modèle 8B local est suffisant. Pour le raisonnement complexe, les analyses longues, la créativité avancée et les tâches multi-étapes : non, les modèles cloud restent supérieurs. La meilleure approche est de combiner les deux : Ollama pour le quotidien et la confidentialité, Claude/ChatGPT pour les tâches exigeantes.

Comment connecter Ollama à VS Code pour le coding ?

Installez l’extension Continue dans VS Code. Dans la configuration Continue (config.json), ajoutez Ollama comme provider avec un modèle de code (DeepSeek Coder 6.7B ou Qwen Coder 7B recommandés). Vous obtenez l’autocomplétion et le chat IA directement dans VS Code, alimentés par votre modèle local. C’est l’alternative gratuite et privée à GitHub Copilot.

Mes données sont-elles vraiment privées avec Ollama ?

Oui. Ollama tourne entièrement sur votre machine. Aucune donnée n’est envoyée sur Internet. Le serveur écoute par défaut sur localhost:11434 (accessible uniquement depuis votre machine). Attention cependant : si vous exposez l’API sur 0.0.0.0 (toutes les interfaces réseau), n’importe qui sur votre réseau peut y accéder. En production, utilisez un pare-feu ou un reverse proxy avec authentification.