DeepSeek sur Ollama : installer et utiliser les modèles en local

Ollama est le moyen le plus simple de faire tourner les modèles DeepSeek (R1, V3.2 et leurs versions distillées) sur votre propre machine, sans envoyer de données vers un serveur externe et sans frais d’API.

Faire tourner un LLM en local n’est plus réservé aux labos de recherche. Avec Ollama (version 0.18.x en mars 2026), vous téléchargez un modèle DeepSeek en une commande, et vous l’utilisez immédiatement via le terminal, une API REST locale, ou une interface web comme Open WebUI. Les modèles distillés de DeepSeek R1 (de 1,5B à 70B paramètres) fonctionnent sur du matériel grand public, et le modèle complet V3.2 (671B) est accessible en mode cloud via Ollama. Ce guide couvre tout : installation, choix du modèle, configuration matérielle, commandes, intégration API, interfaces graphiques et optimisation des performances.

Outil: Ollama 0.18.x (mars 2026)
Modèles locaux: deepseek-r1 (1.5b, 7b, 8b, 14b, 32b, 70b, 671b)
Modèles cloud: deepseek-v3.2:cloud
RAM minimum: 2 Go (modèle 1.5B) à 48 Go+ (modèle 70B)
OS supportés: Linux, macOS 12+, Windows 10+ (natif ou WSL2)
GPU recommandé: NVIDIA 8 Go+ VRAM, Apple Silicon, AMD ROCm 7.0+
Licence: MIT (usage commercial autorisé)
Site: ollama.com

Pourquoi faire tourner DeepSeek en local avec Ollama ?

Utiliser l’API DeepSeek hébergée est simple et peu coûteux ($0,28 par million de tokens en input). Mais le déploiement local offre des avantages que l’API ne peut pas garantir :

Confidentialité totale. Aucune donnée ne quitte votre machine. C’est critique pour les projets soumis au RGPD, pour le traitement de code propriétaire, ou pour toute activité où la fuite de données est inacceptable. Quand vous utilisez l’API DeepSeek, vos données transitent par des serveurs basés en Chine. En local, ce risque disparaît.

Zéro coût marginal. Une fois le modèle téléchargé, chaque requête est gratuite. Pour les applications à fort volume (tests automatisés, pipelines de CI/CD, analyse de documents en batch), les économies sont significatives par rapport au pay-per-token.

Disponibilité permanente. Pas de dépendance à un service externe, pas de rate limits, pas de downtime. L’API DeepSeek a connu des pannes notables en 2025, parfois au moment le moins opportun. En local, votre modèle est toujours disponible.

Latence réduite. L’inférence locale élimine la latence réseau. Avec un GPU correct, un modèle 14B génère 40 à 80 tokens par seconde, ce qui est souvent plus rapide qu’un appel API distant.

Personnalisation complète. Vous contrôlez la température, la longueur du contexte, le prompt système, et vous pouvez créer des Modelfiles personnalisés pour des cas d’usage spécifiques.

Ollama vs API : pas forcément un choix exclusif Beaucoup de développeurs combinent les deux. Ollama en local pour le développement et les tests (itérations rapides, données sensibles), puis l’API DeepSeek ou un modèle plus puissant (Claude, GPT-5.4) pour la production. L’API Ollama est compatible OpenAI, ce qui facilite la bascule.

Modèles DeepSeek disponibles sur Ollama

Ollama propose plusieurs modèles DeepSeek dans sa bibliothèque. Voici le panorama complet :

deepseek-r1 : le modèle de raisonnement

C’est le modèle star pour l’exécution locale. DeepSeek R1 est un modèle de raisonnement qui génère une chaîne de pensée visible (chain-of-thought) avant chaque réponse. Les versions distillées sont basées sur les architectures Qwen 2.5 et Llama 3, fine-tunées sur 800 000 échantillons de raisonnement générés par le modèle R1 complet.

La dernière mise à jour (R1-0528, mai 2025) a considérablement amélioré les performances : +17 points sur AIME 2025, 45 à 50% de réduction des hallucinations, et ajout du support des appels de fonctions.

Tag Ollama	Paramètres	Taille fichier	RAM minimum	VRAM GPU recommandée	Vitesse typique
`deepseek-r1:1.5b`	1,5B (Qwen)	~1,1 Go	2 Go	4 Go	60-100 t/s (GPU)
`deepseek-r1:7b`	7B (Qwen)	~4,7 Go	8 Go	6 Go	40-80 t/s
`deepseek-r1:8b`	8B (Llama)	~4,9 Go	8 Go	8 Go	40-70 t/s
`deepseek-r1:14b`	14B (Qwen)	~9 Go	16 Go	12 Go	25-50 t/s
`deepseek-r1:32b`	32B (Qwen)	~20 Go	32 Go	24 Go	15-30 t/s
`deepseek-r1:70b`	70B (Llama)	~43 Go	48 Go+	48 Go+ (multi-GPU)	8-15 t/s
`deepseek-r1:671b`	671B (complet)	~404 Go (Q4)	384 Go+	Multi-GPU enterprise	2-8 t/s

Les tailles de fichiers correspondent à la quantization Q4_K_M par défaut, qui offre le meilleur équilibre entre qualité et consommation mémoire. Les vitesses sont indicatives et dépendent fortement du matériel.

Quel modèle choisir ? Pour la plupart des usages : deepseek-r1:14b est le sweet spot. Il tient dans 12 Go de VRAM (une RTX 4060 Ti 16 Go suffit), et ses performances en raisonnement sont déjà très bonnes. Si vous avez une RTX 4090 (24 Go), le 32b offre des performances proches du R1 complet sur les benchmarks de maths et de code.

deepseek-v3.2 : le modèle généraliste (cloud)

Le modèle complet V3.2 (671B paramètres) n’est pas réalistement exécutable en local sur du matériel grand public. Ollama le propose en mode cloud (deepseek-v3.2:cloud), ce qui vous permet d’utiliser l’interface et l’API Ollama tout en faisant tourner l’inférence sur les serveurs de DeepSeek.

ollama run deepseek-v3.2:cloud

Ce mode cloud est pratique pour garder une interface unifiée (même commandes, même API), mais vous perdez les avantages de confidentialité et de coût zéro du local.

Autres modèles DeepSeek sur Ollama

La bibliothèque Ollama contient aussi deepseek-coder (spécialisé code, basé sur une version plus ancienne) et deepseek-coder-v2 (architecture MoE). Ces modèles sont techniquement obsolètes face à R1 et V3.2, mais restent utiles pour des déploiements légers orientés code.

Installation d’Ollama : étape par étape

L’installation d’Ollama est volontairement simple. Trois plateformes, trois méthodes.

Linux (Ubuntu, Debian, Fedora…)

La méthode officielle utilise un script d’installation en une ligne :

curl -fsSL https://ollama.com/install.sh | sh

Le script détecte votre distribution, installe le binaire, et configure un service systemd. Après l’installation, vérifiez :

ollama --version
# Attendu : ollama version 0.18.x

Si vous avez un GPU NVIDIA, installez le CUDA Toolkit pour activer l’accélération GPU :

# Ubuntu 22.04 / 24.04
sudo apt install nvidia-cuda-toolkit

Ollama détecte automatiquement les GPU NVIDIA. Pour vérifier que le GPU est bien utilisé, lancez un modèle puis vérifiez avec nvidia-smi dans un second terminal.

macOS

Deux options : Homebrew ou l’application native.

# Via Homebrew
brew install ollama

# Ou télécharger l'app depuis ollama.com/download

Sur Apple Silicon (M1, M2, M3, M4), Ollama utilise automatiquement l’accélération Metal via la mémoire unifiée. Un Mac Mini M4 Pro (24 Go) fait tourner confortablement les modèles 7B à 14B. Un Mac Studio M4 Ultra (192 Go) peut même exécuter le modèle R1 complet en quantization très basse.

Windows

Téléchargez l’installateur natif depuis ollama.com/download et exécutez le fichier .exe. Vérifiez ensuite dans PowerShell :

ollama --version

L’accélération GPU NVIDIA fonctionne nativement sur Windows. Pour AMD, le support est plus limité et nécessite ROCm 7.0+ (vérifiez la documentation Ollama pour la compatibilité exacte de votre carte).

Docker

Pour les environnements conteneurisés :

docker run -d 
  -v ollama:/root/.ollama 
  -p 11434:11434 
  --name ollama 
  ollama/ollama

Pour l’accélération GPU dans Docker, ajoutez --gpus all et assurez-vous que le NVIDIA Container Toolkit est installé.

Premier lancement de DeepSeek R1

Une fois Ollama installé, télécharger et lancer un modèle DeepSeek se fait en une commande :

# Télécharger et lancer le modèle 14B (recommandé pour commencer)
ollama run deepseek-r1:14b

Le premier lancement télécharge le modèle (~9 Go pour le 14B). Le temps de téléchargement dépend de votre connexion : comptez environ 8 minutes sur une connexion 150 Mbps. Les lancements suivants sont instantanés puisque le modèle est mis en cache localement.

Si vous préférez séparer le téléchargement de l’exécution :

# Télécharger sans lancer
ollama pull deepseek-r1:14b

# Vérifier les modèles installés
ollama list

# Lancer ensuite
ollama run deepseek-r1:14b

Une fois le modèle chargé, vous êtes dans une session interactive. Posez votre question directement. Avec DeepSeek R1, vous verrez apparaître un bloc <think> contenant la chaîne de raisonnement, suivi de la réponse finale.

Le piège du « over-thinking » R1 est un modèle de raisonnement. Même pour une question simple comme « Quelle est la capitale de la France ? », il va potentiellement générer des centaines de tokens de réflexion avant de répondre. C’est normal, mais ça peut surprendre. Pour les questions simples, un modèle non-reasoning (comme deepseek-v3.2:cloud ou un modèle Llama/Qwen classique) est plus adapté.

Utiliser l’API REST locale d’Ollama

Ollama expose une API REST sur http://localhost:11434, compatible avec le format OpenAI. C’est ce qui rend Ollama si puissant : vous pouvez intégrer DeepSeek R1 dans n’importe quelle application, script ou pipeline qui supporte l’API OpenAI, simplement en changeant l’URL de base.

Exemple avec curl

curl http://localhost:11434/api/chat 
  -d '{
    "model": "deepseek-r1:14b",
    "messages": [
      {"role": "user", "content": "Résolvez étape par étape : si un train parcourt 120 km en 1h30 puis 80 km en 1h, quelle est sa vitesse moyenne sur tout le trajet ?"}
    ],
    "stream": false
  }'

Exemple en Python

from ollama import chat

response = chat(
    model='deepseek-r1:14b',
    messages=[
        {'role': 'user', 'content': 'Écris une fonction Python qui trie une liste par insertion.'}
    ]
)
print(response.message.content)

Installez la bibliothèque Python Ollama avec pip install ollama.

Compatibilité OpenAI SDK

Ollama supporte le format de l’API OpenAI, ce qui permet d’utiliser le SDK OpenAI directement :

from openai import OpenAI

client = OpenAI(
    base_url='http://localhost:11434/v1',
    api_key='ollama'  # Ollama n'exige pas de clé, mais le SDK en veut une
)

response = client.chat.completions.create(
    model='deepseek-r1:14b',
    messages=[{'role': 'user', 'content': 'Votre question ici'}]
)
print(response.choices[0].message.content)

Cette compatibilité est précieuse : si votre application utilise déjà l’API OpenAI ou l’API DeepSeek, il suffit de changer le base_url pour passer en local. Aucune modification du code métier.

Configuration avancée avec les Modelfiles

Les Modelfiles permettent de créer des configurations personnalisées et réutilisables. C’est l’équivalent d’un Dockerfile pour les modèles LLM.

# Fichier : Modelfile-deepseek-custom
FROM deepseek-r1:14b

SYSTEM """Vous êtes un assistant de développement Python expert. Vous répondez toujours en français. Vous fournissez du code commenté et vous expliquez vos choix de conception."""

PARAMETER temperature 0.6
PARAMETER num_ctx 8192
PARAMETER top_p 0.9
PARAMETER num_gpu 99

Créez et lancez votre modèle personnalisé :

# Créer le modèle
ollama create deepseek-dev -f Modelfile-deepseek-custom

# Lancer
ollama run deepseek-dev

Les paramètres clés à ajuster :

Paramètre	Description	Valeur recommandée
`temperature`	Créativité des réponses (0 = déterministe, 1 = très créatif)	0.6 pour le code, 0.7 pour le chat
`num_ctx`	Taille de la fenêtre de contexte en tokens	4096-8192 (attention à la VRAM)
`top_p`	Nucleus sampling	0.9
`num_gpu`	Nombre de couches à offloader sur le GPU	99 (toutes les couches possibles)
`repeat_penalty`	Pénalité de répétition	1.1

Attention au num_ctx et à la VRAM Le paramètre num_ctx impacte directement la consommation de VRAM via le cache KV. Sur un GPU de 12 Go avec un modèle 14B, rester à num_ctx 4096 ou moins évite les erreurs out-of-memory. Le cache KV croît linéairement avec la longueur du contexte : passer de 4K à 32K tokens de contexte peut ajouter plusieurs Go de consommation mémoire.

Ajouter une interface web : Open WebUI

Le terminal est efficace, mais une interface graphique type ChatGPT est plus confortable pour beaucoup d’usages. Open WebUI est la solution la plus populaire pour connecter une interface web à Ollama.

docker run -d -p 3000:8080 
  --add-host=host.docker.internal:host-gateway 
  -v open-webui:/app/backend/data 
  --name open-webui 
  ghcr.io/open-webui/open-webui:main

Ouvrez http://localhost:3000 dans votre navigateur. Créez un compte (local uniquement, pas de données envoyées), sélectionnez deepseek-r1:14b dans le menu déroulant, et vous avez une interface ChatGPT-like connectée à votre modèle local.

Open WebUI offre des fonctionnalités avancées : historique des conversations, switch entre modèles, RAG intégré (chat avec vos documents), et affichage propre du bloc <think> de R1 dans un accordéon repliable.

Alternatives à Open WebUI : Enchanted (macOS natif), Maid (mobile), SwiftChat (iOS), ou tout client compatible API OpenAI.

Optimisation des performances

Accélération GPU

Le GPU est le facteur le plus important pour la vitesse d’inférence. La différence est massive : 5 à 10 tokens/seconde en CPU-only contre 40 à 120 tokens/seconde avec un GPU adapté.

Pour les GPU NVIDIA, Ollama détecte et utilise CUDA automatiquement. Vérifiez avec :

# Lancer un modèle
ollama run deepseek-r1:14b "Bonjour"

# Dans un autre terminal, vérifier l'utilisation GPU
nvidia-smi

Si le GPU n’est pas utilisé, installez le CUDA Toolkit. Ollama gère automatiquement le « partial offloading » : si le modèle ne tient pas entièrement en VRAM, il charge ce qu’il peut sur le GPU et le reste en RAM CPU. Vous perdez de la vitesse, mais le modèle fonctionne quand même.

Pour Apple Silicon, l’accélération Metal est automatique. La mémoire unifiée est un avantage : un Mac avec 32 Go de RAM peut faire tourner des modèles qui nécessiteraient un GPU dédié de 24 Go sur PC.

Choix de la quantization

Par défaut, Ollama utilise la quantization Q4_K_M (format GGUF), qui offre le meilleur compromis qualité/mémoire. D’autres formats sont disponibles :

Quantization	Qualité	Taille mémoire	Usage recommandé
Q4_K_M	Bonne (défaut)	~50% du FP16	Équilibre standard
Q5_K_M	Très bonne	~60% du FP16	Meilleure qualité si VRAM suffisante
Q8_0	Excellente	~80% du FP16	Machines haut de gamme
IQ1_M / IQ2_M	Dégradée	~20-30% du FP16	Modèle 671B sur hardware limité

Pour vérifier les variantes de quantization disponibles pour un modèle, consultez sa page sur ollama.com/library/deepseek-r1. Pour tirer un tag spécifique :

ollama pull deepseek-r1:14b-q5_K_M

Variables d’environnement utiles

# Garder le modèle chargé en mémoire (évite le rechargement)
export OLLAMA_KEEP_ALIVE=30m    # ou -1 pour indéfiniment

# Activer Flash Attention pour les modèles compatibles
export OLLAMA_FLASH_ATTENTION=1

# Changer le port par défaut
export OLLAMA_HOST=0.0.0.0:11434   # ⚠️ Ne pas exposer sans reverse proxy authentifié

Cas d’usage concrets

Assistant de code local

DeepSeek R1 en local est particulièrement adapté au développement assisté par IA. Le modèle 14B ou 32B génère du code correct pour la majorité des tâches courantes, et le mode raisonnement aide à résoudre les problèmes algorithmiques complexes.

Vous pouvez connecter Ollama à des éditeurs comme Cursor ou des extensions VS Code (Continue, Cline) en configurant l’endpoint Ollama comme backend. Le modèle tourne en local, ce qui signifie zéro latence réseau et confidentialité de votre code.

RAG local (chat avec vos documents)

Combinez Ollama + Open WebUI pour créer un système de RAG entièrement local. Uploadez vos documents dans Open WebUI, et DeepSeek R1 les utilisera comme contexte pour répondre à vos questions. Tout reste sur votre machine.

Agents locaux

Ollama s’intègre avec des frameworks d’agents IA comme LangChain, CrewAI, ou OpenClaw. Vous pouvez créer des agents autonomes qui utilisent DeepSeek R1 en local pour le raisonnement, sans dépendance cloud. Ollama 0.18 a d’ailleurs ajouté le support de ollama launch pour connecter directement des agents comme Claude Code, Codex ou OpenClaw.

Intégration avec Cursor et les IDE

Si vous utilisez Cursor, vous pouvez le configurer pour utiliser un modèle DeepSeek local via Ollama au lieu de l’API cloud. Dans les paramètres de Cursor, ajoutez un modèle custom avec l’URL http://localhost:11434/v1 et le nom du modèle deepseek-r1:14b. C’est un excellent compromis entre coût et performances pour les développeurs qui utilisent Cursor intensivement.

Dépannage courant

L’inférence est extrêmement lente (moins de 3 tokens/seconde)

Cause probable : le modèle ne tient pas en RAM et le système utilise le swap. Vérifiez avec free -h (Linux) ou Activity Monitor (macOS). Si le swap est actif, passez à un modèle plus petit. deepseek-r1:7b ne nécessite que 8 Go de RAM.

Erreur out-of-memory ou crash CUDA

Réduisez num_ctx dans votre Modelfile (essayez 2048 ou 4096). Si le problème persiste, passez à un modèle plus petit ou activez Flash Attention avec OLLAMA_FLASH_ATTENTION=1.

Le bloc <think> est très long avant la réponse

C’est le comportement normal de R1 : il réfléchit longuement même sur des questions simples. Si vous n’avez pas besoin de raisonnement structuré, utilisez un modèle non-reasoning comme Qwen 3, Llama 4 ou Gemma 3 via Ollama.

Le téléchargement du modèle échoue

Relancez ollama pull deepseek-r1:14b. Ollama reprend les téléchargements interrompus automatiquement, sans repartir de zéro.

Le GPU NVIDIA n’est pas détecté

Vérifiez que le driver NVIDIA et le CUDA Toolkit sont installés. Sur Linux : nvidia-smi doit afficher votre GPU. Si Ollama tourne dans Docker, ajoutez --gpus all à la commande Docker.

Cas spécial : le modèle R1 complet (671B) en local

Exécuter le modèle complet R1 671B en local est techniquement possible mais nécessite du matériel sérieux. Le modèle en quantization Q4 fait environ 404 Go. En version ultra-quantizée (IQ1_M, 1,73 bits), il descend à ~158 Go, mais avec une dégradation de qualité.

Les configurations testées par la communauté :

Un setup à 4x RTX 4090 (96 Go VRAM) + 384 Go RAM DDR5 permet de faire tourner la version Q4 à 2-4 tokens/seconde. La version IQ1_M tourne à 7-8 tokens/seconde sur le même matériel. Un dual EPYC avec 384 Go de RAM sans GPU produit 5-8 tokens/seconde en CPU pur sur la version IQ4_XS. Un Mac Studio M4 Ultra (192 Go de mémoire unifiée) peut exécuter la version ultra-quantizée.

En résumé : c’est faisable pour l’expérimentation et la recherche, mais pas pour la production. Pour un usage quotidien du modèle complet, l’API DeepSeek ($0,28/1M tokens) ou le mode cloud Ollama sont infiniment plus pratiques.

Verdict

Ollama est la porte d’entrée la plus simple vers DeepSeek en local. L’installation prend 5 minutes, un seul ollama run deepseek-r1:14b vous donne accès à un modèle de raisonnement performant, et l’API compatible OpenAI s’intègre dans n’importe quel workflow existant.

Le modèle deepseek-r1:14b est notre recommandation par défaut : il offre des performances de raisonnement sérieuses dans une enveloppe de 12 Go de VRAM. Pour les machines plus puissantes, le 32B est le meilleur ratio performances/ressources de toute la gamme.

L’écosystème autour d’Ollama + DeepSeek continue de s’enrichir : intégration avec Cursor, Claude Code, OpenClaw, interfaces web, plugins de recherche web. C’est un des meilleurs setups pour qui veut garder le contrôle total sur son IA.

Notre recommandation : installez Ollama, tirez deepseek-r1:14b, et testez pendant une semaine. Si la qualité suffit pour votre cas d’usage, vous venez d’économiser 100% de vos frais d’API. Sinon, vous avez un excellent environnement de dev local qui complète vos modèles cloud.

Questions fréquentes sur DeepSeek et Ollama

Quelle est la commande pour installer DeepSeek R1 sur Ollama ?

Après avoir installé Ollama (curl -fsSL https://ollama.com/install.sh | sh sur Linux, ou téléchargement depuis ollama.com pour macOS/Windows), une seule commande suffit : ollama run deepseek-r1:14b. Cette commande télécharge le modèle (~9 Go) puis lance une session interactive. Vous pouvez remplacer 14b par 1.5b, 7b, 8b, 32b ou 70b selon votre matériel. Le tag par défaut (deepseek-r1 sans précision de taille) pointe vers le modèle 8B.

Combien de RAM faut-il pour faire tourner DeepSeek R1 en local ?

Cela dépend de la taille du modèle. Le 1.5B ne demande que 2 Go de RAM et fonctionne sur presque n’importe quelle machine. Le 7B/8B nécessite 8 Go. Le 14B tourne correctement avec 16 Go de RAM (ou 12 Go de VRAM GPU). Le 32B demande 32 Go, et le 70B au minimum 48 Go. La VRAM GPU est préférable à la RAM CPU : l’inférence est 5 à 10 fois plus rapide sur GPU. Un GPU NVIDIA avec 8 Go+ de VRAM (type RTX 3060 12 Go, RTX 4060 Ti 16 Go, ou RTX 4090) est recommandé.

DeepSeek R1 sur Ollama est-il aussi performant que l’API DeepSeek ?

Non, les modèles distillés exécutés en local (1.5B à 70B) sont des versions compressées du R1 complet (671B). Le deepseek-r1:32b atteint environ 72,6% sur AIME 2024 et 94,3% sur MATH-500, ce qui est très bon mais inférieur au R1 complet (79,8% sur AIME). L’API DeepSeek utilise le modèle V3.2 complet (671B), qui est nettement plus puissant. En revanche, en local vous gagnez la confidentialité, la latence réduite et le coût zéro par requête.

Peut-on utiliser DeepSeek V3.2 en local avec Ollama ?

Le modèle V3.2 complet (671B paramètres) est disponible sur Ollama en mode cloud uniquement (ollama run deepseek-v3.2:cloud). L’inférence se fait sur les serveurs DeepSeek, pas sur votre machine. Pour une exécution 100% locale, vous êtes limité aux modèles distillés R1 (1.5B à 70B) ou au modèle 671B si vous disposez d’un matériel exceptionnel (384 Go+ de RAM). Pour l’usage quotidien en local, deepseek-r1:14b ou deepseek-r1:32b sont les choix les plus réalistes.

Comment connecter Ollama avec DeepSeek à une interface graphique ?

La méthode la plus populaire est Open WebUI, qui se lance en une commande Docker et fournit une interface ChatGPT-like à http://localhost:3000. Elle détecte automatiquement les modèles installés dans Ollama et affiche proprement le bloc de raisonnement de R1. Alternatives : Enchanted (app macOS native), Maid (mobile), ou n’importe quel client compatible API OpenAI configuré sur http://localhost:11434/v1.