DeepSeek R1 vs V3 : le guide complet pour choisir le bon modèle

DeepSeek R1 est un modèle de raisonnement avancé construit sur la base de DeepSeek V3, spécialisé dans les tâches de logique, mathématiques et code complexe, tandis que V3 (et son successeur V3.2) est un LLM généraliste optimisé pour la rapidité et la polyvalence au quotidien.

DeepSeek a adopté une stratégie multi-modèles qui peut dérouter. D’un côté, la série V3 (V3, V3.1, V3.2) sert de modèle principal pour le chat, le code et les tâches courantes. De l’autre, R1 pousse le raisonnement structuré à son maximum grâce à l’apprentissage par renforcement. Avec la sortie de DeepSeek V3.2 fin 2025, les lignes se brouillent encore : V3.2 intègre désormais un mode « thinking » qui unifie chat et raisonnement dans un seul modèle. Cette page fait le point sur les différences réelles entre R1 et V3, les performances concrètes, les prix, et surtout, lequel utiliser selon votre cas.

Type R1: Modèle de raisonnement (reasoning model)
Type V3/V3.2: LLM généraliste unifié (chat + reasoning)
Architecture: Mixture-of-Experts (MoE), 671B params, ~37B actifs
Contexte: 128K tokens (R1 et V3.2)
Prix API (V3.2): $0,28 / $0,42 par 1M tokens (input/output)
Prix API (R1): $0,55 / $2,19 par 1M tokens (input/output)
Open-weight: Oui, licence MIT pour R1 et V3.2
Chat gratuit: chat.deepseek.com
Verdict: V3.2 pour l’usage quotidien, R1 pour le raisonnement pur

Origines et filiation : comment R1 est né de V3

Pour comprendre la différence entre R1 et V3, il faut remonter à décembre 2024. DeepSeek publie alors V3, un modèle pré-entraîné sur 14,8 trillions de tokens avec une architecture MoE de 671 milliards de paramètres (dont seulement 37 milliards activés par requête). Ce modèle de base (V3-Base) subit ensuite un post-entraînement classique : fine-tuning supervisé (SFT) et RLHF pour produire le modèle chat DeepSeek-V3.

En janvier 2025, DeepSeek reprend ce même V3-Base pour créer R1. Le processus est fondamentalement différent : au lieu de simplement affiner le modèle sur des instructions humaines, l’équipe applique un apprentissage par renforcement massif (RL) avec des récompenses basées sur la justesse des réponses. Le modèle apprend à raisonner étape par étape, sans qu’on lui montre comment faire. C’est ce qu’on appelle le paradigme du « raisonnement émergent ».

En pratique, DeepSeek a d’abord créé R1-Zero (RL pur, sans SFT préalable), qui a démontré des capacités de raisonnement impressionnantes mais avec des défauts notables : répétitions infinies, mélange de langues, lisibilité médiocre. R1 final corrige ces problèmes en ajoutant une phase de « cold-start » avec des données de qualité avant le RL, puis une phase d’alignement avec les préférences humaines.

L’évolution de la série V3 : V3.1 et V3.2

DeepSeek n’est pas resté sur V3 d’origine. En août 2025, V3.1 fusionne les capacités de V3 et R1 dans un modèle hybride : les utilisateurs peuvent basculer entre un mode chat classique et un mode raisonnement via le template de prompt. C’est le début de l’unification.

En décembre 2025, V3.2 pousse cette logique encore plus loin. Ce modèle introduit trois innovations majeures : DeepSeek Sparse Attention (DSA) pour réduire la complexité computationnelle, un framework de RL scalable, et un pipeline de synthèse de données agentiques couvrant plus de 1 800 environnements et 85 000 instructions complexes. V3.2 est le premier modèle DeepSeek à intégrer le raisonnement directement dans l’utilisation d’outils (tool-use), en supportant les deux modes (thinking et non-thinking).

Résultat : sur l’API DeepSeek, les endpoints deepseek-chat et deepseek-reasoner pointent tous les deux vers V3.2. La différence se fait sur le mode d’inférence activé, pas sur le modèle sous-jacent. Autrement dit, V3.2 est devenu le successeur à la fois de V3 et, dans une certaine mesure, de R1 pour les usages API.

Clarification nommage Sur l’API, deepseek-chat active V3.2 en mode non-thinking (réponse directe), tandis que deepseek-reasoner active V3.2 en mode thinking (raisonnement structuré avec chain-of-thought). Ce n’est plus techniquement le R1 d’origine, mais le comportement est similaire.

Architecture comparée en détail

R1 et V3 partagent la même architecture de base, ce qui est normal puisque R1 est construit sur V3-Base. Les deux utilisent :

La structure Mixture-of-Experts avec 671 milliards de paramètres totaux et environ 37 milliards activés par token. Cette approche permet de maintenir un coût d’inférence bas tout en conservant une capacité de représentation massive.

Le mécanisme Multi-Head Latent Attention (MLA), qui compresse les vecteurs clé-valeur dans un espace latent avant de les stocker dans le cache KV. Cela réduit significativement la mémoire nécessaire lors de l’inférence, ce qui contribue directement au faible coût de l’API DeepSeek.

Un pré-entraînement en précision FP8, ce qui a permis de réduire drastiquement le coût d’entraînement (estimé à environ 6 millions de dollars pour V3-Base, un chiffre remarquablement bas pour un modèle de cette envergure).

La vraie différence : le post-entraînement

C’est au niveau du post-entraînement que R1 et V3 divergent fondamentalement :

Critère	DeepSeek V3 (chat)	DeepSeek R1
Méthode principale	SFT + RLHF	Cold-start SFT + RL massif (GRPO)
Signal de récompense	Modèle de récompense humain	Règles de justesse (maths, code, logique)
Chain-of-thought	Non (réponse directe)	Oui (raisonnement visible avant réponse)
Tokens de raisonnement	Aucun	12K à 23K tokens par problème complexe
Vérification interne	Non	Auto-vérification et exploration d’alternatives
Comportement émergent	Non	Oui (retours en arrière, « aha moments »)

V3 suit le schéma classique des LLMs : on lui montre comment bien répondre (SFT), puis on affine avec des préférences humaines (RLHF). Le résultat est un modèle fluide, rapide, qui produit des réponses cohérentes pour la grande majorité des tâches.

R1 suit une approche radicalement différente. Le modèle apprend à raisonner par lui-même via le RL. Quand vous posez un problème complexe à R1, il ne produit pas directement une réponse. Il génère d’abord une longue chaîne de raisonnement, explore plusieurs pistes, vérifie ses propres conclusions, revient en arrière si nécessaire, puis formule sa réponse finale. Ce processus est visible dans l’interface sous forme de tokens de « thinking ».

V3.2 : le meilleur des deux mondes ?

V3.2 représente la convergence. Avec son framework de RL scalable et l’intégration du raisonnement dans le tool-use, V3.2 combine la polyvalence de V3 avec une partie significative des capacités de raisonnement de R1. La variante V3.2-Speciale pousse encore plus loin, avec des contraintes de longueur relâchées pour maximiser le raisonnement profond.

L’innovation clé de V3.2 est le DeepSeek Sparse Attention (DSA), un mécanisme d’attention efficace qui réduit substantiellement la complexité computationnelle tout en préservant les performances sur les contextes longs. C’est ce qui permet à V3.2 d’offrir des performances comparables à GPT-5 tout en maintenant les tarifs API les plus bas du marché.

Benchmarks : qui gagne où ?

Les chiffres de benchmarks racontent une histoire nuancée. R1 d’origine (janvier 2025) était conçu pour dominer les benchmarks de raisonnement, et c’est exactement ce qu’il fait. Mais V3.2 a largement comblé l’écart, voire dépassé R1 sur plusieurs mesures.

R1 originel (janvier 2025)

Benchmark	DeepSeek R1	DeepSeek V3	OpenAI o1	Commentaire
AIME 2024 (maths)	79,8%	~39%	79,2%	R1 au niveau de o1
MATH-500	97,3%	~90%	96,4%	R1 légèrement devant o1
Codeforces (Elo)	2 029	~1 500	2 061	Compétitif avec o1
MMLU (connaissances)	90,8%	88,5%	91,8%	o1 légèrement devant
GPQA Diamond	71,5%	59,1%	75,7%	o1 devant, R1 nettement meilleur que V3

L’écart entre R1 et V3 original sur les tâches de raisonnement est massif : +40 points sur AIME 2024, +7 points sur MATH-500. En revanche, sur les tâches générales comme MMLU, la différence est modeste (~2 points). C’est logique : R1 a été optimisé pour le raisonnement, pas pour la culture générale.

R1-0528 (mai 2025) : la mise à jour majeure

En mai 2025, DeepSeek publie R1-0528, une mise à jour significative. Les performances sur AIME 2025 passent de 70% à 87,5%, grâce à une profondeur de raisonnement accrue (le modèle utilise en moyenne 23K tokens de raisonnement par question AIME, contre 12K pour la version précédente). Les hallucinations sont réduites de 45 à 50%, et le support des appels de fonctions (function calling) est ajouté.

V3.2 (décembre 2025) : le game-changer

V3.2 change la donne. En mode raisonnement, il atteint des performances comparables à GPT-5 sur les benchmarks publics. La variante V3.2-Speciale va encore plus loin, rivalisant avec Gemini 3.0 Pro et obtenant des médailles d’or à l’IMO 2025 et aux IOI 2025.

Benchmark	DeepSeek V3.2	V3.2-Speciale	Comparaison
AIME (compétition maths)	Élevé	96%	Dépasse GPT-5
IMO 2025	N/A	5/6 problèmes (83,3%)	Médaille d’or
Codeforces	Élevé	Dépasse GPT-5 High	Niveau expert
Tâches agentiques	1 800+ environnements	N/A (pas de tool-use)	Leader open-source

Point important V3.2-Speciale consomme beaucoup plus de tokens que V3.2 standard. Pour l’usage quotidien, V3.2 en mode thinking offre un bien meilleur ratio performances/coût. Speciale est réservé aux tâches de raisonnement extrême.

Prix API : le nerf de la guerre

Le pricing est un argument massif pour DeepSeek dans les deux cas. Mais la différence de coût entre les modèles R1 et V3 peut impacter significativement votre budget, surtout à volume.

Grille tarifaire actuelle (mars 2026)

Sur l’API DeepSeek, les deux endpoints (deepseek-chat et deepseek-reasoner) utilisent désormais V3.2 sous le capot. La tarification est unifiée :

Poste	Prix (par 1M tokens)
Input (cache miss)	$0,28
Input (cache hit)	$0,028
Output	$0,42

Le cache hit offre une réduction de 90% sur l’input. C’est un avantage énorme pour les applications qui envoient des prompts répétitifs ou des contextes système lourds.

Le coût réel du raisonnement

Attention au piège : le prix par token est identique pour deepseek-chat et deepseek-reasoner, mais le mode raisonnement génère beaucoup plus de tokens. Les tokens de « thinking » (chain-of-thought) sont facturés comme des tokens de sortie. Sur un problème AIME typique, R1-0528 génère en moyenne 23K tokens de raisonnement avant de produire sa réponse.

Prenons un exemple concret :

Scénario	Mode chat (V3.2)	Mode reasoner (V3.2)
Input : 1 000 tokens	$0,00028	$0,00028
Output : réponse directe (~500 tokens)	$0,00021	N/A
Output : thinking + réponse (~15 000 tokens)	N/A	$0,0063
Coût total par requête	~$0,0005	~$0,0066

Le mode raisonnement coûte environ 13 fois plus cher par requête, non pas à cause d’un prix par token supérieur, mais à cause du volume de tokens générés. C’est un facteur à intégrer dans votre calcul de coût.

Face à la concurrence

Même avec le surcoût du raisonnement, DeepSeek reste parmi les options les moins chères du marché :

Modèle	Input ($/1M)	Output ($/1M)	Type
DeepSeek V3.2	$0,28	$0,42	Généraliste + raisonnement
Mistral Large 3	~$0,50	~$1,50	Généraliste open-weight
Gemini 3 Flash	~$0,50	~$3,00	Généraliste rapide
GPT-5.4	$2,50	$15,00	Flagship OpenAI
Claude Sonnet 4.6	$3,00	$15,00	Flagship Anthropic (milieu de gamme)
Claude Opus 4.6	$5,00	$25,00	Flagship Anthropic

DeepSeek V3.2 est environ 9 fois moins cher que GPT-5.4 sur l’input et 35 fois moins cher sur l’output. C’est un avantage compétitif considérable, surtout pour les applications à fort volume.

Cas d’usage : quand utiliser R1 vs V3

Le choix entre le mode chat (V3.2) et le mode raisonnement (V3.2 reasoner / R1) dépend de la tâche. Voici un guide pratique :

Utilisez le mode V3.2 (chat) pour :

Les tâches de rédaction et génération de contenu, où la fluidité et la vitesse comptent plus que le raisonnement profond. V3.2 en mode chat produit des textes naturels et cohérents, avec un temps de réponse très court.

Le code quotidien : écriture de fonctions, debugging basique, génération de boilerplate, documentation. Pour ces tâches, le raisonnement supplémentaire de R1 n’apporte pas de valeur significative et ralentit la réponse.

Les tâches conversationnelles : chatbots, assistants virtuels, Q&A sur des bases de connaissances. La rapidité et le naturel de V3.2 en mode chat sont plus adaptés que la rigueur analytique de R1.

Le résumé et la reformulation de textes, l’extraction d’informations, la traduction. Ces tâches sont bien servies par le mode chat classique.

Les workflows agentiques avec tool-use. V3.2 est le premier modèle DeepSeek à supporter le raisonnement intégré au tool-use. Pour les agents autonomes qui doivent enchaîner des appels d’outils, c’est le choix optimal.

Utilisez le mode R1 (reasoner) pour :

Les problèmes mathématiques complexes, en particulier ceux qui nécessitent plusieurs étapes de raisonnement. Sur AIME 2024, R1 affiche 79,8% contre ~39% pour V3 original. L’écart est massif.

Les challenges de programmation algorithmique (type Codeforces, LeetCode hard). R1 excelle dans la décomposition de problèmes complexes en étapes logiques, avec vérification interne.

L’analyse logique et les puzzles de raisonnement, où chaque étape doit être justifiée et vérifiable. Le fait que R1 montre sa chaîne de raisonnement est un avantage pour l’auditabilité.

La recherche scientifique nécessitant des démonstrations ou preuves formelles. V3.2-Speciale a obtenu des médailles d’or à l’IMO 2025 et aux olympiades d’informatique.

Les tâches où la précision prime absolument sur la vitesse : validation de formules, vérification de preuves, analyse de contrats complexes.

Piège courant N’utilisez pas le mode raisonnement pour des tâches simples. Si vous demandez à R1 de rédiger un email ou de résumer un article, il va « réfléchir » pendant des milliers de tokens avant de produire une réponse qui n’est pas meilleure que celle du mode chat. Vous payez plus cher pour un résultat identique (voire moins naturel).

Les modèles distillés R1 : R1 pour tous

Un apport majeur de R1 est son programme de distillation. DeepSeek a utilisé R1 comme « professeur » pour générer 800 000 échantillons d’entraînement, puis a fine-tuné plusieurs modèles denses plus petits. Les résultats sont remarquables :

Modèle distillé	AIME 2024	MATH-500	Codeforces (Elo)	Note
R1-Distill-Qwen-1.5B	28,9%	83,9%	954	Dépasse GPT-4o sur les maths
R1-Distill-Qwen-7B	55,5%	92,8%	1 189	Excellent rapport taille/perf
R1-Distill-Qwen-32B	72,6%	94,3%	1 691	Proche de R1 complet
R1-Distill-Llama-70B	86,7%	94,5%	1 633	Meilleur distillé global

Le fait qu’un modèle de 1,5 milliard de paramètres puisse dépasser GPT-4o sur des benchmarks mathématiques est en soi une démonstration de la puissance de la distillation de R1. Pour les développeurs qui veulent faire tourner un modèle de raisonnement en local via Ollama ou un autre runtime, ces modèles distillés sont une option très attractive.

DeepSeek a également montré que la distillation fonctionne mieux que l’entraînement RL direct sur petits modèles. Un modèle Qwen-32B entraîné directement par RL (R1-Zero-Qwen-32B) obtient des résultats inférieurs au même modèle fine-tuné sur les données de distillation R1. C’est un résultat important pour la communauté open-source.

Open-weight et écosystème : un avantage partagé

R1 et V3.2 sont tous les deux publiés sous licence MIT, ce qui autorise l’usage commercial, la modification et la distillation sans restriction. C’est un avantage compétitif majeur face aux modèles propriétaires de OpenAI ou Google.

Les deux modèles sont disponibles sur Hugging Face et peuvent être déployés en local. Cependant, le modèle complet (671B paramètres) nécessite une infrastructure GPU conséquente. Pour un déploiement local accessible, les modèles distillés R1 (de 1,5B à 70B paramètres) sont plus réalistes.

L’écosystème autour de DeepSeek est riche. Vous pouvez utiliser ces modèles via :

Ollama pour le déploiement local simplifié. vLLM et SGLang pour le serving haute performance en production. L’API DeepSeek pour un usage cloud sans infrastructure. Des fournisseurs tiers (Fireworks, Together, Groq, DeepInfra) pour plus de flexibilité géographique et de redondance.

Données et souveraineté Si vous utilisez l’API DeepSeek hébergée, vos données transitent par des serveurs gérés par une entreprise basée en Chine. Pour les entreprises européennes soumises au RGPD, c’est un point à évaluer. Le déploiement local via les poids open-weight élimine ce risque, mais nécessite une infrastructure GPU.

Limites respectives

Limites de R1

R1 n’est pas sans défauts. L’équipe DeepSeek reconnaît elle-même dans son paper que les capacités générales de R1 sont inférieures à celles de V3 sur certaines tâches : function calling, conversations multi-tours, jeux de rôle complexes, et génération de JSON structuré. C’est le revers de la spécialisation en raisonnement.

La latence est un problème significatif. Le processus de raisonnement peut prendre plusieurs minutes sur des problèmes complexes, avec des chaînes de pensée de dizaines de milliers de tokens. Pour les applications temps réel, c’est rédhibitoire.

La censure est également un sujet. Comme les autres modèles chinois, R1 peut refuser de répondre ou produire des réponses biaisées sur certains sujets politiquement sensibles (Tiananmen, Taiwan, Tibet, etc.). La version R1-1776 de Perplexity tente de corriger ce problème via un post-entraînement spécifique.

Limites de V3/V3.2

V3.2 en mode chat ne fait pas de raisonnement profond. Sur les problèmes nécessitant une réflexion structurée (maths avancées, logique formelle), ses performances restent nettement en dessous du mode reasoner.

La fenêtre de contexte de 128K tokens est inférieure à celle de Claude Opus 4.6 (1M tokens) ou de Gemini 3.1 Pro (~1M tokens). Pour les tâches nécessitant l’analyse de très longs documents, c’est une limitation.

L’output maximum est contraint : 8K tokens en mode chat, 64K en mode reasoner. C’est suffisant pour la majorité des cas, mais peut être limitant pour la génération de documents très longs ou de preuves mathématiques exhaustives.

DeepSeek R1/V3 face aux modèles concurrents

Pour situer R1 et V3 dans le paysage global :

Face à GPT-5.4 (OpenAI) : GPT-5.4 est plus polyvalent et dispose d’un contexte de ~1,05M tokens avec computer use natif. Mais il coûte environ 35 fois plus cher sur l’output. DeepSeek V3.2 offre des performances proches pour une fraction du prix. Pour le raisonnement pur, GPT-5.4 Thinking est excellent mais à un coût premium.

Face à Claude Opus 4.6 (Anthropic) : Claude excelle en rédaction longue, analyse nuancée et suivi d’instructions complexes, avec une fenêtre de 1M tokens sans surcoût. DeepSeek est nettement moins cher mais inférieur en qualité de rédaction et en contexte long. Pour le raisonnement mathématique pur, DeepSeek R1/V3.2 est compétitif.

Face à Mistral Large 3 : les deux sont open-weight et abordables. Mistral offre un meilleur support du français et une tarification déjà agressive (~$0,50/$1,50). DeepSeek est encore moins cher et plus fort en raisonnement, mais Mistral bénéficie de l’hébergement européen pour les questions de souveraineté des données.

Face à Gemini 3.1 Pro (Google) : Gemini obtient les meilleurs scores absolus sur certains benchmarks de raisonnement (77,1% sur ARC-AGI-2). En termes de prix API, Gemini 3 Flash est compétitif ($0,50/$3,00), mais DeepSeek reste moins cher. L’avantage de Gemini est l’intégration native avec l’écosystème Google.

Verdict : quel modèle choisir ?

La réponse dépend entièrement de votre cas d’usage. Voici la synthèse :

Pour 90% des usages : utilisez DeepSeek V3.2 en mode chat (deepseek-chat). C’est rapide, très peu cher, et suffisamment performant pour le code, la rédaction, l’analyse et les workflows agentiques. C’est le meilleur rapport qualité/prix du marché pour un LLM généraliste.

Pour le raisonnement complexe : activez le mode reasoner (deepseek-reasoner). Vous obtenez le raisonnement structuré type R1, intégré dans V3.2. Réservez-le aux problèmes qui le justifient : maths avancées, algorithmes complexes, analyse logique formelle.

Pour le raisonnement en local : les modèles distillés R1 (en particulier R1-Distill-Qwen-32B ou R1-Distill-Llama-70B) sont excellents pour un déploiement via Ollama ou vLLM. Les performances de raisonnement restent impressionnantes même sur du matériel grand public.

Pour la production critique : si la précision et la qualité de rédaction sont prioritaires, et que le budget le permet, des modèles comme Claude Opus 4.6 ou GPT-5.4 restent supérieurs en polyvalence. DeepSeek est le choix rationnel quand le coût est un facteur décisif.

Notre recommandation : commencez par V3.2 en mode chat. Si les résultats ne sont pas satisfaisants sur des tâches de raisonnement, passez au mode reasoner. Si la latence et le coût du raisonnement sont trop élevés, testez les modèles distillés R1 en local. Cette approche progressive vous permet d’optimiser le ratio coût/performance sans engagement initial.

Questions fréquentes sur DeepSeek R1 vs V3

Quelle est la différence fondamentale entre DeepSeek R1 et DeepSeek V3 ?

DeepSeek V3 est un LLM généraliste entraîné par fine-tuning supervisé et RLHF, conçu pour répondre rapidement à un large éventail de tâches (chat, code, rédaction). DeepSeek R1 est un modèle de raisonnement construit sur la même base V3 mais post-entraîné par apprentissage par renforcement massif (GRPO), ce qui lui permet de décomposer les problèmes complexes étape par étape avant de répondre. V3 est rapide et polyvalent, R1 est plus lent mais excelle en logique, mathématiques et code algorithmique. Depuis décembre 2025, V3.2 unifie les deux approches dans un seul modèle avec deux modes (chat et thinking).

DeepSeek R1 est-il gratuit ?

Oui, de plusieurs façons. L’interface web chat.deepseek.com donne accès gratuitement aux modèles DeepSeek, y compris le mode DeepThink (R1). Les poids du modèle sont publiés sous licence MIT, ce qui signifie que vous pouvez le télécharger, le modifier et l’utiliser commercialement sans frais de licence. Pour le déploiement local, les modèles distillés (de 1,5B à 70B paramètres) sont accessibles via Ollama ou Hugging Face. Seule l’utilisation de l’API hébergée est facturée ($0,28/$0,42 par million de tokens pour V3.2).

Pourquoi DeepSeek V3.2 a-t-il remplacé R1 sur l’API ?

V3.2 n’a pas « remplacé » R1 au sens strict, mais il a absorbé ses capacités. Sur l’API DeepSeek, l’endpoint deepseek-reasoner utilise désormais V3.2 en mode thinking, ce qui offre des performances de raisonnement supérieures ou égales à R1 d’origine, avec en plus le support du tool-use et une meilleure efficacité en tokens. C’est l’évolution naturelle vers un modèle unifié plutôt que deux modèles séparés.

Quel modèle DeepSeek utiliser pour du code ?

Pour le code quotidien (écriture de fonctions, debugging, refactoring), V3.2 en mode chat est le meilleur choix : rapide, peu cher, et suffisamment compétent. Pour les problèmes algorithmiques complexes (type compétitions de programmation, optimisation avancée), le mode reasoner est préférable. Pour le coding avec DeepSeek dans un IDE comme Cursor, V3.2 en mode chat est généralement utilisé par défaut pour sa vitesse.

DeepSeek R1 peut-il fonctionner sur un PC local ?

Le modèle complet R1 (671B paramètres) nécessite plusieurs GPU A100/H100 et plusieurs centaines de Go de VRAM. Ce n’est pas réaliste sur un PC grand public. En revanche, les modèles distillés sont tout à fait utilisables en local : R1-Distill-Qwen-7B fonctionne sur un GPU de 8 Go, R1-Distill-Qwen-32B sur un GPU de 24 Go (type RTX 4090). Avec la quantization, ces seuils peuvent encore être abaissés. Consultez notre guide DeepSeek sur Ollama pour les instructions détaillées.