DeepSeek R1 vs V3 : le guide complet pour choisir le bon modèle
DeepSeek R1 est un modèle de raisonnement avancé construit sur la base de DeepSeek V3, spécialisé dans les tâches de logique, mathématiques et code complexe, tandis que V3 (et son successeur V3.2) est un LLM généraliste optimisé pour la rapidité et la polyvalence au quotidien.
DeepSeek a adopté une stratégie multi-modèles qui peut dérouter. D’un côté, la série V3 (V3, V3.1, V3.2) sert de modèle principal pour le chat, le code et les tâches courantes. De l’autre, R1 pousse le raisonnement structuré à son maximum grâce à l’apprentissage par renforcement. Avec la sortie de DeepSeek V3.2 fin 2025, les lignes se brouillent encore : V3.2 intègre désormais un mode « thinking » qui unifie chat et raisonnement dans un seul modèle. Cette page fait le point sur les différences réelles entre R1 et V3, les performances concrètes, les prix, et surtout, lequel utiliser selon votre cas.
- Type R1
- Modèle de raisonnement (reasoning model)
- Type V3/V3.2
- LLM généraliste unifié (chat + reasoning)
- Architecture
- Mixture-of-Experts (MoE), 671B params, ~37B actifs
- Contexte
- 128K tokens (R1 et V3.2)
- Prix API (V3.2)
- $0,28 / $0,42 par 1M tokens (input/output)
- Prix API (R1)
- $0,55 / $2,19 par 1M tokens (input/output)
- Open-weight
- Oui, licence MIT pour R1 et V3.2
- Chat gratuit
- chat.deepseek.com
- Verdict
- V3.2 pour l’usage quotidien, R1 pour le raisonnement pur
Origines et filiation : comment R1 est né de V3
Pour comprendre la différence entre R1 et V3, il faut remonter à décembre 2024. DeepSeek publie alors V3, un modèle pré-entraîné sur 14,8 trillions de tokens avec une architecture MoE de 671 milliards de paramètres (dont seulement 37 milliards activés par requête). Ce modèle de base (V3-Base) subit ensuite un post-entraînement classique : fine-tuning supervisé (SFT) et RLHF pour produire le modèle chat DeepSeek-V3.
En janvier 2025, DeepSeek reprend ce même V3-Base pour créer R1. Le processus est fondamentalement différent : au lieu de simplement affiner le modèle sur des instructions humaines, l’équipe applique un apprentissage par renforcement massif (RL) avec des récompenses basées sur la justesse des réponses. Le modèle apprend à raisonner étape par étape, sans qu’on lui montre comment faire. C’est ce qu’on appelle le paradigme du « raisonnement émergent ».
En pratique, DeepSeek a d’abord créé R1-Zero (RL pur, sans SFT préalable), qui a démontré des capacités de raisonnement impressionnantes mais avec des défauts notables : répétitions infinies, mélange de langues, lisibilité médiocre. R1 final corrige ces problèmes en ajoutant une phase de « cold-start » avec des données de qualité avant le RL, puis une phase d’alignement avec les préférences humaines.
L’évolution de la série V3 : V3.1 et V3.2
DeepSeek n’est pas resté sur V3 d’origine. En août 2025, V3.1 fusionne les capacités de V3 et R1 dans un modèle hybride : les utilisateurs peuvent basculer entre un mode chat classique et un mode raisonnement via le template de prompt. C’est le début de l’unification.
En décembre 2025, V3.2 pousse cette logique encore plus loin. Ce modèle introduit trois innovations majeures : DeepSeek Sparse Attention (DSA) pour réduire la complexité computationnelle, un framework de RL scalable, et un pipeline de synthèse de données agentiques couvrant plus de 1 800 environnements et 85 000 instructions complexes. V3.2 est le premier modèle DeepSeek à intégrer le raisonnement directement dans l’utilisation d’outils (tool-use), en supportant les deux modes (thinking et non-thinking).
Résultat : sur l’API DeepSeek, les endpoints deepseek-chat et deepseek-reasoner pointent tous les deux vers V3.2. La différence se fait sur le mode d’inférence activé, pas sur le modèle sous-jacent. Autrement dit, V3.2 est devenu le successeur à la fois de V3 et, dans une certaine mesure, de R1 pour les usages API.
deepseek-chat active V3.2 en mode non-thinking (réponse directe), tandis que deepseek-reasoner active V3.2 en mode thinking (raisonnement structuré avec chain-of-thought). Ce n’est plus techniquement le R1 d’origine, mais le comportement est similaire.
Architecture comparée en détail
R1 et V3 partagent la même architecture de base, ce qui est normal puisque R1 est construit sur V3-Base. Les deux utilisent :
La structure Mixture-of-Experts avec 671 milliards de paramètres totaux et environ 37 milliards activés par token. Cette approche permet de maintenir un coût d’inférence bas tout en conservant une capacité de représentation massive.
Le mécanisme Multi-Head Latent Attention (MLA), qui compresse les vecteurs clé-valeur dans un espace latent avant de les stocker dans le cache KV. Cela réduit significativement la mémoire nécessaire lors de l’inférence, ce qui contribue directement au faible coût de l’API DeepSeek.
Un pré-entraînement en précision FP8, ce qui a permis de réduire drastiquement le coût d’entraînement (estimé à environ 6 millions de dollars pour V3-Base, un chiffre remarquablement bas pour un modèle de cette envergure).
La vraie différence : le post-entraînement
C’est au niveau du post-entraînement que R1 et V3 divergent fondamentalement :
| Critère | DeepSeek V3 (chat) | DeepSeek R1 |
|---|---|---|
| Méthode principale | SFT + RLHF | Cold-start SFT + RL massif (GRPO) |
| Signal de récompense | Modèle de récompense humain | Règles de justesse (maths, code, logique) |
| Chain-of-thought | Non (réponse directe) | Oui (raisonnement visible avant réponse) |
| Tokens de raisonnement | Aucun | 12K à 23K tokens par problème complexe |
| Vérification interne | Non | Auto-vérification et exploration d’alternatives |
| Comportement émergent | Non | Oui (retours en arrière, « aha moments ») |
V3 suit le schéma classique des LLMs : on lui montre comment bien répondre (SFT), puis on affine avec des préférences humaines (RLHF). Le résultat est un modèle fluide, rapide, qui produit des réponses cohérentes pour la grande majorité des tâches.
R1 suit une approche radicalement différente. Le modèle apprend à raisonner par lui-même via le RL. Quand vous posez un problème complexe à R1, il ne produit pas directement une réponse. Il génère d’abord une longue chaîne de raisonnement, explore plusieurs pistes, vérifie ses propres conclusions, revient en arrière si nécessaire, puis formule sa réponse finale. Ce processus est visible dans l’interface sous forme de tokens de « thinking ».
V3.2 : le meilleur des deux mondes ?
V3.2 représente la convergence. Avec son framework de RL scalable et l’intégration du raisonnement dans le tool-use, V3.2 combine la polyvalence de V3 avec une partie significative des capacités de raisonnement de R1. La variante V3.2-Speciale pousse encore plus loin, avec des contraintes de longueur relâchées pour maximiser le raisonnement profond.
L’innovation clé de V3.2 est le DeepSeek Sparse Attention (DSA), un mécanisme d’attention efficace qui réduit substantiellement la complexité computationnelle tout en préservant les performances sur les contextes longs. C’est ce qui permet à V3.2 d’offrir des performances comparables à GPT-5 tout en maintenant les tarifs API les plus bas du marché.
Benchmarks : qui gagne où ?
Les chiffres de benchmarks racontent une histoire nuancée. R1 d’origine (janvier 2025) était conçu pour dominer les benchmarks de raisonnement, et c’est exactement ce qu’il fait. Mais V3.2 a largement comblé l’écart, voire dépassé R1 sur plusieurs mesures.
R1 originel (janvier 2025)
| Benchmark | DeepSeek R1 | DeepSeek V3 | OpenAI o1 | Commentaire |
|---|---|---|---|---|
| AIME 2024 (maths) | 79,8% | ~39% | 79,2% | R1 au niveau de o1 |
| MATH-500 | 97,3% | ~90% | 96,4% | R1 légèrement devant o1 |
| Codeforces (Elo) | 2 029 | ~1 500 | 2 061 | Compétitif avec o1 |
| MMLU (connaissances) | 90,8% | 88,5% | 91,8% | o1 légèrement devant |
| GPQA Diamond | 71,5% | 59,1% | 75,7% | o1 devant, R1 nettement meilleur que V3 |
L’écart entre R1 et V3 original sur les tâches de raisonnement est massif : +40 points sur AIME 2024, +7 points sur MATH-500. En revanche, sur les tâches générales comme MMLU, la différence est modeste (~2 points). C’est logique : R1 a été optimisé pour le raisonnement, pas pour la culture générale.
R1-0528 (mai 2025) : la mise à jour majeure
En mai 2025, DeepSeek publie R1-0528, une mise à jour significative. Les performances sur AIME 2025 passent de 70% à 87,5%, grâce à une profondeur de raisonnement accrue (le modèle utilise en moyenne 23K tokens de raisonnement par question AIME, contre 12K pour la version précédente). Les hallucinations sont réduites de 45 à 50%, et le support des appels de fonctions (function calling) est ajouté.
V3.2 (décembre 2025) : le game-changer
V3.2 change la donne. En mode raisonnement, il atteint des performances comparables à GPT-5 sur les benchmarks publics. La variante V3.2-Speciale va encore plus loin, rivalisant avec Gemini 3.0 Pro et obtenant des médailles d’or à l’IMO 2025 et aux IOI 2025.
| Benchmark | DeepSeek V3.2 | V3.2-Speciale | Comparaison |
|---|---|---|---|
| AIME (compétition maths) | Élevé | 96% | Dépasse GPT-5 |
| IMO 2025 | N/A | 5/6 problèmes (83,3%) | Médaille d’or |
| Codeforces | Élevé | Dépasse GPT-5 High | Niveau expert |
| Tâches agentiques | 1 800+ environnements | N/A (pas de tool-use) | Leader open-source |
Prix API : le nerf de la guerre
Le pricing est un argument massif pour DeepSeek dans les deux cas. Mais la différence de coût entre les modèles R1 et V3 peut impacter significativement votre budget, surtout à volume.
Grille tarifaire actuelle (mars 2026)
Sur l’API DeepSeek, les deux endpoints (deepseek-chat et deepseek-reasoner) utilisent désormais V3.2 sous le capot. La tarification est unifiée :
| Poste | Prix (par 1M tokens) |
|---|---|
| Input (cache miss) | $0,28 |
| Input (cache hit) | $0,028 |
| Output | $0,42 |
Le cache hit offre une réduction de 90% sur l’input. C’est un avantage énorme pour les applications qui envoient des prompts répétitifs ou des contextes système lourds.
Le coût réel du raisonnement
Attention au piège : le prix par token est identique pour deepseek-chat et deepseek-reasoner, mais le mode raisonnement génère beaucoup plus de tokens. Les tokens de « thinking » (chain-of-thought) sont facturés comme des tokens de sortie. Sur un problème AIME typique, R1-0528 génère en moyenne 23K tokens de raisonnement avant de produire sa réponse.
Prenons un exemple concret :
| Scénario | Mode chat (V3.2) | Mode reasoner (V3.2) |
|---|---|---|
| Input : 1 000 tokens | $0,00028 | $0,00028 |
| Output : réponse directe (~500 tokens) | $0,00021 | N/A |
| Output : thinking + réponse (~15 000 tokens) | N/A | $0,0063 |
| Coût total par requête | ~$0,0005 | ~$0,0066 |
Le mode raisonnement coûte environ 13 fois plus cher par requête, non pas à cause d’un prix par token supérieur, mais à cause du volume de tokens générés. C’est un facteur à intégrer dans votre calcul de coût.
Face à la concurrence
Même avec le surcoût du raisonnement, DeepSeek reste parmi les options les moins chères du marché :
| Modèle | Input ($/1M) | Output ($/1M) | Type |
|---|---|---|---|
| DeepSeek V3.2 | $0,28 | $0,42 | Généraliste + raisonnement |
| Mistral Large 3 | ~$0,50 | ~$1,50 | Généraliste open-weight |
| Gemini 3 Flash | ~$0,50 | ~$3,00 | Généraliste rapide |
| GPT-5.4 | $2,50 | $15,00 | Flagship OpenAI |
| Claude Sonnet 4.6 | $3,00 | $15,00 | Flagship Anthropic (milieu de gamme) |
| Claude Opus 4.6 | $5,00 | $25,00 | Flagship Anthropic |
DeepSeek V3.2 est environ 9 fois moins cher que GPT-5.4 sur l’input et 35 fois moins cher sur l’output. C’est un avantage compétitif considérable, surtout pour les applications à fort volume.
Cas d’usage : quand utiliser R1 vs V3
Le choix entre le mode chat (V3.2) et le mode raisonnement (V3.2 reasoner / R1) dépend de la tâche. Voici un guide pratique :
Utilisez le mode V3.2 (chat) pour :
Les tâches de rédaction et génération de contenu, où la fluidité et la vitesse comptent plus que le raisonnement profond. V3.2 en mode chat produit des textes naturels et cohérents, avec un temps de réponse très court.
Le code quotidien : écriture de fonctions, debugging basique, génération de boilerplate, documentation. Pour ces tâches, le raisonnement supplémentaire de R1 n’apporte pas de valeur significative et ralentit la réponse.
Les tâches conversationnelles : chatbots, assistants virtuels, Q&A sur des bases de connaissances. La rapidité et le naturel de V3.2 en mode chat sont plus adaptés que la rigueur analytique de R1.
Le résumé et la reformulation de textes, l’extraction d’informations, la traduction. Ces tâches sont bien servies par le mode chat classique.
Les workflows agentiques avec tool-use. V3.2 est le premier modèle DeepSeek à supporter le raisonnement intégré au tool-use. Pour les agents autonomes qui doivent enchaîner des appels d’outils, c’est le choix optimal.
Utilisez le mode R1 (reasoner) pour :
Les problèmes mathématiques complexes, en particulier ceux qui nécessitent plusieurs étapes de raisonnement. Sur AIME 2024, R1 affiche 79,8% contre ~39% pour V3 original. L’écart est massif.
Les challenges de programmation algorithmique (type Codeforces, LeetCode hard). R1 excelle dans la décomposition de problèmes complexes en étapes logiques, avec vérification interne.
L’analyse logique et les puzzles de raisonnement, où chaque étape doit être justifiée et vérifiable. Le fait que R1 montre sa chaîne de raisonnement est un avantage pour l’auditabilité.
La recherche scientifique nécessitant des démonstrations ou preuves formelles. V3.2-Speciale a obtenu des médailles d’or à l’IMO 2025 et aux olympiades d’informatique.
Les tâches où la précision prime absolument sur la vitesse : validation de formules, vérification de preuves, analyse de contrats complexes.
Les modèles distillés R1 : R1 pour tous
Un apport majeur de R1 est son programme de distillation. DeepSeek a utilisé R1 comme « professeur » pour générer 800 000 échantillons d’entraînement, puis a fine-tuné plusieurs modèles denses plus petits. Les résultats sont remarquables :
| Modèle distillé | AIME 2024 | MATH-500 | Codeforces (Elo) | Note |
|---|---|---|---|---|
| R1-Distill-Qwen-1.5B | 28,9% | 83,9% | 954 | Dépasse GPT-4o sur les maths |
| R1-Distill-Qwen-7B | 55,5% | 92,8% | 1 189 | Excellent rapport taille/perf |
| R1-Distill-Qwen-32B | 72,6% | 94,3% | 1 691 | Proche de R1 complet |
| R1-Distill-Llama-70B | 86,7% | 94,5% | 1 633 | Meilleur distillé global |
Le fait qu’un modèle de 1,5 milliard de paramètres puisse dépasser GPT-4o sur des benchmarks mathématiques est en soi une démonstration de la puissance de la distillation de R1. Pour les développeurs qui veulent faire tourner un modèle de raisonnement en local via Ollama ou un autre runtime, ces modèles distillés sont une option très attractive.
DeepSeek a également montré que la distillation fonctionne mieux que l’entraînement RL direct sur petits modèles. Un modèle Qwen-32B entraîné directement par RL (R1-Zero-Qwen-32B) obtient des résultats inférieurs au même modèle fine-tuné sur les données de distillation R1. C’est un résultat important pour la communauté open-source.
Open-weight et écosystème : un avantage partagé
R1 et V3.2 sont tous les deux publiés sous licence MIT, ce qui autorise l’usage commercial, la modification et la distillation sans restriction. C’est un avantage compétitif majeur face aux modèles propriétaires de OpenAI ou Google.
Les deux modèles sont disponibles sur Hugging Face et peuvent être déployés en local. Cependant, le modèle complet (671B paramètres) nécessite une infrastructure GPU conséquente. Pour un déploiement local accessible, les modèles distillés R1 (de 1,5B à 70B paramètres) sont plus réalistes.
L’écosystème autour de DeepSeek est riche. Vous pouvez utiliser ces modèles via :
Ollama pour le déploiement local simplifié. vLLM et SGLang pour le serving haute performance en production. L’API DeepSeek pour un usage cloud sans infrastructure. Des fournisseurs tiers (Fireworks, Together, Groq, DeepInfra) pour plus de flexibilité géographique et de redondance.
Limites respectives
Limites de R1
R1 n’est pas sans défauts. L’équipe DeepSeek reconnaît elle-même dans son paper que les capacités générales de R1 sont inférieures à celles de V3 sur certaines tâches : function calling, conversations multi-tours, jeux de rôle complexes, et génération de JSON structuré. C’est le revers de la spécialisation en raisonnement.
La latence est un problème significatif. Le processus de raisonnement peut prendre plusieurs minutes sur des problèmes complexes, avec des chaînes de pensée de dizaines de milliers de tokens. Pour les applications temps réel, c’est rédhibitoire.
La censure est également un sujet. Comme les autres modèles chinois, R1 peut refuser de répondre ou produire des réponses biaisées sur certains sujets politiquement sensibles (Tiananmen, Taiwan, Tibet, etc.). La version R1-1776 de Perplexity tente de corriger ce problème via un post-entraînement spécifique.
Limites de V3/V3.2
V3.2 en mode chat ne fait pas de raisonnement profond. Sur les problèmes nécessitant une réflexion structurée (maths avancées, logique formelle), ses performances restent nettement en dessous du mode reasoner.
La fenêtre de contexte de 128K tokens est inférieure à celle de Claude Opus 4.6 (1M tokens) ou de Gemini 3.1 Pro (~1M tokens). Pour les tâches nécessitant l’analyse de très longs documents, c’est une limitation.
L’output maximum est contraint : 8K tokens en mode chat, 64K en mode reasoner. C’est suffisant pour la majorité des cas, mais peut être limitant pour la génération de documents très longs ou de preuves mathématiques exhaustives.
DeepSeek R1/V3 face aux modèles concurrents
Pour situer R1 et V3 dans le paysage global :
Face à GPT-5.4 (OpenAI) : GPT-5.4 est plus polyvalent et dispose d’un contexte de ~1,05M tokens avec computer use natif. Mais il coûte environ 35 fois plus cher sur l’output. DeepSeek V3.2 offre des performances proches pour une fraction du prix. Pour le raisonnement pur, GPT-5.4 Thinking est excellent mais à un coût premium.
Face à Claude Opus 4.6 (Anthropic) : Claude excelle en rédaction longue, analyse nuancée et suivi d’instructions complexes, avec une fenêtre de 1M tokens sans surcoût. DeepSeek est nettement moins cher mais inférieur en qualité de rédaction et en contexte long. Pour le raisonnement mathématique pur, DeepSeek R1/V3.2 est compétitif.
Face à Mistral Large 3 : les deux sont open-weight et abordables. Mistral offre un meilleur support du français et une tarification déjà agressive (~$0,50/$1,50). DeepSeek est encore moins cher et plus fort en raisonnement, mais Mistral bénéficie de l’hébergement européen pour les questions de souveraineté des données.
Face à Gemini 3.1 Pro (Google) : Gemini obtient les meilleurs scores absolus sur certains benchmarks de raisonnement (77,1% sur ARC-AGI-2). En termes de prix API, Gemini 3 Flash est compétitif ($0,50/$3,00), mais DeepSeek reste moins cher. L’avantage de Gemini est l’intégration native avec l’écosystème Google.
Verdict : quel modèle choisir ?
La réponse dépend entièrement de votre cas d’usage. Voici la synthèse :
Pour 90% des usages : utilisez DeepSeek V3.2 en mode chat (deepseek-chat). C’est rapide, très peu cher, et suffisamment performant pour le code, la rédaction, l’analyse et les workflows agentiques. C’est le meilleur rapport qualité/prix du marché pour un LLM généraliste.
Pour le raisonnement complexe : activez le mode reasoner (deepseek-reasoner). Vous obtenez le raisonnement structuré type R1, intégré dans V3.2. Réservez-le aux problèmes qui le justifient : maths avancées, algorithmes complexes, analyse logique formelle.
Pour le raisonnement en local : les modèles distillés R1 (en particulier R1-Distill-Qwen-32B ou R1-Distill-Llama-70B) sont excellents pour un déploiement via Ollama ou vLLM. Les performances de raisonnement restent impressionnantes même sur du matériel grand public.
Pour la production critique : si la précision et la qualité de rédaction sont prioritaires, et que le budget le permet, des modèles comme Claude Opus 4.6 ou GPT-5.4 restent supérieurs en polyvalence. DeepSeek est le choix rationnel quand le coût est un facteur décisif.
Notre recommandation : commencez par V3.2 en mode chat. Si les résultats ne sont pas satisfaisants sur des tâches de raisonnement, passez au mode reasoner. Si la latence et le coût du raisonnement sont trop élevés, testez les modèles distillés R1 en local. Cette approche progressive vous permet d’optimiser le ratio coût/performance sans engagement initial.
Questions fréquentes sur DeepSeek R1 vs V3
Quelle est la différence fondamentale entre DeepSeek R1 et DeepSeek V3 ?
DeepSeek V3 est un LLM généraliste entraîné par fine-tuning supervisé et RLHF, conçu pour répondre rapidement à un large éventail de tâches (chat, code, rédaction). DeepSeek R1 est un modèle de raisonnement construit sur la même base V3 mais post-entraîné par apprentissage par renforcement massif (GRPO), ce qui lui permet de décomposer les problèmes complexes étape par étape avant de répondre. V3 est rapide et polyvalent, R1 est plus lent mais excelle en logique, mathématiques et code algorithmique. Depuis décembre 2025, V3.2 unifie les deux approches dans un seul modèle avec deux modes (chat et thinking).
DeepSeek R1 est-il gratuit ?
Oui, de plusieurs façons. L’interface web chat.deepseek.com donne accès gratuitement aux modèles DeepSeek, y compris le mode DeepThink (R1). Les poids du modèle sont publiés sous licence MIT, ce qui signifie que vous pouvez le télécharger, le modifier et l’utiliser commercialement sans frais de licence. Pour le déploiement local, les modèles distillés (de 1,5B à 70B paramètres) sont accessibles via Ollama ou Hugging Face. Seule l’utilisation de l’API hébergée est facturée ($0,28/$0,42 par million de tokens pour V3.2).
Pourquoi DeepSeek V3.2 a-t-il remplacé R1 sur l’API ?
V3.2 n’a pas « remplacé » R1 au sens strict, mais il a absorbé ses capacités. Sur l’API DeepSeek, l’endpoint deepseek-reasoner utilise désormais V3.2 en mode thinking, ce qui offre des performances de raisonnement supérieures ou égales à R1 d’origine, avec en plus le support du tool-use et une meilleure efficacité en tokens. C’est l’évolution naturelle vers un modèle unifié plutôt que deux modèles séparés.
Quel modèle DeepSeek utiliser pour du code ?
Pour le code quotidien (écriture de fonctions, debugging, refactoring), V3.2 en mode chat est le meilleur choix : rapide, peu cher, et suffisamment compétent. Pour les problèmes algorithmiques complexes (type compétitions de programmation, optimisation avancée), le mode reasoner est préférable. Pour le coding avec DeepSeek dans un IDE comme Cursor, V3.2 en mode chat est généralement utilisé par défaut pour sa vitesse.
DeepSeek R1 peut-il fonctionner sur un PC local ?
Le modèle complet R1 (671B paramètres) nécessite plusieurs GPU A100/H100 et plusieurs centaines de Go de VRAM. Ce n’est pas réaliste sur un PC grand public. En revanche, les modèles distillés sont tout à fait utilisables en local : R1-Distill-Qwen-7B fonctionne sur un GPU de 8 Go, R1-Distill-Qwen-32B sur un GPU de 24 Go (type RTX 4090). Avec la quantization, ces seuils peuvent encore être abaissés. Consultez notre guide DeepSeek sur Ollama pour les instructions détaillées.