DeepSeek R1 : le modele de raisonnement open-source qui rivalise avec o1
- Editeur
- DeepSeek (Chine)
- Parametres
- 671B totaux / ~37B actifs (MoE)
- Architecture
- MoE + Multi-head Latent Attention
- Specialite
- Raisonnement, maths, code
- AIME score
- ~79,8 % pass@1
- MATH-500
- ~97,3 % pass@1
- Versions distillees
- 1.5B, 7B, 8B, 14B, 32B, 70B
- Licence
- MIT
- URL
- deepseek.com
Qu’est-ce que DeepSeek R1 ?
DeepSeek R1 est a DeepSeek V3 ce que o1/o3 est a GPT-4o : une version specialisee dans le raisonnement profond. Plutot que de repondre immediatement, R1 genere d’abord une longue chaine de reflexion interne (chain-of-thought) avant de produire sa reponse finale.
Ce qui a rendu R1 historique : c’est le premier modele open-source a atteindre les performances d’OpenAI o1 sur les benchmarks de raisonnement, prouvant que l’approche chain-of-thought avancee n’est pas le monopole des laboratoires a budgets massifs.
R1 a ete publie en janvier 2025 sous licence MIT. Une mise a jour significative, R1-0528, a ete publiee en mai 2025, doublant presque l’utilisation de tokens de raisonnement (de 12K a 23K tokens par question AIME) et approchant les performances d’OpenAI o3 et Gemini 2.5 Pro.
Comment fonctionne le raisonnement de R1
Le raisonnement de DeepSeek R1 repose sur une approche en deux phases :
Phase 1 : Reflexion (thinking). Le modele genere une longue chaine de raisonnement interne, explorant differentes approches, verifiant ses hypotheses et corrigeant ses erreurs. Cette phase peut consommer des milliers de tokens (jusqu’a 23K tokens par question complexe avec R1-0528).
Phase 2 : Reponse. A partir de sa reflexion, le modele synthetise une reponse claire et structuree. La qualite de la reponse est directement proportionnelle a la profondeur de la reflexion en phase 1.
Cette approche s’inspire du systeme 2 de la pensee humaine (raisonnement delibere vs reponse instinctive). Elle est particulierement efficace sur les problemes necessitant plusieurs etapes de raisonnement : mathematiques, programmation, logique formelle.
Benchmarks
| Benchmark | Score R1 | Contexte |
|---|---|---|
| AIME (American Invitational Math Exam) | ~79,8 % pass@1 | Comparable a OpenAI o1 |
| MATH-500 | ~97,3 % pass@1 | Quasi-parfait |
| Codeforces Elo | 2 029 | Niveau expert en programmation competitive |
La mise a jour R1-0528 (mai 2025) a pousse ces performances encore plus loin, approchant les scores d’OpenAI o3 et Gemini 2.5 Pro, les meilleurs modeles de raisonnement de l’epoque.
Versions distillees
L’une des contributions majeures de DeepSeek R1 est la publication de modeles distilles : des versions plus petites qui heritent des capacites de raisonnement du modele complet via un processus de distillation de connaissances.
| Modele distille | Base | Parametres | Cible |
|---|---|---|---|
| R1-1.5B | Qwen 2.5 | 1,5B | Edge, mobile |
| R1-7B | Qwen 2.5 | 7B | GPU consumer |
| R1-8B | LLaMA 3 | 8B | GPU consumer |
| R1-14B | Qwen 2.5 | 14B | Single GPU pro |
| R1-32B | Qwen 2.5 | 32B | Production |
| R1-70B | LLaMA 3 | 70B | Production avancee |
Ces versions distillees conservent une partie significative des capacites de raisonnement du modele complet a une fraction du cout. Le R1-32B, en particulier, offre un excellent rapport performance/accessibilite pour le deploiement en production.
Tarification API
Le raisonnement via l’API DeepSeek utilise le meme endpoint que V3.2, avec la meme tarification unifiee :
| Mode | Input | Output |
|---|---|---|
| Cache miss | ~0,55 $/M tokens | ~2,19 $/M tokens |
| Cache hit | ~0,055 $/M tokens | ~2,19 $/M tokens |
Meme en mode raisonnement, DeepSeek reste 5 a 10 fois moins cher que les alternatives proprietaires comparables (o3, Claude Opus 4.6 extended thinking).
Relation avec DeepSeek V3.2
DeepSeek V3.2 unifie les modes chat et raisonnement dans un seul modele. En pratique, V3.2 peut activer un mode « reasoner » qui reproduit le comportement de R1 (chaine de raisonnement etendue, output long jusqu’a ~64K tokens). R1 en tant que modele separe reste disponible, mais V3.2 est la direction recommandee pour les nouveaux projets.
DeepSeek R1 vs OpenAI o3 vs Claude Extended Thinking
| Critere | DeepSeek R1 | OpenAI o3 | Claude Opus 4.6 (thinking) |
|---|---|---|---|
| Open-source | Oui (MIT) | Non | Non |
| Versions distillees | 6 tailles (1.5B-70B) | Non | Non |
| Prix | Tres bas | Eleve | Eleve |
| AIME | ~79,8 % | Superieur | Non publie |
| Deploiement local | Oui | Non | Non |
| Origine | Chine | USA | USA |
R1 offre le meilleur rapport qualite/prix et la seule option de deploiement local pour le raisonnement avance. o3 reste superieur en performances brutes. Claude Opus 4.6 avec extended thinking excelle sur les taches combinant raisonnement et generation longue.
FAQ DeepSeek R1
DeepSeek R1 est-il gratuit ?
Le modele complet et les versions distillees sont disponibles gratuitement sur Hugging Face sous licence MIT. L’API est payante mais tres economique. Le chat web (chat.deepseek.com) est gratuit avec des quotas.
Quelle version distillee choisir ?
R1-7B ou R1-8B pour un GPU consumer (RTX 3060/4060). R1-14B pour un single GPU pro (RTX 4090). R1-32B pour le meilleur ratio performance/accessibilite. R1-70B pour les performances maximales en local. R1-1.5B pour le deploiement mobile ou edge.
R1 est-il meilleur que ChatGPT pour les maths ?
Sur les benchmarks de mathematiques pures (AIME, MATH-500), DeepSeek R1 atteint des performances comparables a OpenAI o1. La mise a jour R1-0528 approche le niveau d’o3. Pour les mathematiques avancees, R1 est une alternative serieuse et beaucoup moins chere.
Peut-on faire tourner R1 sur un PC ?
Le modele complet (671B) necessite une infrastructure multi-GPU. Les versions distillees sont beaucoup plus accessibles : R1-7B tourne sur une RTX 3060 12 Go en quantification 4-bit. R1-32B necessite une RTX 4090 24 Go en 4-bit. Utilisez Ollama pour la methode la plus simple.
Faut-il utiliser R1 ou V3.2 ?
Pour les nouveaux projets, V3.2 est recommande car il unifie chat et raisonnement. R1 reste pertinent si vous avez deja un pipeline configure autour de ce modele, ou si vous utilisez les versions distillees pour le deploiement local.