GPU (Graphics Processing Unit)
Un GPU (Graphics Processing Unit, ou processeur graphique) est un processeur spécialisé dans le calcul parallèle massif, devenu le composant matériel central de l’intelligence artificielle pour l’entraînement et l’inférence des modèles de deep learning.
À l’origine conçu pour accélérer le rendu graphique des jeux vidéo, le GPU s’est imposé comme l’accélérateur de référence pour l’IA grâce à sa capacité à effectuer des milliers d’opérations mathématiques simultanément. Entraîner un LLM comme GPT-5.4, Claude Opus 4.6 ou Llama 3 nécessite des milliers de GPU travaillant en parallèle pendant des semaines. Exécuter ces modèles en production (inférence) repose aussi massivement sur les GPU. NVIDIA domine ce marché avec environ 80 à 90% de parts de marché, mais AMD, Intel, Google (TPU), et les puces custom des hyperscalers gagnent du terrain.
- Signification
- Graphics Processing Unit (processeur graphique)
- Fonction en IA
- Calcul parallèle massif pour entraînement et inférence de modèles
- Leader marché
- NVIDIA (~80-90% du marché accélérateurs IA)
- Concurrents
- AMD (MI-series), Intel (Gaudi), Google (TPU), Apple (Metal)
- Gamme NVIDIA actuelle
- Blackwell (H200, B200), Vera Rubin (annoncé, S2 2026)
- Gamme AMD actuelle
- MI300X, MI325X, MI400 (annoncé, MI450 en préparation)
- Mémoire clé
- HBM3e (High Bandwidth Memory)
- Écosystème logiciel
- CUDA (NVIDIA), ROCm (AMD), oneAPI (Intel)
Pourquoi le GPU est essentiel à l’IA
Le parallélisme massif
Un CPU moderne (comme un Intel Core i9 ou un AMD Ryzen 9) possède 16 à 24 cœurs, chacun capable d’exécuter des tâches complexes et variées. Un GPU, en revanche, contient des milliers de cœurs plus simples, optimisés pour effectuer la même opération sur de grandes quantités de données en même temps. Un NVIDIA H100 contient plus de 16 000 cœurs CUDA. Un B200 en contient encore plus.
L’entraînement et l’inférence de réseaux de neurones reposent fondamentalement sur des multiplications de matrices : des opérations très régulières et massivement parallélisables. C’est exactement le type de calcul pour lequel les GPU sont conçus. Un GPU peut exécuter une multiplication matricielle des centaines de fois plus vite qu’un CPU.
Tensor Cores et unités spécialisées
Les GPU modernes dédiés à l’IA ne se contentent pas de cœurs CUDA/shader génériques. NVIDIA a introduit les Tensor Cores à partir de l’architecture Volta (2017), des unités spécialisées dans les multiplications matricielles mixtes (FP16×FP16 avec accumulation FP32). Chaque génération a élargi la gamme de précisions supportées : FP8, INT8, FP4, puis les formats MXFP4 et NVFP4 sur les architectures Blackwell et Rubin.
AMD a suivi avec les Matrix Cores dans ses GPU Instinct (MI250, MI300, MI400). Apple a introduit des Neural Accelerators dans les cœurs GPU de la puce M5, accessibles via Metal 4 et exploités par MLX. Google a conçu ses TPU (Tensor Processing Units) entièrement autour de ce type de calcul matriciel.
Bande passante mémoire : le facteur limitant
Pour l’inférence de LLM, le goulot d’étranglement n’est pas la puissance de calcul brute mais la bande passante mémoire. Chaque token généré nécessite de lire les poids du modèle depuis la mémoire. Un modèle de 70 milliards de paramètres en FP16 pèse ~140 Go : il faut lire ces 140 Go pour chaque token produit. La vitesse de génération dépend donc directement du débit mémoire du GPU.
C’est pourquoi la mémoire HBM (High Bandwidth Memory) est devenue si cruciale. Un H100 SXM avec 80 Go de HBM3 offre ~3,35 TB/s de bande passante. Un H200 avec 141 Go de HBM3e monte à ~4,8 TB/s. Les B200 avec HBM3e poussent encore plus loin. C’est cette bande passante qui détermine le nombre de tokens par seconde qu’un GPU peut générer.
GPU pour l’entraînement de modèles
Clusters de GPU
L’entraînement d’un LLM frontier nécessite des clusters de milliers à des dizaines de milliers de GPU. Meta a annoncé des engagements de plusieurs millions de GPU NVIDIA et AMD pour ses data centers IA. OpenAI, Google et Anthropic opèrent des clusters similaires. Le coût de construction et d’exploitation de ces clusters se mesure en milliards de dollars.
Les GPU dans un cluster sont interconnectés par des liens à très haut débit pour synchroniser les gradients pendant l’entraînement. NVIDIA utilise NVLink (pour la communication intra-nœud entre GPU) et InfiniBand ou NVLink Switch (pour la communication inter-nœuds). La bande passante de ces interconnexions est critique : un cluster de GPU mal interconnecté passera plus de temps à communiquer qu’à calculer.
Précisions numériques
L’entraînement moderne de LLM utilise un mélange de précisions numériques pour maximiser la vitesse sans sacrifier la qualité du modèle :
| Précision | Bits | Usage | Notes |
|---|---|---|---|
| FP32 | 32 | Accumulation de gradients | Référence de précision |
| BF16 | 16 | Forward/backward pass | Standard actuel pour l’entraînement |
| FP16 | 16 | Forward/backward pass | Plus ancien, remplacé par BF16 |
| FP8 | 8 | Entraînement accéléré | Supporté sur Hopper (H100) et plus récent |
| FP4 / MXFP4 | 4 | Inférence et entraînement expérimental | Blackwell, Rubin |
L’entraînement en « mixed precision » (BF16 pour les calculs, FP32 pour l’accumulation) est la norme. Les GPU récents supportent aussi l’entraînement en FP8, ce qui double le débit par rapport à BF16 avec une perte de qualité minime pour la plupart des architectures.
GPU pour l’inférence
Inférence en data center
L’inférence de LLM à grande échelle (servir des millions d’utilisateurs comme ChatGPT ou Claude) est un marché en pleine explosion. Chaque requête utilisateur consomme des ressources GPU. Les optimisations logicielles comme vLLM (batching continu, PagedAttention), TensorRT-LLM (NVIDIA), et les techniques de quantification post-entraînement sont essentielles pour maximiser le nombre de requêtes traitées par GPU et par seconde.
Pour l’inférence de LLM, le ratio performance/coût est souvent plus important que la performance brute. Un GPU moins puissant mais moins cher peut être plus rentable s’il est mieux optimisé logiciellement. C’est pourquoi des GPU comme le H200 (avec sa mémoire HBM3e massive) ou les futurs B200 sont si attractifs : plus de mémoire signifie des modèles plus gros sans devoir distribuer sur plusieurs GPU, ce qui réduit la complexité et le coût.
Inférence locale (consumer GPU)
Pour les développeurs et les particuliers, les GPU grand public (NVIDIA GeForce RTX, AMD Radeon RX) permettent l’inférence locale de modèles quantifiés via des outils comme llama.cpp, Ollama ou GPT4All.
| GPU Grand public | VRAM | Modèles exécutables (4-bit) | Perf. inférence (7B Q4) |
|---|---|---|---|
| RTX 4060 Ti | 8 / 16 Go | 7B (8 Go) ou 13B (16 Go) | ~25-35 tok/s |
| RTX 4070 Ti Super | 16 Go | 13B confortable | ~40-55 tok/s |
| RTX 4090 | 24 Go | 30B+ quantifiés | ~80-120 tok/s |
| RTX 5090 | 32 Go | 70B en Q2-Q3 | Supérieur au 4090 |
| AMD RX 7900 XTX | 24 Go | 30B+ quantifiés | ~40-60 tok/s (Vulkan) |
| Apple M3 Max | 48 Go (unifiée) | 70B en Q4 | ~25-40 tok/s (Metal) |
| Apple M4 Ultra | 192 Go (unifiée) | Modèles 100B+ | Rapide (Metal) |
NVIDIA vs AMD : le duel pour l’IA
La domination NVIDIA
NVIDIA contrôle environ 80 à 90% du marché des accélérateurs IA. Cette domination repose sur deux piliers : le matériel (des GPU performants avec des Tensor Cores, une mémoire HBM massive, et des interconnexions NVLink) et le logiciel (CUDA).
CUDA est l’avantage concurrentiel le plus durable de NVIDIA. C’est un écosystème logiciel construit sur plus de 20 ans, avec plus de 4 millions de développeurs. Tous les frameworks ML majeurs (PyTorch, TensorFlow, JAX) sont optimisés pour CUDA en priorité. Changer de fournisseur GPU signifie souvent réécrire ou adapter du code, ce qui crée un coût de migration élevé.
La roadmap NVIDIA pour les prochaines années est agressive. Après Blackwell (B200, GB200, déployé depuis 2024), Vera Rubin est annoncé pour le second semestre 2026. Ce système intègre des GPU Rubin et des CPU Vera ARM, avec une promesse de 10× plus de performance par watt par rapport à Grace Blackwell. Le prix estimé d’un rack Vera Rubin serait de 3,5 à 4 millions de dollars.
AMD : le challenger crédible
AMD est le seul concurrent « merchant » (non intégré) capable de défier NVIDIA dans les accélérateurs IA de data center. Sa gamme Instinct (MI300X, MI325X) offre des performances compétitives, souvent avec plus de mémoire HBM que les équivalents NVIDIA à prix inférieur.
Le contrat récent entre Meta et AMD pour le déploiement de jusqu’à 6 gigawatts de GPU AMD dans ses data centers IA est un signal fort. Les premiers serveurs MI450 dans le format rack-scale Helios d’AMD seront livrés courant 2026. AMD a aussi signé des partenariats avec OpenAI, Oracle, et le département américain de l’Énergie.
Le principal frein d’AMD reste le logiciel. ROCm, l’équivalent AMD de CUDA, progresse mais reste en retard en maturité et en compatibilité. De nombreux modèles et frameworks fonctionnent « out of the box » sur CUDA mais nécessitent des adaptations pour ROCm.
Les alternatives aux GPU
Plusieurs alternatives aux GPU traditionnels émergent dans le paysage IA :
Les TPU (Tensor Processing Units) de Google sont des ASIC conçus spécifiquement pour le machine learning. Google les utilise massivement en interne (environ 30% de ses charges de travail internes tournent sur TPU). Les ASIC custom des hyperscalers (AWS Trainium, Microsoft Maia, Meta MTIA) réduisent la dépendance à NVIDIA pour des workloads spécifiques. Les NPU (Neural Processing Units) intégrés dans les processeurs mobiles et desktop (Qualcomm, Intel, Apple) ciblent l’inférence on-device de petits modèles.
Toutefois, les GPU restent dominants pour l’entraînement de modèles frontier et pour l’inférence polyvalente en data center. Les ASIC custom sont optimisés pour des workloads spécifiques et manquent de la flexibilité des GPU.
Générations de GPU NVIDIA pour l’IA
| Architecture | GPU phare | Année | VRAM | Bande passante | Tensor Cores |
|---|---|---|---|---|---|
| Pascal | P100 | 2016 | 16 Go HBM2 | 732 GB/s | Non |
| Volta | V100 | 2017 | 32 Go HBM2 | 900 GB/s | 1ère gén. (FP16) |
| Ampere | A100 | 2020 | 80 Go HBM2e | 2 TB/s | 3ème gén. (TF32, BF16) |
| Hopper | H100 | 2022 | 80 Go HBM3 | 3,35 TB/s | 4ème gén. (FP8) |
| Hopper+ | H200 | 2024 | 141 Go HBM3e | 4,8 TB/s | 4ème gén. |
| Blackwell | B200 | 2024 | 192 Go HBM3e | 8 TB/s | 5ème gén. (FP4) |
| Rubin | Rubin Ultra | 2026 (S2) | HBM4 | Supérieur | 6ème gén. |
Chaque génération a approximativement doublé les performances d’inférence LLM par rapport à la précédente, grâce à la combinaison de plus de Tensor Cores, de mémoire HBM plus rapide et plus grande, et de nouvelles précisions numériques (FP8 sur Hopper, FP4 sur Blackwell).
Le marché des GPU IA en chiffres
Le marché des accélérateurs IA est en croissance explosive. NVIDIA a généré plus de 100 milliards de dollars de revenus data center en 2024, avec des projections de 130+ milliards pour 2025. Le marché global de la mémoire HBM, composant critique des GPU IA, devrait passer de 35 milliards de dollars en 2025 à 100 milliards en 2028 selon Micron.
La demande dépasse l’offre. Les délais de livraison des GPU IA se comptent en mois. Les cinq plus grands hyperscalers (Microsoft, Google, Amazon, Meta, Oracle) se sont engagés collectivement sur plus de 700 milliards de dollars d’investissements en infrastructure IA pour 2026. Cette pression crée aussi des tensions sur l’approvisionnement électrique : NVIDIA et AMD alertent sur des contraintes d’alimentation dans certaines régions des États-Unis.
Comment choisir un GPU pour l’IA locale
Critères de choix
Pour l’utilisation locale de LLM (inférence, fine-tuning), voici les critères par ordre d’importance :
VRAM : c’est le facteur le plus important. La taille de la VRAM détermine la taille maximale des modèles que vous pouvez exécuter. Bande passante mémoire : détermine la vitesse de génération de tokens. Écosystème logiciel : CUDA (NVIDIA) offre la meilleure compatibilité avec tous les outils d’IA. ROCm (AMD) progresse mais reste en retard. Vulkan est une option universelle mais moins optimisée. Rapport VRAM/prix : sur le marché de l’occasion, des GPU comme les Tesla P40 (24 Go) ou A6000 (48 Go) offrent beaucoup de VRAM à prix réduit.
Recommandations par budget
| Budget | GPU recommandé | VRAM | Modèles accessibles |
|---|---|---|---|
| ~200-300 € | RTX 3060 12 Go (occasion) | 12 Go | 7B-13B quantifiés |
| ~400-600 € | RTX 4060 Ti 16 Go | 16 Go | 13B-20B quantifiés |
| ~800-1200 € | RTX 4070 Ti Super | 16 Go | 13B-20B (plus rapide) |
| ~1500-2000 € | RTX 4090 | 24 Go | 30B+ quantifiés |
| ~2000+ € | RTX 5090 | 32 Go | 70B quantifiés en Q2-Q3 |
| ~200-400 € (occasion) | Tesla P40 | 24 Go | 30B+ (ancien, lent mais gros VRAM) |
Concepts techniques essentiels
FLOPS et TFLOPs
Les FLOPS (Floating Point Operations Per Second) mesurent la puissance de calcul brute d’un GPU. Un H100 offre environ 990 TFLOPS en FP16 avec les Tensor Cores. Cependant, pour l’inférence de LLM, les TFLOPS sont un indicateur trompeur : la bande passante mémoire est presque toujours le facteur limitant, pas la puissance de calcul.
NVLink et interconnexions
NVLink est la technologie d’interconnexion propriétaire de NVIDIA qui permet aux GPU de communiquer à très haut débit au sein d’un même serveur. Sur les systèmes Blackwell, NVLink permet à 8 GPU de fonctionner comme un seul GPU virtuel avec une mémoire agrégée. C’est essentiel pour les modèles qui ne tiennent pas dans la mémoire d’un seul GPU.
HBM (High Bandwidth Memory)
La HBM est une mémoire empilée en 3D directement sur le package du GPU, offrant une bande passante 4 à 10× supérieure à la GDDR6X des GPU grand public. La HBM3e utilisée dans les H200 et B200 atteint des débits de 4,8+ TB/s. Le marché de la HBM est un segment en explosion : Micron projette un passage de 35 milliards à 100 milliards de dollars de revenus HBM entre 2025 et 2028.
L’avenir des GPU pour l’IA
Plusieurs tendances se dessinent pour les prochaines années. La première est la montée en puissance des systèmes rack-scale : plutôt que de vendre des GPU individuels, NVIDIA (avec Grace Blackwell NVL72, puis Vera Rubin) et AMD (avec Helios) proposent des racks complets pré-intégrés avec GPU, CPU, réseau et refroidissement. La seconde est la concurrence des ASIC custom : Broadcom projette une hausse de 44% des expéditions de puces IA custom en 2026, contre 16% pour les GPU. La troisième est l’enjeu énergétique : un rack Blackwell consomme environ 120 kW. L’efficacité énergétique (performance par watt) devient un critère de sélection aussi important que la performance brute.
Pour l’IA locale, l’avenir est à des GPU grand public avec plus de VRAM (la RTX 5090 avec 32 Go est un pas dans cette direction) et à l’optimisation logicielle qui permet de faire tourner des modèles toujours plus gros sur du matériel constant. Les techniques de quantification continuent de progresser, rendant les modèles de 70B+ accessibles sur un seul GPU 24 Go.
Questions fréquentes sur les GPU
Quelle est la différence entre un GPU et un CPU pour l’IA ?
Un CPU a peu de cœurs puissants et polyvalents (16-24 typiquement), idéal pour les tâches séquentielles complexes. Un GPU a des milliers de cœurs plus simples, idéal pour les calculs parallèles sur de grandes matrices. L’IA repose sur des multiplications matricielles massives, ce qui avantage le GPU. En pratique, un GPU peut être 10 à 100× plus rapide qu’un CPU pour l’entraînement et l’inférence de modèles de deep learning.
Faut-il un GPU NVIDIA pour faire de l’IA ?
Non, mais c’est le choix le plus simple. CUDA offre la meilleure compatibilité logicielle. Les GPU AMD fonctionnent avec ROCm ou Vulkan, mais le support est moins mature. Apple Silicon avec MLX ou Metal est excellent pour l’inférence locale sur Mac. Et pour le cloud, les TPU Google sont une alternative viable. Mais si vous débutez ou si vous voulez éviter les problèmes de compatibilité, NVIDIA reste la valeur sûre.
Combien de VRAM faut-il pour exécuter un LLM en local ?
En quantification 4-bit : environ 4 Go pour un modèle 7B, 8 Go pour un 13B, 20 Go pour un 30B, et 40 Go pour un 70B. Ajoutez 1-2 Go pour le KV-cache et l’overhead système. Pour le fine-tuning, il faut environ 2 à 3× la mémoire nécessaire pour l’inférence. La règle de base : prenez le GPU avec la plus grande VRAM que votre budget permet.
La RTX 4090 est-elle encore le meilleur GPU pour l’IA locale ?
En mars 2026, la RTX 4090 (24 Go) reste un excellent choix grâce à la maturité de l’écosystème CUDA et ses performances éprouvées avec llama.cpp. La RTX 5090 (32 Go) la surpasse avec 8 Go de VRAM supplémentaire et de meilleures performances, mais à un prix plus élevé. Sur Mac, un M4 Max ou M4 Ultra avec 64-192 Go de mémoire unifiée offre plus de capacité mémoire (donc des modèles plus gros) mais une bande passante mémoire inférieure.
Pourquoi NVIDIA domine-t-elle autant le marché GPU IA ?
Trois raisons principales. Premièrement, l’écosystème CUDA construit sur 20+ ans avec 4 millions de développeurs crée un coût de migration très élevé pour les clients. Deuxièmement, NVIDIA investit massivement en R&D et sort une nouvelle architecture GPU chaque 1 à 2 ans, maintenant son avance technique. Troisièmement, NVIDIA propose une solution full-stack (GPU + CPU + réseau + logiciel) que ni AMD ni Intel ne peuvent encore égaler en intégration.