GPU (Graphics Processing Unit)

Un GPU (Graphics Processing Unit, ou processeur graphique) est un processeur spécialisé dans le calcul parallèle massif, devenu le composant matériel central de l’intelligence artificielle pour l’entraînement et l’inférence des modèles de deep learning.

À l’origine conçu pour accélérer le rendu graphique des jeux vidéo, le GPU s’est imposé comme l’accélérateur de référence pour l’IA grâce à sa capacité à effectuer des milliers d’opérations mathématiques simultanément. Entraîner un LLM comme GPT-5.4, Claude Opus 4.6 ou Llama 3 nécessite des milliers de GPU travaillant en parallèle pendant des semaines. Exécuter ces modèles en production (inférence) repose aussi massivement sur les GPU. NVIDIA domine ce marché avec environ 80 à 90% de parts de marché, mais AMD, Intel, Google (TPU), et les puces custom des hyperscalers gagnent du terrain.

Signification: Graphics Processing Unit (processeur graphique)
Fonction en IA: Calcul parallèle massif pour entraînement et inférence de modèles
Leader marché: NVIDIA (~80-90% du marché accélérateurs IA)
Concurrents: AMD (MI-series), Intel (Gaudi), Google (TPU), Apple (Metal)
Gamme NVIDIA actuelle: Blackwell (H200, B200), Vera Rubin (annoncé, S2 2026)
Gamme AMD actuelle: MI300X, MI325X, MI400 (annoncé, MI450 en préparation)
Mémoire clé: HBM3e (High Bandwidth Memory)
Écosystème logiciel: CUDA (NVIDIA), ROCm (AMD), oneAPI (Intel)

Pourquoi le GPU est essentiel à l’IA

Le parallélisme massif

Un CPU moderne (comme un Intel Core i9 ou un AMD Ryzen 9) possède 16 à 24 cœurs, chacun capable d’exécuter des tâches complexes et variées. Un GPU, en revanche, contient des milliers de cœurs plus simples, optimisés pour effectuer la même opération sur de grandes quantités de données en même temps. Un NVIDIA H100 contient plus de 16 000 cœurs CUDA. Un B200 en contient encore plus.

L’entraînement et l’inférence de réseaux de neurones reposent fondamentalement sur des multiplications de matrices : des opérations très régulières et massivement parallélisables. C’est exactement le type de calcul pour lequel les GPU sont conçus. Un GPU peut exécuter une multiplication matricielle des centaines de fois plus vite qu’un CPU.

Tensor Cores et unités spécialisées

Les GPU modernes dédiés à l’IA ne se contentent pas de cœurs CUDA/shader génériques. NVIDIA a introduit les Tensor Cores à partir de l’architecture Volta (2017), des unités spécialisées dans les multiplications matricielles mixtes (FP16×FP16 avec accumulation FP32). Chaque génération a élargi la gamme de précisions supportées : FP8, INT8, FP4, puis les formats MXFP4 et NVFP4 sur les architectures Blackwell et Rubin.

AMD a suivi avec les Matrix Cores dans ses GPU Instinct (MI250, MI300, MI400). Apple a introduit des Neural Accelerators dans les cœurs GPU de la puce M5, accessibles via Metal 4 et exploités par MLX. Google a conçu ses TPU (Tensor Processing Units) entièrement autour de ce type de calcul matriciel.

Bande passante mémoire : le facteur limitant

Pour l’inférence de LLM, le goulot d’étranglement n’est pas la puissance de calcul brute mais la bande passante mémoire. Chaque token généré nécessite de lire les poids du modèle depuis la mémoire. Un modèle de 70 milliards de paramètres en FP16 pèse ~140 Go : il faut lire ces 140 Go pour chaque token produit. La vitesse de génération dépend donc directement du débit mémoire du GPU.

C’est pourquoi la mémoire HBM (High Bandwidth Memory) est devenue si cruciale. Un H100 SXM avec 80 Go de HBM3 offre ~3,35 TB/s de bande passante. Un H200 avec 141 Go de HBM3e monte à ~4,8 TB/s. Les B200 avec HBM3e poussent encore plus loin. C’est cette bande passante qui détermine le nombre de tokens par seconde qu’un GPU peut générer.

Pourquoi la VRAM compte autant Un LLM doit tenir entièrement en VRAM (ou être distribué sur plusieurs GPU) pour une inférence efficace. Un modèle de 70B paramètres en FP16 nécessite environ 140 Go de VRAM, soit au minimum 2 GPU H100 80 Go ou un seul H200 141 Go. La quantification (passage en INT8, INT4) réduit cette exigence de 50 à 75%, rendant les modèles accessibles sur du matériel plus modeste.

GPU pour l’entraînement de modèles

Clusters de GPU

L’entraînement d’un LLM frontier nécessite des clusters de milliers à des dizaines de milliers de GPU. Meta a annoncé des engagements de plusieurs millions de GPU NVIDIA et AMD pour ses data centers IA. OpenAI, Google et Anthropic opèrent des clusters similaires. Le coût de construction et d’exploitation de ces clusters se mesure en milliards de dollars.

Les GPU dans un cluster sont interconnectés par des liens à très haut débit pour synchroniser les gradients pendant l’entraînement. NVIDIA utilise NVLink (pour la communication intra-nœud entre GPU) et InfiniBand ou NVLink Switch (pour la communication inter-nœuds). La bande passante de ces interconnexions est critique : un cluster de GPU mal interconnecté passera plus de temps à communiquer qu’à calculer.

Précisions numériques

L’entraînement moderne de LLM utilise un mélange de précisions numériques pour maximiser la vitesse sans sacrifier la qualité du modèle :

Précision	Bits	Usage	Notes
FP32	32	Accumulation de gradients	Référence de précision
BF16	16	Forward/backward pass	Standard actuel pour l’entraînement
FP16	16	Forward/backward pass	Plus ancien, remplacé par BF16
FP8	8	Entraînement accéléré	Supporté sur Hopper (H100) et plus récent
FP4 / MXFP4	4	Inférence et entraînement expérimental	Blackwell, Rubin

L’entraînement en « mixed precision » (BF16 pour les calculs, FP32 pour l’accumulation) est la norme. Les GPU récents supportent aussi l’entraînement en FP8, ce qui double le débit par rapport à BF16 avec une perte de qualité minime pour la plupart des architectures.

GPU pour l’inférence

Inférence en data center

L’inférence de LLM à grande échelle (servir des millions d’utilisateurs comme ChatGPT ou Claude) est un marché en pleine explosion. Chaque requête utilisateur consomme des ressources GPU. Les optimisations logicielles comme vLLM (batching continu, PagedAttention), TensorRT-LLM (NVIDIA), et les techniques de quantification post-entraînement sont essentielles pour maximiser le nombre de requêtes traitées par GPU et par seconde.

Pour l’inférence de LLM, le ratio performance/coût est souvent plus important que la performance brute. Un GPU moins puissant mais moins cher peut être plus rentable s’il est mieux optimisé logiciellement. C’est pourquoi des GPU comme le H200 (avec sa mémoire HBM3e massive) ou les futurs B200 sont si attractifs : plus de mémoire signifie des modèles plus gros sans devoir distribuer sur plusieurs GPU, ce qui réduit la complexité et le coût.

Inférence locale (consumer GPU)

Pour les développeurs et les particuliers, les GPU grand public (NVIDIA GeForce RTX, AMD Radeon RX) permettent l’inférence locale de modèles quantifiés via des outils comme llama.cpp, Ollama ou GPT4All.

GPU Grand public	VRAM	Modèles exécutables (4-bit)	Perf. inférence (7B Q4)
RTX 4060 Ti	8 / 16 Go	7B (8 Go) ou 13B (16 Go)	~25-35 tok/s
RTX 4070 Ti Super	16 Go	13B confortable	~40-55 tok/s
RTX 4090	24 Go	30B+ quantifiés	~80-120 tok/s
RTX 5090	32 Go	70B en Q2-Q3	Supérieur au 4090
AMD RX 7900 XTX	24 Go	30B+ quantifiés	~40-60 tok/s (Vulkan)
Apple M3 Max	48 Go (unifiée)	70B en Q4	~25-40 tok/s (Metal)
Apple M4 Ultra	192 Go (unifiée)	Modèles 100B+	Rapide (Metal)

Le meilleur GPU pour l’IA locale Pour l’inférence locale de LLM, la VRAM est le critère numéro un. Un GPU avec 24 Go de VRAM (RTX 4090, RX 7900 XTX) vous donne accès à des modèles de 30B+ paramètres quantifiés en 4-bit. La RTX 4090 reste le meilleur rapport performance/prix pour l’IA locale en mars 2026 grâce au backend CUDA ultra-optimisé de llama.cpp. Sur Mac, la mémoire unifiée d’Apple Silicon est un avantage unique qui permet de charger de très gros modèles.

NVIDIA vs AMD : le duel pour l’IA

La domination NVIDIA

NVIDIA contrôle environ 80 à 90% du marché des accélérateurs IA. Cette domination repose sur deux piliers : le matériel (des GPU performants avec des Tensor Cores, une mémoire HBM massive, et des interconnexions NVLink) et le logiciel (CUDA).

CUDA est l’avantage concurrentiel le plus durable de NVIDIA. C’est un écosystème logiciel construit sur plus de 20 ans, avec plus de 4 millions de développeurs. Tous les frameworks ML majeurs (PyTorch, TensorFlow, JAX) sont optimisés pour CUDA en priorité. Changer de fournisseur GPU signifie souvent réécrire ou adapter du code, ce qui crée un coût de migration élevé.

La roadmap NVIDIA pour les prochaines années est agressive. Après Blackwell (B200, GB200, déployé depuis 2024), Vera Rubin est annoncé pour le second semestre 2026. Ce système intègre des GPU Rubin et des CPU Vera ARM, avec une promesse de 10× plus de performance par watt par rapport à Grace Blackwell. Le prix estimé d’un rack Vera Rubin serait de 3,5 à 4 millions de dollars.

AMD : le challenger crédible

AMD est le seul concurrent « merchant » (non intégré) capable de défier NVIDIA dans les accélérateurs IA de data center. Sa gamme Instinct (MI300X, MI325X) offre des performances compétitives, souvent avec plus de mémoire HBM que les équivalents NVIDIA à prix inférieur.

Le contrat récent entre Meta et AMD pour le déploiement de jusqu’à 6 gigawatts de GPU AMD dans ses data centers IA est un signal fort. Les premiers serveurs MI450 dans le format rack-scale Helios d’AMD seront livrés courant 2026. AMD a aussi signé des partenariats avec OpenAI, Oracle, et le département américain de l’Énergie.

Le principal frein d’AMD reste le logiciel. ROCm, l’équivalent AMD de CUDA, progresse mais reste en retard en maturité et en compatibilité. De nombreux modèles et frameworks fonctionnent « out of the box » sur CUDA mais nécessitent des adaptations pour ROCm.

Les alternatives aux GPU

Plusieurs alternatives aux GPU traditionnels émergent dans le paysage IA :

Les TPU (Tensor Processing Units) de Google sont des ASIC conçus spécifiquement pour le machine learning. Google les utilise massivement en interne (environ 30% de ses charges de travail internes tournent sur TPU). Les ASIC custom des hyperscalers (AWS Trainium, Microsoft Maia, Meta MTIA) réduisent la dépendance à NVIDIA pour des workloads spécifiques. Les NPU (Neural Processing Units) intégrés dans les processeurs mobiles et desktop (Qualcomm, Intel, Apple) ciblent l’inférence on-device de petits modèles.

Toutefois, les GPU restent dominants pour l’entraînement de modèles frontier et pour l’inférence polyvalente en data center. Les ASIC custom sont optimisés pour des workloads spécifiques et manquent de la flexibilité des GPU.

Générations de GPU NVIDIA pour l’IA

Architecture	GPU phare	Année	VRAM	Bande passante	Tensor Cores
Pascal	P100	2016	16 Go HBM2	732 GB/s	Non
Volta	V100	2017	32 Go HBM2	900 GB/s	1ère gén. (FP16)
Ampere	A100	2020	80 Go HBM2e	2 TB/s	3ème gén. (TF32, BF16)
Hopper	H100	2022	80 Go HBM3	3,35 TB/s	4ème gén. (FP8)
Hopper+	H200	2024	141 Go HBM3e	4,8 TB/s	4ème gén.
Blackwell	B200	2024	192 Go HBM3e	8 TB/s	5ème gén. (FP4)
Rubin	Rubin Ultra	2026 (S2)	HBM4	Supérieur	6ème gén.

Chaque génération a approximativement doublé les performances d’inférence LLM par rapport à la précédente, grâce à la combinaison de plus de Tensor Cores, de mémoire HBM plus rapide et plus grande, et de nouvelles précisions numériques (FP8 sur Hopper, FP4 sur Blackwell).

Le marché des GPU IA en chiffres

Le marché des accélérateurs IA est en croissance explosive. NVIDIA a généré plus de 100 milliards de dollars de revenus data center en 2024, avec des projections de 130+ milliards pour 2025. Le marché global de la mémoire HBM, composant critique des GPU IA, devrait passer de 35 milliards de dollars en 2025 à 100 milliards en 2028 selon Micron.

La demande dépasse l’offre. Les délais de livraison des GPU IA se comptent en mois. Les cinq plus grands hyperscalers (Microsoft, Google, Amazon, Meta, Oracle) se sont engagés collectivement sur plus de 700 milliards de dollars d’investissements en infrastructure IA pour 2026. Cette pression crée aussi des tensions sur l’approvisionnement électrique : NVIDIA et AMD alertent sur des contraintes d’alimentation dans certaines régions des États-Unis.

Comment choisir un GPU pour l’IA locale

Critères de choix

Pour l’utilisation locale de LLM (inférence, fine-tuning), voici les critères par ordre d’importance :

VRAM : c’est le facteur le plus important. La taille de la VRAM détermine la taille maximale des modèles que vous pouvez exécuter. Bande passante mémoire : détermine la vitesse de génération de tokens. Écosystème logiciel : CUDA (NVIDIA) offre la meilleure compatibilité avec tous les outils d’IA. ROCm (AMD) progresse mais reste en retard. Vulkan est une option universelle mais moins optimisée. Rapport VRAM/prix : sur le marché de l’occasion, des GPU comme les Tesla P40 (24 Go) ou A6000 (48 Go) offrent beaucoup de VRAM à prix réduit.

Recommandations par budget

Budget	GPU recommandé	VRAM	Modèles accessibles
~200-300 €	RTX 3060 12 Go (occasion)	12 Go	7B-13B quantifiés
~400-600 €	RTX 4060 Ti 16 Go	16 Go	13B-20B quantifiés
~800-1200 €	RTX 4070 Ti Super	16 Go	13B-20B (plus rapide)
~1500-2000 €	RTX 4090	24 Go	30B+ quantifiés
~2000+ €	RTX 5090	32 Go	70B quantifiés en Q2-Q3
~200-400 € (occasion)	Tesla P40	24 Go	30B+ (ancien, lent mais gros VRAM)

AMD pour l’IA locale : attention au logiciel Les GPU AMD Radeon (RX 7900 XTX, RX 7900 XT) offrent un excellent rapport VRAM/prix. Cependant, le support logiciel est en retard sur NVIDIA. llama.cpp supporte AMD via Vulkan (limité aux quants Q4_0/Q4_1) ou ROCm (plus complet mais plus complexe à installer). Si vous n’êtes pas prêt à débugger des problèmes de compatibilité, NVIDIA est le choix le plus sûr.

Concepts techniques essentiels

FLOPS et TFLOPs

Les FLOPS (Floating Point Operations Per Second) mesurent la puissance de calcul brute d’un GPU. Un H100 offre environ 990 TFLOPS en FP16 avec les Tensor Cores. Cependant, pour l’inférence de LLM, les TFLOPS sont un indicateur trompeur : la bande passante mémoire est presque toujours le facteur limitant, pas la puissance de calcul.

NVLink et interconnexions

NVLink est la technologie d’interconnexion propriétaire de NVIDIA qui permet aux GPU de communiquer à très haut débit au sein d’un même serveur. Sur les systèmes Blackwell, NVLink permet à 8 GPU de fonctionner comme un seul GPU virtuel avec une mémoire agrégée. C’est essentiel pour les modèles qui ne tiennent pas dans la mémoire d’un seul GPU.

HBM (High Bandwidth Memory)

La HBM est une mémoire empilée en 3D directement sur le package du GPU, offrant une bande passante 4 à 10× supérieure à la GDDR6X des GPU grand public. La HBM3e utilisée dans les H200 et B200 atteint des débits de 4,8+ TB/s. Le marché de la HBM est un segment en explosion : Micron projette un passage de 35 milliards à 100 milliards de dollars de revenus HBM entre 2025 et 2028.

L’avenir des GPU pour l’IA

Plusieurs tendances se dessinent pour les prochaines années. La première est la montée en puissance des systèmes rack-scale : plutôt que de vendre des GPU individuels, NVIDIA (avec Grace Blackwell NVL72, puis Vera Rubin) et AMD (avec Helios) proposent des racks complets pré-intégrés avec GPU, CPU, réseau et refroidissement. La seconde est la concurrence des ASIC custom : Broadcom projette une hausse de 44% des expéditions de puces IA custom en 2026, contre 16% pour les GPU. La troisième est l’enjeu énergétique : un rack Blackwell consomme environ 120 kW. L’efficacité énergétique (performance par watt) devient un critère de sélection aussi important que la performance brute.

Pour l’IA locale, l’avenir est à des GPU grand public avec plus de VRAM (la RTX 5090 avec 32 Go est un pas dans cette direction) et à l’optimisation logicielle qui permet de faire tourner des modèles toujours plus gros sur du matériel constant. Les techniques de quantification continuent de progresser, rendant les modèles de 70B+ accessibles sur un seul GPU 24 Go.

Questions fréquentes sur les GPU

Quelle est la différence entre un GPU et un CPU pour l’IA ?

Un CPU a peu de cœurs puissants et polyvalents (16-24 typiquement), idéal pour les tâches séquentielles complexes. Un GPU a des milliers de cœurs plus simples, idéal pour les calculs parallèles sur de grandes matrices. L’IA repose sur des multiplications matricielles massives, ce qui avantage le GPU. En pratique, un GPU peut être 10 à 100× plus rapide qu’un CPU pour l’entraînement et l’inférence de modèles de deep learning.

Faut-il un GPU NVIDIA pour faire de l’IA ?

Non, mais c’est le choix le plus simple. CUDA offre la meilleure compatibilité logicielle. Les GPU AMD fonctionnent avec ROCm ou Vulkan, mais le support est moins mature. Apple Silicon avec MLX ou Metal est excellent pour l’inférence locale sur Mac. Et pour le cloud, les TPU Google sont une alternative viable. Mais si vous débutez ou si vous voulez éviter les problèmes de compatibilité, NVIDIA reste la valeur sûre.

Combien de VRAM faut-il pour exécuter un LLM en local ?

En quantification 4-bit : environ 4 Go pour un modèle 7B, 8 Go pour un 13B, 20 Go pour un 30B, et 40 Go pour un 70B. Ajoutez 1-2 Go pour le KV-cache et l’overhead système. Pour le fine-tuning, il faut environ 2 à 3× la mémoire nécessaire pour l’inférence. La règle de base : prenez le GPU avec la plus grande VRAM que votre budget permet.

La RTX 4090 est-elle encore le meilleur GPU pour l’IA locale ?

En mars 2026, la RTX 4090 (24 Go) reste un excellent choix grâce à la maturité de l’écosystème CUDA et ses performances éprouvées avec llama.cpp. La RTX 5090 (32 Go) la surpasse avec 8 Go de VRAM supplémentaire et de meilleures performances, mais à un prix plus élevé. Sur Mac, un M4 Max ou M4 Ultra avec 64-192 Go de mémoire unifiée offre plus de capacité mémoire (donc des modèles plus gros) mais une bande passante mémoire inférieure.

Pourquoi NVIDIA domine-t-elle autant le marché GPU IA ?

Trois raisons principales. Premièrement, l’écosystème CUDA construit sur 20+ ans avec 4 millions de développeurs crée un coût de migration très élevé pour les clients. Deuxièmement, NVIDIA investit massivement en R&D et sort une nouvelle architecture GPU chaque 1 à 2 ans, maintenant son avance technique. Troisièmement, NVIDIA propose une solution full-stack (GPU + CPU + réseau + logiciel) que ni AMD ni Intel ne peuvent encore égaler en intégration.