NVIDIA A100

Le NVIDIA A100 est le GPU de data center basé sur l’architecture Ampere qui a posé les fondations de l’ère des LLM. Lancé en 2020, c’est sur des clusters de milliers d’A100 qu’ont été entraînés les premiers modèles de langage frontier, de GPT-3 aux premières versions de LLaMA et PaLM.

En mars 2026, le A100 n’est plus le GPU le plus performant (le H100 le dépasse de 2 à 3× en throughput IA, et le B200 de 10×+), mais il reste le GPU IA le plus déployé au monde. Son marché secondaire est liquide, ses tarifs cloud sont les plus bas de la gamme data center NVIDIA, et ses 80 Go de HBM2e le rendent encore pertinent pour l’inférence, le fine-tuning LoRA, et l’entraînement de modèles de taille moyenne. La production a cessé en février 2024, mais l’immense parc installé assure sa pérennité pendant encore plusieurs années.

Architecture: Ampere (GA100)
Année de lancement: 2020
Production: Cessée en février 2024 (end-of-life)
VRAM: 40 Go ou 80 Go HBM2e
Bande passante mémoire: 1,6 TB/s (40 Go) / 2,0 TB/s (80 Go SXM)
CUDA Cores: 6 912 (108 SM)
Tensor Cores: 432 (3ème génération, TF32/BF16/FP16/INT8)
FP16 Tensor: 312 TFLOPS (624 TFLOPS avec sparsité)
TDP: 300 W (PCIe) / 400 W (SXM)
NVLink: 12 liens NVLink 3.0 (600 GB/s bidirectionnel)
MIG: Jusqu’à 7 instances GPU isolées
Process: TSMC 7nm
Prix neuf (mars 2026): $8 000 à $15 000 (selon disponibilité)
Prix occasion: $4 000 à $9 000 (80 Go SXM)
Prix cloud: ~$1,49 à $3,43/GPU-heure

Spécifications techniques détaillées

Spec	A100 40 Go PCIe	A100 80 Go PCIe	A100 80 Go SXM
VRAM	40 Go HBM2e	80 Go HBM2e	80 Go HBM2e
Bande passante	1,6 TB/s	2,0 TB/s	2,0 TB/s
FP32	19,5 TFLOPS	19,5 TFLOPS	19,5 TFLOPS
TF32 Tensor	156 TFLOPS	156 TFLOPS	156 TFLOPS
FP16/BF16 Tensor	312 TFLOPS	312 TFLOPS	312 TFLOPS
INT8 Tensor	624 TOPS	624 TOPS	624 TOPS
Sparsité (2:4)	2× les valeurs ci-dessus	2× les valeurs ci-dessus	2× les valeurs ci-dessus
NVLink	Non (PCIe 4.0 x16)	Non (PCIe 4.0 x16)	600 GB/s (NVLink 3.0)
TDP	250 W	300 W	400 W
MIG	Oui (7 instances)	Oui (7 instances)	Oui (7 instances)
Forme	Carte PCIe double largeur	Carte PCIe double largeur	Module SXM (serveur dédié)

La version SXM est la plus performante grâce à son TDP supérieur (400 W vs 300 W) et son support NVLink (600 GB/s vs PCIe 4.0 à ~64 GB/s). Pour l’entraînement distribué multi-GPU, la version SXM est indispensable. Pour l’inférence sur un seul GPU, la version PCIe est suffisante et plus facile à intégrer dans des serveurs standard.

Innovations introduites par le A100

Tensor Cores 3ème génération

Le A100 a introduit les Tensor Cores de 3ème génération avec le support de nouvelles précisions : TF32 (Tensor Float 32, un format 19 bits qui offre la plage de FP32 avec la vitesse de FP16) et BF16 (bfloat16, le format standard pour l’entraînement de LLM). TF32 a été particulièrement important car il permettait d’accélérer les workloads FP32 existants sans aucune modification de code, via une promotion automatique dans les bibliothèques comme cuBLAS.

Multi-Instance GPU (MIG)

Le A100 a été le premier GPU NVIDIA à supporter MIG, une technologie qui permet de partitionner un seul GPU physique en jusqu’à 7 instances isolées. Chaque instance dispose de ses propres cœurs de calcul, de sa propre mémoire HBM, et de son propre cache L2. Les instances sont entièrement isolées les unes des autres, tant en termes de performance que de sécurité (une instance ne peut pas accéder à la mémoire d’une autre).

MIG est particulièrement utile pour l’inférence en production : un seul A100 80 Go peut servir simultanément 7 modèles différents (ou 7 clients différents) avec des garanties de performance isolées. C’est une fonctionnalité que les GPU grand public (GeForce RTX) ne proposent pas.

Sparsité structurée

Le A100 a introduit le support matériel de la sparsité structurée 2:4 : un pattern de sparsité où, dans chaque groupe de 4 éléments, au moins 2 sont nuls. Les Tensor Cores peuvent exploiter cette sparsité pour doubler le throughput d’inférence (passant de 312 à 624 TFLOPS en FP16). En pratique, cette fonctionnalité nécessite que les modèles soient spécifiquement optimisés pour la sparsité 2:4 lors de l’entraînement ou du fine-tuning, ce qui limite son adoption, mais elle reste un avantage pour les workloads d’inférence optimisés.

A100 vs H100 : faut-il passer au H100 ?

Critère	A100 80 Go SXM	H100 80 Go SXM	Ratio
FP16 Tensor	312 TFLOPS	990 TFLOPS	~3,2×
FP8 Tensor	Non supporté	1 979 TFLOPS	N/A
Bande passante mémoire	2,0 TB/s	3,35 TB/s	~1,7×
NVLink	600 GB/s	900 GB/s	1,5×
TDP	400 W	700 W	1,75×
Prix cloud (indicatif)	~$1,50/h	~$3,00/h	~2×
Prix occasion	$5 000-$9 000	$15 000-$25 000	~3×

Quand le A100 reste le bon choix Le A100 est le meilleur choix en mars 2026 pour l’inférence de modèles 7B-30B quantifiés (INT8/INT4) à coût minimal, le fine-tuning LoRA/QLoRA de modèles jusqu’à 70B (un seul A100 80 Go suffit en QLoRA), les workloads de recherche et d’expérimentation avec un budget limité, et le multi-model serving via MIG (7 petits modèles sur un seul GPU). Passez au H100 si vous avez besoin de FP8 (2× plus rapide que BF16 pour l’entraînement), de bande passante mémoire supérieure pour les gros LLM, ou de NVLink 4.0 pour le training distribué intensif.

L’absence de support FP8 est la lacune la plus significative du A100. Le H100 avec ses Tensor Cores 4ème génération et le Transformer Engine peut effectuer l’entraînement en FP8 avec une perte de qualité quasi-nulle, ce qui double le throughput de training par rapport au BF16 du A100. Pour l’inférence en INT8, les deux GPU sont capables, mais le H100 reste nettement plus rapide grâce à sa bande passante mémoire supérieure.

Prix et marché en 2026

Tarifs cloud

Le A100 est le GPU data center NVIDIA le moins cher à louer dans le cloud. Les tarifs varient selon le fournisseur et la configuration :

Fournisseur	Configuration	Tarif indicatif (GPU-heure)
GPU clouds spécialisés (Jarvislabs, Lambda, etc.)	1× A100 80 Go	~$1,49 à $2,00
AWS (p4d.24xlarge)	8× A100 40 Go	~$32/h instance (~$4/GPU-h)
Google Cloud (a2-highgpu-1g)	1× A100 40 Go	~$3,67
Azure (NC A100 v4)	1× A100 80 Go	~$3,67

Les fournisseurs cloud spécialisés offrent des tarifs nettement plus bas que les hyperscalers (AWS, GCP, Azure), qui incluent un GPU A100 uniquement dans des instances multi-GPU coûteuses. Pour un seul A100, les cloud GPU spécialisés sont souvent le meilleur rapport qualité/prix.

Marché de l’occasion

Le A100 80 Go SXM se négocie entre $5 000 et $9 000 sur le marché de l’occasion en mars 2026, en baisse par rapport aux $15 000-$20 000 de son MSRP initial. Les prix devraient continuer à baisser (10-15% supplémentaires estimés d’ici fin 2026) à mesure que les entreprises migrent vers les GPU Blackwell. L’achat d’occasion ne se justifie que si vous avez un workload 24/7 garanti sur 18+ mois et l’infrastructure pour héberger un serveur GPU (alimentation, refroidissement, réseau).

Cas d’usage en 2026

Inférence de modèles 7B-30B : Un A100 80 Go peut servir un modèle 30B en INT8 ou un modèle 70B en INT4 avec un bon throughput. Pour les startups et PME qui déploient des LLM en production, le rapport coût/performance du A100 est difficile à battre.

Fine-tuning LoRA/QLoRA : Un seul A100 80 Go permet de fine-tuner un modèle de 70B paramètres en QLoRA (quantifié + LoRA) en quelques heures. En BF16 standard, il gère le fine-tuning complet de modèles jusqu’à environ 13B.

Recherche et expérimentation : Le A100 reste le GPU par défaut de nombreux labos de recherche, universités, et startups IA. Sa disponibilité massive en cloud à des tarifs accessibles en fait le point d’entrée standard pour le prototypage de modèles.

Multi-model serving avec MIG : La possibilité de découper un A100 en 7 instances MIG isolées le rend idéal pour servir plusieurs petits modèles sur un seul GPU, maximisant l’utilisation du matériel.

Impact historique

Le A100 a été le GPU qui a rendu possible l’explosion des LLM. GPT-3 (OpenAI, 2020) a été entraîné sur un cluster de milliers de GPU V100 et A100. Les premières versions de LLaMA (Meta, 2023) ont été entraînées sur des clusters DGX A100. PaLM (Google, 2022) a utilisé des TPU, mais de nombreuses réplications et variantes ont été entraînées sur A100. Le A100 a aussi démocratisé l’accès au calcul IA en data center grâce à son adoption massive par les fournisseurs cloud.

NVIDIA a déployé le A100 dans plusieurs configurations : le DGX A100 (8 GPU A100 SXM avec NVSwitch, un système complet à environ $200 000), le HGX A100 (carte mère multi-GPU pour les OEM), et les cartes PCIe individuelles. Le DGX SuperPOD, combinant des dizaines de DGX A100 avec InfiniBand, a été la configuration standard pour l’entraînement de modèles frontier jusqu’à l’arrivée du H100 en 2022-2023.

L’A100 a aussi marqué un tournant géopolitique. Suite aux restrictions d’exportation américaines vers la Chine (octobre 2022), NVIDIA a créé le A800, une version bridée du A100 avec une bande passante NVLink réduite, pour le marché chinois. Cette décision a lancé la course aux GPU IA « conformes aux exportations » et a accéléré le développement de puces IA chinoises alternatives.

Déploiement et configuration

SXM vs PCIe : quel format choisir

Le A100 existe en deux formats physiques. La version SXM est un module qui se connecte directement à la carte mère du serveur via un connecteur SXM4. Elle offre le TDP maximal (400 W), le support NVLink, et les meilleures performances. Mais elle nécessite un serveur compatible (DGX, HGX, ou serveur OEM certifié). La version PCIe est une carte graphique standard double largeur qui s’insère dans un slot PCIe 4.0 x16. Elle est plus facile à intégrer dans un serveur existant, mais sans NVLink (communication multi-GPU via PCIe uniquement, beaucoup plus lent) et avec un TDP inférieur (250-300 W).

Pour l’inférence sur un seul GPU, la version PCIe suffit et coûte moins cher. Pour l’entraînement distribué multi-GPU, la version SXM avec NVLink est fortement recommandée.

Écosystème logiciel

Le A100 est supporté par CUDA 11.0 et supérieur (Compute Capability 8.0). Tous les frameworks ML majeurs (PyTorch, TensorFlow, JAX) sont pleinement optimisés pour le A100. Les serveurs d’inférence (vLLM, TensorRT-LLM, Triton) supportent le A100 comme plateforme de premier ordre. L’INT8 quantification sur Ampere est mature et bien optimisée, ce qui le rend très efficace pour l’inférence de LLM quantifiés.

Limites connues

La principale limite est l’absence de support FP8. Le A100 ne supporte pas le FP8, qui est devenu la précision standard pour l’entraînement efficace de LLM sur les GPU Hopper et Blackwell. Cela signifie que l’entraînement sur A100 est fondamentalement ~2× plus lent que sur H100 pour les mêmes modèles.

La seconde est la bande passante mémoire limitée par rapport aux générations suivantes (2 TB/s vs 3,35 TB/s pour le H100, 4,8 TB/s pour le H200). Pour l’inférence de LLM, où la vitesse de génération de tokens dépend directement de la bande passante mémoire, chaque génération apporte un gain proportionnel.

La troisième est le NVLink 3.0 limité à 600 GB/s, contre 900 GB/s sur H100 et 1 800 GB/s sur B200. Pour l’entraînement distribué à grande échelle, cette bande passante inter-GPU inférieure impacte le scaling.

La quatrième est la consommation énergétique relative : bien que le A100 consomme moins que le H100 en valeur absolue (400 W vs 700 W), le H100 est plus efficace en performance par watt pour les workloads IA. Dans un data center où l’électricité est un coût significatif, le H100 peut être plus rentable malgré son prix supérieur.

A100 vs alternatives AMD

Le concurrent direct du A100 chez AMD était l’Instinct MI250X (CDNA 2, 2022), avec 128 Go de HBM2e et un design multi-die. Sur le papier, le MI250X offrait plus de mémoire et une bande passante comparable, mais le support logiciel via ROCm était nettement moins mature que CUDA sur A100, ce qui limitait son adoption. En mars 2026, le MI300X (CDNA 3) avec 192 Go de HBM2e est le concurrent data center d’AMD, positionnement face au H100 plutôt qu’au A100. Pour les organisations qui cherchent une alternative au A100 chez AMD, le MI300X est plus performant mais aussi plus cher.

Pour un déploiement à moindre coût, le A100 reste souvent le choix le plus pragmatique en mars 2026 : son écosystème CUDA est irréprochable, sa disponibilité cloud est la meilleure de sa catégorie, et son marché secondaire offre les prix les plus compétitifs pour un GPU de data center avec 80 Go de VRAM. C’est le « Honda Civic » des GPU IA : pas le plus rapide, pas le plus flashy, mais fiable, abordable, et omniprésent.

Questions fréquentes sur le NVIDIA A100

Le A100 est-il encore pertinent en 2026 ?

Oui, pour de nombreux cas d’usage. Le A100 reste le GPU IA le plus déployé au monde et offre le meilleur rapport coût/performance pour l’inférence de modèles de taille moyenne (7B-30B), le fine-tuning LoRA, et l’expérimentation. Il est en revanche dépassé pour l’entraînement de modèles frontier (où le H100 et le B200 sont nettement supérieurs) et pour l’inférence de très gros modèles (où le H200 avec ses 141 Go de HBM3e est plus adapté).

Quelle est la différence entre A100 40 Go et 80 Go ?

Le passage de 40 à 80 Go de VRAM change fondamentalement les modèles que vous pouvez exécuter sur un seul GPU. Un modèle LLaMA 3 8B tient en FP16 sur un A100 40 Go, mais un LLaMA 3 70B nécessite la version 80 Go (quantifié) ou plusieurs GPU. Pour le fine-tuning QLoRA de modèles 70B, la version 80 Go est indispensable. Pour l’inférence de modèles 7B-13B, les deux versions conviennent, mais la version 80 Go offre plus de marge pour le KV-cache et les batch sizes plus grands.

Faut-il acheter un A100 d’occasion ou louer dans le cloud ?

La location cloud est recommandée pour la plupart des cas. Un A100 80 Go à $1,49/h revient à environ $13 000/an en utilisation 24/7. Un A100 d’occasion coûte $5 000-$9 000 plus l’hébergement (~$500-$600/an d’électricité). L’achat n’est rentable qu’avec un workload garanti 24/7 sur 18+ mois et une infrastructure existante. Le A100 perd de la valeur (10-15%/an), donc le risque d’obsolescence est réel.

Comment le A100 se compare-t-il au RTX 4090 ?

Le RTX 4090 (24 Go GDDR6X, ~$1 600-$2 000) offre des performances d’inférence brutes comparables ou supérieures au A100 pour les modèles qui tiennent dans ses 24 Go de VRAM. Mais le A100 80 Go l’emporte sur la capacité mémoire (80 Go vs 24 Go), le NVLink (multi-GPU efficace), MIG (partitionnement), et le support data center (ECC, monitoring, management). Pour un déploiement en production, le A100 est plus adapté. Pour de l’IA locale personnelle, le RTX 4090 est un meilleur investissement.

Quels modèles peut-on exécuter sur un A100 80 Go ?

En FP16 : modèles jusqu’à ~35B paramètres. En INT8 : modèles jusqu’à ~70B. En INT4/quantification 4-bit : modèles jusqu’à ~140B (théorique, avec peu de marge pour le KV-cache). En pratique, un A100 80 Go est idéal pour servir des modèles 7B-30B en INT8 avec un bon throughput, ou un modèle 70B quantifié en 4-bit pour du batch processing.