Polydesk-logotype
Polydesk.ai — Header

AWS (Amazon Web Services)

AWS (Amazon Web Services) est le plus grand fournisseur de cloud computing au monde, avec environ 31% de parts de marché en 2026. Pour l’intelligence artificielle, AWS offre l’écosystème le plus complet : instances GPU NVIDIA (de l’A100 au GB200), puces IA propriétaires (Trainium), plateforme ML managée (SageMaker), et accès aux LLM frontier via API (Bedrock).

AWS est le cloud de référence pour les entreprises qui déploient de l’IA à grande échelle. OpenAI a signé un accord de $38 milliards sur 7 ans pour utiliser l’infrastructure AWS, avec accès à des centaines de milliers de GPU NVIDIA GB200 et GB300. Anthropic (créateur de Claude) utilise aussi AWS massivement, notamment les puces Trainium personnalisées. Amazon investit $125 milliards en capex en 2025 et prévoit des data centers IA de 1,3 GW de capacité.

AWS en bref
Signification
Amazon Web Services
Part de marché cloud
~31% mondial (2026)
Lancement
2006 (EC2 + S3)
Instances GPU IA
P4d (A100), P5 (H100), P5e (H200), P6e (GB200)
Puces custom
Trainium (entraînement), Inferentia (inférence)
Plateforme ML
SageMaker AI (entraînement, déploiement, HyperPod)
LLM API
Amazon Bedrock (Claude, GPT OSS, Llama, Nova, Mistral, Cohere)
Modèles propriétaires
Amazon Nova (Lite, 2)
Régions
30+ régions, 100+ zones de disponibilité
URL
aws.amazon.com

Instances GPU pour l’IA

AWS propose la plus large gamme d’instances GPU pour le machine learning parmi les hyperscalers. Voici les principales familles d’instances pour l’IA :

InstanceGPUGPU/instanceVRAM totaleUsage typiqueTarif on-demand (indicatif)
p4d.24xlargeA100 40 Go8320 GoTraining, inférence~$32/h
p4de.24xlargeA100 80 Go8640 GoTraining gros modèles~$40/h
p5.48xlargeH100 80 Go8640 GoTraining frontier, inférence~$98/h
p5e (preview)H200 141 Go81 128 GoInférence gros LLMPremium
P6e-GB200GB200 (Blackwell)Jusqu’à 72MassiveTraining trillion-paramPremium
g5.xlarge à 48xlargeA10G 24 Go1 à 824 à 192 GoInférence, fine-tuning~$1,01/h (1 GPU)
g6.xlarge à 48xlargeL4 24 Go1 à 824 à 192 GoInférence légère~$0,80/h (1 GPU)
g7eRTX PRO 6000VariableVariableInférence, spatialRécent
trn1.32xlargeTrainium 116512 Go HBMTraining cost-effective~$22/h
trn2 (UltraClusters)Trainium 2VariableMassiveTraining à grande échelleVariable
Instances multi-GPU obligatoires pour H100 AWS ne propose les instances H100 (P5) qu’en configuration 8 GPU (p5.48xlarge à ~$98/h). Vous ne pouvez pas louer un seul H100 sur AWS. Si vous n’avez besoin que d’un GPU H100, les fournisseurs GPU cloud spécialisés (Lambda, RunPod, Jarvislabs) sont beaucoup plus économiques ($2-3/h pour un seul GPU). AWS est plus adapté aux workloads multi-GPU (entraînement distribué, inférence à grande échelle).

Trainium : les puces IA custom d’Amazon

AWS développe ses propres accélérateurs IA, les puces Trainium, conçues par le laboratoire Annapurna Labs (filiale d’Amazon). L’objectif est de réduire la dépendance à NVIDIA et d’offrir un meilleur rapport performance/coût pour certains workloads.

Trainium 2 est la génération actuelle, déployée dans le projet Rainier (environ 500 000 puces Trainium 2 dans un cluster massif). Anthropic est le partenaire clé pour le développement de Trainium, utilisant ces puces pour l’entraînement de ses modèles Claude. Trainium 3 est annoncé pour 2026, avec des performances 4× supérieures en capacité agrégée et 2× par puce par rapport à Trainium 2.

L’avantage de Trainium est le coût : les instances Trainium sont significativement moins chères que les instances GPU NVIDIA équivalentes. L’inconvénient est l’écosystème logiciel plus limité. Trainium utilise le SDK AWS Neuron et supporte PyTorch via XLA, mais la compatibilité n’est pas au niveau de CUDA. La migration d’un code PyTorch/CUDA vers Trainium nécessite des adaptations.

SageMaker : la plateforme ML d’AWS

Amazon SageMaker AI est la plateforme ML managée d’AWS. Elle couvre l’ensemble du cycle de vie ML :

SageMaker Studio (Unified Studio depuis 2025) fournit un environnement intégré avec notebooks JupyterLab, versioning de datasets, et déploiement d’endpoints. SageMaker Training gère l’allocation des GPU, le checkpointing, et le scaling pour les jobs d’entraînement. SageMaker HyperPod est un service pour les clusters multi-GPU/Trainium avec tolérance aux pannes intégrée, utilisé pour l’entraînement de modèles frontier (supporte jusqu’à 72 GPU GB200 via les UltraServers P6e). SageMaker Inference déploie les modèles en endpoints temps réel, batch, ou serverless.

SageMaker JumpStart propose un catalogue de modèles pré-entraînés (Llama, Mistral, Falcon, etc.) déployables en un clic sur des instances GPU. Pour les équipes qui veulent déployer rapidement un LLM open source sans gérer l’infrastructure, c’est souvent le chemin le plus rapide sur AWS.

Amazon Bedrock : l’API des LLM

Amazon Bedrock est le service SaaS d’AWS pour accéder aux LLM frontier via API, sans gérer de GPU. C’est l’équivalent AWS de l’API OpenAI ou de l’API Anthropic, mais avec un catalogue multi-fournisseur :

FournisseurModèles disponiblesForces
AnthropicClaude Opus 4.6, Sonnet 4.6, Haiku 4.5Raisonnement, code, instruction following
OpenAIGPT OSS 20B, GPT OSS 120BOpen-weight, MoE, agentic workflows
MetaLlama 3/4 (versions variées)Open-weight, polyvalent
AmazonNova 2 Lite, Nova (autres variantes)Intégration AWS native
MistralMistral Large, SmallRapport qualité/coût
CohereCommand-RRAG, recherche sémantique
Stability AIStable DiffusionGénération d’images

Bedrock facture à l’usage (par token d’entrée et de sortie) ou en « provisioned throughput » (débit réservé). Le service inclut des fonctionnalités avancées : Bedrock Agents pour les workflows agentic multi-étapes, Bedrock Knowledge Bases pour le RAG managé, Bedrock Guardrails pour filtrer les sorties inappropriées, et AgentCore pour l’orchestration d’agents IA à grande échelle. Le prompt caching (1h TTL) est disponible pour Claude, réduisant les coûts des conversations multi-tour.

Bedrock vs SageMaker : lequel choisir ? Utilisez Bedrock si vous voulez consommer des LLM via API sans gérer de GPU (prototypage rapide, chatbots, agents, RAG). Utilisez SageMaker si vous voulez entraîner ou fine-tuner vos propres modèles, déployer des modèles open source personnalisés, ou contrôler l’infrastructure GPU. Depuis 2025, les deux services sont accessibles depuis le même SageMaker Unified Studio, ce qui facilite la transition de l’un à l’autre.

AWS pour l’IA en pratique

Déployer un LLM open source sur AWS

Le chemin le plus rapide pour déployer un LLM open source sur AWS est via SageMaker JumpStart. En quelques clics, vous pouvez déployer un modèle Llama 3 70B sur une instance g5 ou p5 avec vLLM comme serveur d’inférence. Pour un contrôle plus fin, vous pouvez créer un conteneur Docker personnalisé avec vLLM ou TensorRT-LLM et le déployer sur un endpoint SageMaker.

Pour le prototypage rapide sans infrastructure, Bedrock est le plus simple : un appel API suffit pour obtenir une réponse de Claude Opus 4.6 ou Llama 4.

Optimiser les coûts GPU sur AWS

Les instances GPU AWS sont chères par rapport aux fournisseurs spécialisés. Voici des exemples de coûts concrets pour des workloads IA courants sur AWS :

WorkloadInstanceDuréeCoût on-demandCoût spot (estimé)
Fine-tuning LoRA Llama 7Bg5.2xlarge (1× A10G)~5h~$7,50~$2-3
Fine-tuning QLoRA 70Bp4de.24xlarge (8× A100 80 Go)~20h~$800~$200-300
Training 7B from scratchp5.48xlarge (8× H100)~50h~$4 900~$1 500-2 000
Inférence LLM 13B (24/7)g5.2xlarge (1× A10G)730h/mois~$1 109/moisN/A (pas de spot pour prod)
Inférence LLM 70B (24/7)p5.48xlarge (8× H100)730h/mois~$71 540/moisN/A
Bedrock vs instances GPU pour l’inférence Pour servir un LLM en production, comparez toujours le coût de Bedrock (facturation au token) avec celui d’une instance GPU dédiée. Pour un faible volume de requêtes (quelques centaines par jour), Bedrock est moins cher car vous ne payez que les tokens consommés. Pour un volume élevé (milliers de requêtes/heure), une instance GPU dédiée avec un modèle open source quantifié est souvent 3 à 10× moins cher que les API Bedrock.

Plusieurs stratégies permettent de réduire la facture :

Les Spot Instances offrent jusqu’à 90% de réduction sur les instances GPU, mais peuvent être interrompues à tout moment. C’est idéal pour l’entraînement avec checkpoints fréquents. Les Reserved Instances (1 ou 3 ans) réduisent le coût de 30 à 60% pour les workloads stables. Les SageMaker Training Plans permettent de réserver de la capacité GPU dans des fenêtres temporelles définies, avec la possibilité d’extensions par incréments de 1 à 7 jours. Les Savings Plans offrent des remises en échange d’un engagement de dépense (pas de type d’instance spécifique). Enfin, utiliser des instances Trainium au lieu de GPU NVIDIA pour les workloads compatibles peut réduire les coûts de 30 à 50%.

AWS vs Azure vs GCP pour l’IA

CritèreAWSAzureGCP
Part de marché~31%~25%~11%
GPU flagshipH100, H200, GB200H100, H200H100, H200, B200
Puces customTrainium 2/3Maia 100TPU v6e/v7
LLM APIBedrock (multi-modèle)Azure OpenAI (GPT-5.4)Vertex AI (Gemini)
Plateforme MLSageMaker AIAzure Machine LearningVertex AI
Single GPU possibleNon (P5 = 8 GPU min)Non (similaire)Oui (A3 = 1-8 GPU)
Force IAÉcosystème le plus largeIntégration OpenAI nativeTPU, JAX, Gemini
Partenaire clé IAAnthropic, OpenAIOpenAI (historique)Anthropic (TPU)

Verdict : AWS est le meilleur choix si vous voulez le plus grand catalogue de modèles (Bedrock), la plus large gamme d’instances GPU, et l’écosystème cloud le plus complet. Azure est préférable si votre organisation est déjà sur Microsoft 365 et que vous voulez un accès natif à GPT-5.4 via Azure OpenAI. GCP est le meilleur pour les workloads JAX/TPU et si vous utilisez Gemini. Pour le GPU pur au meilleur prix, les trois hyperscalers sont chers : les fournisseurs spécialisés sont 2 à 5× moins chers par GPU-heure.

Limites d’AWS pour l’IA

Historique d’AWS dans l’IA

AWS a été le premier cloud public majeur, lancé en 2006 avec EC2 (instances de calcul) et S3 (stockage). Les premières instances GPU sont apparues en 2014 (G2 avec NVIDIA GRID K520). L’explosion du deep learning a poussé AWS à ajouter les instances P2 (K80, 2016), P3 (V100, 2017), P4 (A100, 2020), et P5 (H100, 2023). SageMaker a été lancé en 2017, et Bedrock en 2023, coïncidant avec l’explosion de l’IA générative.

Amazon a aussi développé ses propres puces IA : Inferentia (inférence, 2019) et Trainium (entraînement, 2022). Le partenariat stratégique avec Anthropic (investissement de $4+ milliards) et l’accord de $38 milliards avec OpenAI (2025) positionnent AWS comme le cloud de choix pour les deux plus grands créateurs de LLM. Le projet Rainier (~500 000 puces Trainium 2) est l’un des plus grands clusters de calcul IA au monde.

L’investissement annoncé de $50 milliards dans des data centers IA fédéraux (1,3 GW de capacité, début de construction en 2026) confirme l’ambition d’AWS de dominer l’infrastructure IA pour les décennies à venir.

Services complémentaires pour l’IA

Au-delà du compute GPU et des plateformes ML, AWS propose un écosystème de services qui alimentent les pipelines IA. S3 est le stockage objet standard pour les datasets d’entraînement et les checkpoints de modèles. EFS/FSx for Lustre fournit du stockage fichier haute performance pour les I/O intensifs des jobs de training distribué. ECR (Elastic Container Registry) héberge les images Docker des serveurs d’inférence (vLLM, TensorRT-LLM). EKS (Kubernetes managé) orchestre les déploiements GPU containerisés. CloudWatch et SageMaker Model Monitor surveillent les performances et la dérive des modèles en production.

Cette profondeur d’écosystème est l’atout principal d’AWS par rapport aux fournisseurs GPU spécialisés : tout est intégré, de l’ingestion de données au monitoring en production, en passant par la sécurité (IAM, VPC, KMS pour le chiffrement, conformité SOC 2/HIPAA/RGPD).

Limites détaillées

Le principal frein est le coût. Les instances GPU AWS sont parmi les plus chères du marché. Une instance P5 (8×H100) à ~$98/h revient à ~$12,25/GPU-h, soit 4 à 5× le tarif des fournisseurs spécialisés. Les coûts d’egress ($0,09/Go) s’ajoutent pour les workloads data-intensive.

Le second est la complexité. AWS propose des centaines de services, et configurer un pipeline ML optimal (VPC, IAM, quotas GPU, SageMaker, S3, etc.) nécessite une expertise significative. Les quotas GPU ne sont pas toujours disponibles immédiatement : il faut les demander et les justifier.

Le troisième est le lock-in. SageMaker, Bedrock, et les services managés AWS créent une dépendance qui rend la migration vers un autre cloud coûteuse. Les puces Trainium ajoutent une couche de lock-in matériel en plus du lock-in logiciel. Pour les organisations qui valorisent la portabilité, l’utilisation de frameworks open source standard (PyTorch, vLLM, llama.cpp) sur des instances GPU IaaS brutes réduit cette dépendance.

Le quatrième est la disponibilité des GPU. Malgré les investissements massifs d’Amazon, les quotas GPU sur AWS ne sont pas toujours immédiatement disponibles. Les instances H100 et H200 nécessitent une demande de quota (Service Quotas) qui peut prendre de quelques heures à plusieurs jours, voire des semaines pour de gros volumes. Les entreprises qui ont besoin de capacité GPU garantie doivent opter pour des Reserved Instances ou des SageMaker Training Plans, ce qui nécessite un engagement financier anticipé.

Malgré ces limites, AWS reste le choix par défaut pour les grandes entreprises qui déploient de l’IA en production grâce à la profondeur de son écosystème, ses certifications de conformité, son réseau mondial de data centers, et ses partenariats stratégiques avec Anthropic et OpenAI. Pour les startups et les petites équipes, combiner AWS (pour Bedrock et les services managés) avec un fournisseur GPU spécialisé (pour le compute brut) offre souvent le meilleur rapport qualité/prix.


Questions fréquentes sur AWS et l’IA

Combien coûte un GPU H100 sur AWS ?

AWS ne propose le H100 qu’en instance de 8 GPU (p5.48xlarge) à environ $98/h on-demand, soit ~$12,25 par GPU-heure. C’est 4 à 5× plus cher que les fournisseurs GPU spécialisés ($2-3/h par H100). Les Spot Instances peuvent réduire ce coût de 60-90%, mais sans garantie de disponibilité. Pour un seul H100, les fournisseurs spécialisés sont nettement plus économiques.

Quelle est la différence entre Bedrock et SageMaker ?

Bedrock est un service SaaS pour consommer des LLM via API (Claude, Llama, GPT OSS, Nova) sans gérer d’infrastructure. SageMaker est une plateforme PaaS pour entraîner, fine-tuner et déployer vos propres modèles ML sur des instances GPU. Bedrock est plus simple (API call), SageMaker plus puissant (contrôle complet). Les deux sont maintenant accessibles depuis SageMaker Unified Studio.

Qu’est-ce que Trainium et faut-il l’utiliser ?

Trainium est la puce IA custom d’Amazon, conçue pour offrir un meilleur rapport performance/coût que les GPU NVIDIA pour certains workloads d’entraînement. Trainium 2 est la version actuelle, avec Trainium 3 prévu pour 2026. L’avantage est le coût (30-50% moins cher que les GPU NVIDIA sur AWS). L’inconvénient est la compatibilité logicielle limitée (SDK Neuron, PyTorch via XLA). Utilisez Trainium si vous avez un workload validé et si le coût est votre priorité. Sinon, les GPU NVIDIA via CUDA restent plus simples.

AWS est-il le meilleur cloud pour l’IA ?

AWS offre l’écosystème le plus large (Bedrock, SageMaker, plus de types d’instances GPU, 30+ régions). Mais « meilleur » dépend de vos critères. Pour le prix par GPU-heure, les fournisseurs spécialisés sont bien moins chers. Pour l’intégration avec GPT-5.4, Azure est plus direct. Pour les TPU et Gemini, GCP est le choix naturel. AWS est le meilleur choix pour les organisations qui veulent un écosystème complet avec le maximum de flexibilité, et qui sont prêtes à payer le prix correspondant.

Peut-on utiliser AWS gratuitement pour l’IA ?

L’offre gratuite AWS (Free Tier) ne couvre pas les instances GPU. Cependant, SageMaker Studio offre un notebook gratuit (sans GPU) pour le prototypage. Bedrock propose un free tier limité (quelques milliers de tokens par mois selon le modèle). Pour du GPU gratuit, Google Colab (avec Nvidia T4) ou Kaggle sont des alternatives plus adaptées. AWS n’est pas le cloud de l’expérimentation gratuite en IA : c’est le cloud de la production à grande échelle.

Polydesk.ai — Footer