AWS (Amazon Web Services)

AWS (Amazon Web Services) est le plus grand fournisseur de cloud computing au monde, avec environ 31% de parts de marché en 2026. Pour l’intelligence artificielle, AWS offre l’écosystème le plus complet : instances GPU NVIDIA (de l’A100 au GB200), puces IA propriétaires (Trainium), plateforme ML managée (SageMaker), et accès aux LLM frontier via API (Bedrock).

AWS est le cloud de référence pour les entreprises qui déploient de l’IA à grande échelle. OpenAI a signé un accord de $38 milliards sur 7 ans pour utiliser l’infrastructure AWS, avec accès à des centaines de milliers de GPU NVIDIA GB200 et GB300. Anthropic (créateur de Claude) utilise aussi AWS massivement, notamment les puces Trainium personnalisées. Amazon investit $125 milliards en capex en 2025 et prévoit des data centers IA de 1,3 GW de capacité.

Signification: Amazon Web Services
Part de marché cloud: ~31% mondial (2026)
Lancement: 2006 (EC2 + S3)
Instances GPU IA: P4d (A100), P5 (H100), P5e (H200), P6e (GB200)
Puces custom: Trainium (entraînement), Inferentia (inférence)
Plateforme ML: SageMaker AI (entraînement, déploiement, HyperPod)
LLM API: Amazon Bedrock (Claude, GPT OSS, Llama, Nova, Mistral, Cohere)
Modèles propriétaires: Amazon Nova (Lite, 2)
Régions: 30+ régions, 100+ zones de disponibilité
URL: aws.amazon.com

Instances GPU pour l’IA

AWS propose la plus large gamme d’instances GPU pour le machine learning parmi les hyperscalers. Voici les principales familles d’instances pour l’IA :

Instance	GPU	GPU/instance	VRAM totale	Usage typique	Tarif on-demand (indicatif)
p4d.24xlarge	A100 40 Go	8	320 Go	Training, inférence	~$32/h
p4de.24xlarge	A100 80 Go	8	640 Go	Training gros modèles	~$40/h
p5.48xlarge	H100 80 Go	8	640 Go	Training frontier, inférence	~$98/h
p5e (preview)	H200 141 Go	8	1 128 Go	Inférence gros LLM	Premium
P6e-GB200	GB200 (Blackwell)	Jusqu’à 72	Massive	Training trillion-param	Premium
g5.xlarge à 48xlarge	A10G 24 Go	1 à 8	24 à 192 Go	Inférence, fine-tuning	~$1,01/h (1 GPU)
g6.xlarge à 48xlarge	L4 24 Go	1 à 8	24 à 192 Go	Inférence légère	~$0,80/h (1 GPU)
g7e	RTX PRO 6000	Variable	Variable	Inférence, spatial	Récent
trn1.32xlarge	Trainium 1	16	512 Go HBM	Training cost-effective	~$22/h
trn2 (UltraClusters)	Trainium 2	Variable	Massive	Training à grande échelle	Variable

Instances multi-GPU obligatoires pour H100 AWS ne propose les instances H100 (P5) qu’en configuration 8 GPU (p5.48xlarge à ~$98/h). Vous ne pouvez pas louer un seul H100 sur AWS. Si vous n’avez besoin que d’un GPU H100, les fournisseurs GPU cloud spécialisés (Lambda, RunPod, Jarvislabs) sont beaucoup plus économiques ($2-3/h pour un seul GPU). AWS est plus adapté aux workloads multi-GPU (entraînement distribué, inférence à grande échelle).

Trainium : les puces IA custom d’Amazon

AWS développe ses propres accélérateurs IA, les puces Trainium, conçues par le laboratoire Annapurna Labs (filiale d’Amazon). L’objectif est de réduire la dépendance à NVIDIA et d’offrir un meilleur rapport performance/coût pour certains workloads.

Trainium 2 est la génération actuelle, déployée dans le projet Rainier (environ 500 000 puces Trainium 2 dans un cluster massif). Anthropic est le partenaire clé pour le développement de Trainium, utilisant ces puces pour l’entraînement de ses modèles Claude. Trainium 3 est annoncé pour 2026, avec des performances 4× supérieures en capacité agrégée et 2× par puce par rapport à Trainium 2.

L’avantage de Trainium est le coût : les instances Trainium sont significativement moins chères que les instances GPU NVIDIA équivalentes. L’inconvénient est l’écosystème logiciel plus limité. Trainium utilise le SDK AWS Neuron et supporte PyTorch via XLA, mais la compatibilité n’est pas au niveau de CUDA. La migration d’un code PyTorch/CUDA vers Trainium nécessite des adaptations.

SageMaker : la plateforme ML d’AWS

Amazon SageMaker AI est la plateforme ML managée d’AWS. Elle couvre l’ensemble du cycle de vie ML :

SageMaker Studio (Unified Studio depuis 2025) fournit un environnement intégré avec notebooks JupyterLab, versioning de datasets, et déploiement d’endpoints. SageMaker Training gère l’allocation des GPU, le checkpointing, et le scaling pour les jobs d’entraînement. SageMaker HyperPod est un service pour les clusters multi-GPU/Trainium avec tolérance aux pannes intégrée, utilisé pour l’entraînement de modèles frontier (supporte jusqu’à 72 GPU GB200 via les UltraServers P6e). SageMaker Inference déploie les modèles en endpoints temps réel, batch, ou serverless.

SageMaker JumpStart propose un catalogue de modèles pré-entraînés (Llama, Mistral, Falcon, etc.) déployables en un clic sur des instances GPU. Pour les équipes qui veulent déployer rapidement un LLM open source sans gérer l’infrastructure, c’est souvent le chemin le plus rapide sur AWS.

Amazon Bedrock : l’API des LLM

Amazon Bedrock est le service SaaS d’AWS pour accéder aux LLM frontier via API, sans gérer de GPU. C’est l’équivalent AWS de l’API OpenAI ou de l’API Anthropic, mais avec un catalogue multi-fournisseur :

Fournisseur	Modèles disponibles	Forces
Anthropic	Claude Opus 4.6, Sonnet 4.6, Haiku 4.5	Raisonnement, code, instruction following
OpenAI	GPT OSS 20B, GPT OSS 120B	Open-weight, MoE, agentic workflows
Meta	Llama 3/4 (versions variées)	Open-weight, polyvalent
Amazon	Nova 2 Lite, Nova (autres variantes)	Intégration AWS native
Mistral	Mistral Large, Small	Rapport qualité/coût
Cohere	Command-R	RAG, recherche sémantique
Stability AI	Stable Diffusion	Génération d’images

Bedrock facture à l’usage (par token d’entrée et de sortie) ou en « provisioned throughput » (débit réservé). Le service inclut des fonctionnalités avancées : Bedrock Agents pour les workflows agentic multi-étapes, Bedrock Knowledge Bases pour le RAG managé, Bedrock Guardrails pour filtrer les sorties inappropriées, et AgentCore pour l’orchestration d’agents IA à grande échelle. Le prompt caching (1h TTL) est disponible pour Claude, réduisant les coûts des conversations multi-tour.

Bedrock vs SageMaker : lequel choisir ? Utilisez Bedrock si vous voulez consommer des LLM via API sans gérer de GPU (prototypage rapide, chatbots, agents, RAG). Utilisez SageMaker si vous voulez entraîner ou fine-tuner vos propres modèles, déployer des modèles open source personnalisés, ou contrôler l’infrastructure GPU. Depuis 2025, les deux services sont accessibles depuis le même SageMaker Unified Studio, ce qui facilite la transition de l’un à l’autre.

AWS pour l’IA en pratique

Déployer un LLM open source sur AWS

Le chemin le plus rapide pour déployer un LLM open source sur AWS est via SageMaker JumpStart. En quelques clics, vous pouvez déployer un modèle Llama 3 70B sur une instance g5 ou p5 avec vLLM comme serveur d’inférence. Pour un contrôle plus fin, vous pouvez créer un conteneur Docker personnalisé avec vLLM ou TensorRT-LLM et le déployer sur un endpoint SageMaker.

Pour le prototypage rapide sans infrastructure, Bedrock est le plus simple : un appel API suffit pour obtenir une réponse de Claude Opus 4.6 ou Llama 4.

Optimiser les coûts GPU sur AWS

Les instances GPU AWS sont chères par rapport aux fournisseurs spécialisés. Voici des exemples de coûts concrets pour des workloads IA courants sur AWS :

Workload	Instance	Durée	Coût on-demand	Coût spot (estimé)
Fine-tuning LoRA Llama 7B	g5.2xlarge (1× A10G)	~5h	~$7,50	~$2-3
Fine-tuning QLoRA 70B	p4de.24xlarge (8× A100 80 Go)	~20h	~$800	~$200-300
Training 7B from scratch	p5.48xlarge (8× H100)	~50h	~$4 900	~$1 500-2 000
Inférence LLM 13B (24/7)	g5.2xlarge (1× A10G)	730h/mois	~$1 109/mois	N/A (pas de spot pour prod)
Inférence LLM 70B (24/7)	p5.48xlarge (8× H100)	730h/mois	~$71 540/mois	N/A

Bedrock vs instances GPU pour l’inférence Pour servir un LLM en production, comparez toujours le coût de Bedrock (facturation au token) avec celui d’une instance GPU dédiée. Pour un faible volume de requêtes (quelques centaines par jour), Bedrock est moins cher car vous ne payez que les tokens consommés. Pour un volume élevé (milliers de requêtes/heure), une instance GPU dédiée avec un modèle open source quantifié est souvent 3 à 10× moins cher que les API Bedrock.

Plusieurs stratégies permettent de réduire la facture :

Les Spot Instances offrent jusqu’à 90% de réduction sur les instances GPU, mais peuvent être interrompues à tout moment. C’est idéal pour l’entraînement avec checkpoints fréquents. Les Reserved Instances (1 ou 3 ans) réduisent le coût de 30 à 60% pour les workloads stables. Les SageMaker Training Plans permettent de réserver de la capacité GPU dans des fenêtres temporelles définies, avec la possibilité d’extensions par incréments de 1 à 7 jours. Les Savings Plans offrent des remises en échange d’un engagement de dépense (pas de type d’instance spécifique). Enfin, utiliser des instances Trainium au lieu de GPU NVIDIA pour les workloads compatibles peut réduire les coûts de 30 à 50%.

AWS vs Azure vs GCP pour l’IA

Critère	AWS	Azure	GCP
Part de marché	~31%	~25%	~11%
GPU flagship	H100, H200, GB200	H100, H200	H100, H200, B200
Puces custom	Trainium 2/3	Maia 100	TPU v6e/v7
LLM API	Bedrock (multi-modèle)	Azure OpenAI (GPT-5.4)	Vertex AI (Gemini)
Plateforme ML	SageMaker AI	Azure Machine Learning	Vertex AI
Single GPU possible	Non (P5 = 8 GPU min)	Non (similaire)	Oui (A3 = 1-8 GPU)
Force IA	Écosystème le plus large	Intégration OpenAI native	TPU, JAX, Gemini
Partenaire clé IA	Anthropic, OpenAI	OpenAI (historique)	Anthropic (TPU)

Verdict : AWS est le meilleur choix si vous voulez le plus grand catalogue de modèles (Bedrock), la plus large gamme d’instances GPU, et l’écosystème cloud le plus complet. Azure est préférable si votre organisation est déjà sur Microsoft 365 et que vous voulez un accès natif à GPT-5.4 via Azure OpenAI. GCP est le meilleur pour les workloads JAX/TPU et si vous utilisez Gemini. Pour le GPU pur au meilleur prix, les trois hyperscalers sont chers : les fournisseurs spécialisés sont 2 à 5× moins chers par GPU-heure.

Limites d’AWS pour l’IA

Historique d’AWS dans l’IA

AWS a été le premier cloud public majeur, lancé en 2006 avec EC2 (instances de calcul) et S3 (stockage). Les premières instances GPU sont apparues en 2014 (G2 avec NVIDIA GRID K520). L’explosion du deep learning a poussé AWS à ajouter les instances P2 (K80, 2016), P3 (V100, 2017), P4 (A100, 2020), et P5 (H100, 2023). SageMaker a été lancé en 2017, et Bedrock en 2023, coïncidant avec l’explosion de l’IA générative.

Amazon a aussi développé ses propres puces IA : Inferentia (inférence, 2019) et Trainium (entraînement, 2022). Le partenariat stratégique avec Anthropic (investissement de $4+ milliards) et l’accord de $38 milliards avec OpenAI (2025) positionnent AWS comme le cloud de choix pour les deux plus grands créateurs de LLM. Le projet Rainier (~500 000 puces Trainium 2) est l’un des plus grands clusters de calcul IA au monde.

L’investissement annoncé de $50 milliards dans des data centers IA fédéraux (1,3 GW de capacité, début de construction en 2026) confirme l’ambition d’AWS de dominer l’infrastructure IA pour les décennies à venir.

Services complémentaires pour l’IA

Au-delà du compute GPU et des plateformes ML, AWS propose un écosystème de services qui alimentent les pipelines IA. S3 est le stockage objet standard pour les datasets d’entraînement et les checkpoints de modèles. EFS/FSx for Lustre fournit du stockage fichier haute performance pour les I/O intensifs des jobs de training distribué. ECR (Elastic Container Registry) héberge les images Docker des serveurs d’inférence (vLLM, TensorRT-LLM). EKS (Kubernetes managé) orchestre les déploiements GPU containerisés. CloudWatch et SageMaker Model Monitor surveillent les performances et la dérive des modèles en production.

Cette profondeur d’écosystème est l’atout principal d’AWS par rapport aux fournisseurs GPU spécialisés : tout est intégré, de l’ingestion de données au monitoring en production, en passant par la sécurité (IAM, VPC, KMS pour le chiffrement, conformité SOC 2/HIPAA/RGPD).

Limites détaillées

Le principal frein est le coût. Les instances GPU AWS sont parmi les plus chères du marché. Une instance P5 (8×H100) à ~$98/h revient à ~$12,25/GPU-h, soit 4 à 5× le tarif des fournisseurs spécialisés. Les coûts d’egress ($0,09/Go) s’ajoutent pour les workloads data-intensive.

Le second est la complexité. AWS propose des centaines de services, et configurer un pipeline ML optimal (VPC, IAM, quotas GPU, SageMaker, S3, etc.) nécessite une expertise significative. Les quotas GPU ne sont pas toujours disponibles immédiatement : il faut les demander et les justifier.

Le troisième est le lock-in. SageMaker, Bedrock, et les services managés AWS créent une dépendance qui rend la migration vers un autre cloud coûteuse. Les puces Trainium ajoutent une couche de lock-in matériel en plus du lock-in logiciel. Pour les organisations qui valorisent la portabilité, l’utilisation de frameworks open source standard (PyTorch, vLLM, llama.cpp) sur des instances GPU IaaS brutes réduit cette dépendance.

Le quatrième est la disponibilité des GPU. Malgré les investissements massifs d’Amazon, les quotas GPU sur AWS ne sont pas toujours immédiatement disponibles. Les instances H100 et H200 nécessitent une demande de quota (Service Quotas) qui peut prendre de quelques heures à plusieurs jours, voire des semaines pour de gros volumes. Les entreprises qui ont besoin de capacité GPU garantie doivent opter pour des Reserved Instances ou des SageMaker Training Plans, ce qui nécessite un engagement financier anticipé.

Malgré ces limites, AWS reste le choix par défaut pour les grandes entreprises qui déploient de l’IA en production grâce à la profondeur de son écosystème, ses certifications de conformité, son réseau mondial de data centers, et ses partenariats stratégiques avec Anthropic et OpenAI. Pour les startups et les petites équipes, combiner AWS (pour Bedrock et les services managés) avec un fournisseur GPU spécialisé (pour le compute brut) offre souvent le meilleur rapport qualité/prix.

Questions fréquentes sur AWS et l’IA

Combien coûte un GPU H100 sur AWS ?

AWS ne propose le H100 qu’en instance de 8 GPU (p5.48xlarge) à environ $98/h on-demand, soit ~$12,25 par GPU-heure. C’est 4 à 5× plus cher que les fournisseurs GPU spécialisés ($2-3/h par H100). Les Spot Instances peuvent réduire ce coût de 60-90%, mais sans garantie de disponibilité. Pour un seul H100, les fournisseurs spécialisés sont nettement plus économiques.

Quelle est la différence entre Bedrock et SageMaker ?

Bedrock est un service SaaS pour consommer des LLM via API (Claude, Llama, GPT OSS, Nova) sans gérer d’infrastructure. SageMaker est une plateforme PaaS pour entraîner, fine-tuner et déployer vos propres modèles ML sur des instances GPU. Bedrock est plus simple (API call), SageMaker plus puissant (contrôle complet). Les deux sont maintenant accessibles depuis SageMaker Unified Studio.

Qu’est-ce que Trainium et faut-il l’utiliser ?

Trainium est la puce IA custom d’Amazon, conçue pour offrir un meilleur rapport performance/coût que les GPU NVIDIA pour certains workloads d’entraînement. Trainium 2 est la version actuelle, avec Trainium 3 prévu pour 2026. L’avantage est le coût (30-50% moins cher que les GPU NVIDIA sur AWS). L’inconvénient est la compatibilité logicielle limitée (SDK Neuron, PyTorch via XLA). Utilisez Trainium si vous avez un workload validé et si le coût est votre priorité. Sinon, les GPU NVIDIA via CUDA restent plus simples.

AWS est-il le meilleur cloud pour l’IA ?

AWS offre l’écosystème le plus large (Bedrock, SageMaker, plus de types d’instances GPU, 30+ régions). Mais « meilleur » dépend de vos critères. Pour le prix par GPU-heure, les fournisseurs spécialisés sont bien moins chers. Pour l’intégration avec GPT-5.4, Azure est plus direct. Pour les TPU et Gemini, GCP est le choix naturel. AWS est le meilleur choix pour les organisations qui veulent un écosystème complet avec le maximum de flexibilité, et qui sont prêtes à payer le prix correspondant.

Peut-on utiliser AWS gratuitement pour l’IA ?

L’offre gratuite AWS (Free Tier) ne couvre pas les instances GPU. Cependant, SageMaker Studio offre un notebook gratuit (sans GPU) pour le prototypage. Bedrock propose un free tier limité (quelques milliers de tokens par mois selon le modèle). Pour du GPU gratuit, Google Colab (avec Nvidia T4) ou Kaggle sont des alternatives plus adaptées. AWS n’est pas le cloud de l’expérimentation gratuite en IA : c’est le cloud de la production à grande échelle.