AWS (Amazon Web Services)
AWS (Amazon Web Services) est le plus grand fournisseur de cloud computing au monde, avec environ 31% de parts de marché en 2026. Pour l’intelligence artificielle, AWS offre l’écosystème le plus complet : instances GPU NVIDIA (de l’A100 au GB200), puces IA propriétaires (Trainium), plateforme ML managée (SageMaker), et accès aux LLM frontier via API (Bedrock).
AWS est le cloud de référence pour les entreprises qui déploient de l’IA à grande échelle. OpenAI a signé un accord de $38 milliards sur 7 ans pour utiliser l’infrastructure AWS, avec accès à des centaines de milliers de GPU NVIDIA GB200 et GB300. Anthropic (créateur de Claude) utilise aussi AWS massivement, notamment les puces Trainium personnalisées. Amazon investit $125 milliards en capex en 2025 et prévoit des data centers IA de 1,3 GW de capacité.
- Signification
- Amazon Web Services
- Part de marché cloud
- ~31% mondial (2026)
- Lancement
- 2006 (EC2 + S3)
- Instances GPU IA
- P4d (A100), P5 (H100), P5e (H200), P6e (GB200)
- Puces custom
- Trainium (entraînement), Inferentia (inférence)
- Plateforme ML
- SageMaker AI (entraînement, déploiement, HyperPod)
- LLM API
- Amazon Bedrock (Claude, GPT OSS, Llama, Nova, Mistral, Cohere)
- Modèles propriétaires
- Amazon Nova (Lite, 2)
- Régions
- 30+ régions, 100+ zones de disponibilité
- URL
- aws.amazon.com
Instances GPU pour l’IA
AWS propose la plus large gamme d’instances GPU pour le machine learning parmi les hyperscalers. Voici les principales familles d’instances pour l’IA :
| Instance | GPU | GPU/instance | VRAM totale | Usage typique | Tarif on-demand (indicatif) |
|---|---|---|---|---|---|
| p4d.24xlarge | A100 40 Go | 8 | 320 Go | Training, inférence | ~$32/h |
| p4de.24xlarge | A100 80 Go | 8 | 640 Go | Training gros modèles | ~$40/h |
| p5.48xlarge | H100 80 Go | 8 | 640 Go | Training frontier, inférence | ~$98/h |
| p5e (preview) | H200 141 Go | 8 | 1 128 Go | Inférence gros LLM | Premium |
| P6e-GB200 | GB200 (Blackwell) | Jusqu’à 72 | Massive | Training trillion-param | Premium |
| g5.xlarge à 48xlarge | A10G 24 Go | 1 à 8 | 24 à 192 Go | Inférence, fine-tuning | ~$1,01/h (1 GPU) |
| g6.xlarge à 48xlarge | L4 24 Go | 1 à 8 | 24 à 192 Go | Inférence légère | ~$0,80/h (1 GPU) |
| g7e | RTX PRO 6000 | Variable | Variable | Inférence, spatial | Récent |
| trn1.32xlarge | Trainium 1 | 16 | 512 Go HBM | Training cost-effective | ~$22/h |
| trn2 (UltraClusters) | Trainium 2 | Variable | Massive | Training à grande échelle | Variable |
Trainium : les puces IA custom d’Amazon
AWS développe ses propres accélérateurs IA, les puces Trainium, conçues par le laboratoire Annapurna Labs (filiale d’Amazon). L’objectif est de réduire la dépendance à NVIDIA et d’offrir un meilleur rapport performance/coût pour certains workloads.
Trainium 2 est la génération actuelle, déployée dans le projet Rainier (environ 500 000 puces Trainium 2 dans un cluster massif). Anthropic est le partenaire clé pour le développement de Trainium, utilisant ces puces pour l’entraînement de ses modèles Claude. Trainium 3 est annoncé pour 2026, avec des performances 4× supérieures en capacité agrégée et 2× par puce par rapport à Trainium 2.
L’avantage de Trainium est le coût : les instances Trainium sont significativement moins chères que les instances GPU NVIDIA équivalentes. L’inconvénient est l’écosystème logiciel plus limité. Trainium utilise le SDK AWS Neuron et supporte PyTorch via XLA, mais la compatibilité n’est pas au niveau de CUDA. La migration d’un code PyTorch/CUDA vers Trainium nécessite des adaptations.
SageMaker : la plateforme ML d’AWS
Amazon SageMaker AI est la plateforme ML managée d’AWS. Elle couvre l’ensemble du cycle de vie ML :
SageMaker Studio (Unified Studio depuis 2025) fournit un environnement intégré avec notebooks JupyterLab, versioning de datasets, et déploiement d’endpoints. SageMaker Training gère l’allocation des GPU, le checkpointing, et le scaling pour les jobs d’entraînement. SageMaker HyperPod est un service pour les clusters multi-GPU/Trainium avec tolérance aux pannes intégrée, utilisé pour l’entraînement de modèles frontier (supporte jusqu’à 72 GPU GB200 via les UltraServers P6e). SageMaker Inference déploie les modèles en endpoints temps réel, batch, ou serverless.
SageMaker JumpStart propose un catalogue de modèles pré-entraînés (Llama, Mistral, Falcon, etc.) déployables en un clic sur des instances GPU. Pour les équipes qui veulent déployer rapidement un LLM open source sans gérer l’infrastructure, c’est souvent le chemin le plus rapide sur AWS.
Amazon Bedrock : l’API des LLM
Amazon Bedrock est le service SaaS d’AWS pour accéder aux LLM frontier via API, sans gérer de GPU. C’est l’équivalent AWS de l’API OpenAI ou de l’API Anthropic, mais avec un catalogue multi-fournisseur :
| Fournisseur | Modèles disponibles | Forces |
|---|---|---|
| Anthropic | Claude Opus 4.6, Sonnet 4.6, Haiku 4.5 | Raisonnement, code, instruction following |
| OpenAI | GPT OSS 20B, GPT OSS 120B | Open-weight, MoE, agentic workflows |
| Meta | Llama 3/4 (versions variées) | Open-weight, polyvalent |
| Amazon | Nova 2 Lite, Nova (autres variantes) | Intégration AWS native |
| Mistral | Mistral Large, Small | Rapport qualité/coût |
| Cohere | Command-R | RAG, recherche sémantique |
| Stability AI | Stable Diffusion | Génération d’images |
Bedrock facture à l’usage (par token d’entrée et de sortie) ou en « provisioned throughput » (débit réservé). Le service inclut des fonctionnalités avancées : Bedrock Agents pour les workflows agentic multi-étapes, Bedrock Knowledge Bases pour le RAG managé, Bedrock Guardrails pour filtrer les sorties inappropriées, et AgentCore pour l’orchestration d’agents IA à grande échelle. Le prompt caching (1h TTL) est disponible pour Claude, réduisant les coûts des conversations multi-tour.
AWS pour l’IA en pratique
Déployer un LLM open source sur AWS
Le chemin le plus rapide pour déployer un LLM open source sur AWS est via SageMaker JumpStart. En quelques clics, vous pouvez déployer un modèle Llama 3 70B sur une instance g5 ou p5 avec vLLM comme serveur d’inférence. Pour un contrôle plus fin, vous pouvez créer un conteneur Docker personnalisé avec vLLM ou TensorRT-LLM et le déployer sur un endpoint SageMaker.
Pour le prototypage rapide sans infrastructure, Bedrock est le plus simple : un appel API suffit pour obtenir une réponse de Claude Opus 4.6 ou Llama 4.
Optimiser les coûts GPU sur AWS
Les instances GPU AWS sont chères par rapport aux fournisseurs spécialisés. Voici des exemples de coûts concrets pour des workloads IA courants sur AWS :
| Workload | Instance | Durée | Coût on-demand | Coût spot (estimé) |
|---|---|---|---|---|
| Fine-tuning LoRA Llama 7B | g5.2xlarge (1× A10G) | ~5h | ~$7,50 | ~$2-3 |
| Fine-tuning QLoRA 70B | p4de.24xlarge (8× A100 80 Go) | ~20h | ~$800 | ~$200-300 |
| Training 7B from scratch | p5.48xlarge (8× H100) | ~50h | ~$4 900 | ~$1 500-2 000 |
| Inférence LLM 13B (24/7) | g5.2xlarge (1× A10G) | 730h/mois | ~$1 109/mois | N/A (pas de spot pour prod) |
| Inférence LLM 70B (24/7) | p5.48xlarge (8× H100) | 730h/mois | ~$71 540/mois | N/A |
Plusieurs stratégies permettent de réduire la facture :
Les Spot Instances offrent jusqu’à 90% de réduction sur les instances GPU, mais peuvent être interrompues à tout moment. C’est idéal pour l’entraînement avec checkpoints fréquents. Les Reserved Instances (1 ou 3 ans) réduisent le coût de 30 à 60% pour les workloads stables. Les SageMaker Training Plans permettent de réserver de la capacité GPU dans des fenêtres temporelles définies, avec la possibilité d’extensions par incréments de 1 à 7 jours. Les Savings Plans offrent des remises en échange d’un engagement de dépense (pas de type d’instance spécifique). Enfin, utiliser des instances Trainium au lieu de GPU NVIDIA pour les workloads compatibles peut réduire les coûts de 30 à 50%.
AWS vs Azure vs GCP pour l’IA
| Critère | AWS | Azure | GCP |
|---|---|---|---|
| Part de marché | ~31% | ~25% | ~11% |
| GPU flagship | H100, H200, GB200 | H100, H200 | H100, H200, B200 |
| Puces custom | Trainium 2/3 | Maia 100 | TPU v6e/v7 |
| LLM API | Bedrock (multi-modèle) | Azure OpenAI (GPT-5.4) | Vertex AI (Gemini) |
| Plateforme ML | SageMaker AI | Azure Machine Learning | Vertex AI |
| Single GPU possible | Non (P5 = 8 GPU min) | Non (similaire) | Oui (A3 = 1-8 GPU) |
| Force IA | Écosystème le plus large | Intégration OpenAI native | TPU, JAX, Gemini |
| Partenaire clé IA | Anthropic, OpenAI | OpenAI (historique) | Anthropic (TPU) |
Verdict : AWS est le meilleur choix si vous voulez le plus grand catalogue de modèles (Bedrock), la plus large gamme d’instances GPU, et l’écosystème cloud le plus complet. Azure est préférable si votre organisation est déjà sur Microsoft 365 et que vous voulez un accès natif à GPT-5.4 via Azure OpenAI. GCP est le meilleur pour les workloads JAX/TPU et si vous utilisez Gemini. Pour le GPU pur au meilleur prix, les trois hyperscalers sont chers : les fournisseurs spécialisés sont 2 à 5× moins chers par GPU-heure.
Limites d’AWS pour l’IA
Historique d’AWS dans l’IA
AWS a été le premier cloud public majeur, lancé en 2006 avec EC2 (instances de calcul) et S3 (stockage). Les premières instances GPU sont apparues en 2014 (G2 avec NVIDIA GRID K520). L’explosion du deep learning a poussé AWS à ajouter les instances P2 (K80, 2016), P3 (V100, 2017), P4 (A100, 2020), et P5 (H100, 2023). SageMaker a été lancé en 2017, et Bedrock en 2023, coïncidant avec l’explosion de l’IA générative.
Amazon a aussi développé ses propres puces IA : Inferentia (inférence, 2019) et Trainium (entraînement, 2022). Le partenariat stratégique avec Anthropic (investissement de $4+ milliards) et l’accord de $38 milliards avec OpenAI (2025) positionnent AWS comme le cloud de choix pour les deux plus grands créateurs de LLM. Le projet Rainier (~500 000 puces Trainium 2) est l’un des plus grands clusters de calcul IA au monde.
L’investissement annoncé de $50 milliards dans des data centers IA fédéraux (1,3 GW de capacité, début de construction en 2026) confirme l’ambition d’AWS de dominer l’infrastructure IA pour les décennies à venir.
Services complémentaires pour l’IA
Au-delà du compute GPU et des plateformes ML, AWS propose un écosystème de services qui alimentent les pipelines IA. S3 est le stockage objet standard pour les datasets d’entraînement et les checkpoints de modèles. EFS/FSx for Lustre fournit du stockage fichier haute performance pour les I/O intensifs des jobs de training distribué. ECR (Elastic Container Registry) héberge les images Docker des serveurs d’inférence (vLLM, TensorRT-LLM). EKS (Kubernetes managé) orchestre les déploiements GPU containerisés. CloudWatch et SageMaker Model Monitor surveillent les performances et la dérive des modèles en production.
Cette profondeur d’écosystème est l’atout principal d’AWS par rapport aux fournisseurs GPU spécialisés : tout est intégré, de l’ingestion de données au monitoring en production, en passant par la sécurité (IAM, VPC, KMS pour le chiffrement, conformité SOC 2/HIPAA/RGPD).
Limites détaillées
Le principal frein est le coût. Les instances GPU AWS sont parmi les plus chères du marché. Une instance P5 (8×H100) à ~$98/h revient à ~$12,25/GPU-h, soit 4 à 5× le tarif des fournisseurs spécialisés. Les coûts d’egress ($0,09/Go) s’ajoutent pour les workloads data-intensive.
Le second est la complexité. AWS propose des centaines de services, et configurer un pipeline ML optimal (VPC, IAM, quotas GPU, SageMaker, S3, etc.) nécessite une expertise significative. Les quotas GPU ne sont pas toujours disponibles immédiatement : il faut les demander et les justifier.
Le troisième est le lock-in. SageMaker, Bedrock, et les services managés AWS créent une dépendance qui rend la migration vers un autre cloud coûteuse. Les puces Trainium ajoutent une couche de lock-in matériel en plus du lock-in logiciel. Pour les organisations qui valorisent la portabilité, l’utilisation de frameworks open source standard (PyTorch, vLLM, llama.cpp) sur des instances GPU IaaS brutes réduit cette dépendance.
Le quatrième est la disponibilité des GPU. Malgré les investissements massifs d’Amazon, les quotas GPU sur AWS ne sont pas toujours immédiatement disponibles. Les instances H100 et H200 nécessitent une demande de quota (Service Quotas) qui peut prendre de quelques heures à plusieurs jours, voire des semaines pour de gros volumes. Les entreprises qui ont besoin de capacité GPU garantie doivent opter pour des Reserved Instances ou des SageMaker Training Plans, ce qui nécessite un engagement financier anticipé.
Malgré ces limites, AWS reste le choix par défaut pour les grandes entreprises qui déploient de l’IA en production grâce à la profondeur de son écosystème, ses certifications de conformité, son réseau mondial de data centers, et ses partenariats stratégiques avec Anthropic et OpenAI. Pour les startups et les petites équipes, combiner AWS (pour Bedrock et les services managés) avec un fournisseur GPU spécialisé (pour le compute brut) offre souvent le meilleur rapport qualité/prix.
Questions fréquentes sur AWS et l’IA
Combien coûte un GPU H100 sur AWS ?
AWS ne propose le H100 qu’en instance de 8 GPU (p5.48xlarge) à environ $98/h on-demand, soit ~$12,25 par GPU-heure. C’est 4 à 5× plus cher que les fournisseurs GPU spécialisés ($2-3/h par H100). Les Spot Instances peuvent réduire ce coût de 60-90%, mais sans garantie de disponibilité. Pour un seul H100, les fournisseurs spécialisés sont nettement plus économiques.
Quelle est la différence entre Bedrock et SageMaker ?
Bedrock est un service SaaS pour consommer des LLM via API (Claude, Llama, GPT OSS, Nova) sans gérer d’infrastructure. SageMaker est une plateforme PaaS pour entraîner, fine-tuner et déployer vos propres modèles ML sur des instances GPU. Bedrock est plus simple (API call), SageMaker plus puissant (contrôle complet). Les deux sont maintenant accessibles depuis SageMaker Unified Studio.
Qu’est-ce que Trainium et faut-il l’utiliser ?
Trainium est la puce IA custom d’Amazon, conçue pour offrir un meilleur rapport performance/coût que les GPU NVIDIA pour certains workloads d’entraînement. Trainium 2 est la version actuelle, avec Trainium 3 prévu pour 2026. L’avantage est le coût (30-50% moins cher que les GPU NVIDIA sur AWS). L’inconvénient est la compatibilité logicielle limitée (SDK Neuron, PyTorch via XLA). Utilisez Trainium si vous avez un workload validé et si le coût est votre priorité. Sinon, les GPU NVIDIA via CUDA restent plus simples.
AWS est-il le meilleur cloud pour l’IA ?
AWS offre l’écosystème le plus large (Bedrock, SageMaker, plus de types d’instances GPU, 30+ régions). Mais « meilleur » dépend de vos critères. Pour le prix par GPU-heure, les fournisseurs spécialisés sont bien moins chers. Pour l’intégration avec GPT-5.4, Azure est plus direct. Pour les TPU et Gemini, GCP est le choix naturel. AWS est le meilleur choix pour les organisations qui veulent un écosystème complet avec le maximum de flexibilité, et qui sont prêtes à payer le prix correspondant.
Peut-on utiliser AWS gratuitement pour l’IA ?
L’offre gratuite AWS (Free Tier) ne couvre pas les instances GPU. Cependant, SageMaker Studio offre un notebook gratuit (sans GPU) pour le prototypage. Bedrock propose un free tier limité (quelques milliers de tokens par mois selon le modèle). Pour du GPU gratuit, Google Colab (avec Nvidia T4) ou Kaggle sont des alternatives plus adaptées. AWS n’est pas le cloud de l’expérimentation gratuite en IA : c’est le cloud de la production à grande échelle.