Cloud Computing

Le cloud computing désigne la mise à disposition de ressources informatiques (calcul, stockage, réseau) à la demande via internet, facturées à l’usage. Dans le contexte de l’IA, le cloud est devenu l’infrastructure dominante pour l’entraînement et l’inférence de modèles de deep learning, grâce à l’accès à la demande à des GPU et TPU puissants sans investissement matériel initial.

Le marché global du cloud computing (IaaS, PaaS, SaaS) dépasse les 1 000 milliards de dollars en 2026. La croissance est alimentée par l’explosion des workloads d’IA générative, qui nécessitent des clusters de GPU massifs que seuls les hyperscalers et les fournisseurs cloud spécialisés peuvent déployer à l’échelle requise. Le segment GPU-as-a-Service (GPUaaS) à lui seul est estimé à 7,34 milliards de dollars en 2026, avec une croissance de près de 29% par an.

Marché global cloud: ~$1 000+ milliards (2026, IaaS+PaaS+SaaS)
Marché GPU cloud: ~$7,34 milliards (2026), CAGR ~29%
Top 3 hyperscalers: AWS (31%), Azure (25%), GCP (11%)
GPU les plus loués: A100, H100, H200, B200
Tarif A100 80 Go: $0,66 à $3,67/GPU-heure
Tarif H100 80 Go: $1,25 à $11/GPU-heure
Cloud GPU spécialisés: CoreWeave, Lambda, RunPod, Vast.ai, Thunder Compute
Modèle de facturation: Pay-as-you-go, reserved instances, spot/preemptible

Pourquoi le cloud domine l’infrastructure IA

Le coût prohibitif du matériel GPU

Un seul GPU H100 coûte $25 000 à $40 000 à l’achat. Un serveur DGX H100 (8 GPU) dépasse $300 000. Un cluster d’entraînement de 256 GPU H100 avec réseau InfiniBand représente un investissement de plusieurs millions de dollars, sans compter l’alimentation électrique (700 W par GPU), le refroidissement (liquide pour les configurations denses), et le personnel spécialisé pour la maintenance.

Le cloud élimine cet investissement initial. Vous louez les GPU à l’heure, vous les libérez quand vous n’en avez plus besoin, et vous ne payez que ce que vous consommez. Pour une startup qui entraîne un modèle pendant 100 heures sur 8 H100 à $3/GPU-h, le coût total est d’environ $2 400 au lieu de $300 000+ d’investissement matériel.

Élasticité et scalabilité

L’entraînement d’un LLM peut nécessiter 8 GPU pendant une semaine, puis aucun GPU pendant un mois (phase d’évaluation et d’itération), puis 64 GPU pendant deux semaines (entraînement à plus grande échelle). Le cloud permet d’adapter les ressources à la demande, sans posséder le matériel des périodes de pointe. Cette élasticité est impossible avec du matériel on-premise, qui doit être dimensionné pour le pic d’utilisation.

Accès au dernier GPU

Les cycles de GPU s’accélèrent : A100 (2020), H100 (2022), H200 (2024), B200 (2024-2025), Rubin (2026). Acheter du matériel signifie être bloqué sur une génération. Le cloud permet de migrer vers le dernier GPU dès sa disponibilité, sans déprécier l’ancien matériel.

Types de fournisseurs cloud pour l’IA

Hyperscalers (AWS, Azure, GCP)

AWS, Microsoft Azure, et Google Cloud (GCP) sont les trois plus grands fournisseurs cloud, contrôlant environ 67% du marché global. Ils offrent l’écosystème le plus complet : GPU instances, services ML managés (SageMaker, Azure ML, Vertex AI), stockage, réseau, bases de données, et des centaines de services annexes.

Leurs avantages sont l’écosystème complet (tout est intégré), la couverture mondiale (data centers sur tous les continents), le support enterprise (SLA, conformité, sécurité), et l’accès aux derniers GPU (B200, Vera Rubin via GCP). Leurs inconvénients sont les prix élevés (souvent 2 à 5× plus chers que les fournisseurs spécialisés pour les GPU), la complexité (interfaces et configurations parfois labyrinthiques), et les instances multi-GPU obligatoires (AWS et Azure ne proposent souvent les H100 qu’en instances de 8 GPU, ce qui force à payer pour 8 GPU même si vous n’en avez besoin que d’un).

Fournisseurs GPU cloud spécialisés

Une nouvelle génération de fournisseurs se concentre exclusivement sur le GPU cloud pour l’IA :

Fournisseur	Points forts	GPU disponibles	Tarif H100 (indicatif)
CoreWeave	Grande disponibilité, InfiniBand	A100, H100, H200, B200	~$2,06/h
Lambda Cloud	Simple, orienté développeurs IA	A100, H100, H200	~$2,49/h
RunPod	Marketplace, templates pré-configurés	A100, H100, RTX 4090	~$2,69/h
Vast.ai	Marketplace décentralisé, spot pricing	Variés (A100, H100, consumer)	Variable (spot)
Thunder Compute	Prix très bas, swap de GPU	A100, H100	~$1,38/h
Jarvislabs	Single GPU, facturation à la minute	A100, H100, H200	~$2,99/h

Hyperscaler vs GPU cloud spécialisé : comment choisir Prenez un hyperscaler (AWS, Azure, GCP) si vous avez besoin de l’écosystème complet (stockage managé, bases de données, CI/CD, conformité enterprise, support 24/7). Prenez un GPU cloud spécialisé si votre besoin principal est du compute GPU pur (entraînement, inférence, fine-tuning) et que vous voulez le meilleur prix par GPU-heure. La plupart des équipes IA utilisent les deux : un hyperscaler pour l’infrastructure de production et un GPU cloud spécialisé pour l’expérimentation et le fine-tuning.

NVIDIA DGX Cloud

NVIDIA propose aussi son propre service cloud, DGX Cloud, qui loue l’accès à des clusters DGX (systèmes multi-GPU haut de gamme) hébergés chez les partenaires cloud (Oracle, Azure, GCP). DGX Cloud est pré-configuré avec le stack logiciel NVIDIA (Base Command, NGC, NCCL) et cible les équipes qui veulent un environnement d’entraînement clé en main. Le prix est premium (DGX Cloud coûte la marge NVIDIA plus la marge du cloud provider), mais l’expérience est la plus intégrée pour les workloads NVIDIA.

Modèles de service cloud

IaaS, PaaS, SaaS : les trois couches

Le cloud computing se structure en trois couches de service :

IaaS (Infrastructure as a Service) : vous louez des machines virtuelles, du stockage et du réseau. Vous gérez tout le logiciel vous-même (OS, frameworks, applications). C’est le modèle le plus flexible et celui utilisé pour les instances GPU brutes. AWS EC2, Azure VMs, et GCP Compute Engine sont des services IaaS.

PaaS (Platform as a Service) : le fournisseur gère l’infrastructure et vous fournit une plateforme prête à l’emploi. Pour l’IA, les services ML managés comme AWS SageMaker, Azure Machine Learning et Google Vertex AI sont des PaaS : ils fournissent l’environnement d’entraînement, le versioning de modèles, le déploiement d’endpoints, et le monitoring, sans que vous ayez à configurer les serveurs GPU manuellement.

SaaS (Software as a Service) : le service est prêt à consommer. Pour l’IA, les API de LLM comme l’API OpenAI, l’API Anthropic (Claude), ou l’API Gemini sont du SaaS : vous envoyez un prompt, vous recevez une réponse, sans vous soucier de l’infrastructure sous-jacente.

Services ML managés des hyperscalers

Chaque hyperscaler propose une plateforme ML intégrée qui va au-delà du simple GPU :

Service	Fournisseur	Forces
SageMaker	AWS	Notebooks, training jobs, endpoints, pipelines ML, intégration Bedrock (LLM API)
Azure Machine Learning	Azure	Intégration VS Code/GitHub, OpenAI Service (GPT-5.4), conformité enterprise
Vertex AI	GCP	TPU natif, Model Garden, Gemini API, AutoML, support JAX
OCI Data Science	Oracle	Bare metal GPU, tarifs compétitifs, partenariat NVIDIA DGX Cloud

Ces plateformes simplifient le cycle de vie ML (préparation des données → entraînement → évaluation → déploiement → monitoring), mais ajoutent un coût par rapport à l’utilisation de GPU IaaS bruts. Le choix entre IaaS et PaaS dépend de vos compétences internes : si vous avez une équipe MLOps, les GPU bruts sont plus économiques. Sinon, les services managés accélèrent la mise en production.

Modèles de facturation GPU

On-demand (à la demande) : Vous payez un tarif horaire fixe, sans engagement. C’est le modèle le plus flexible mais le plus cher. Idéal pour l’expérimentation et les workloads ponctuels.

Reserved instances : Vous vous engagez sur 1 à 3 ans en échange d’un tarif réduit (typiquement 30 à 60% de réduction par rapport au on-demand). Adapté aux workloads de production stables et prévisibles.

Spot / Preemptible : Vous accédez aux GPU inutilisés à un tarif très réduit (jusqu’à 80-90% de réduction), mais l’instance peut être interrompue à tout moment si un client on-demand en a besoin. Adapté aux workloads tolérants aux interruptions (entraînement avec checkpoints, batch processing).

Serverless : Certains fournisseurs (Google Cloud, certains spécialisés) proposent un modèle serverless où vous ne payez que le temps de calcul effectif, avec un auto-scaling jusqu’à zéro quand il n’y a pas de requêtes. Idéal pour l’inférence avec un trafic variable.

Comment choisir un GPU dans le cloud

Workload	GPU recommandé	Budget indicatif
Expérimentation / prototypage	A100 80 Go	$1,50-$3/h
Fine-tuning LoRA (7B-70B)	A100 ou H100	$1,50-$3/h
Entraînement modèle moyen (7B-30B)	H100 ×4-8	$12-$24/h
Entraînement modèle large (70B+)	H100 ×8-64+	$24-$200/h
Inférence production (70B+ single GPU)	H200	$3,50-$5/h
Inférence production (7B-13B)	A100 ou L4	$1-$2/h
IA locale sans cloud	RTX 4090 / Apple Silicon	Achat unique

Cloud vs local : quand choisir quoi

Cloud : meilleur choix pour les workloads ponctuels (entraînement, fine-tuning), les besoins de scaling variable, l’accès aux derniers GPU, les petites équipes sans infrastructure, et les workloads qui nécessitent plus de GPU que ce qu’un setup local peut fournir.

Local : meilleur choix pour la confidentialité maximale (aucune donnée ne quitte vos murs), les workloads 24/7 stables et prévisibles (le coût amorti est inférieur au cloud sur 18+ mois), l’inférence personnelle (un Mac ou un PC avec GPU suffit via Ollama ou llama.cpp), et les environnements sans connexion internet.

Hybride : la majorité des organisations utilisent une approche hybride. L’inférence de production tourne sur des GPU dédiés (cloud reserved ou on-premise), tandis que l’entraînement et le fine-tuning ponctuels utilisent des GPU cloud on-demand ou spot. Les données sensibles restent on-premise, les données publiques vont dans le cloud.

Tendances du cloud IA en 2026

Baisse des prix GPU cloud : Les tarifs H100 ont chuté de $8/h en 2024 à $1,25-$3/h en 2026 grâce à l’expansion de l’offre. Les A100 descendent à $0,66/h chez certains fournisseurs. Cette baisse rend le cloud GPU accessible aux startups et PME qui étaient prêtées au calcul IA.

GPU clouds souverains : L’Europe, l’Inde et d’autres régions investissent dans des clouds GPU nationaux pour réduire la dépendance aux hyperscalers américains. L’Europe a alloué plus d’un milliard de dollars en 2024 pour booster la capacité GPU régionale. Les fournisseurs européens comme OVHcloud, Scaleway et Hetzner gagnent du terrain.

Efficacité énergétique : Les data centers GPU consomment des mégawatts. Le refroidissement liquide (direct-to-chip) réduit la consommation énergétique de 40% par rapport au refroidissement par air. Les data centers dans les pays nordiques et au Canada exploitent le climat froid pour réduire les coûts de refroidissement. L’efficacité énergétique devient un critère de sélection du fournisseur cloud.

Confidential computing : Les GPU H100 et supérieurs supportent le confidential computing matériel (données chiffrées en VRAM). Cette fonctionnalité permet aux entreprises réglementées (santé, finance, défense) de déployer des modèles IA dans le cloud public avec des garanties de sécurité renforcées.

Concepts fondamentaux du cloud pour l’IA

Régions et zones de disponibilité

Les fournisseurs cloud organisent leurs data centers en régions géographiques (ex : eu-west-1, us-east-1) et en zones de disponibilité (AZ) au sein de chaque région. Pour l’IA, le choix de la région impacte la latence (servir des utilisateurs européens depuis un data center européen), la conformité (le RGPD impose que certaines données restent en Europe), et la disponibilité des GPU (toutes les régions n’ont pas tous les types de GPU). Les GPU récents (H200, B200) sont souvent disponibles en premier dans les régions américaines.

Conteneurs et orchestration

La plupart des workloads IA cloud s’exécutent dans des conteneurs Docker, orchestrés par Kubernetes (K8s). Les conteneurs encapsulent le code, les dépendances, et les versions de CUDA/PyTorch dans une image reproductible. Kubernetes gère l’allocation des GPU, le scaling, et la tolérance aux pannes. Les hyperscalers proposent des services Kubernetes managés (EKS sur AWS, AKS sur Azure, GKE sur GCP) qui simplifient le déploiement de workloads GPU.

Coûts de transfert de données (egress)

Un piège courant du cloud computing est le coût d’egress : les données envoyées hors du cloud sont facturées (typiquement $0,08 à $0,12 par Go). Pour les workloads IA qui manipulent de grands datasets d’entraînement ou qui servent de l’inférence avec de gros contextes, ces coûts peuvent devenir significatifs. Certains fournisseurs GPU spécialisés n’appliquent pas de frais d’egress, ce qui est un avantage pour les workloads data-intensive.

Du cloud traditionnel au cloud GPU

Le cloud computing moderne a été lancé par Amazon avec AWS en 2006 (EC2, S3). Google Cloud et Azure ont suivi au début des années 2010. Les premières instances GPU dans le cloud sont apparues vers 2012-2014 (AWS G2 avec NVIDIA GRID K520). L’explosion du deep learning à partir de 2016-2017 a créé une demande massive pour les GPU cloud, avec les instances P2 (K80), P3 (V100), puis P4 (A100) sur AWS.

L’arrivée de ChatGPT fin 2022 a déclenché une ruée vers les GPU H100 cloud, avec des pénuries, des files d’attente, et des prix spot atteignant $8/h. Depuis 2025, l’offre s’est normalisée et de nombreux fournisseurs spécialisés (CoreWeave, Lambda, Vast.ai) ont émergé, faisant chuter les prix et démocratisant l’accès au GPU cloud. Le marché est entré dans une phase de maturité où la compétition entre fournisseurs bénéficie directement aux utilisateurs, avec des prix qui continuent de baisser trimestre après trimestre.

Questions fréquentes sur le cloud computing et l’IA

Quel est le fournisseur cloud le moins cher pour les GPU IA ?

Les fournisseurs GPU spécialisés comme Thunder Compute (~$1,38/h pour un H100), Vast.ai (spot pricing variable), et Jarvislabs (~$1,49/h pour un A100) sont généralement 2 à 5× moins chers que les hyperscalers (AWS, Azure, GCP) pour du compute GPU pur. En contrepartie, ils offrent moins de services annexes. Pour le meilleur rapport qualité/prix, combinez un GPU cloud spécialisé pour le compute et un hyperscaler pour le stockage et les services managés.

Faut-il un cloud pour faire de l’IA ?

Non. Pour l’inférence locale de modèles 7B-30B, un PC avec un GPU RTX 4090 ou un Mac Apple Silicon suffit, via Ollama ou llama.cpp. Le cloud est nécessaire pour l’entraînement de modèles (qui requiert des clusters multi-GPU), l’inférence à grande échelle (servir des milliers d’utilisateurs), et le fine-tuning de gros modèles (70B+ paramètres). Pour un usage personnel ou un petit projet, l’IA locale est souvent suffisante et gratuite.

Combien coûte l’entraînement d’un LLM dans le cloud ?

Ça varie énormément selon la taille du modèle. Un fine-tuning LoRA d’un modèle 7B coûte $6 à $30 (quelques heures sur 1 GPU). L’entraînement from scratch d’un modèle 7B coûte $500 à $3 000 (dizaines d’heures sur quelques GPU). Un modèle 70B coûte $10 000 à $50 000 (centaines d’heures sur 8+ GPU). Les modèles frontier (100B+) coûtent des millions de dollars.

AWS, Azure ou GCP : lequel choisir pour l’IA ?

AWS offre le plus grand choix d’instances GPU et l’écosystème le plus vaste (SageMaker, Bedrock). Azure s’intègre naturellement si vous utilisez déjà Microsoft 365 et GitHub. GCP se distingue par les TPU (alternative aux GPU NVIDIA) et l’écosystème Vertex AI optimisé pour JAX. Pour les GPU purs, les trois sont comparables. Le choix dépend souvent de l’écosystème existant de votre organisation plutôt que des GPU eux-mêmes.

Le cloud est-il sûr pour les données sensibles en IA ?

Avec les mesures appropriées, oui. Les GPU H100 et supérieurs supportent le confidential computing (données chiffrées en VRAM). Les hyperscalers offrent des certifications (SOC 2, ISO 27001, HIPAA, RGPD). Les VPC (Virtual Private Cloud) isolent votre réseau. Cependant, pour les données les plus sensibles (défense, certaines données médicales), le on-premise ou le cloud privé reste préférable. L’approche hybride (données sensibles on-premise, workloads compute dans le cloud) est le compromis le plus courant.