Lambda Cloud
Lambda Cloud est une plateforme de cloud GPU spécialisée dans l’IA qui propose des instances NVIDIA B200, H100 et A100 on-demand à des prix nettement inférieurs aux hyperscalers, avec zéro frais d’egress et un stack ML préinstallé.
- Éditeur
- Lambda (anciennement Lambda Labs)
- Type
- Cloud GPU spécialisé IA (IaaS)
- GPU disponibles
- NVIDIA B200, H100, GH200, A100, A6000, A10, V100
- Pricing H100 SXM
- À partir de $2,76/GPU/heure (cluster) ou $3,44/GPU/heure (instance 8x)
- Pricing B200 SXM6
- À partir de $4,62/GPU/heure (cluster) ou $5,74/GPU/heure (instance 8x)
- Frais d’egress
- Zéro
- Financement
- $2,4 Mds+ levés (Series E à $1,5 Md en nov. 2025)
- Valorisation
- ≈ $4-8 Mds (estimations variables)
- Fondation
- 2012, San Jose, Californie
- URL
- lambda.ai
Qu’est-ce que Lambda Cloud ?
Lambda (anciennement Lambda Labs) est un fournisseur de cloud GPU dédié à l’entraînement et à l’inférence de modèles d’IA. Fondée en 2012 par les frères Stephen et Michael Balaban, l’entreprise a pivoté de la reconnaissance faciale vers l’infrastructure IA pour devenir l’un des « neo-clouds » les plus importants du marché, aux côtés de CoreWeave, RunPod et Crusoe.
Le positionnement de Lambda est clair : fournir des GPU NVIDIA de dernière génération à des prix significativement inférieurs aux hyperscalers (AWS, Azure, GCP), avec une expérience développeur simplifiée. Pas de configuration complexe, pas de frais d’egress, un stack ML (PyTorch, CUDA, cuDNN) préinstallé via Lambda Stack, et la possibilité de lancer une instance GPU en quelques minutes.
Lambda se décrit désormais comme « The Superintelligence Cloud » et s’est positionné comme fournisseur de capacité GPU pour des acteurs majeurs comme Microsoft, Nvidia, OpenAI, xAI et Anthropic. L’entreprise a levé plus de 2,4 milliards de dollars, dont un tour de Series E de 1,5 milliard en novembre 2025 mené par TWG Global, et prépare une potentielle introduction en bourse.
Les trois produits Lambda Cloud
Instances : GPU on-demand en self-service
Les instances Lambda sont le produit d’entrée. Vous lancez des VM GPU depuis le dashboard ou l’API, avec un accès first-come first-served. C’est l’équivalent d’un EC2 avec GPU chez AWS, mais en beaucoup plus simple et moins cher.
Voici les tarifs on-demand actuels pour les configurations 8x GPU (les plus courantes pour l’entraînement) :
| GPU | VRAM/GPU | vCPUs | RAM | Stockage | Prix/GPU/heure |
|---|---|---|---|---|---|
| B200 SXM6 | 180 Go | 208 | 2 900 GiB | 22 TiB SSD | $5,74 |
| H100 SXM | 80 Go | 208 | 1 800 GiB | 22 TiB SSD | $3,44 |
| A100 SXM 80 Go | 80 Go | 240 | 1 800 GiB | 19,5 TiB SSD | $2,06 |
| A100 SXM 40 Go | 40 Go | 124 | 1 800 GiB | 5,8 TiB SSD | $1,48 |
| Tesla V100 | 16 Go | 88 | 448 GiB | 5,8 TiB SSD | $0,63 |
Les instances sont aussi disponibles en configurations 4x, 2x et 1x GPU. Les GPU unitaires (1x) sont proposés à un prix légèrement plus élevé par GPU, par exemple $3,78/heure pour un H100 SXM seul et $6,08/heure pour un B200 seul. Lambda propose également des GPU d’entrée de gamme comme l’A6000 ($0,92/heure) et l’A10 ($0,86/heure) pour du prototypage ou de l’inférence légère.
Le GPU GH200, avec ses 96 Go de mémoire HBM3 unifiée, est disponible en instance unitaire à $1,99/heure. C’est une option intéressante pour des modèles qui nécessitent beaucoup de VRAM sans avoir besoin de multi-GPU.
1-Click Clusters : clusters multi-nœuds
Pour les charges d’entraînement sérieuses (modèles de plusieurs dizaines de milliards de paramètres), les 1-Click Clusters offrent des grappes de 16 à 2 000+ GPU interconnectés avec NVIDIA Quantum-2 InfiniBand. C’est la réponse de Lambda aux besoins de scaling horizontal.
| GPU | Taille | Prix on-demand/GPU/heure | Engagement |
|---|---|---|---|
| NVIDIA HGX B200 | 16 à 2 000+ GPU | $4,62 | 2 semaines à 12 mois |
| NVIDIA H100 | 16 à 2 000+ GPU | $2,76 | 2 semaines à 12 mois |
Le prix de $2,76/GPU/heure pour un cluster H100 est significativement inférieur aux tarifs des hyperscalers. À titre de comparaison, un GPU H100 coûte environ $3-5/heure chez AWS ou Azure en on-demand. Des réductions supplémentaires sont disponibles sur engagement (1, 2 ou 3 ans), mais les tarifs réservés nécessitent de contacter l’équipe commerciale.
Superclusters : infrastructure dédiée
Pour les organisations qui entraînent des modèles frontier ou qui ont besoin de milliers de GPU en permanence, Lambda propose des Superclusters. C’est de l’infrastructure dédiée (pas de multi-tenancy) avec un support enterprise, des SLA personnalisés et la possibilité de configurations custom. Les tarifs sont négociés au cas par cas.
Lambda a annoncé le déploiement futur de systèmes NVIDIA Vera Rubin NVL72 dans ses Superclusters, avec une disponibilité prévue au second semestre 2026.
Ce qui distingue Lambda Cloud
Zéro frais d’egress
C’est l’un des avantages les plus concrets de Lambda. Les transferts de données sortants sont gratuits, point final. Chez AWS, Azure ou GCP, les frais d’egress peuvent facilement représenter 10-20 % de votre facture cloud, surtout si vous itérez fréquemment sur des modèles et que vous transférez des checkpoints, des datasets ou des résultats. Sur Lambda, ce coût est nul. Pour des équipes qui déplacent régulièrement des téraoctets de données, c’est un différentiateur financier majeur.
Lambda Stack : l’environnement ML prêt à l’emploi
Chaque instance Lambda est préinstallée avec Lambda Stack, un ensemble de logiciels deep learning comprenant PyTorch, TensorFlow, CUDA, cuDNN, et les drivers NVIDIA. Pas de temps perdu à configurer l’environnement, pas de conflits de versions. Vous lancez une instance et vous êtes opérationnel en minutes. Lambda Stack est aussi disponible gratuitement pour vos propres serveurs on-premise.
InfiniBand sur les clusters
Les 1-Click Clusters utilisent le réseau NVIDIA Quantum-2 InfiniBand pour l’interconnexion entre nœuds. C’est le standard pour l’entraînement distribué de LLM à grande échelle. Sans InfiniBand, les communications inter-nœuds passent par Ethernet, ce qui crée un goulot d’étranglement sur les jobs d’entraînement multi-nœuds. AWS et Azure proposent aussi InfiniBand, mais uniquement sur des configurations spécifiques et à des prix plus élevés.
Stockage persistant sans egress
Le stockage Lambda est attaché à vos instances et persiste entre les sessions. Vous pouvez arrêter une instance, la relancer plus tard, et retrouver vos données. Pas besoin de re-télécharger vos datasets à chaque session. Le stockage SSD est inclus dans le prix de l’instance (les capacités sont affichées dans le tableau ci-dessus).
API et automatisation
L’API Lambda Cloud permet de créer, arrêter et relancer des instances depuis votre CLI, vos scripts CI/CD ou vos outils d’orchestration. C’est suffisant pour automatiser des pipelines d’entraînement, même si l’API est plus limitée que celles des hyperscalers.
Lambda Cloud vs la concurrence
| Critère | Lambda Cloud | RunPod | Vast.ai | AWS (EC2 P5) |
|---|---|---|---|---|
| H100 SXM (8x, on-demand) | $3,44/GPU/h | ≈ $3,29/GPU/h | ≈ $2-3/GPU/h (variable) | ≈ $4-5/GPU/h |
| A100 80 Go (on-demand) | $2,06/GPU/h | ≈ $1,64/GPU/h | ≈ $0,80-1,50/GPU/h | ≈ $4,10/GPU/h |
| Frais d’egress | Gratuit | Gratuit | Gratuit | $0,09/Go |
| InfiniBand clusters | Oui (Quantum-2) | Non (standard) | Non | Oui (EFA) |
| Stack ML préinstallé | Oui (Lambda Stack) | Templates Docker | Templates Docker | DLAMI disponible |
| GPU serverless | Non | Oui | Oui | Non (mais SageMaker) |
| Fiabilité / SLA | Bonne, mais ruptures fréquentes | Bonne | Variable (marketplace) | Excellent (SLA 99,9 %+) |
| Services managés IA | Non | Serverless inférence | Non | SageMaker, Bedrock |
Les limites de Lambda Cloud
Disponibilité GPU fluctuante. C’est le reproche le plus fréquent. Les GPU populaires (H100, B200) sont régulièrement en rupture de stock. Lambda fonctionne en first-come first-served, et si votre GPU n’est pas disponible, vous devez attendre. Contrairement aux hyperscalers qui disposent de capacités massives (parfois avec des mois de file d’attente aussi, pour être juste), Lambda a une flotte plus limitée. Si la disponibilité immédiate est critique pour vous, prévoyez un plan de secours via OpenRouter ou LiteLLM pour router vers d’autres fournisseurs.
Pas de services managés. Lambda fournit des GPU, pas une plateforme ML complète. Il n’y a pas d’équivalent de SageMaker, Vertex AI ou Azure ML. Pas de pipelines managés, pas d’AutoML, pas de feature store, pas de model registry intégré. Vous devez gérer votre propre stack MLOps. Si vous avez besoin d’une plateforme ML de bout en bout, regardez plutôt GCP (Vertex AI) ou Azure (Foundry).
Écosystème cloud limité. Pas de base de données managée, pas de CDN, pas de load balancer, pas de service de queue. Lambda fait une chose (GPU) et la fait bien, mais c’est tout. Si vous construisez une application complète avec frontend, backend, base de données et inférence, vous aurez besoin de combiner Lambda avec un autre cloud pour le reste de votre stack.
Couverture géographique restreinte. Lambda opère principalement depuis des datacenters aux États-Unis (San Francisco, Allen TX, Kansas City). Pour les équipes européennes avec des contraintes RGPD sur la localisation des données d’entraînement, c’est un obstacle potentiel. Pas de région européenne ou asiatique disponible pour le moment.
Pas de spot pricing. Contrairement à AWS, GCP ou Vast.ai, Lambda ne propose pas d’instances spot/preemptible à prix réduit. Vous payez le tarif on-demand ou vous négociez un engagement réservé. Pour des jobs d’entraînement tolérants aux interruptions, le spot pricing d’autres fournisseurs peut être plus économique.
Cas d’usage idéaux pour Lambda Cloud
Entraînement de LLM et modèles Transformer. C’est le cœur de cible. Les clusters H100/B200 avec InfiniBand sont conçus pour ça. Si vous faites du fine-tuning ou du pré-entraînement de modèles de plusieurs milliards de paramètres, Lambda offre un excellent rapport qualité-prix.
Recherche IA et prototypage. Les instances unitaires (A100, A6000, GH200) permettent d’expérimenter à moindre coût. Lambda propose d’ailleurs un rabais académique de 50 %, ce qui en fait une option très attractive pour les universités et les labos de recherche.
Inférence batch de gros modèles. Si vous faites tourner de l’inférence en batch (pas en temps réel) sur des modèles volumineux, les GPU Lambda sont compétitifs. Le GH200 avec ses 96 Go de mémoire unifiée est particulièrement adapté aux modèles qui dépassent les 80 Go de VRAM d’un H100.
Éviter les frais d’egress. Si votre workflow implique des transferts de données fréquents entre cloud et local (checkpoints, datasets, résultats), le zéro egress de Lambda peut vous faire économiser des milliers de dollars par mois par rapport aux hyperscalers.
Démarrer avec Lambda Cloud
Étape 1 : Créer un compte. Rendez-vous sur lambda.ai/sign-up. Le processus est rapide, vous ajoutez une carte bancaire et vous êtes prêt.
Étape 2 : Lancer une instance. Depuis le dashboard, choisissez votre type de GPU et la configuration (8x, 4x, 2x, 1x). Si le GPU souhaité est disponible, l’instance se lance en quelques minutes.
Étape 3 : Se connecter en SSH. Lambda fournit une clé SSH et une adresse IP. Connectez-vous et commencez à travailler. PyTorch, CUDA et les outils ML essentiels sont déjà installés.
Étape 4 : Utiliser l’API pour automatiser. L’API REST permet de scripter le lancement et l’arrêt d’instances :
# Lister les types d'instances disponibles
curl -s -H "Authorization: Bearer VOTRE_CLE_API"
https://cloud.lambda.ai/api/v1/instance-types
# Lancer une instance 8x H100
curl -s -X POST -H "Authorization: Bearer VOTRE_CLE_API"
-H "Content-Type: application/json"
-d '{"region_name":"us-west-1","instance_type_name":"gpu_8x_h100_sxm","ssh_key_names":["ma-cle"]}'
https://cloud.lambda.ai/api/v1/instance-operations/launch
Lambda Stack : l’outil gratuit méconnu
Lambda Stack est un gestionnaire de packages qui installe et maintient à jour l’ensemble du stack deep learning (PyTorch, TensorFlow, CUDA, cuDNN, drivers NVIDIA) sur Ubuntu. C’est le logiciel qui tourne sur toutes les instances Lambda Cloud, mais il est aussi disponible gratuitement pour vos propres machines, que ce soit des workstations, des serveurs on-premise ou des VM chez d’autres fournisseurs cloud.
L’installation se fait en une ligne de commande. Lambda gère les dépendances et les compatibilités de versions, ce qui élimine le cauchemar classique des conflits CUDA/PyTorch/driver. Pour les équipes qui gèrent leurs propres GPU (on-premise ou colo), c’est un outil précieux et gratuit.
Trajectoire financière et avenir
Lambda a connu une croissance explosive. L’entreprise a atteint un run rate de revenus estimé à environ 500 millions de dollars en mai 2025, avec le cloud GPU représentant la majorité des revenus (devant les ventes de hardware qui constituaient historiquement le gros de l’activité). La marge brute est d’environ 50 % globalement, et autour de 61 % pour l’activité cloud seule.
Le tour de Series E de 1,5 milliard de dollars (novembre 2025) positionne Lambda pour une expansion massive de ses datacenters, incluant un « AI Factory » de 24 MW à Kansas City. L’entreprise prévoit de déployer plus de 2 GW d’infrastructure IA d’ici la fin de la décennie. Lambda a également annoncé un partenariat multi-milliards avec Microsoft pour fournir de la capacité GPU avec des puces NVIDIA, et prépare une potentielle introduction en bourse (IPO).
Le risque principal : Lambda dépend fortement de NVIDIA pour son approvisionnement en GPU. La relation est symbiotique (NVIDIA est à la fois fournisseur et client, ayant loué 18 000 GPU à Lambda), mais toute perturbation dans la chaîne d’approvisionnement NVIDIA impacterait directement Lambda.
Questions fréquentes sur Lambda Cloud
Lambda Cloud est-il fiable pour la production ?
Lambda Cloud convient bien pour l’entraînement et le fine-tuning de modèles, y compris en production. Les GPU sont de qualité datacenter (pas de cartes grand public), les instances sont single-tenant, et le réseau InfiniBand sur les clusters est fiable. En revanche, pour de l’inférence en production temps réel avec des SLA stricts, les hyperscalers (AWS, Azure, GCP) offrent des garanties de disponibilité plus solides. La principale limite de fiabilité chez Lambda est la disponibilité des GPU : les instances populaires sont régulièrement en rupture.
Peut-on utiliser Lambda Cloud depuis l’Europe ?
Oui, vous pouvez créer un compte et utiliser Lambda Cloud depuis n’importe où. En revanche, tous les datacenters Lambda sont actuellement aux États-Unis. Vos données d’entraînement et vos modèles seront donc physiquement stockés aux USA. Si vous avez des contraintes réglementaires strictes sur la localisation des données (RGPD, données de santé), c’est un obstacle. Pour des workloads sans données personnelles sensibles (entraînement sur des datasets publics, par exemple), ce n’est généralement pas un problème.
Comment Lambda Cloud se compare-t-il à CoreWeave ?
CoreWeave et Lambda sont les deux principaux neo-clouds GPU. CoreWeave est Kubernetes-natif et propose des GPU H100 à environ $6,16/GPU/heure (nœuds HGX), soit environ deux fois plus cher que Lambda pour des H100. CoreWeave compense par une infrastructure HPC plus mature, des fonctionnalités Kubernetes avancées et un support InfiniBand de longue date. Lambda est plus simple, moins cher, et orienté self-service. Si vous avez besoin d’orchestration Kubernetes native, CoreWeave a l’avantage. Si vous voulez le meilleur prix par GPU, Lambda gagne.
Lambda propose-t-il du serverless ou de l’inférence managée ?
Non. Lambda fournit des instances GPU (VM) et des clusters, pas de serverless ni d’inférence managée. Si vous cherchez du GPU serverless (scale-to-zero, facturation à la seconde d’utilisation réelle), regardez Modal, RunPod (mode serverless) ou Replicate. Lambda est optimisé pour les charges continues (entraînement, fine-tuning, inférence batch), pas pour les charges sporadiques.
Quel est le GPU Lambda le plus intéressant en rapport qualité-prix ?
Pour l’entraînement, le cluster H100 à $2,76/GPU/heure offre le meilleur rapport prix/performance accessible en self-service. Pour de l’inférence ou du fine-tuning de modèles de taille moyenne (7B-70B paramètres), l’A100 80 Go à $2,06/GPU/heure est le sweet spot. Pour expérimenter avec des modèles très volumineux (70B+ en précision complète), le GH200 à $1,99/heure avec 96 Go de mémoire unifiée est remarquablement compétitif. Le B200 ($5,74/GPU/heure) vaut le coup uniquement si vous avez besoin de la puissance Blackwell (180 Go VRAM, FP8 natif) pour des modèles très lourds ou de l’inférence à très haute vitesse.