Modal

Modal est une plateforme de compute serverless spécialisée pour l’IA qui permet de déployer du code Python avec accès GPU en quelques lignes, avec autoscaling automatique, scale-to-zero et facturation à la seconde.

Éditeur: Modal Labs
Type: Compute serverless GPU (FaaS + containers)
Interface: SDK Python natif (infrastructure-as-code via décorateurs)
GPU disponibles: H100, A100, L40S, L4, T4 et autres
Pricing H100: ≈ $3,95/heure (facturation à la seconde)
Pricing A100 80 Go: ≈ $2,50/heure
Crédit gratuit: $30/mois de compute gratuit
Financement: $111M levés (Series B de $87M, sept. 2025, valorisation $1,1 Md)
Valorisation actuelle: En discussions à ≈ $2,5 Mds (fév. 2026, TechCrunch)
ARR: ≈ $50M (estimé début 2026)
Fondation: 2021, New York (+ bureaux Stockholm, San Francisco)
URL: modal.com

Qu’est-ce que Modal ?

Modal est une plateforme serverless pour exécuter du code Python avec accès à des GPU dans le cloud. Le concept central : vous écrivez des fonctions Python classiques, vous ajoutez des décorateurs Modal pour spécifier les ressources nécessaires (GPU, mémoire, image Docker), et Modal gère tout le reste. Provisionnement, scaling, conteneurisation, teardown. Pas de Kubernetes, pas de Terraform, pas de Docker à construire manuellement.

Fondée en 2021 par Erik Bernhardsson (ex-CTO de Better.com, ex-responsable ML chez Spotify) et Akshat Bubna, Modal a été conçue à partir d’un constat simple : les équipes data et ML passent trop de temps à assembler des outils d’infrastructure au lieu de construire des produits. Bernhardsson a créé Luigi (l’orchestrateur de pipelines open-source) chez Spotify, et a canalisé cette expérience dans Modal.

Ce qui distingue Modal des autres clouds GPU (RunPod, Lambda Cloud, Vast.ai), c’est l’abstraction. Avec RunPod ou Lambda, vous louez une VM avec un GPU et vous gérez votre environnement. Avec Modal, vous ne touchez jamais une VM. Vous déployez des fonctions Python qui s’exécutent sur des GPU dans des conteneurs éphémères. C’est la différence entre louer un serveur et appeler une fonction cloud.

L’expérience développeur : le vrai produit

Si Modal attire autant de développeurs, c’est grâce à la qualité de son SDK Python. Voici un exemple minimal pour servir un LLM avec vLLM sur un GPU H100 :

import modal

app = modal.App("mon-llm")

@app.function(
    gpu="H100",
    image=modal.Image.debian_slim().pip_install("vllm")
)
def generer(prompt: str) -> str:
    from vllm import LLM
    llm = LLM(model="meta-llama/Llama-3-8b-instruct")
    output = llm.generate(prompt)
    return output[0].outputs[0].text

C’est tout. Pas de Dockerfile, pas de configuration YAML, pas de provisionnement d’instance. Modal construit automatiquement l’image container, provisionne le GPU, exécute la fonction et libère les ressources quand c’est terminé. La facturation s’arrête à la seconde où votre code finit de tourner.

Les caractéristiques clés de l’expérience développeur Modal :

Cold starts ultra-rapides. Modal a construit son propre runtime de containers (pas Docker) optimisé pour les démarrages rapides. Les cold starts typiques sont de 2 à 4 secondes, avec des cas sous la seconde grâce aux GPU snapshots. C’est 10 à 50 fois plus rapide que les démarrages Docker classiques. Pour de l’inférence en production, cette différence est critique.

Scale-to-zero natif. Quand il n’y a pas de requêtes, Modal désalloue complètement les ressources. Vous ne payez rien. Quand les requêtes arrivent, Modal provisionne automatiquement des conteneurs avec GPU. C’est le vrai serverless, pas le « toujours allumé avec un nom serverless ».

Autoscaling transparent. Modal scale de 0 à des centaines de GPU automatiquement, sans configuration. Pas de min/max instances à définir, pas de métriques de scaling à configurer. La plateforme gère l’orchestration en fonction du volume de requêtes.

Infrastructure-as-code en Python. Vous définissez vos images containers, vos volumes de stockage, vos secrets et vos configurations directement en Python. Pas de YAML, pas de HCL, pas de fichiers séparés. Tout vit dans votre code.

Les produits Modal

Modal Inference

Déployez et scalez l’inférence pour les LLM, la génération d’images/vidéo, l’audio et d’autres modèles. Les endpoints web sont créés avec un simple décorateur. Modal gère le load balancing et l’autoscaling.

Modal Training

Fine-tunez des modèles open-source sur des clusters single-node ou multi-node. Modal provisionne les GPU, configure NCCL pour l’entraînement distribué, et libère les ressources à la fin du job. Pas de cluster à maintenir entre les runs.

Modal Sandboxes

Environnements éphémères et sécurisés pour exécuter du code non fiable. Chaque sandbox est un conteneur isolé avec accès GPU optionnel. C’est l’outil pour construire des agents IA qui doivent exécuter du code dynamiquement, ou pour offrir des environnements de développement à des utilisateurs tiers.

Modal Batch

Traitement de données massif à la demande. Scalez à des milliers de conteneurs pour des jobs parallèles (traitement d’images, transcription audio, extraction de features) puis ramenez tout à zéro. La facturation ne court que pendant le traitement actif.

Modal Notebooks

Notebooks collaboratifs avec accès GPU, partageables et exécutables dans l’infrastructure Modal. L’alternative à Google Colab pour les équipes qui veulent plus de contrôle sur l’environnement.

Pricing Modal

Modal facture à la seconde de compute réel. La facturation commence quand votre conteneur démarre (y compris le chargement du modèle) et s’arrête quand il se termine. Pas de facturation quand les conteneurs sont à zéro.

Ressource	Prix
H100 SXM (80 Go)	≈ $3,95/heure
A100 SXM (80 Go)	≈ $2,50/heure
A100 SXM (40 Go)	≈ $1,78/heure
L40S (48 Go)	≈ $1,58/heure
L4 (24 Go)	≈ $0,59/heure
T4 (16 Go)	≈ $0,36/heure
CPU	Facturé au cycle CPU
Mémoire	Facturée au GiB-seconde
Stockage	Volumes persistants facturés séparément
Egress	Gratuit

Les plans disponibles :

Starter : $30/mois de compute gratuit inclus, jusqu’à 3 membres d’équipe, conformité SOC 2. C’est le plan par défaut, suffisant pour du prototypage et des projets personnels.

Team : support via Slack privé, membres illimités, fonctionnalités additionnelles. Tarification custom.

Enterprise : support ML engineering intégré, HIPAA, audit logs, IP proxy statique, SSO. Tarification custom.

Modal est aussi disponible via les marketplaces AWS et GCP, ce qui permet d’utiliser vos crédits cloud existants pour payer Modal.

$30/mois gratuits : le meilleur deal pour expérimenter Modal offre $30/mois de compute gratuit sur le plan Starter, sans carte bancaire requise pour commencer. C’est suffisant pour environ 7 à 8 heures de GPU T4, ou 12 heures de A100 40 Go. Pour du prototypage et de l’expérimentation, c’est le point d’entrée le plus généreux parmi les plateformes serverless GPU.

Modal vs RunPod vs Lambda Cloud

Critère	Modal	RunPod	Lambda Cloud
Paradigme	Serverless (fonctions Python)	Pods (VM) + Serverless	Instances (VM)
H100 prix	≈ $3,95/h	≈ $3,29/h (Secure)	$3,44/h (8x)
A100 80 Go prix	≈ $2,50/h	≈ $1,89/h (Secure)	$2,06/h (8x)
Cold start	2-4 secondes (sub-seconde possible)	≈ 15-30s (FlashBoot < 500ms)	N/A (instances persistantes)
Scale-to-zero	Natif	Oui (Serverless)	Non
DX Python	Exceptionnelle (décorateurs, pas de Docker)	Docker + templates	SSH + Lambda Stack
GPU consommateurs	Non	Oui (RTX 4090, 3090)	Non
InfiniBand	Non	Non	Oui
Egress	Gratuit	Gratuit	Gratuit
Marketplace AWS/GCP	Oui	Non	Non

Verdict Polydesk Modal offre la meilleure expérience développeur du marché GPU cloud. Si vous êtes une équipe Python qui veut déployer de l’inférence ou du fine-tuning sans gérer d’infrastructure, Modal est le choix évident. Le prix au GPU/heure est légèrement plus élevé que RunPod ou Lambda, mais vous gagnez en productivité ce que vous payez en compute. Pour des charges continues (GPU allumé 24/7) ou de l’entraînement distribué massif avec InfiniBand, Lambda Cloud reste plus adapté. Pour du GPU très bon marché, RunPod Community ou Vast.ai sont moins chers.

Cas d’usage idéaux

Inférence LLM en production. C’est le cas d’usage phare. Déployez un modèle Llama, Mistral ou Qwen comme un endpoint qui scale automatiquement. Les cold starts rapides et le scale-to-zero font de Modal la plateforme idéale pour des API d’inférence à trafic variable. Vous ne payez rien pendant les heures creuses.

Fine-tuning à la demande. Lancez un job de fine-tuning qui provisionne des GPU, entraîne votre modèle et libère tout à la fin. Pas de cluster à maintenir entre les runs, pas de GPU qui tournent dans le vide.

Pipelines batch massifs. Transcription audio avec Whisper sur 10 000 fichiers, extraction de features sur des millions d’images, évaluation de modèles sur de larges datasets. Modal scale à des milliers de conteneurs en parallèle puis ramène tout à zéro.

Agents IA avec exécution de code. Les Modal Sandboxes sont conçus pour les agents IA qui doivent exécuter du code dynamiquement dans un environnement isolé et sécurisé. C’est le building block pour des agents qui codent, testent et itèrent de manière autonome.

Évaluations ML pendant l’entraînement. Appelez des fonctions Modal serverless depuis votre boucle d’entraînement pour exécuter des évaluations sur des GPU séparés, sans interrompre le training. C’est un pattern de plus en plus adopté par les équipes ML.

Limites de Modal

Python uniquement. Modal ne supporte que Python. Si votre stack est en Go, Rust, C++ ou Node.js, vous ne pouvez pas utiliser Modal directement. L’entreprise envisage d’ajouter d’autres langages à terme.

Pas de modèles pré-déployés. Modal est une plateforme « bring your own model, bring your own code ». Il n’y a pas de catalogue de modèles prêts à l’emploi que vous pouvez appeler via une API (contrairement à Replicate ou Together AI). Vous devez écrire le code de serving vous-même.

Prix légèrement plus élevé par GPU/heure. L’H100 à ≈ $3,95/h est plus cher que chez RunPod ($3,29 Secure) ou Lambda ($3,44 pour du 8x). Vous payez le premium de l’expérience développeur et de l’orchestration serverless.

Pas de GPU consommateurs. Modal ne propose pas de RTX 4090 ou RTX 3090. Si vous cherchez du GPU très bon marché pour de la génération d’images ou du prototypage, RunPod ou Vast.ai sont plus adaptés.

Pas d’InfiniBand. Pour de l’entraînement distribué de très grands modèles (70B+) sur plusieurs nœuds, l’absence d’InfiniBand limite l’efficacité du scaling par rapport à Lambda Cloud.

Dépendance à un fournisseur unique. Modal a construit sa propre infrastructure (filesystem, runtime, scheduler). C’est un avantage en termes de performances, mais aussi un facteur de lock-in. Votre code avec les décorateurs Modal ne tourne que sur Modal. Si vous devez migrer, il faudra réécrire les couches d’infrastructure. Avec des conteneurs Docker standards (RunPod, Lambda), la portabilité est meilleure.

Démarrer avec Modal

Étape 1 : Installer le SDK. Un simple pip install modal suffit.

Étape 2 : S’authentifier. Lancez modal setup dans votre terminal. Cela ouvre un navigateur pour l’authentification et lie votre CLI à votre compte Modal.

Étape 3 : Écrire votre première fonction. Créez un fichier Python avec un décorateur @app.function(gpu="T4") et exécutez-le avec modal run mon_fichier.py. Modal provisionne le GPU, exécute le code et affiche les résultats dans votre terminal.

Étape 4 : Déployer un endpoint. Ajoutez un décorateur @modal.web_endpoint() pour transformer votre fonction en API REST accessible publiquement. Modal gère le TLS, le load balancing et l’autoscaling.

Étape 5 : Monitorer. Le dashboard Modal fournit des logs intégrés, des métriques de performance et une visibilité sur chaque conteneur, fonction et workload. C’est suffisant pour le debugging et le monitoring de base, mais les équipes avec des besoins avancés utiliseront Langfuse ou Helicone pour l’observabilité LLM spécifique.

Trajectoire et avenir

Modal connaît une trajectoire fulgurante. L’entreprise a atteint le statut de licorne ($1,1 Md de valorisation) en septembre 2025 avec une Series B de $87M menée par Lux Capital. En février 2026, TechCrunch a rapporté que Modal était en discussions pour lever un nouveau tour à environ $2,5 milliards de valorisation, mené par General Catalyst. L’ARR est estimé à environ $50 millions.

Le marché de l’inférence IA est en pleine effervescence. Les investisseurs y voient le prochain front de bataille après l’entraînement de modèles. La logique est simple : entraîner un modèle se fait une fois, mais le servir à des millions d’utilisateurs se fait en continu. Baseten a levé $300M à $5 Md de valorisation, Fireworks AI $250M à $4 Md, et Inferact (l’entité commerciale derrière vLLM) a levé $150M. Modal se positionne au cœur de cette vague.

L’infrastructure custom de Modal (filesystem, runtime de containers, scheduler, builder d’images) est un atout compétitif difficile à répliquer. C’est un investissement technique lourd qui crée un fossé avec les concurrents qui s’appuient sur Docker/Kubernetes standard.

Questions fréquentes sur Modal

Modal est-il adapté à la production ?

Oui. Modal est utilisé en production par des entreprises qui gèrent des charges significatives. La plateforme offre la conformité SOC 2 sur tous les plans, HIPAA sur Enterprise, et un uptime solide. Les cold starts rapides (2-4 secondes) et l’autoscaling natif en font une option viable pour de l’inférence en production. Pour des SLA très stricts (99,99 %+), vérifiez les garanties spécifiques de Modal pour votre cas d’usage.

Quelle est la différence entre Modal et Replicate ?

Replicate est une API de modèles pré-déployés : vous appelez un modèle existant via une API REST et vous obtenez un résultat. Modal est une plateforme de compute : vous amenez votre propre code et vos propres modèles. Replicate est plus simple si vous voulez juste appeler un modèle existant. Modal est plus puissant si vous avez besoin de personnaliser votre stack, optimiser les performances, ou exécuter des workloads custom (batch, training, sandboxes). Les deux outils sont complémentaires plus que concurrents.

Combien coûte réellement un endpoint d’inférence sur Modal ?

Cela dépend du trafic. Avec un scale-to-zero, vous ne payez rien quand il n’y a pas de requêtes. Si vous servez un modèle 8B sur un A100 40 Go ($1,78/h) avec un trafic moyen de 100 requêtes/heure et un temps de traitement de 2 secondes par requête, vous payez environ 200 secondes de compute par heure, soit ≈ $0,10/heure. C’est le pouvoir du serverless : vous ne payez que le compute actif. Les coûts augmentent linéairement avec le trafic, mais restent prévisibles.

Puis-je utiliser mes crédits AWS ou GCP sur Modal ?

Oui. Modal est disponible sur les marketplaces AWS et GCP. Si vous avez des crédits cloud engagés (committed spend) chez AWS ou GCP, vous pouvez les utiliser pour payer Modal. C’est un avantage pour les entreprises qui ont déjà des engagements cloud mais veulent une meilleure expérience développeur pour leurs workloads GPU.

Modal peut-il remplacer SageMaker ou Vertex AI ?

Pour l’inférence et le batch processing, oui. Modal est plus simple, plus rapide à déployer, et souvent moins cher pour ces cas d’usage. Pour le cycle ML complet (data labeling, feature store, experiment tracking, model registry, monitoring de drift), Modal ne couvre pas tout. Vous aurez besoin d’outils complémentaires comme Weights & Biases, MLflow, ou Langfuse pour l’observabilité. Modal remplace la couche compute/serving de SageMaker ou Vertex AI, pas la couche MLOps complète.