Weights & Biases (W&B)

Weights & Biases (W&B) est une plateforme MLOps et LLMOps qui permet aux développeurs IA de suivre leurs expériences de machine learning, d’évaluer leurs applications d’IA générative, de monitorer des agents en production et de gérer le cycle de vie complet de leurs modèles, du prototypage au déploiement.

Catégorie: Plateforme MLOps / LLMOps
Fondateurs: Lukas Biewald, Chris Van Pelt, Shawn Lewis (2017)
Propriétaire: CoreWeave (Nasdaq : CRWV), acquisition finalisée en mai 2025
Produits: W&B Models, W&B Weave, W&B Training, W&B Inference
Prix: Free (0 $) · Pro (à partir de 60 $/mois) · Enterprise (sur devis)
Déploiement: Cloud (SaaS), auto-hébergé (Docker), cloud privé dédié
Certifications: SOC 2, HIPAA, ISO 27001, RGPD
URL: wandb.ai

De startup à filiale de CoreWeave : l’histoire de W&B

Weights & Biases a été fondée en 2017 à San Francisco par Lukas Biewald (ancien fondateur de CrowdFlower/Figure Eight), Chris Van Pelt et Shawn Lewis. L’idée de départ était simple : offrir aux chercheurs ML un outil de suivi d’expériences aussi fluide que les dashboards de métriques business, mais taillé pour le machine learning.

La plateforme a rapidement gagné en popularité dans les labos de recherche et les équipes ML en production. Plus de 1 400 organisations l’ont adoptée, dont OpenAI, NVIDIA, Meta, Toyota, AstraZeneca, Canva et Snowflake. Cette base clients couvre aussi bien les builders de foundation models que les équipes appliquées en entreprise.

En mars 2025, CoreWeave (alors en pleine préparation de son IPO) a annoncé l’acquisition de Weights & Biases. La transaction a été finalisée le 5 mai 2025. L’objectif : combiner l’infrastructure GPU de CoreWeave avec les outils développeur de W&B pour proposer une plateforme cloud IA intégrée, du compute brut au monitoring applicatif. Lukas Biewald est devenu GM (General Manager) de la division Weights & Biases au sein de CoreWeave.

Point important pour les utilisateurs : CoreWeave s’est engagé à maintenir l’interopérabilité de la plateforme. W&B reste utilisable sur n’importe quel cloud (AWS, GCP, Azure) et avec n’importe quel framework, pas uniquement sur l’infrastructure CoreWeave.

Architecture de la plateforme

W&B est organisée autour de quatre grands produits qui couvrent l’ensemble du cycle de vie ML et LLM. Voici leur rôle respectif.

W&B Models : le suivi d’expériences ML

C’est le produit historique de Weights & Biases, celui qui a fait la réputation de la plateforme. W&B Models couvre tout ce qui touche à l’entraînement de modèles de machine learning :

Experiments (suivi d’expériences) : vous instrumentez votre code avec quelques lignes du SDK Python (wandb.init(), wandb.log()) et chaque run d’entraînement est automatiquement tracké. Les métriques (loss, accuracy, learning rate, métriques custom) sont loguées en temps réel et visualisables dans des dashboards interactifs. Vous pouvez comparer des dizaines de runs côte à côte, filtrer par hyperparamètres, et retrouver n’importe quelle expérience des semaines plus tard.

Sweeps (optimisation d’hyperparamètres) : un moteur intégré pour lancer des recherches d’hyperparamètres en grille, aléatoire ou bayésienne. Vous définissez l’espace de recherche dans un fichier YAML, et W&B orchestre les runs automatiquement. Chaque combinaison est trackée comme un run classique, ce qui permet de visualiser l’impact de chaque paramètre sur les performances.

Tables : un système de visualisation tabulaire pour explorer les données d’entraînement, les prédictions et les erreurs du modèle. Vous pouvez logger des images, du texte, de l’audio, des boîtes englobantes (bounding boxes) et les visualiser directement dans l’interface. C’est particulièrement utile pour la vision par ordinateur et le NLP, où inspecter visuellement les erreurs est souvent plus parlant qu’un chiffre de loss.

Reports : des notebooks interactifs qui combinent visualisations W&B, texte Markdown et graphiques pour documenter vos expériences. Les Reports sont partageables et collaboratifs, ce qui en fait un bon outil pour communiquer les résultats au sein d’une équipe.

Registry : un registre centralisé pour versionner et partager vos modèles, datasets et artefacts. Chaque artefact est lié aux runs qui l’ont produit, ce qui garantit une traçabilité complète du lineage.

W&B Weave : évaluation et monitoring d’apps IA

Weave est le produit le plus récent et celui qui positionne W&B sur le marché LLMOps. Il cible les développeurs qui construisent des applications d’IA générative (chatbots, agents, pipelines RAG) et qui ont besoin d’observer, évaluer et améliorer ces systèmes en continu.

Traces : instrumentez votre code avec le décorateur @weave.op et chaque appel (y compris les appels à des API LLM comme OpenAI, Anthropic, Google) est automatiquement capturé avec ses inputs, outputs, latence et coût. Pour les agents, le tracing est hiérarchique : vous visualisez les chaînes de raisonnement complètes, avec chaque étape intermédiaire.

Evaluations : un framework pour tester systématiquement la qualité de vos applications IA. Vous définissez des datasets de test, des scorers (métriques automatiques ou LLM-as-judge), puis vous lancez des évaluations reproductibles. Les résultats sont organisés en leaderboards pour comparer les performances de différentes versions, prompts ou modèles.

Playground : un bac à sable pour tester des prompts et comparer les réponses de différents LLM côte à côte. Le Playground donne accès à un large catalogue de modèles (OpenAI, Gemini, Meta Llama, DeepSeek, Qwen, etc.) et permet de tester rapidement un nouveau modèle contre vos traces de production.

Guardrails : des mécanismes pour bloquer les attaques par prompt injection et les outputs toxiques ou hors-sujet avant qu’ils n’atteignent l’utilisateur final.

Online Evaluations (Monitors) : fonctionnalité lancée en mars 2026, elle permet d’évaluer en continu les performances d’une app IA en production, sur n’importe quel cloud. Vous détectez les dérives de qualité en temps réel et vous pouvez réagir avant que les utilisateurs ne soient impactés.

W&B Training : entraînement serverless

Lancé en preview publique, W&B Training propose du fine-tuning de LLM sans avoir à gérer l’infrastructure GPU. Deux modes sont disponibles :

Serverless RL (Reinforcement Learning) : du post-training par apprentissage par renforcement, entièrement managé. La nouveauté annoncée en mars 2026 (lors de NVIDIA GTC) est l’environment-free RL : les agents apprennent directement « sur le terrain » sans avoir besoin de simuler un environnement. CoreWeave annonce un entraînement 1,4x plus rapide et jusqu’à 40 % moins cher que sur un cluster auto-géré.

Serverless SFT (Supervised Fine-Tuning) : du fine-tuning supervisé classique, où vous fournissez un dataset et W&B gère le compute.

L’intégration avec les frameworks open source ART (pour le RL) et RULER (pour les reward functions automatisées) permet d’adapter ces outils à des tâches agentiques multi-tours.

W&B Inference : accès aux modèles open source

W&B Inference est un service d’API d’inférence compatible OpenAI qui donne accès à des modèles open source hébergés sur l’infrastructure CoreWeave. Le catalogue inclut des modèles de Meta (Llama 4 Scout, Llama 3.3), Alibaba (Qwen 3), MoonshotAI (Kimi K2.5), DeepSeek, Microsoft (Phi 4) et OpenAI OSS (GPT OSS 20B et 120B).

L’intérêt est double : tester rapidement un modèle open source sans déployer d’infra, et bénéficier automatiquement du tracing Weave sur chaque appel. Les crédits d’inférence sont inclus dans les plans Free, Pro et Academic (pour une durée limitée).

Intégration dans un workflow ML

L’une des forces de W&B est la facilité d’intégration. Le SDK Python s’installe avec un simple pip install wandb, et l’instrumentation de base tient en trois lignes :

import wandb
wandb.init(project="mon-projet")
wandb.log({"loss": 0.42, "accuracy": 0.91})

Pour les frameworks populaires, W&B propose des intégrations natives. PyTorch Lightning, Hugging Face Transformers, Keras, XGBoost, LangChain, LlamaIndex, CrewAI, OpenAI SDK : dans la plupart des cas, il suffit d’ajouter un callback ou un argument pour que le tracking soit automatique.

Côté Weave, l’instrumentation est encore plus simple. Un décorateur @weave.op suffit à tracer n’importe quelle fonction Python, et les appels aux principaux fournisseurs LLM sont tracés automatiquement dès que le SDK Weave est initialisé.

import weave
from openai import OpenAI

weave.init("mon-app-ia")

@weave.op
def generer_reponse(question: str):
    client = OpenAI()
    response = client.chat.completions.create(
        model="gpt-4o",
        messages=[{"role": "user", "content": question}]
    )
    return response.choices[0].message.content

generer_reponse("Explique le fine-tuning en 3 phrases")

W&B propose aussi un serveur MCP (Model Context Protocol) qui permet d’interroger ses données (runs, sweeps, traces Weave, évaluations, datasets) directement depuis des IDE comme Cursor ou Windsurf. Le serveur s’installe via uvx et s’authentifie avec votre clé API W&B.

Tarifs et plans

W&B utilise un modèle freemium avec trois niveaux principaux :

Plan	Prix	Cible	Inclus
Free	0 $	Projets personnels, apprentissage	Tracking illimité, 100 Go stockage cloud, tracing Weave, évaluations, Registry, crédits Inference
Pro	À partir de 60 $/mois	Professionnels, petites équipes	Tout Free + équipes illimitées, contrôles d’accès, Service Accounts, support prioritaire
Enterprise	Sur devis	Grandes entreprises	Tout Pro + SSO/SAML, déploiement privé, SLA garanti, audit logs, support dédié

Licence académique gratuite W&B offre une licence Pro complète et gratuite aux institutions académiques (recherche non liée à une entité commerciale). Elle inclut toutes les fonctionnalités Pro, des heures de tracking illimitées, 200 Go de stockage cloud, jusqu’à 25 Go/mois d’ingestion Weave et jusqu’à 100 sièges.

Le plan Free a une restriction importante : il est réservé aux projets personnels. L’usage commercial nécessite un plan Pro ou Enterprise.

Le stockage cloud au-delà des quotas inclus est facturé environ 0,03 $/Go/mois. L’ingestion de données Weave et l’Inference sont facturées à l’usage au-delà des crédits inclus. Si vous auto-hébergez W&B, les limites de stockage cloud ne s’appliquent pas.

W&B vs MLflow vs Neptune : le comparatif

W&B évolue dans un marché MLOps concurrentiel. Voici comment la plateforme se positionne face à ses deux principaux concurrents :

Critère	Weights & Biases	MLflow	Neptune
Type	SaaS + auto-hébergé	Open source (Apache 2.0)	SaaS + auto-hébergé
Propriétaire	CoreWeave	Databricks (LF Projects)	Neptune Labs
Suivi d’expériences	Excellent (dashboards riches, comparaison temps réel)	Bon (interface plus basique)	Très bon (dashboards flexibles)
LLMOps / Tracing	Weave (tracing, évals, guardrails, monitoring)	MLflow Tracing (plus récent)	Limité
Model Registry	Oui (Registry intégré)	Oui (natif)	Oui (Model Registry)
Inference	Oui (API compatible OpenAI)	MLflow Serving	Non
RL Training	Oui (Serverless RL/SFT)	Non	Non
Plan gratuit	Oui (projets personnels)	Oui (100 % open source)	Oui (avec quotas)
Prix entrée	60 $/mois (Pro)	0 $ (auto-hébergé) ou Databricks	Variable selon usage
Avantage clé	Écosystème complet ML + LLM + Compute	Open source, intégration Databricks native	Interface simple, focus experiment tracking

Notre verdict Si vous êtes déjà sur Databricks, MLflow est le choix naturel : il est natif, gratuit et bien intégré. Si vous cherchez une plateforme managée qui couvre tout le cycle ML + LLM avec une expérience développeur soignée, W&B est la référence. Neptune reste un bon choix pour les équipes qui veulent un tracker d’expériences simple et flexible sans l’ampleur de l’écosystème W&B.

Cas d’usage concrets

Suivi d’un entraînement de modèle

Vous entraînez un modèle de classification d’images avec PyTorch. Vous initialisez W&B en début de script, vous loguez la loss et les métriques à chaque epoch, et vous loguez des échantillons de prédictions avec wandb.Table pour inspecter visuellement les erreurs. En fin d’entraînement, vous sauvegardez le checkpoint comme artefact dans le Registry. Résultat : vous pouvez retrouver cette expérience dans six mois, voir exactement quels hyperparamètres ont été utilisés, et récupérer le modèle correspondant.

Évaluation d’un pipeline RAG

Vous construisez un chatbot RAG qui répond aux questions des utilisateurs à partir d’une base documentaire. Avec Weave, vous tracez chaque requête de bout en bout : la recherche vectorielle, le prompt assemblé, l’appel au LLM, la réponse générée. Vous créez un dataset de questions-réponses attendues, vous définissez des scorers (exactitude, pertinence, faithfulness), et vous lancez des évaluations automatisées. Quand vous changez de modèle (par exemple de GPT-4o à Mistral Large 3), vous relancez l’évaluation et vous comparez les résultats dans un leaderboard.

Monitoring d’un agent en production

Votre agent de support client est en production. Avec Weave Online Evaluations, vous monitorez en continu la qualité des réponses, la latence et le coût par requête. Si un nouveau modèle dégrade la qualité ou si un type de question déclenche des hallucinations, vous êtes alerté immédiatement et vous pouvez investiguer les traces problématiques.

Entraînement RL pour la robotique

Depuis mars 2026, W&B Models supporte le tracking d’expériences multimodales pour la robotique et l’IA embodied. Les équipes peuvent logger des métriques d’entraînement, des outputs de simulation et de la vidéo dans un même workspace, puis utiliser un panneau de comparaison pour évaluer jusqu’à quatre images ou vidéos côte à côte. En partenariat avec NVIDIA, W&B a publié des blueprints pour l’entraînement de modèles RL et VLA (Vision-Language-Action) à grande échelle avec NVIDIA Isaac Lab.

Options de déploiement

W&B propose trois modes de déploiement pour répondre à différentes exigences de souveraineté et de sécurité :

Cloud multi-tenant : l’option par défaut. Vos données sont hébergées sur l’infrastructure W&B/CoreWeave. C’est le plus simple à configurer et le mieux adapté aux petites équipes et aux projets personnels.

Cloud privé dédié : une instance W&B dédiée déployée dans votre propre compte cloud (AWS, GCP, Azure). Vous contrôlez le réseau, le chiffrement et la résidence des données. Recommandé pour les entreprises avec des contraintes réglementaires (RGPD, HIPAA, secteur financier).

Auto-hébergé (self-hosted) : vous déployez W&B sur votre propre infrastructure avec Docker. Aucune donnée ne quitte votre réseau. Nécessite Docker et Python, et fonctionne sur Linux, macOS ou Windows. Un essai gratuit de licence Enterprise est disponible pour tester cette option.

Restriction géographique Depuis le 1er septembre 2025, les services W&B cloud ne sont plus accessibles depuis certaines régions en raison de réglementations applicables. Si vous êtes concerné, l’auto-hébergement reste une option viable.

Sécurité et conformité

W&B dispose d’un ensemble de certifications solide pour un outil MLOps :

La plateforme est certifiée ISO/IEC 27001:2022, ISO/IEC 27017:2015, ISO/IEC 27018:2019, et conforme SOC 2 et HIPAA. Elle aide aussi ses clients à se conformer à NIST 800-53 et s’aligne sur les exigences du RGPD pour le traitement de données personnelles.

En pratique, cela signifie que W&B est utilisable dans des contextes réglementés (santé, finance, secteur public), à condition de choisir l’option de déploiement adaptée. Les déploiements cloud privé et auto-hébergé offrent le contrôle le plus fin sur la localisation et le chiffrement des données.

Application mobile iOS

Annoncée en mars 2026 lors de NVIDIA GTC, W&B a lancé la première application iOS dédiée au développement de modèles IA. L’app permet de suivre ses runs d’entraînement en temps réel, de détecter les problèmes rapidement et de prendre des décisions sans être devant un ordinateur. Pour les équipes qui gèrent des entraînements de longue durée (plusieurs jours sur des clusters GPU), c’est un confort non négligeable.

Serveur MCP pour IDE

W&B maintient un serveur MCP (Model Context Protocol) open source qui permet aux agents de coding (Cursor, Windsurf, Claude Code) d’interroger les données W&B directement depuis l’IDE. Le serveur expose des outils pour :

Requêter les runs et sweeps W&B Models, consulter les traces et évaluations Weave, interroger wandbot (l’agent de support RAG de W&B), et créer des Reports W&B avec du Markdown et des visualisations.

L’installation se fait via uvx et l’authentification utilise la variable d’environnement WANDB_API_KEY.

Limites et points de vigilance

W&B n’est pas parfait. Voici les points à garder en tête :

Vendor lock-in potentiel : même si W&B reste interopérable, l’acquisition par CoreWeave crée un lien de dépendance avec un fournisseur cloud spécifique. Pour l’instant, la promesse d’interopérabilité est tenue, mais c’est un risque à surveiller sur le long terme.

Coût à l’échelle : le plan Pro à 60 $/mois par seat peut devenir coûteux pour une grande équipe. Les surcoûts de stockage et d’ingestion Weave s’ajoutent au tarif de base. Pour une équipe de 20 développeurs ML avec des volumes importants, l’enveloppe annuelle peut dépasser les 50 000 $.

Documentation inégale : certains utilisateurs signalent que la documentation est parfois incomplète sur les fonctionnalités de base, alors que les cas d’usage avancés sont bien couverts. C’est un problème classique des plateformes qui évoluent vite.

Plan Free restrictif : l’interdiction d’usage commercial sur le plan Free est contraignante. Si vous êtes un développeur freelance ou une petite startup, vous devez passer directement sur le plan Pro pour tout usage professionnel.

Complexité de l’écosystème : avec quatre produits (Models, Weave, Training, Inference), le nouveau Core (Registry, SDK, Automations, Skills), et les intégrations CoreWeave, l’étendue de la plateforme peut être déconcertante pour un nouvel utilisateur. Il est recommandé de commencer par un seul produit (Models pour le ML classique, Weave pour le LLMOps) avant d’étendre.

Verdict

Weights & Biases est la plateforme MLOps/LLMOps la plus complète du marché. L’écosystème couvre le suivi d’expériences, l’évaluation d’apps IA, le monitoring en production, le fine-tuning serverless et l’inférence sur modèles open source. L’intégration dans CoreWeave ajoute une couche d’infrastructure GPU qui complète la chaîne de valeur de bout en bout.

Pour les équipes ML qui veulent un outil unique pour tracker, évaluer et itérer, c’est le choix par défaut. Le plan Free est suffisant pour apprendre et prototyper. Le plan Pro à 60 $/mois est raisonnable pour un professionnel. L’Enterprise est justifié dès que vous avez des contraintes de sécurité ou de déploiement privé.

Si MLflow reste imbattable en contexte Databricks et en open source pur, W&B l’emporte nettement sur l’expérience utilisateur, la couverture LLMOps (Weave), et la profondeur des fonctionnalités managées. C’est l’outil vers lequel nous orientons les équipes qui cherchent une solution complète et prête à l’emploi.

Questions fréquentes sur Weights & Biases

Weights & Biases est-il gratuit ?

Oui, W&B propose un plan Free à 0 $ qui inclut le suivi d’expériences, le tracing Weave, les évaluations, le Registry et des crédits d’inférence. Ce plan est limité aux projets personnels : tout usage commercial nécessite le plan Pro (à partir de 60 $/mois) ou Enterprise. Les institutions académiques bénéficient d’une licence Pro gratuite avec des quotas étendus (200 Go de stockage, 100 sièges).

Quelle est la différence entre W&B Models et W&B Weave ?

W&B Models est le produit dédié à l’entraînement de modèles ML : suivi d’expériences, optimisation d’hyperparamètres, versioning de modèles et datasets. W&B Weave cible les applications d’IA générative en production : tracing d’appels LLM, évaluations automatisées, monitoring en temps réel, guardrails. En résumé, Models est pour la phase d’entraînement, Weave est pour la phase d’application et de production.

Qui a racheté Weights & Biases ?

CoreWeave (Nasdaq : CRWV), un fournisseur d’infrastructure cloud spécialisé dans le GPU et l’IA, a finalisé l’acquisition de Weights & Biases le 5 mai 2025. L’accord avait été annoncé en mars 2025, juste avant l’IPO de CoreWeave. Lukas Biewald, cofondateur de W&B, est devenu General Manager de la division au sein de CoreWeave. La plateforme reste interopérable et utilisable sur n’importe quel cloud.

W&B peut-il remplacer MLflow ?

Oui, dans la majorité des cas. W&B couvre les mêmes fonctionnalités de base que MLflow (suivi d’expériences, model registry, model serving) avec une interface plus riche et des fonctionnalités LLMOps absentes de MLflow. Le principal avantage de MLflow reste son caractère 100 % open source et son intégration native dans Databricks. Si vous êtes sur Databricks, MLflow est le choix logique. Sinon, W&B offre une expérience développeur supérieure et un écosystème plus large.

Comment auto-héberger Weights & Biases ?

Pour auto-héberger W&B, vous avez besoin de Docker et Python installés sur votre machine (Linux, macOS ou Windows). Vous démarrez le serveur en ligne de commande, et toutes vos données restent sur votre infrastructure. Un essai gratuit de licence Enterprise est disponible pour tester le déploiement auto-hébergé. Cette option est recommandée pour les organisations qui ne peuvent pas envoyer de données vers le cloud, ou qui opèrent dans des régions soumises à des restrictions d’accès aux services W&B cloud.