Phoenix (Arize)

Phoenix est une plateforme open-source d’observabilité et d’évaluation IA, développée par Arize AI, qui offre le tracing distribué (OpenTelemetry), l’évaluation des modèles (LLM-as-judge, annotations humaines), le prompt management, et l’analyse d’embeddings pour debugger et améliorer les applications LLM et les agents IA en production.

Éditeur: Arize AI (Berkeley, Californie)
Type: Plateforme d’observabilité IA + évaluation + prompt management
Licence: Elastic License 2.0 (ELv2)
Pricing Cloud: Gratuit (25K spans) | $50/mois (50K spans) | Enterprise custom
Self-hosting: Gratuit, illimité (Docker, Kubernetes, pip install, Jupyter)
Arize AI (société mère): $131M levés (Series C $70M, fév. 2025)
Fondateurs (Arize): Jason Lopatecki (CEO), Aparna Dhinakaran (CPO)
Fondation: Phoenix lancé en 2023 (Arize fondée en 2020)
Downloads: 2M+/mois
Intégrations: 50+ frameworks et providers (OpenAI, Anthropic, LangChain, LlamaIndex, CrewAI, DSPy, etc.)
URL: phoenix.arize.com

Qu’est-ce que Phoenix ?

Phoenix est le projet open-source d’Arize AI dédié à l’observabilité et l’évaluation des applications IA. Là où Arize AX (le produit enterprise commercial d’Arize) cible les grandes organisations avec des fonctionnalités avancées de monitoring ML et de conformité, Phoenix offre une plateforme d’observabilité LLM complète et gratuite, accessible à tous les développeurs.

Le positionnement de Phoenix est celui du local-first : vous pouvez démarrer avec un simple pip install arize-phoenix ou un phoenix serve en ligne de commande, sans inscription à un service cloud, sans clé API, et avec zéro dépendance externe. C’est un avantage décisif pour les développeurs qui veulent de l’observabilité dès la phase de développement, directement dans leur notebook Jupyter ou leur terminal.

Phoenix est construit sur OpenTelemetry et utilise le standard OpenInference pour la sémantique des spans LLM. Cela signifie que votre instrumentation n’est pas verrouillée à Phoenix : vous pouvez réutiliser le même code de tracing avec n’importe quelle autre plateforme compatible OpenTelemetry. C’est l’argument anti-vendor-lock-in par excellence.

Phoenix vs Arize AX : deux produits, une vision

La relation entre Phoenix et Arize AX mérite d’être clarifiée car elle est source de confusion :

Phoenix est le projet open-source (licence ELv2). Il couvre l’observabilité LLM complète : tracing, évaluations, prompt management, datasets, expériences. Il se déploie localement (pip, Docker, Kubernetes) ou sur Phoenix Cloud (gratuit avec limites). Il utilise PostgreSQL comme base de données.

Arize AX est la plateforme enterprise commerciale. Elle ajoute des fonctionnalités avancées : monitoring ML prédictif et classique (pas seulement LLM), détection de drift, analyse d’embeddings à grande échelle, Alyx (copilote IA pour les ingénieurs), conformité enterprise (SOC 2, HIPAA, PCI DSS), et une base de données propriétaire optimisée pour les volumes enterprise. Pricing : $50K à $100K/an.

Le chemin typique : démarrez avec Phoenix en self-hosted pendant le développement et les premières phases de production. Quand votre volume et vos besoins de conformité l’exigent, migrez vers Arize AX. L’instrumentation OpenTelemetry est la même, donc la migration est transparente.

Tracing distribué

Le tracing est le module fondamental de Phoenix. Il capture chaque étape d’exécution de votre application IA sous forme de spans hiérarchiques, conformes au standard OpenTelemetry.

Auto-instrumentation. Phoenix instrumentalise automatiquement les appels aux principaux frameworks et providers via le projet OpenInference. Les intégrations couvrent OpenAI, Anthropic, Google GenAI, Google ADK, AWS Bedrock, OpenRouter, LiteLLM, LangChain, LangGraph, LlamaIndex, Vercel AI SDK, CrewAI, DSPy, Mastra, OpenAI Agents SDK, Claude Agent SDK, et plus de 50 autres. L’ajout d’un provider se fait en une ligne.

Spans LLM spécialisés. Contrairement à l’APM classique, Phoenix comprend les concepts spécifiques aux applications IA : generations (appels LLM avec tokens, coûts, latence), retrievals (recherches vectorielles avec scores de pertinence), embeddings, tool calls, et agent actions. Chaque span capture les inputs, outputs, métadonnées, et métriques associées.

Agent Graphs. Pour les architectures multi-agents, Phoenix visualise le flux d’exécution sous forme de graphe dirigé, montrant chaque décision, chaque appel d’outil, et chaque branche conditionnelle. C’est un outil de debugging indispensable quand un agent complexe produit un résultat inattendu.

Sessions et utilisateurs. Regroupez les traces en sessions conversationnelles et associez-les à des utilisateurs identifiés pour analyser les parcours et les problèmes par cohorte.

Évaluations

Phoenix propose un système d’évaluation complet pour mesurer la qualité des outputs de votre application IA :

LLM-as-a-Judge. Utilisez un LLM pour scorer automatiquement les réponses de production. Phoenix fournit des évaluateurs pré-construits pour les cas d’usage courants : pertinence du retrieval (RAG), détection d’hallucinations, qualité des réponses Q&A, toxicité, qualité du code généré, qualité de la summarisation, et classification. Les évaluateurs sont personnalisables pour vos critères spécifiques.

Annotations humaines. Attachez des labels de vérité terrain directement dans l’interface. Les review queues permettent aux évaluateurs humains de scorer les traces de production de manière structurée.

Évaluateurs de datasets. Attachez des évaluateurs à vos datasets pour qu’ils s’exécutent automatiquement lors des expériences. C’est l’équivalent des tests automatisés pour les applications IA.

Intégrations d’évaluation. Phoenix s’intègre avec les bibliothèques d’évaluation tierces : Ragas, Deepeval, Cleanlab. Utilisez la bibliothèque qui correspond le mieux à votre cas d’usage.

Prompt Management et Playground

Versioning et déploiement. Phoenix offre un système de prompt management avec versioning, tagging, et expérimentation. Les prompts sont versionnés et synchronisés entre les environnements via le SDK.

Playground interactif. Le playground permet de tester et itérer sur les prompts avec différents modèles et paramètres. Comparez les outputs côte à côte, visualisez les résultats, et debuggez les échecs sans quitter votre workflow.

Span Replay. Fonctionnalité unique : rejouez un appel LLM tracé en production avec des inputs différents pour comprendre comment un changement de prompt ou de paramètre affecterait la réponse. C’est un raccourci puissant pour passer du debugging à l’amélioration.

Datasets et Expériences

Les datasets et expériences structurent le processus d’amélioration continue :

Création de datasets. Collectez des traces de production ou uploadez des données depuis du code ou des fichiers CSV. Les datasets servent de benchmarks reproductibles pour tester les changements.

Expériences. Exécutez différentes versions de votre application (prompt modifié, modèle différent, configuration ajustée) sur le même dataset et comparez les résultats d’évaluation. C’est la seule approche fiable pour valider qu’un changement améliore réellement la qualité.

Fine-tuning. Exportez vos datasets pour le fine-tuning de modèles. Les traces de production annotées constituent un matériau de fine-tuning de haute qualité.

Analyse d’embeddings

Phoenix se distingue par ses capacités d’analyse d’embeddings, héritées de l’expertise d’Arize AI en monitoring ML classique :

Clustering sémantique. Visualisez les embeddings de vos requêtes, documents et réponses pour identifier des clusters de questions similaires, des patterns de performance, et des zones problématiques. Par exemple, découvrez que 15% de vos requêtes concernent un sujet sur lequel votre RAG performe mal, alors que vous n’aviez pas identifié ce pattern manuellement.

Détection de drift. Comparez les distributions d’embeddings entre différentes périodes pour détecter quand les inputs utilisateurs changent de manière significative, signe que votre application pourrait nécessiter une adaptation.

Options de déploiement

Phoenix offre une flexibilité de déploiement exceptionnelle :

pip install (local). Le moyen le plus rapide pour démarrer. Installez Phoenix comme package Python et lancez-le directement depuis votre code ou votre notebook Jupyter :

pip install arize-phoenix
phoenix serve

Le dashboard est accessible sur http://localhost:6006. Idéal pour le développement et le debugging interactif.

Docker. Pour un déploiement plus robuste avec PostgreSQL comme backend :

docker run -p 6006:6006 arizephoenix/phoenix:latest

Kubernetes (Helm). Déploiement recommandé pour la production. Charts Helm disponibles avec configuration de PostgreSQL, stockage persistant, et scaling horizontal.

Phoenix Cloud. Instance cloud hébergée par Arize (app.phoenix.arize.com). Plan gratuit avec 25K spans/mois et 15 jours de rétention. Plan payant à $50/mois avec 50K spans et 30 jours de rétention.

Pricing

Option	Prix	Spans	Rétention	Support
Self-hosted (OSS)	Gratuit	Illimités	Illimitée	Communauté (GitHub, Discord)
Phoenix Cloud Free	Gratuit	25K/mois	15 jours	Communauté
Phoenix Cloud Paid	$50/mois	50K/mois	30 jours	Email
Arize AX Enterprise	Custom ($50K-$100K/an)	Custom	Custom	Dédié, SLA, SOC 2, HIPAA, PCI DSS

Coûts d’infrastructure self-hosted : pour une instance de production, comptez $50 à $500/mois selon le volume de traces et votre fournisseur cloud. PostgreSQL est la seule dépendance requise, ce qui est significativement plus simple que Langfuse (qui nécessite PostgreSQL + ClickHouse + Redis + S3).

Le vrai avantage économique de Phoenix En self-hosted, Phoenix est totalement gratuit et illimité. Pas de limite de spans, pas de limite d’utilisateurs, pas de fonctionnalités restreintes. L’ensemble de la plateforme est disponible. Pour les startups et les équipes avec des budgets serrés, c’est un argument décisif par rapport aux solutions cloud avec des plans gratuits limités.

Phoenix vs Langfuse vs LangSmith

Critère	Phoenix	Langfuse	LangSmith
Licence	ELv2	MIT	Propriétaire
Self-hosting	pip install / Docker / K8s	Docker / K8s	Non
Démarrage local	pip install (30 secondes)	Docker compose (5 min)	Cloud uniquement
Tracing	OpenTelemetry + OpenInference	OpenTelemetry natif	Propriétaire
Analyse d’embeddings	Oui (clustering, drift)	Non	Non
Prompt management	Oui	Oui (plus mature)	Oui (LangSmith Hub)
Évaluations	LLM-as-judge, humain, Ragas, Deepeval	LLM-as-judge, humain, datasets	LLM-as-judge, datasets
Span Replay	Oui	Playground (similaire)	Oui
Infrastructure requise	PostgreSQL seul	PostgreSQL + ClickHouse + Redis + S3	N/A (cloud)
Upgrade enterprise	Arize AX	Langfuse Enterprise	LangSmith Enterprise
Société mère	Arize AI ($131M levés)	ClickHouse (acquis jan. 2026)	LangChain

Verdict Polydesk Phoenix est le choix idéal pour les développeurs qui veulent de l’observabilité dès le premier jour de développement, sans friction. L’installation en une commande (pip install), l’intégration dans les notebooks Jupyter, et le self-hosting simplifié (PostgreSQL seul) en font le point d’entrée le plus accessible de la catégorie. L’analyse d’embeddings et la détection de drift sont des capacités uniques héritées de l’expertise ML d’Arize AI. Choisissez Langfuse si vous avez besoin d’un prompt management plus mature, d’une licence MIT stricte, ou d’utilisateurs illimités sur le cloud. Choisissez LangSmith si votre stack est 100% LangChain.

Démarrer avec Phoenix

Étape 1 : Installer Phoenix.

pip install arize-phoenix openinference-instrumentation-openai

Étape 2 : Configurer le tracer et instrumenter.

from phoenix.otel import register
from openinference.instrumentation.openai import OpenAIInstrumentor

# Configurer le tracer Phoenix (local par défaut)
tracer_provider = register(
    project_name="mon-app-ia",
    auto_instrument=True
)

# Instrumenter OpenAI
OpenAIInstrumentor().instrument(tracer_provider=tracer_provider)

# Vos appels OpenAI sont maintenant automatiquement tracés
import openai
client = openai.OpenAI()
response = client.chat.completions.create(
    model="gpt-5.4",
    messages=[{"role": "user", "content": "Expliquez le RAG."}]
)

Étape 3 : Lancer le dashboard.

phoenix serve

Ouvrez http://localhost:6006. Vos traces apparaissent en temps réel avec les inputs, outputs, tokens, coûts et latence.

Étape 4 : Évaluer. Lancez un évaluateur LLM-as-judge sur vos traces pour scorer la pertinence, détecter les hallucinations, ou mesurer la qualité selon vos critères custom.

Étape 5 : Créer un dataset et expérimenter. Sélectionnez des traces représentatives, créez un dataset de benchmark, et exécutez des expériences pour comparer des versions de prompts ou de modèles.

Limites

Licence ELv2, pas MIT. Contrairement à Langfuse (MIT), Phoenix utilise la licence Elastic License 2.0. Cette licence autorise l’usage gratuit (y compris commercial), le self-hosting, et la modification du code, mais interdit de fournir le logiciel comme service hébergé à des tiers (vous ne pouvez pas créer un « Phoenix-as-a-Service » concurrent). Pour la grande majorité des utilisateurs qui déploient Phoenix pour leur propre usage, cela ne change rien. Mais c’est une nuance importante pour les fournisseurs de SaaS.

Prompt management moins mature. Le prompt management de Phoenix est fonctionnel (versioning, tagging, playground), mais moins avancé que celui de Langfuse (composabilité, caching, A/B experiments intégrés) ou de PromptLayer (workflow no-code, déploiement par non-développeurs).

Pas de gateway LLM. Comme Langfuse, Phoenix est un outil d’observabilité, pas un gateway. Pour le routage multi-provider, le caching, ou le rate limiting, vous avez besoin d’un outil complémentaire comme LiteLLM.

Phoenix Cloud limité. Le plan gratuit cloud (25K spans, 15 jours de rétention) est plus restrictif que celui de Langfuse (50K units, 30 jours). Le plan payant ($50/mois, 50K spans, 30 jours) reste limité. Pour un usage sérieux en cloud, le saut vers Arize AX ($50K+/an) est conséquent. Le self-hosting gratuit reste le mode d’utilisation recommandé.

Écosystème bifurqué. La coexistence de Phoenix (open-source) et Arize AX (enterprise) peut créer de la confusion. Certaines fonctionnalités avancées (Alyx copilot, monitoring ML classique, détection de drift enterprise, conformité PCI DSS) ne sont disponibles que dans Arize AX. Si vous démarrez avec Phoenix et que vos besoins grandissent, la migration vers AX implique un changement de produit et un saut de prix significatif.

Questions fréquentes sur Phoenix

Phoenix est-il vraiment gratuit ?

En self-hosted, oui, totalement. L’ensemble de la plateforme Phoenix (tracing, évaluations, prompt management, datasets, expériences) est disponible sans limite de spans, d’utilisateurs ou de rétention. Vous ne payez que votre infrastructure (PostgreSQL + serveur). Le cloud hébergé par Arize a un plan gratuit limité à 25K spans/mois et 15 jours de rétention.

Quelle est la différence entre Phoenix et Arize AX ?

Phoenix est le projet open-source (licence ELv2) d’observabilité LLM. Arize AX est la plateforme enterprise commerciale d’Arize AI, qui inclut les fonctionnalités de Phoenix plus le monitoring ML classique, la détection de drift, le copilote Alyx, et la conformité enterprise (SOC 2, HIPAA, PCI DSS). Phoenix utilise PostgreSQL; Arize AX utilise une base de données propriétaire optimisée. Le pricing d’Arize AX commence autour de $50K/an.

Puis-je utiliser Phoenix avec n’importe quel modèle LLM ?

Oui. Phoenix est framework-agnostic et provider-agnostic. Il supporte OpenAI, Anthropic, Google (Gemini, ADK), AWS Bedrock, Mistral, OpenRouter, LiteLLM, et tout modèle accessible via une API compatible. L’auto-instrumentation via OpenInference couvre 50+ frameworks. Pour les modèles locaux (Ollama, vLLM), l’instrumentation manuelle via le SDK Python ou TypeScript est simple.

Comment Phoenix se compare-t-il à Langfuse ?

Langfuse offre un prompt management plus avancé (composabilité, caching, A/B experiments), une licence MIT plus permissive, et des plans cloud plus généreux (50K units gratuites, utilisateurs illimités sur les plans payants). Phoenix offre une installation plus simple (pip install vs Docker compose), l’analyse d’embeddings unique, le Span Replay, et une infrastructure self-hosted plus légère (PostgreSQL seul vs PostgreSQL + ClickHouse + Redis + S3). Langfuse a été acquis par ClickHouse en janvier 2026. Phoenix est adossé à Arize AI ($131M levés).

Phoenix fonctionne-t-il dans un notebook Jupyter ?

Oui, c’est l’un de ses cas d’usage phares. Vous pouvez lancer Phoenix directement dans un notebook Jupyter ou Google Colab, instrumenter vos appels LLM, et visualiser les traces et les évaluations dans le même environnement. C’est idéal pour le prototypage, le debugging interactif, et l’exploration de données avant la mise en production.