Langfuse

Langfuse est une plateforme open-source (licence MIT) d’observabilité et d’ingénierie LLM qui combine tracing de production, prompt management, évaluations automatisées et métriques de coût/latence pour aider les équipes à construire, debugger et améliorer leurs applications IA en production.

Éditeur: Langfuse (acquis par ClickHouse, Inc. en janvier 2026)
Type: Plateforme d’observabilité LLM + prompt management + évaluation
Licence: MIT (open-source, self-hosting gratuit)
GitHub Stars: 23 000+ (mars 2026)
SDK installs: 26M+/mois (fin 2025)
Pricing Cloud: Hobby gratuit (50K units) | Core $29/mois | Pro $199/mois | Enterprise $2 499/mois
Conformité: SOC 2 Type II, ISO 27001, GDPR, HIPAA
Fondateurs: Marc Klingen (CEO), Max Deichmann, Clemens Rawert
Fondation: 2022, Berlin (YC W23)
Adoption: 19 du Fortune 50, 63 du Fortune 500 (Khan Academy, Twilio, Merck)
URL: langfuse.com

Qu’est-ce que Langfuse ?

Langfuse est la plateforme open-source d’ingénierie LLM la plus largement adoptée. Elle résout un problème fondamental : les applications IA en production sont des systèmes non déterministes, avec des chaînes d’appels complexes, des comportements imprévisibles et des coûts difficiles à contrôler. Sans observabilité dédiée, les équipes travaillent à l’aveugle.

La plateforme s’articule autour de quatre modules intégrés : l’observabilité (tracing complet des appels LLM et des workflows d’agents), le prompt management (versioning, playground, expériences), l’évaluation (LLM-as-judge, annotation humaine, datasets, tests de régression), et les métriques (coûts, latence, qualité, usage par fonctionnalité).

Fondée en 2022 à Berlin par Marc Klingen, Max Deichmann et Clemens Rawert, l’entreprise a participé au batch Y Combinator W23 et levé $4,5M en seed auprès de Lightspeed Venture Partners et La Famiglia (General Catalyst). En janvier 2026, Langfuse a été acquis par ClickHouse, Inc. dans le cadre de la levée Series D de $400M de ClickHouse. L’acquisition vise à combiner l’observabilité LLM de Langfuse avec les capacités analytiques temps réel de ClickHouse, sur lequel Langfuse était déjà construit techniquement.

L’acquisition par ClickHouse (janvier 2026)

L’événement majeur de l’histoire récente de Langfuse est son acquisition par ClickHouse en janvier 2026, annoncée en parallèle de la Series D de $400M de ClickHouse. Cette acquisition a une logique technique forte : Langfuse utilisait déjà ClickHouse comme moteur analytique sous-jacent pour stocker et interroger les traces à grande échelle.

Marc Klingen, CEO de Langfuse, a résumé la logique de l’opération : l’observabilité et l’évaluation LLM sont fondamentalement un problème de données. En tant qu’équipe unifiée, Langfuse peut offrir une ingestion plus rapide, des évaluations plus profondes, et un chemin plus court entre un problème de production et une amélioration mesurable.

Concrètement, cela signifie que Langfuse continue d’opérer comme plateforme open-source indépendante (toujours sous licence MIT), mais bénéficie désormais de l’infrastructure et des ressources de ClickHouse. Le produit cloud et le self-hosting restent disponibles. Les fondateurs (Klingen, Deichmann, Rawert) continuent de diriger le produit.

Impact pour les utilisateurs L’acquisition ne change rien à l’utilisation quotidienne de Langfuse. Le code reste MIT, le self-hosting reste gratuit, les plans cloud restent identiques. Le bénéfice attendu est une amélioration des performances d’ingestion et d’analyse, grâce à l’intégration plus profonde avec le moteur ClickHouse.

Module 1 : Observabilité et Tracing

L’observabilité est le module fondateur de Langfuse. Il capture des traces complètes de chaque interaction dans votre application IA : appels LLM, étapes de retrieval (RAG), appels d’outils, embeddings, et toute logique métier intermédiaire.

Tracing structuré. Chaque requête utilisateur génère une trace parent qui contient des observations enfants (generations, spans, events). Pour un agent qui fait 3 appels LLM et 2 recherches vectorielles, vous obtenez une trace avec 5 observations, chacune avec ses inputs/outputs, tokens, coûts et latence. La structure hiérarchique permet de comprendre exactement où le temps et l’argent sont dépensés.

Sessions et utilisateurs. Regroupez les traces en sessions (conversations multi-tours) et associez-les à des utilisateurs identifiés. Cela permet d’analyser les conversations problématiques, de comprendre les parcours utilisateurs, et de suivre les coûts par utilisateur.

Agent Graphs. Pour les agents IA complexes, Langfuse visualise le flux d’exécution sous forme de graphe, montrant chaque appel d’outil, chaque décision, et chaque branche conditionnelle. C’est un outil de debugging indispensable pour les architectures multi-agents.

Dashboards et métriques. Le dashboard central affiche les métriques clés en temps réel : coût total, latence P50/P95, volume de traces, scores de qualité, et répartition par modèle ou par fonctionnalité. Des dashboards custom peuvent être créés pour des vues spécifiques. Les intégrations avec PostHog et Mixpanel permettent de corréler les métriques LLM avec les analytics produit.

Intégration OpenTelemetry. Langfuse est un backend OpenTelemetry natif. Si votre stack utilise déjà OpenTelemetry pour le monitoring applicatif, Langfuse s’intègre dans votre pipeline existant sans migration. C’est un avantage décisif pour les équipes enterprise qui ont déjà une infrastructure d’observabilité en place.

Module 2 : Prompt Management

Le prompt management de Langfuse couvre le cycle de vie complet des prompts :

Versioning et release management. Chaque modification crée une nouvelle version avec historique complet. Les labels (dev, staging, production) contrôlent quelle version est active dans quel environnement. Le rollback est instantané.

Composabilité. Les prompts peuvent être composés à partir de snippets réutilisables (nested prompts), facilitant la maintenance de prompts longs et complexes qui partagent des sections communes.

Caching côté serveur et client. Les prompts sont cachés pour éviter d’ajouter de la latence à votre application. Le cache se rafraîchit automatiquement quand une nouvelle version est déployée.

Playground interactif. Testez vos prompts avec différents modèles et paramètres directement dans l’interface. Quand vous identifiez une trace problématique en production, vous pouvez sauter directement dans le playground pour itérer sur le prompt avec le contexte exact qui a causé le problème.

Lien traces-prompts. Chaque trace en production est liée à la version de prompt qui l’a générée. Cela permet de mesurer l’impact réel d’un changement de prompt sur la qualité, les coûts et la latence en production.

Module 3 : Évaluation

L’évaluation est ce qui transforme l’observabilité passive en amélioration continue active. Langfuse offre plusieurs méthodes complémentaires :

LLM-as-a-Judge. Configurez des évaluateurs automatiques qui utilisent un LLM (par exemple Claude ou GPT-5.4) pour scorer les réponses de production selon vos critères : exactitude, pertinence, ton, conformité réglementaire, etc. Les scores sont attachés aux traces et visibles dans les dashboards.

Annotation humaine. Des files de review permettent aux évaluateurs humains de scorer les traces de production. C’est essentiel pour calibrer les évaluateurs LLM et pour les domaines où le jugement humain expert est irremplaçable (médical, juridique, financier).

Datasets et expériences. Construisez des datasets de test à partir de traces de production réelles. Exécutez des expériences (comparaison de prompts, de modèles, de configurations) sur ces datasets via le SDK ou l’interface. Les résultats sont comparés quantitativement.

Tests de régression. Avant de déployer une nouvelle version de prompt ou un changement de modèle, exécutez le dataset de régression pour vérifier que la qualité n’a pas régressé. C’est l’équivalent des tests unitaires pour les applications IA.

Intégrations

Langfuse est framework-agnostic, ce qui est l’un de ses différenciateurs majeurs par rapport à LangSmith (lié à l’écosystème LangChain).

SDKs natifs : Python, JavaScript/TypeScript, Java, Go. Le décorateur @observe() en Python instrument automatiquement toute fonction et lie les appels nested.

Wrapper OpenAI : remplacez simplement from openai import OpenAI par from langfuse.openai import openai et toutes vos requêtes OpenAI sont automatiquement tracées.

Frameworks IA : intégrations natives avec LangChain, LlamaIndex, Haystack, Vercel AI SDK, CrewAI, et plus de 50 bibliothèques/frameworks au total.

LLM Gateways : LiteLLM, Portkey, et d’autres gateways peuvent router les traces vers Langfuse automatiquement.

Providers LLM : OpenAI, Anthropic, Google, Mistral, Azure OpenAI, Ollama, vLLM, et tout modèle accessible via une API.

Pricing Langfuse Cloud

Plan	Prix	Units incluses	Rétention	Utilisateurs	Fonctionnalités clés
Hobby	Gratuit	50 000/mois	30 jours	2	Tracing, prompts, évaluations, SDK complet
Core	$29/mois	100 000/mois	90 jours	Illimités	+ rétention étendue, rate limits plus élevés
Pro	$199/mois	Incluses + overage	3 ans	Illimités	+ SOC 2, ISO 27001, HIPAA, rate limits très élevés
Enterprise	$2 499/mois	Custom	Custom	Illimités	+ SSO (Okta), RBAC projet, SLA dédié, support prioritaire

Overage : $8 par 100 000 units supplémentaires sur tous les plans payants. Le plan Hobby n’a pas d’overage : une fois les 50 000 units atteintes, il faut upgrader.

Qu’est-ce qu’une unit ? Chaque trace, observation et score ingéré compte comme exactement 1 unit. Les tokens sont comptabilisés séparément pour le suivi des coûts LLM mais ne contribuent pas aux units facturables. Un agent complexe avec 10 observations par trace consomme 11 units par requête (1 trace + 10 observations).

Différenciateur clé : utilisateurs illimités sur tous les plans payants. Contrairement aux concurrents qui facturent par siège, Langfuse inclut l’ensemble de l’équipe sans surcoût. C’est un avantage significatif pour les équipes en croissance.

Optimiser vos coûts Langfuse Votre consommation d’units varie de 3 à 5x selon vos choix d’instrumentation, pas simplement selon votre trafic. Logger chaque étape intermédiaire d’une chaîne coûte plus que logger uniquement la trace top-level. Ajustez la granularité d’instrumentation selon vos besoins de debug pour réduire les coûts de 50 à 90%.

Self-hosting

Le self-hosting est l’un des atouts majeurs de Langfuse. Le code complet est sous licence MIT, sans restrictions d’usage commercial. Depuis juin 2025, toutes les fonctionnalités produit sont open-source.

Docker Compose : démarrage en 5 minutes sur votre machine locale. Idéal pour le développement et les tests.

git clone https://github.com/langfuse/langfuse.git
cd langfuse
docker compose up

Kubernetes (Helm) : déploiement recommandé pour la production. Scalable et configurable.

Prérequis infrastructure : PostgreSQL, ClickHouse, Redis, et stockage S3-compatible. Pour une instance de production, comptez $50 à $150/mois sur AWS ou GCP pour l’infrastructure seule.

Licence Enterprise self-hosted : les fonctionnalités enterprise (RBAC projet, SCIM, prompts protégés) nécessitent une clé de licence à $500/mois. Le reste est entièrement gratuit et illimité.

Langfuse vs LangSmith vs Arize Phoenix

Critère	Langfuse	LangSmith	Arize Phoenix
Open-source	MIT	Non (propriétaire)	Oui (Apache 2.0)
Self-hosting	Docker / Kubernetes	Non	Docker / pip install
Tracing	OpenTelemetry natif	Propriétaire (LangChain-centric)	OpenTelemetry natif
Prompt management	Oui (versioning, playground, A/B)	Oui (LangSmith Hub)	Non
Évaluations	LLM-as-judge, humain, datasets	LLM-as-judge, datasets	LLM-as-judge, embeddings
Framework lock-in	Aucun (50+ intégrations)	Fort (LangChain/LangGraph)	Aucun
GitHub Stars	23K+	N/A (propriétaire)	16K+
Plan gratuit	50K units/mois (cloud) ou illimité (self-hosted)	5K traces/mois	Illimité (self-hosted)
SOC 2 / HIPAA	Oui (plan Pro+)	Oui	Cloud uniquement
Adoption Fortune 500	63 entreprises	N/A	Arize (parent) : large base enterprise

Verdict Polydesk Langfuse est le choix par défaut pour les équipes qui veulent une observabilité LLM complète, open-source et framework-agnostic. Le combo tracing + prompt management + évaluation dans une seule plateforme self-hostable est imbattable. Choisissez LangSmith uniquement si votre stack est 100% LangChain/LangGraph et que vous ne prévoyez pas d’en sortir. Choisissez Phoenix si vous voulez un outil plus léger, local-first, avec un focus sur l’analyse d’embeddings et le debugging interactif. PromptLayer est préférable si votre priorité est le workflow de prompt management no-code pour les non-développeurs.

Démarrer avec Langfuse

Étape 1 : Choisir le mode de déploiement. Cloud (inscription sur langfuse.com, gratuit sans carte bancaire) ou self-hosted (docker compose up en 5 minutes).

Étape 2 : Créer vos clés API. Dans le dashboard, générez vos clés publique et secrète. Configurez la région : EU (cloud.langfuse.com) ou US (us.cloud.langfuse.com).

Étape 3 : Instrumenter votre application. L’intégration minimale en Python :

import os
os.environ["LANGFUSE_PUBLIC_KEY"] = "pk-lf-..."
os.environ["LANGFUSE_SECRET_KEY"] = "sk-lf-..."
os.environ["LANGFUSE_BASE_URL"] = "https://cloud.langfuse.com"

from langfuse import observe
from langfuse.openai import openai  # wrapper OpenAI

@observe()
def handle_request(user_message: str) -> str:
    response = openai.chat.completions.create(
        model="gpt-5.4",
        messages=[
            {"role": "system", "content": "Vous êtes un assistant utile."},
            {"role": "user", "content": user_message}
        ]
    )
    return response.choices[0].message.content

# Chaque appel est automatiquement tracé dans Langfuse
result = handle_request("Expliquez le RAG en 3 phrases.")

Étape 4 : Vérifier les traces. Dans le dashboard, vous devriez voir vos premières traces apparaître avec les inputs, outputs, tokens, coûts et latence.

Étape 5 : Créer vos premiers prompts versionnés. Déplacez vos prompts du code vers le prompt management de Langfuse. Labellez-les avec dev/prod et récupérez-les via le SDK.

Étape 6 : Mettre en place l’évaluation. Configurez un évaluateur LLM-as-judge sur vos critères clés. Créez un dataset de test à partir de traces de production. Exécutez vos premières expériences pour comparer des versions de prompts ou de modèles.

Limites

Infrastructure self-hosted non triviale. Contrairement à Phoenix qui s’installe avec un simple pip install, Langfuse en self-hosted nécessite PostgreSQL, ClickHouse, Redis et du stockage S3. C’est justifié pour la scalabilité, mais représente une charge opérationnelle significative pour les petites équipes.

Pas de gateway LLM intégré. Langfuse est un outil d’observabilité, pas un gateway. Pour le routage multi-provider, le failover, le caching sémantique ou la limitation de débit, vous aurez besoin d’un outil complémentaire comme LiteLLM ou Portkey. Langfuse s’intègre bien avec ces outils, mais c’est un composant supplémentaire à gérer.

Incertitude post-acquisition. L’acquisition par ClickHouse est récente (janvier 2026). Si la roadmap actuelle est rassurante (maintien du MIT, continuité du produit), l’histoire a montré que les acquisitions peuvent modifier les priorités d’un produit open-source sur le long terme. À surveiller.

Courbe d’apprentissage. La richesse fonctionnelle de Langfuse (4 modules intégrés, multiples méthodes d’évaluation, system de scoring) implique un temps d’apprentissage non négligeable. Comptez 1 à 2 semaines pour maîtriser l’ensemble de la plateforme.

Questions fréquentes sur Langfuse

Langfuse est-il gratuit ?

Oui, de deux manières. Le plan Hobby cloud est gratuit avec 50 000 units/mois et 30 jours de rétention. Le self-hosting est entièrement gratuit et illimité (licence MIT), à l’exception des fonctionnalités enterprise (RBAC projet, SCIM) qui nécessitent une clé à $500/mois. Pour la grande majorité des équipes, le self-hosting gratuit couvre tous les besoins.

Langfuse fonctionne-t-il avec d’autres frameworks que LangChain ?

Oui, c’est l’un de ses principaux avantages. Langfuse est framework-agnostic avec des intégrations natives pour LangChain, LlamaIndex, Haystack, Vercel AI SDK, CrewAI, et plus de 50 bibliothèques. Le wrapper OpenAI fonctionne avec n’importe quel provider compatible OpenAI. Le SDK Python avec le décorateur @observe() permet d’instrumenter n’importe quel code, indépendamment du framework.

Que change l’acquisition par ClickHouse ?

Pour les utilisateurs, rien ne change à court terme. Le code reste open-source sous licence MIT, le self-hosting reste gratuit, les plans cloud restent identiques. L’équipe fondatrice continue de diriger le produit. Le bénéfice attendu est une amélioration des performances d’ingestion et d’analyse grâce à l’intégration plus profonde avec le moteur ClickHouse. Langfuse comptait déjà 2 000+ clients payants, 19 du Fortune 50 et 63 du Fortune 500 au moment de l’acquisition.

Comment Langfuse se compare-t-il à Helicone ?

Helicone était un gateway d’observabilité LLM plus léger, avec une intégration par proxy (changement d’URL uniquement). Depuis son acquisition par Mintlify en mars 2026 et son passage en maintenance mode, Langfuse est devenu l’alternative naturelle pour les utilisateurs Helicone. Langfuse offre un tracing plus profond, du prompt management, des évaluations, et le self-hosting, mais nécessite une intégration SDK (pas un simple proxy).

Langfuse peut-il remplacer mon outil d’APM existant ?

Non, et ce n’est pas son objectif. Langfuse est spécialisé dans l’observabilité LLM : traces de prompts/réponses, scoring de qualité, coûts par token. Pour le monitoring serveur classique (CPU, mémoire, HTTP, erreurs), vous avez toujours besoin d’un APM comme Datadog ou Grafana. L’avantage de Langfuse est qu’il est compatible OpenTelemetry, ce qui permet de l’intégrer dans votre pipeline d’observabilité existant sans duplication d’infrastructure.