Helicone
Helicone est une plateforme open-source d’observabilité LLM et d’AI Gateway qui permet de monitorer, debugger et optimiser les applications IA en une ligne de code, avec suivi des coûts, gestion des prompts et routage intelligent vers 100+ modèles. Acquise par Mintlify en mars 2026.
- Éditeur
- Helicone (acquis par Mintlify le 3 mars 2026)
- Type
- Plateforme d’observabilité LLM + AI Gateway open-source
- Licence
- Open-source + plans cloud payants
- Pricing cloud
- Hobby gratuit (10K req/mois) | Pro $79/mois | Team $799/mois | Enterprise custom
- GitHub Stars
- 5 200+
- Conformité
- SOC 2 Type II, HIPAA, GDPR
- Fondateurs
- Justin Torre, Cole Gottdank, Scott Nguyen (Y Combinator W23)
- Fondation
- 2023, San Francisco
- URL
- helicone.ai
Qu’est-ce que Helicone ?
Helicone combine deux fonctions en une seule plateforme : l’observabilité LLM (monitoring, logging, analytics) et l’AI Gateway (routage, caching, failover). La promesse : ajoutez une ligne de code, et vous obtenez une visibilité complète sur toutes vos interactions avec des LLM, plus un gateway intelligent qui optimise le coût, la latence et la fiabilité de vos appels.
Concrètement, au lieu d’appeler directement l’API OpenAI ou Anthropic, vous pointez vos requêtes vers le gateway Helicone. Celui-ci les transmet au provider tout en loguant automatiquement chaque requête avec ses métadonnées : modèle, tokens, coût, latence, réponse, propriétés custom. Le tout est accessible dans un dashboard avec des analytics en temps réel, des alertes, et des outils de debugging.
Helicone a été fondé en 2023 par Justin Torre, Cole Gottdank et Scott Nguyen, issus de Y Combinator (batch W23). L’entreprise a servi plus de 16 000 organisations. En mars 2026, Helicone a été acquis par Mintlify (plateforme de documentation pour développeurs, financée par a16z). Helicone continue d’opérer en « maintenance mode » : mises à jour de sécurité, nouveaux modèles, corrections de bugs et améliorations de performance continuent d’être livrées.
L’AI Gateway : routage et optimisation
L’AI Gateway de Helicone fonctionne comme un proxy entre votre application et les providers LLM. Il offre l’accès à plus de 100 modèles via une seule clé API, avec des fonctionnalités de production :
Routage intelligent et failover. Le gateway route vos requêtes vers le provider le moins cher ou le plus rapide disponible, avec fallback automatique si un provider tombe. Compatible avec le mode BYOK (Bring Your Own Key) : utilisez vos propres clés provider tout en bénéficiant du routage Helicone.
Caching sémantique. Le gateway peut mettre en cache les réponses pour les requêtes similaires, ce qui réduit les coûts et la latence. Un client a rapporté avoir économisé 386 heures de temps de réponse grâce au caching.
Rate limiting. Contrôlez le nombre de requêtes par utilisateur, par clé API ou globalement pour éviter les dérapages de coûts.
L’intégration est minimale. Pour le SDK JavaScript :
import OpenAI from "openai";
const client = new OpenAI({
baseURL: "https://ai-gateway.helicone.ai",
apiKey: process.env.HELICONE_API_KEY,
});
const response = await client.chat.completions.create({
model: "gpt-4o-mini", // ou claude-sonnet-4, gemini-2.0-flash, etc.
messages: [{ role: "user", content: "Bonjour !" }]
});
Helicone est aussi intégré nativement dans le Vercel AI SDK via le package @helicone/ai-sdk-provider.
Observabilité : voir ce qui se passe dans vos LLM
L’observabilité est le cœur historique de Helicone. Chaque requête qui passe par le gateway est automatiquement instrumentée, sans code supplémentaire :
Traces et sessions. Inspectez les traces complètes des interactions multi-étapes (agents, chatbots, pipelines RAG). Chaque étape d’un agent est visible avec ses inputs, outputs et métriques.
Analytics de coûts. Suivi des dépenses par modèle, par utilisateur, par fonctionnalité et par environnement. Helicone utilise un Model Registry avec les prix de 300+ modèles pour calculer les coûts automatiquement. Les alertes de dépassement de budget vous préviennent avant que les coûts ne dérapent.
User analytics. Suivez le comportement individuel des utilisateurs : requêtes, coûts, modèles utilisés, patterns d’utilisation. Idéal pour comprendre comment vos utilisateurs interagissent avec votre produit IA.
Custom properties. Ajoutez des métadonnées structurées (feature, environnement, version, expérience A/B) à chaque requête pour segmenter vos analytics.
Reports et alertes. Configurez des rapports automatiques et des alertes sur les seuils de dépense, de latence ou d’erreurs. Parfait pour les équipes finance et les engineering managers qui suivent les budgets IA.
HQL (Helicone Query Language). Un langage de requête pour filtrer et analyser vos données d’observabilité avec précision.
Gestion des prompts et playground
Helicone inclut des outils de gestion de prompts intégrés :
Prompt versioning. Versionnez vos prompts directement dans Helicone en utilisant les données de production. Déployez de nouvelles versions via le gateway sans modifier votre code. C’est une approche « prompts-as-configuration » qui sépare la logique de vos prompts de votre code applicatif.
Playground. Testez et itérez sur vos prompts, sessions et traces directement dans l’interface Helicone. Modifiez un prompt, relancez-le contre le modèle, et comparez les résultats, le tout sans quitter le dashboard.
Scores et évaluation. Annotez les réponses avec des scores de qualité pour construire des datasets d’évaluation. Exportez ces datasets pour du fine-tuning via les partenaires intégrés (OpenPipe, Autonomi).
Pricing Helicone
| Plan | Prix | Requêtes incluses | Rétention | Fonctionnalités clés |
|---|---|---|---|---|
| Hobby | Gratuit | 10K/mois | 7 jours | 1 siège, 1 org, playground, caching |
| Pro | $79/mois | 10K gratuits + usage | 1 mois | Sièges illimités, alertes, reports, HQL |
| Team | $799/mois | 10K gratuits + usage | 3 mois | 5 orgs, SOC-2, HIPAA, Slack dédié |
| Enterprise | Custom | Custom | Illimitée | SAML SSO, on-prem, MSA custom, SLA |
Au-delà des requêtes incluses, la facturation est basée sur l’usage (nombre de requêtes et stockage). Le calculateur de prix sur helicone.ai/pricing permet d’estimer les coûts selon votre volume. Le self-hosting via Docker est gratuit et permet de contourner les limites du plan Hobby.
Helicone propose aussi des réductions : 50 % la première année pour les startups de moins de 2 ans avec moins de $5M de financement, des remises pour les non-profits, $100 de crédit pour les entreprises open-source, et la gratuité pour les étudiants.
Helicone vs Langfuse vs Arize Phoenix
| Critère | Helicone | Langfuse | Arize Phoenix |
|---|---|---|---|
| Type | Gateway + Observabilité | Observabilité + Évaluation | Observabilité + Évaluation |
| Intégration | Proxy (change base URL) | SDK (code instrumentation) | SDK (OpenTelemetry) |
| AI Gateway intégré | Oui (100+ modèles) | Non | Non |
| Setup time | ≈ 15 minutes | ≈ quelques heures | ≈ 2-4 heures |
| Open-source | Oui | Oui | Oui |
| Self-hosting | Docker + Helm | Docker | Docker |
| Free tier | 10K req/mois | 50K events/mois | Illimité (self-hosted) |
| Prompt management | Oui | Oui | Limité |
| Caching | Oui (sémantique) | Non | Non |
| Statut | Maintenance mode (Mintlify) | Actif | Actif |
Cas d’usage
Monitoring d’applications IA en production. Le cas d’usage principal. Déployez le gateway Helicone devant vos appels LLM et obtenez instantanément une visibilité sur les coûts, la latence, les erreurs et les patterns d’utilisation. Pas besoin de construire votre propre infrastructure de logging.
Debugging d’agents IA. Les traces multi-étapes de Helicone sont essentielles pour comprendre le comportement d’un agent IA : quels outils a-t-il appelés, quelles décisions a-t-il prises, où s’est-il trompé. QA Wolf a rapporté avoir économisé 2 jours de debugging grâce aux traces Helicone.
Optimisation des coûts LLM. Le cost tracking par modèle et par fonctionnalité révèle quelles parties de votre application consomment le plus de tokens. Le caching sémantique réduit les appels répétitifs. Le routage vers le provider le moins cher optimise automatiquement les dépenses.
Gateway multi-provider avec BYOK. Si vous avez des clés API chez plusieurs providers et que vous voulez un routage intelligent avec failover, le gateway Helicone le fait sans facturation supplémentaire sur l’inférence. Vous payez uniquement le plan Helicone pour l’observabilité et le routage.
A/B testing de prompts. Le playground et le versioning des prompts permettent de tester des variantes en production et de mesurer l’impact sur la qualité et les coûts. Les custom properties facilitent la segmentation des résultats par variante. Vous pouvez comparer deux versions d’un prompt sur le même modèle, ou le même prompt sur deux modèles différents, et quantifier les différences en termes de coût, latence et qualité de réponse.
Exportation vers PostHog. Si vous utilisez PostHog pour l’analytics produit, Helicone permet d’exporter les métriques LLM directement vers PostHog en une ligne de configuration. Cela unifie vos dashboards produit et IA dans un seul outil, ce qui facilite la corrélation entre l’utilisation IA et les métriques business (conversion, rétention, engagement).
Intégration avec LiteLLM
Helicone s’intègre nativement avec LiteLLM. Si vous utilisez LiteLLM comme proxy multi-provider, vous pouvez ajouter Helicone comme callback de logging dans votre configuration. Chaque requête passant par LiteLLM est automatiquement instrumentée dans Helicone. C’est une combinaison populaire : LiteLLM pour le routage et les virtual keys, Helicone pour l’observabilité et l’analytics.
Self-hosting
Helicone peut être auto-hébergé via Docker Compose (pour le développement et les petites charges) ou Helm chart (pour la production). Le self-hosting donne accès à toutes les fonctionnalités sans les limites des plans cloud (pas de plafond de requêtes, pas de rétention limitée). C’est l’option recommandée pour les équipes avec des exigences de souveraineté des données ou des budgets serrés.
Le setup Docker est direct : clonez le repo, copiez le fichier .env.example, et lancez ./helicone-compose.sh helicone up. Pour les déploiements enterprise, le Helm chart est disponible pour Kubernetes avec des configurations de haute disponibilité.
Démarrer avec Helicone
Étape 1 : Créer un compte. Inscrivez-vous sur helicone.ai. Le plan Hobby (10K requêtes/mois) est gratuit, sans carte bancaire.
Étape 2 : Obtenir votre clé API. Depuis le dashboard, récupérez votre clé API Helicone.
Étape 3 : Modifier votre code. Changez le baseURL de votre client OpenAI vers https://ai-gateway.helicone.ai et utilisez votre clé Helicone comme API key. C’est tout. Pas de SDK supplémentaire à installer si vous utilisez l’AI Gateway.
Étape 4 : Explorer le dashboard. Vos requêtes apparaissent en temps réel dans le dashboard Helicone. Consultez les coûts, la latence, les erreurs et les traces de sessions.
Étape 5 : Configurer les alertes. Définissez des seuils de dépense et de latence pour être prévenu avant que les coûts ne dérapent. Configurez des reports automatiques pour l’équipe finance.
L’intégration est aussi disponible via des SDKs dédiés pour les frameworks populaires. Le package @helicone/ai-sdk-provider s’intègre nativement avec le Vercel AI SDK. Pour Python, Helicone propose un wrapper autour du SDK OpenAI. Et pour les utilisateurs de LiteLLM, l’intégration se fait via un callback de logging dans la configuration du proxy.
De YC W23 à l’acquisition Mintlify : la trajectoire
Helicone illustre un parcours typique de startup IA infrastructure : démarrage pendant le boom des « GPT wrappers » en 2023, croissance rapide grâce à l’adoption par les batchmates Y Combinator, puis consolidation par acquisition. Le projet est né du constat que chaque entreprise construisant sur des LLM avait besoin des mêmes outils de monitoring et de debugging, et que personne ne voulait les construire en interne.
L’acquisition par Mintlify (plateforme de documentation développeur, $21M levés dont une Series A a16z) fait sens stratégiquement : Mintlify construit une infrastructure de « knowledge » pour l’ère agentique, et les compétences d’Helicone en routage, observabilité et gestion multi-provider complètent cette vision. L’équipe Helicone (Justin Torre, Cole Gottdank) rejoint Mintlify à San Francisco pour travailler sur la nouvelle génération d’infrastructure IA de Mintlify.
Pour les utilisateurs existants, la transition est transparente : l’API ne change pas, les fonctionnalités existantes sont maintenues. Le risque principal est le ralentissement de l’innovation : pas de nouvelles fonctionnalités majeures, juste de la maintenance. Pour les nouveaux projets qui démarrent aujourd’hui, il est prudent d’évaluer Langfuse (en développement très actif) comme alternative principale.
Questions fréquentes sur Helicone
L’acquisition par Mintlify change-t-elle quelque chose ?
À court terme, non. Helicone continue d’opérer normalement en mode maintenance : mises à jour de sécurité, support de nouveaux modèles, corrections de bugs. L’API et les fonctionnalités existantes restent disponibles. En revanche, le développement de nouvelles fonctionnalités majeures est incertain. Si vous démarrez un nouveau projet et que vous avez besoin d’une plateforme d’observabilité avec un développement actif à long terme, évaluez Langfuse ou Phoenix comme alternatives.
Helicone est-il gratuit ?
Le plan Hobby est gratuit avec 10 000 requêtes/mois et 7 jours de rétention. Le self-hosting est entièrement gratuit sans limites. Pour les plans cloud payants, le Pro démarre à $79/mois et le Team à $799/mois. Helicone ne prélève aucune commission sur vos appels LLM : vous payez les providers directement. Le coût Helicone couvre uniquement l’observabilité et le gateway.
Quelle est la différence entre Helicone et Langfuse ?
Langfuse est une plateforme d’observabilité et d’évaluation LLM basée sur l’instrumentation SDK (vous ajoutez du code d’observation dans votre application). Helicone est basé sur un proxy (vous changez l’URL de votre endpoint). Helicone est plus rapide à intégrer (pas de modification de code au-delà de l’URL), et inclut un AI Gateway avec routage et caching. Langfuse offre des fonctionnalités d’évaluation plus avancées et un écosystème plus riche pour le LLMOps complet. Langfuse est en développement actif ; Helicone est en mode maintenance depuis l’acquisition Mintlify.
Helicone ajoute-t-il de la latence ?
Le gateway ajoute un overhead minimal (quelques millisecondes) pour le proxying et le logging. Le caching sémantique peut réduire la latence de manière significative pour les requêtes répétitives. Pour la majorité des applications, l’ajout de latence est négligeable par rapport au temps d’inférence du modèle.
Puis-je utiliser Helicone avec des modèles auto-hébergés ?
Oui. Le gateway Helicone supporte les endpoints d’inférence custom (comme vLLM, Ollama, ou TGI) en plus des providers cloud. Vous configurez l’URL de votre serveur d’inférence comme un provider custom, et Helicone route et logue les requêtes de la même manière que pour les providers cloud.