Together AI
Together AI est un cloud IA spécialisé qui fournit de l’inférence serverless, du fine-tuning et des clusters GPU pour plus de 200 modèles open-source, avec une inférence 2 à 3 fois plus rapide que les hyperscalers grâce à FlashAttention et des optimisations kernels propriétaires.
- Éditeur
- Together AI (anciennement Together Computer)
- Type
- Cloud IA : inférence serverless, fine-tuning, GPU clusters
- Modèles
- 200+ modèles open-source (texte, image, vidéo, audio, code, embeddings)
- Pricing
- Pay-per-token (serverless) ou par GPU/heure (clusters)
- Recherche
- FlashAttention (1 à 4), Mamba, Medusa, Sequoia, Together Kernel Collection
- Chef scientifique
- Tri Dao (créateur de FlashAttention)
- Financement
- $534M+ levés (Series B $305M, fév. 2025, valorisation $3,3 Mds)
- ARR
- ≈ $300M (estimé sept. 2025)
- Fondation
- 2022, San Francisco (cofondateurs : Vipul Ved Prakash, Ce Zhang, Percy Liang, Chris Ré, Tri Dao)
- URL
- together.ai
Qu’est-ce que Together AI ?
Together AI se présente comme « The AI Native Cloud » : une plateforme complète pour développer, fine-tuner et déployer des modèles IA open-source en production. Contrairement à Replicate qui cible les développeurs avec une API de modèles pré-déployés, ou Modal qui fournit du compute serverless générique, Together AI se positionne comme un cloud IA de bout en bout, de la recherche fondamentale à l’inférence en production.
L’entreprise a été cofondée en 2022 par une équipe de chercheurs de Stanford et Princeton : Vipul Ved Prakash (CEO), Ce Zhang (CTO), Percy Liang, Chris Ré et Tri Dao. Ce dernier est le créateur de FlashAttention, l’optimisation qui a révolutionné l’efficacité de l’entraînement et de l’inférence des modèles Transformer. C’est un pedigree de recherche qui se traduit directement dans le produit : l’inférence Together AI est 2 à 3 fois plus rapide que les solutions hyperscalers, grâce au Together Kernel Collection et aux optimisations FlashAttention-3/4.
Together AI a levé $534M au total, dont une Series B de $305M en février 2025 menée par General Catalyst et co-lead par Prosperity7, avec NVIDIA parmi les investisseurs. La valorisation est de $3,3 milliards. L’ARR a atteint environ $300M en septembre 2025 (estimation Sacra), en forte croissance depuis $130M fin 2024. L’entreprise compte environ 313 employés et sert des clients comme Salesforce, Zoom et ElevenLabs.
Les quatre piliers de Together AI
Inférence Serverless
Le produit phare. Vous appelez un modèle parmi les 200+ disponibles via une API REST compatible OpenAI, et Together AI gère l’inférence sur ses GPU optimisés. La facturation est au token (input et output), avec des prix qui varient par modèle.
L’API est compatible avec le format OpenAI, ce qui permet de migrer depuis l’API OpenAI ou Azure OpenAI en changeant simplement le base URL et la clé API. C’est un avantage majeur pour les équipes qui veulent tester des modèles open-source sans réécrire leur code.
| Modèle | Input (par 1M tokens) | Output (par 1M tokens) | Contexte |
|---|---|---|---|
| Llama 4 Maverick | Variable | Variable | 1M tokens |
| Qwen3.5 397B | Variable | Variable | 262K tokens |
| DeepSeek V3.1 | Variable | Variable | 128K tokens |
| Llama 3 70B | ≈ $0,90 | ≈ $0,90 | 128K tokens |
| Llama 3 8B | ≈ $0,20 | ≈ $0,20 | 128K tokens |
| GPT-OSS 20B | ≈ $0,09 | Variable | Variable |
| Gemma 3n E4B | ≈ $0,03 | Variable | Variable |
Together AI propose aussi une API Batch pour traiter des volumes massifs de manière asynchrone (jusqu’à 30 milliards de tokens par modèle), à des tarifs réduits par rapport au serverless temps réel.
Endpoints Dédiés
Pour les équipes qui ont besoin de performances garanties et de contrôle total, Together AI propose des deployments sur infrastructure dédiée. Vous choisissez le hardware (H100, H200, B200, GB200), et Together AI déploie votre modèle sur des ressources isolées avec un SLA custom. C’est l’option pour les charges de production à forte volumétrie.
Fine-Tuning
Together AI permet de fine-tuner des modèles open-source sur vos propres données, directement sur la plateforme. Les méthodes supportées incluent le fine-tuning complet et LoRA. Les nouveautés récentes incluent le support natif du fine-tuning de tool calling, du raisonnement (reasoning), et des modèles vision-language, ainsi que l’entraînement de modèles de plus de 100 milliards de paramètres avec un throughput jusqu’à 6 fois supérieur.
La tarification du fine-tuning est basée sur le nombre total de tokens traités pendant l’entraînement, avec un coût qui varie selon la taille du modèle et la méthode (full fine-tune vs LoRA). Together AI fournit désormais des estimations de coût et de temps avant le lancement du job, ce qui aide à budgétiser.
GPU Clusters
Pour les charges d’entraînement lourdes ou les équipes qui veulent leur propre infrastructure, Together AI propose des Instant Clusters en self-service ou des superclusters de milliers de GPU. L’infrastructure est basée sur des NVIDIA H100, H200, B200 et GB200 NVL72.
La facturation GPU est à l’heure (pay-as-you-go) ou par réservation (engagement supérieur à 6 jours). Together AI a sécurisé 200 MW de capacité énergétique et déploie des clusters NVIDIA Blackwell dans plusieurs datacenters en Amérique du Nord et en Europe (Suède, opérationnel depuis septembre 2025).
La recherche : le fossé compétitif
Ce qui distingue fondamentalement Together AI des autres fournisseurs d’inférence, c’est sa recherche. L’équipe, menée par Tri Dao, publie des travaux qui ont un impact direct sur les performances de la plateforme :
FlashAttention (1 à 4) : l’optimisation qui a rendu l’entraînement et l’inférence de Transformers 3 à 10 fois plus efficace en mémoire. FlashAttention-4, annoncé à la GTC NVIDIA 2026, atteint jusqu’à 1,3x plus rapide que cuDNN sur les GPU Blackwell. C’est devenu le standard de l’industrie, adopté par PyTorch, JAX, TensorFlow et tous les frameworks ML majeurs.
Mamba-3 : un modèle SSM (State Space Model) conçu pour l’inférence, plus rapide que les Transformers au décodage, open-source depuis le jour de son lancement.
Together Kernel Collection : un ensemble de kernels optimisés qui accélèrent l’entraînement de 24 % et réduisent les coûts pour les clients. Avec les GPU Blackwell, les performances d’entraînement augmentent de 90 %.
Speculative Decoding (Sequoia/Medusa) : accélération de l’inférence de 2,5x sans modifier les outputs du modèle.
L’équipe a publié plus de 50 articles de recherche peer-reviewed avec plus de 10 000 citations. C’est un niveau de production scientifique rare pour un fournisseur cloud, et c’est ce qui justifie la performance supérieure de l’inférence Together AI par rapport aux solutions génériques.
Expansion multimédia
Together AI a récemment élargi sa plateforme au-delà du texte. La Video Generation API, lancée début 2026, donne accès à plus de 40 modèles d’image et de vidéo via les mêmes endpoints API, la même authentification et la même facturation. Les modèles disponibles incluent OpenAI Sora 2, Google Veo 3.0, Minimax Hailuo, Google Imagen 4.0 Ultra, ByteDance SeeDream et des outils d’édition spécialisés. C’est un pas vers la plateforme multimodale unifiée.
Together AI vs OpenRouter vs Replicate
| Critère | Together AI | OpenRouter | Replicate |
|---|---|---|---|
| Focus | Inférence + fine-tuning + clusters | Routeur multi-provider LLM | API de modèles pré-déployés |
| Modèles | 200+ open-source | 200+ (multi-provider) | 50 000+ (communauté) |
| Fine-tuning | Oui (full + LoRA) | Non | Oui (limité) |
| GPU Clusters | Oui (H100, B200, GB200) | Non | Non |
| Recherche propre | FlashAttention, Mamba | Non | Non |
| API OpenAI-compatible | Oui | Oui | Non (API propriétaire) |
| Image/Vidéo | Oui (40+ modèles) | Non (LLM uniquement) | Oui (50 000+ modèles) |
| Meilleur pour | Production LLM open-source | Multi-provider, comparaison | Prototypage rapide, multimodal |
Cas d’usage
Inférence LLM open-source en production. Le cas d’usage principal. Servez Llama 4, DeepSeek V3.1, Qwen 3.5, ou Mistral Large 3 via l’API serverless, avec une latence optimisée et un scaling automatique. L’API OpenAI-compatible simplifie la migration.
Fine-tuning de modèles pour des cas spécifiques. Adaptez un modèle à votre domaine (support client, extraction de données, code spécialisé) directement sur Together AI, sans gérer d’infrastructure d’entraînement.
Traitement batch massif. L’API Batch permet de traiter jusqu’à 30 milliards de tokens par modèle, idéal pour la classification de documents, la génération de données synthétiques, ou l’évaluation de modèles.
Remplacement d’OpenAI/Azure OpenAI. Si vous cherchez à réduire vos coûts d’inférence ou à éviter le lock-in avec OpenAI, Together AI offre des modèles open-source compétitifs via une API compatible. Le ratio coût/performance de Llama 3 70B à ≈ $0,90/M tokens est nettement inférieur aux modèles propriétaires équivalents.
Génération vidéo et image en production. La Video Generation API unifie l’accès à Sora 2, Veo 3.0, Imagen 4.0 et d’autres modèles via les mêmes endpoints que le texte. C’est une approche « one API, all modalities ».
Démarrer avec Together AI
Étape 1 : Créer un compte. Inscrivez-vous sur together.ai. Vous recevez $5 de crédits gratuits pour commencer.
Étape 2 : Obtenir une clé API. Depuis le dashboard, générez une clé API.
Étape 3 : Appeler un modèle. L’API est compatible OpenAI :
from openai import OpenAI
client = OpenAI(
base_url="https://api.together.xyz/v1",
api_key="VOTRE_CLE_TOGETHER"
)
response = client.chat.completions.create(
model="meta-llama/Llama-3-70b-chat-hf",
messages=[{"role": "user", "content": "Bonjour Together AI !"}]
)
print(response.choices[0].message.content)
Étape 4 : Explorer le catalogue. Parcourez les 200+ modèles sur together.ai/models. Filtrez par catégorie (chat, code, image, vidéo, embeddings) et comparez les performances et les prix.
Limites
Complexité du pricing. Avec 200+ modèles, chacun ayant des tarifs différents pour input et output, prédire les coûts est difficile. Les prix changent régulièrement avec l’ajout de nouveaux modèles. Utilisez l’estimateur de coûts de Together AI avant de choisir un modèle pour la production.
Pas de modèles propriétaires avancés. Together AI est focalisé sur l’open-source. Vous n’y trouverez pas GPT-5.4, Claude Opus 4.6, ou Gemini 3.1 Pro. Si vous avez besoin du meilleur modèle frontier, vous devrez combiner Together AI avec l’API d’un fournisseur propriétaire, ou utiliser OpenRouter pour router automatiquement.
Pas d’inférence edge/locale. C’est une plateforme 100 % cloud. Si vous avez besoin d’exécuter des modèles localement, regardez Ollama ou LM Studio.
Courbe d’apprentissage pour le fine-tuning. Le fine-tuning sur Together AI nécessite une compréhension des hyperparamètres, de la préparation des données et du choix entre full fine-tune et LoRA. La plateforme fournit des outils, mais l’expertise ML reste nécessaire. Pour des équipes sans spécialiste ML, des solutions plus guidées (comme les fine-tuning intégrés de Replicate pour la génération d’images) sont plus accessibles.
Disponibilité GPU variable. Comme tous les fournisseurs GPU cloud, Together AI peut connaître des ruptures de stock sur les GPU les plus demandés (H100, B200). Les plans Enterprise avec accès prioritaire au hardware atténuent ce problème. Pour du GPU garanti, les réservations long terme sont recommandées.
Écosystème et intégrations
Together AI s’intègre dans l’écosystème IA plus large via plusieurs mécanismes :
API OpenAI-compatible. Toute bibliothèque ou outil qui fonctionne avec l’API OpenAI fonctionne aussi avec Together AI. Cela inclut LangChain, LlamaIndex, LiteLLM, OpenRouter, et la plupart des frameworks d’agents IA.
AWS Marketplace. Together AI est disponible sur le AWS Marketplace, ce qui permet aux entreprises d’utiliser leurs engagements AWS existants pour payer les services Together AI.
Together Evaluations Framework. Un système de benchmarking intégré utilisant la méthodologie LLM-as-a-Judge pour évaluer les performances de vos modèles fine-tunés sur votre domaine spécifique. C’est un outil précieux pour mesurer objectivement l’impact du fine-tuning avant le déploiement.
CodeSandbox (acquis). Together AI a acquis CodeSandbox en 2024, ajoutant des capacités d’exécution de code sécurisée directement dans la plateforme. Cela permet aux agents IA d’exécuter du code généré par les LLM dans un environnement sandboxé.
Refuel.ai (acquis). L’acquisition de Refuel.ai en mai 2025 renforce les capacités de transformation et structuration de données, traitant des dizaines de millions de documents par semaine avec 50 % d’erreurs en moins que les modèles état de l’art pour certaines tâches.
Questions fréquentes sur Together AI
Together AI est-il moins cher qu’OpenAI ?
Pour des performances comparables, oui. Un modèle comme Llama 3 70B sur Together AI coûte environ $0,90/M tokens, contre $2,50/M tokens pour GPT-5.4 (input) chez OpenAI, pour des performances souvent proches sur les tâches courantes. La différence est plus marquée sur les petits modèles : GPT-OSS 20B à $0,09/M tokens ou Gemma 3n à $0,03/M tokens n’ont pas d’équivalent chez OpenAI à ce prix. Le rapport qualité/prix des modèles open-source sur Together AI est leur argument principal.
Quelle est la différence entre Together AI et Groq ?
Groq est spécialisé dans l’inférence ultra-rapide grâce à ses puces LPU custom. Together AI offre un spectre plus large : inférence, fine-tuning, clusters GPU, et une recherche fondamentale qui alimente ses optimisations. Groq est plus rapide en latence brute sur certains modèles, mais Together AI offre plus de flexibilité (plus de modèles, fine-tuning, GPU clusters) et une plateforme plus complète pour le cycle de vie ML.
Puis-je fine-tuner un modèle sur Together AI et le déployer ailleurs ?
Oui. Les modèles fine-tunés sur Together AI sont basés sur des architectures open-source (Llama, Mistral, etc.). Vous pouvez exporter les poids et les déployer sur n’importe quelle infrastructure compatible (votre propre serveur, RunPod, Modal, etc.). C’est un avantage par rapport aux modèles propriétaires où le fine-tuning est verrouillé chez le fournisseur.
Together AI propose-t-il un SLA ?
Oui, sur les plans Scale et Enterprise. Le plan Enterprise inclut un SLA de 99,9 %, des régions custom et un accès prioritaire au hardware. Les plans self-service n’ont pas de SLA formel mais offrent une disponibilité généralement élevée. Contactez l’équipe commerciale pour les détails des plans Scale et Enterprise.
Qu’est-ce que FlashAttention et pourquoi est-ce important ?
FlashAttention est un algorithme développé par Tri Dao (chef scientifique de Together AI) qui optimise le calcul de l’attention dans les modèles Transformer. Il réduit l’utilisation mémoire de 10 à 20x et accélère l’entraînement de 3x. FlashAttention est devenu un standard de l’industrie, intégré dans PyTorch, JAX et TensorFlow. La version 4, annoncée à la GTC 2026, est optimisée pour les GPU NVIDIA Blackwell. C’est la raison pour laquelle l’inférence sur Together AI est plus rapide que sur des déploiements GPU génériques.