Inference IA : le processus de generation des reponses par les LLM

Definition rapide L’inference est le processus par lequel un modele d’IA pre-entraine utilise ses poids appris pour generer une prediction ou une reponse a partir d’une entree. Quand vous posez une question a ChatGPT ou Claude, c’est l’inference qui produit la reponse, token par token. C’est l’etape d’utilisation du modele, par opposition a l’entrainement.

Categorie: Processus fondamental IA
Phase: Utilisation (apres l’entrainement)
Mesure en: Tokens par seconde, latence (TTFT, TPS)
Cout: Facture par token d’entree/sortie
Optimisation: Quantification, KV cache, batching, distillation

Entrainement vs Inference

Le cycle de vie d’un LLM se divise en deux phases distinctes. Le pre-entrainement consomme des millions de dollars en GPU pendant des semaines ou des mois pour apprendre les poids du modele. L’inference utilise ces poids appris pour generer des reponses en temps reel, requete par requete.

L’entrainement est un investissement ponctuel (ou periodique). L’inference est un cout recurrent qui augmente avec le nombre d’utilisateurs. Pour les fournisseurs comme OpenAI et Anthropic, l’inference represente la majorite de leurs couts operationnels et c’est pourquoi les tokens sont factures a l’utilisation.

Comment fonctionne l’inference d’un LLM

Phase 1 : Prefill (traitement du prompt)

Le modele traite l’integralite de votre prompt d’entree en parallele. Tous les tokens d’entree passent simultanement a travers les couches du transformer. Cette phase produit les representations internes (KV cache) qui seront utilisees pendant la generation.

La duree du prefill est proportionnelle a la longueur du prompt. Un prompt de 100 000 tokens prend significativement plus de temps qu’un prompt de 100 tokens. C’est la phase qui determine le TTFT (Time To First Token) : le temps entre l’envoi de la requete et l’apparition du premier token de la reponse.

Phase 2 : Decode (generation auto-regressive)

Le modele genere la reponse un token a la fois, de maniere sequentielle. Pour chaque nouveau token, le modele recalcule les probabilites en tenant compte de tous les tokens precedents (prompt + tokens deja generes). Le token selectionne est ajoute a la sequence, et le processus se repete jusqu’a ce que le modele genere un token de fin de sequence ou atteigne la limite max_tokens.

Cette phase sequentielle est le goulot d’etranglement de l’inference. C’est pourquoi les tokens de sortie coutent plus cher que les tokens d’entree : chaque token de sortie necessite un calcul de forward pass complet, alors que les tokens d’entree sont traites en parallele.

Metriques de performance de l’inference

Metrique	Definition	Valeur typique
TTFT	Time To First Token : delai avant le premier token de reponse	0,2 a 2 secondes
TPS	Tokens Per Second : vitesse de generation	30 a 150 tokens/s
Latence totale	Temps total de la requete	1 a 30 secondes
Throughput	Nombre de requetes traitees en parallele	Variable selon l’infra

La vitesse de generation varie considerablement selon le modele et le fournisseur. Les modeles compacts comme GPT-4o mini ou Claude Haiku generent 100 a 150 tokens par seconde. Les modeles larges comme GPT-4o ou Claude 3.5 Sonnet generent 30 a 80 tokens par seconde. Les modeles de raisonnement (o1, o3) ont une latence nettement superieure car ils executent un raisonnement interne avant la generation.

Le cout de l’inference

L’inference est le poste de cout principal pour toute application IA en production. Les fournisseurs facturent par million de tokens, avec un prix different pour les tokens d’entree et de sortie.

Pourquoi les tokens de sortie coutent-ils 2 a 5 fois plus cher ? Parce que chaque token de sortie necessite un calcul sequentiel complet (un forward pass du transformer), tandis que les tokens d’entree sont traites en parallele en un seul passage. Le cout de calcul GPU par token de sortie est donc bien superieur.

Les couts d’inference ont chute drastiquement entre 2023 et 2026. Le prix par million de tokens de sortie pour un modele de niveau GPT-4 est passe d’environ 60 $ en 2023 a environ 10 $ en 2026, soit une baisse de 80 % en trois ans. Cette tendance se poursuit grace a l’amelioration du materiel (GPU H100, H200) et des techniques d’optimisation logicielle.

Techniques d’optimisation de l’inference

Quantification

La quantification reduit la precision numerique des poids du modele (de float16 a int8 ou int4) pour accelerer le calcul et reduire la memoire necessaire. Un modele quantifie en 4 bits est environ 4 fois plus petit en memoire et 2 a 3 fois plus rapide, avec une degradation de qualite souvent imperceptible.

Les formats de quantification populaires incluent GPTQ, AWQ, GGUF (pour llama.cpp) et bitsandbytes. La plupart des modeles open source sont disponibles en versions quantifiees sur Hugging Face.

KV Cache

Le KV cache (Key-Value cache) stocke les representations intermediaires des tokens deja traites pour eviter de les recalculer a chaque nouveau token genere. Sans KV cache, generer le 100e token necessiterait de retraiter les 99 tokens precedents. Avec le KV cache, seul le dernier token est calcule. C’est une optimisation fondamentale qui est activee par defaut dans toutes les implementations modernes.

Batching continu

Le batching regroupe plusieurs requetes d’inference pour les traiter simultanement sur le GPU. Le batching continu (continuous batching ou iteration-level batching) optimise encore plus le processus en inserant de nouvelles requetes dans un batch en cours de traitement, maximisant l’utilisation du GPU.

Les frameworks de serving comme vLLM, TensorRT-LLM (NVIDIA) et SGLang implementent le batching continu et sont utilises par les fournisseurs d’API en production.

Speculative decoding

Le speculative decoding utilise un petit modele rapide pour generer plusieurs tokens candidats, puis le grand modele les verifie en parallele. Si les candidats sont corrects (ce qui arrive souvent pour les tokens previsibles), le grand modele « saute » plusieurs etapes de generation. Cette technique accelere l’inference de 2 a 3x sans aucune perte de qualite.

Inference locale vs cloud

Critere	Inference cloud (API)	Inference locale
Cout initial	Zero	GPU (1 000 a 30 000 $)
Cout recurrent	Par token	Electricite uniquement
Latence	Variable (reseau + compute)	Faible (pas de reseau)
Confidentialite	Donnees envoyees au fournisseur	Tout reste local
Modeles disponibles	GPT-4o, Claude, Gemini	Modeles open source
Scalabilite	Automatique	Limitee au materiel

L’inference locale avec Ollama ou llama.cpp permet d’executer des modeles open source (LLaMA 3, Mistral, Phi) sur votre propre materiel. Un modele 7B quantifie en 4 bits tourne confortablement sur un GPU de 8 Go de VRAM, et un modele 70B necessite 40 a 48 Go de VRAM.

Streaming : l’inference en temps reel

Le streaming envoie chaque token au client des qu’il est genere, au lieu d’attendre la fin de la generation complete. C’est ce qui permet l’effet « machine a ecrire » dans les interfaces comme ChatGPT et Claude. Le streaming ameliore la perception de vitesse (l’utilisateur commence a lire immediatement) sans accelerer la generation reelle.

FAQ

Pourquoi les tokens de sortie coutent-ils plus cher ?

Les tokens d’entree sont traites en parallele en une seule passe forward a travers le transformer. Les tokens de sortie sont generes sequentiellement : chaque nouveau token necessite un calcul forward complet. Le cout GPU par token de sortie est donc 2 a 5 fois plus eleve, ce qui se reflete dans la tarification des API.

Comment reduire la latence d’inference ?

Cinq leviers principaux : utilisez un modele plus petit (Claude Haiku vs Sonnet), reduisez la taille du prompt (moins de tokens d’entree = prefill plus rapide), limitez max_tokens (moins de tokens a generer), activez le streaming (pour une perception de vitesse amelioree), et choisissez un fournisseur avec une infrastructure proche geographiquement de vos utilisateurs.

L’inference locale est-elle viable pour une entreprise ?

Oui, si vous traitez plus de 10 000 requetes par jour et que la confidentialite des donnees est critique. Un serveur avec 2 GPU A100 (environ 30 000 $) peut traiter des milliers de requetes par jour avec des modeles open source. Le seuil de rentabilite par rapport aux API cloud se situe typiquement entre 5 000 et 20 000 requetes quotidiennes, selon le modele utilise.

Qu’est-ce que le TTFT et pourquoi est-il important ?

Le TTFT (Time To First Token) est le delai entre l’envoi de votre requete et l’apparition du premier token de reponse. Il depend de la taille du prompt (plus le prompt est long, plus le prefill prend de temps) et de la charge du serveur. Un TTFT superieur a 3 secondes degrade significativement l’experience utilisateur dans un chatbot interactif.

Les modeles de raisonnement (o1, o3) sont-ils plus lents en inference ?

Oui, nettement. Ces modeles executent un processus de raisonnement interne (chain-of-thought cache) avant de produire la reponse visible. Le TTFT peut atteindre 10 a 30 secondes pour des questions complexes. En contrepartie, la qualite des reponses sur les taches de raisonnement est significativement superieure. C’est un compromis latence/qualite explicite.