Zero-Shot (Zero-Shot Learning)

Le zero-shot désigne la capacité d’un modèle d’IA à réaliser une tâche ou reconnaître une catégorie qu’il n’a jamais vue explicitement pendant son entraînement, sans qu’aucun exemple spécifique ne lui soit fourni. Le modèle généralise à partir de ses connaissances préexistantes.

Catégorie: Machine Learning / Prompt Engineering
Principe: Réaliser une tâche sans aucun exemple spécifique (0 shot = 0 exemple)
Famille: Zero-shot → One-shot (1 exemple) → Few-shot (quelques exemples)
Deux sens distincts: Zero-shot learning (architecture ML) et zero-shot prompting (technique de prompt LLM)
Modèles emblématiques: CLIP (vision), SAM 2 (segmentation), GPT-5.4 / Gemini / Claude (LLMs)
Usage principal: Quand on n’a pas de données étiquetées pour une nouvelle tâche ou catégorie

Qu’est-ce que le zero-shot exactement ?

Le terme « zero-shot » signifie littéralement « zéro tir » ou « zéro essai ». En IA, il désigne la capacité d’un modèle à accomplir une tâche dès la première tentative, sans jamais avoir vu d’exemple de cette tâche pendant son entraînement.

Prenez un exemple concret. Vous montrez à un modèle de vision une photo de koala. Ce modèle n’a jamais été entraîné avec des images étiquetées « koala ». Pourtant, il identifie correctement l’animal. Comment ? Parce qu’il a appris, via d’autres sources (descriptions textuelles, relations sémantiques avec d’autres animaux), suffisamment de connaissances pour inférer ce qu’est un koala.

C’est l’opposé de l’apprentissage supervisé classique, où le modèle doit voir des centaines ou des milliers d’exemples étiquetés de chaque catégorie pour apprendre à les reconnaître.

Le zero-shot est fondamental en IA moderne car il résout un problème pratique majeur : on ne peut pas toujours collecter et étiqueter des données pour chaque tâche ou catégorie possible. Les nouvelles catégories apparaissent constamment, et le coût d’annotation est souvent prohibitif.

Deux concepts distincts sous le même nom

Le terme « zero-shot » est utilisé dans deux contextes différents en IA. Il est essentiel de les distinguer.

Zero-Shot Learning (ZSL) : une architecture ML

Le zero-shot learning est une approche d’architecture de modèle conçue spécifiquement pour reconnaître des catégories jamais vues pendant l’entraînement. Le modèle transfère ses connaissances des catégories connues vers des catégories inconnues en utilisant des informations auxiliaires.

Comment ça fonctionne concrètement ? Le modèle crée un espace d’embedding partagé où les catégories connues et inconnues sont représentées. Les relations sémantiques (attributs, descriptions textuelles, hiérarchies de concepts) servent de pont entre les catégories vues et non vues.

Par exemple, un modèle entraîné à reconnaître des chevaux et des rayures peut, en zero-shot, reconnaître un zèbre s’il sait qu’un zèbre est « comme un cheval avec des rayures ». La description textuelle sert d’information auxiliaire pour combler le fossé.

Il existe plusieurs variantes du ZSL :

Variante	Description	Difficulté
Standard ZSL	Au test, seules les classes non vues sont présentes	Modérée
Generalized ZSL (GZSL)	Au test, classes vues ET non vues sont mélangées	Élevée (le modèle biais vers les classes vues)
Transductive ZSL	Le modèle a accès aux données non étiquetées des classes non vues	Intermédiaire

Zero-Shot Prompting : une technique pour LLMs

Le zero-shot prompting est une technique d’utilisation des LLMs où l’on demande au modèle d’exécuter une tâche sans fournir aucun exemple dans le prompt. On se repose entièrement sur les connaissances que le modèle a acquises pendant son pré-entraînement et son instruction tuning.

Exemple de zero-shot prompting :

Classifie le texte suivant comme positif, négatif ou neutre.
Texte : « Le restaurant était correct, sans plus. »
Sentiment :

Le modèle n’a reçu aucun exemple de classification de sentiment dans ce prompt. Il s’appuie sur sa compréhension préexistante de ce qu’est le « sentiment » pour répondre « Neutre ».

Les LLMs actuels comme GPT-5.4, Gemini 3.1 Pro et Claude Opus 4.6 sont d’excellents « zero-shot learners » car leur entraînement massif sur des milliards de tokens leur a donné une compréhension large du langage et des tâches. L’instruction tuning (entraînement à suivre des instructions) a encore amplifié cette capacité.

La distinction est importante Le zero-shot learning (ZSL) est une architecture de modèle spécialement conçue pour le transfert vers des catégories inconnues. Le zero-shot prompting est une technique d’utilisation d’un LLM déjà entraîné. Dans les deux cas, le modèle effectue une tâche sans exemples explicites, mais les mécanismes sont fondamentalement différents. Le ZSL utilise des espaces sémantiques et des attributs. Le zero-shot prompting utilise les connaissances implicites du LLM.

Zero-shot vs One-shot vs Few-shot

Le zero-shot fait partie d’une famille de paradigmes d’apprentissage définis par le nombre d’exemples fournis :

Paradigme	Exemples fournis	Quand l’utiliser	Performance typique
Zero-shot	0	Pas de données, besoin de rapidité, tâche simple	Baseline, souvent suffisante pour les tâches simples
One-shot	1	Un seul exemple disponible, calibration du format de sortie	Amélioration modeste par rapport au zero-shot
Few-shot	2 à ~20	Quelques exemples disponibles, tâche spécialisée	Meilleure que zero-shot, surtout sur les formats complexes
Fine-tuning	Centaines à millions	Données abondantes, besoin de performance maximale	Optimale, mais coûteuse en données et en compute

La stratégie recommandée par Microsoft (et confirmée par la pratique) : commencez toujours en zero-shot pour établir une baseline de performance. Si le résultat est insuffisant, passez au few-shot en ajoutant quelques exemples ciblés. Le fine-tuning ne devrait intervenir que si les approches par prompting ne suffisent pas.

Un résultat marquant de la recherche : l’ajout d’un simple « Let’s think step by step » (pensons étape par étape) dans un prompt zero-shot améliore dramatiquement les performances sur les tâches de raisonnement. Cette technique, appelée Zero-shot Chain-of-Thought (Zero-shot-CoT), a fait passer la précision de GPT-3 de 17,7 % à 78,7 % sur MultiArith et de 10,4 % à 40,7 % sur GSM8K, sans aucun exemple. Cela montre que les LLMs possèdent des capacités de raisonnement zero-shot latentes qui peuvent être « déverrouillées » par un prompt adéquat.

Modèles emblématiques du zero-shot

CLIP : le zero-shot en vision

CLIP (Contrastive Language-Image Pre-training) d’OpenAI est le modèle qui a popularisé le zero-shot en vision par ordinateur. Entraîné sur 400 millions de paires image-texte, CLIP crée un espace d’embedding partagé entre images et texte.

Pour classifier une image en zero-shot avec CLIP, vous n’entraînez rien. Vous fournissez des descriptions textuelles des catégories (« une photo de chat », « une photo de chien ») et CLIP mesure la similarité entre l’image et chaque description. La catégorie dont la description est la plus proche de l’image est la réponse.

CLIP a éliminé le besoin de collecter des datasets étiquetés pour chaque nouvelle tâche de classification visuelle. Si vous voulez classifier des bouteilles en plastique recyclables sur un tapis roulant, il suffit de décrire les catégories en texte. Pas besoin de photographier et annoter des milliers de bouteilles.

SAM 2 : le zero-shot en segmentation

Le Segment Anything Model (SAM) de Meta AI est un modèle fondamental de segmentation entraîné sur le dataset SA-1B (1,1 milliard de masques sur 11 millions d’images). SAM peut segmenter n’importe quel objet dans n’importe quelle image en zero-shot, c’est-à-dire sans entraînement spécifique au domaine.

Que ce soit des photos sous-marines, des images de microscopie cellulaire, ou des photos satellite, SAM segmente avec précision sans avoir jamais vu ce type d’images. Cette capacité de « zero-shot transfer » est ce qui fait de SAM un modèle fondamental : il sert de base universelle que vous pouvez spécialiser ensuite si nécessaire.

La combinaison CLIP + SAM est particulièrement puissante : CLIP identifie quoi segmenter (via une description textuelle) et SAM effectue la segmentation. Des architectures comme SLIP (SAM + CLIP), Grounding DINO + SAM, ou CLIPSeg + SAM permettent une segmentation panoptique zero-shot de scènes entières en spécifiant simplement les catégories en texte.

LLMs multimodaux : le zero-shot généralisé

Les LLMs actuels sont des zero-shot learners universels. GPT-5.4, Gemini 3.1 Pro et Claude Opus 4.6 peuvent, sans aucun exemple, effectuer de la traduction, de la classification de sentiment, du résumé, de la génération de code, du raisonnement mathématique, de l’analyse d’images, et bien plus.

Cette polyvalence zero-shot vient de leur pré-entraînement massif : en ayant vu des milliards de tokens couvrant pratiquement tous les domaines du savoir humain, ils ont internalisé les patterns et les structures nécessaires pour généraliser à de nouvelles tâches. L’instruction tuning (RLHF, RLAIF) affine ensuite leur capacité à suivre des consignes spécifiques.

Comment fonctionne le zero-shot learning

Le rôle central des embeddings sémantiques

Le zero-shot learning repose fondamentalement sur les espaces d’embedding. Un embedding est une représentation numérique dense qui capture le sens d’un objet (image, mot, phrase) dans un espace vectoriel.

Dans cet espace, les concepts sémantiquement proches sont regroupés. « Chien » et « loup » sont proches, « chien » et « avion » sont éloignés. Quand le modèle rencontre une catégorie inconnue, il projette ses caractéristiques dans cet espace et mesure la distance avec les catégories connues. Les voisins sémantiques les plus proches donnent des indices sur la nature de l’objet inconnu.

L’information auxiliaire comme pont

Pour que le zero-shot fonctionne, le modèle a besoin d’informations auxiliaires qui relient les catégories connues aux inconnues. Ces informations peuvent prendre plusieurs formes : des attributs visuels partagés (« a des ailes », « vit dans l’eau »), des descriptions textuelles en langage naturel, des hiérarchies de classes (taxonomies), ou des embeddings pré-entraînés provenant de modèles de langage.

C’est cette information auxiliaire qui permet la généralisation. Sans elle, un modèle n’a aucun moyen de savoir que « zèbre » est lié à « cheval » plutôt qu’à « voiture ».

Applications concrètes du zero-shot

Classification de texte et de sentiment

C’est le cas d’usage le plus courant du zero-shot prompting. Les LLMs classifient des textes (emails, avis clients, tickets support) dans des catégories arbitraires sans entraînement préalable. Vous définissez les catégories dans le prompt et le modèle classifie. Idéal quand les catégories changent fréquemment ou varient selon les clients.

Classification et segmentation d’images

CLIP permet de classifier des images dans des catégories définies par texte, sans dataset d’entraînement visuel. SAM segmente n’importe quel objet sans entraînement spécifique. Combinés, ils permettent une analyse visuelle complète en zero-shot. Applications : contrôle qualité industriel, tri automatique, modération de contenu, analyse satellite.

Segmentation médicale

Le zero-shot est particulièrement précieux en imagerie médicale, où les données annotées sont rares et coûteuses. Des architectures comme TV-SAM combinent GPT-4, GLIP et SAM pour segmenter des cibles médicales sur 8 modalités d’imagerie différentes sans aucun entraînement spécifique, atteignant des performances proches de celles obtenues avec des annotations manuelles.

Traduction et génération multilingue

Les LLMs peuvent traduire entre des langues pour lesquelles ils n’ont pas été explicitement entraînés, en exploitant les patterns multilingues appris pendant le pré-entraînement. La qualité est inférieure à un modèle de traduction spécialisé, mais suffisante pour de nombreux cas d’usage.

Détection d’anomalies industrielles

Le Zero-Shot Anomaly Segmentation (ZSAS) identifie et segmente les défauts dans des produits industriels sans exemples spécifiques de ces défauts. Des architectures comme ClipSAM combinent CLIP (pour la localisation sémantique) et SAM (pour la segmentation fine) afin de détecter des anomalies sur des produits jamais vus.

Avantages et limites

Avantages

Pas besoin de données étiquetées. C’est l’avantage principal. Le zero-shot élimine le coût et le temps de collection et d’annotation de données pour chaque nouvelle tâche.

Scalabilité. Les modèles zero-shot s’adaptent à de nouvelles catégories sans réentraînement. Vous ajoutez une description textuelle, pas un dataset.

Rapidité de déploiement. Pas de cycle entraînement-validation-déploiement. Le modèle est opérationnel immédiatement sur de nouvelles tâches.

Coût réduit. Pas de GPU pour l’entraînement, pas d’annotateurs, pas de pipeline de données. Les coûts se limitent à l’inférence.

Limites

Performances inférieures au supervisé. Sur les tâches où des données étiquetées abondantes existent, le zero-shot est systématiquement moins performant que le fine-tuning supervisé. L’écart se réduit avec la taille des modèles, mais ne disparaît pas.

Fragilité face aux catégories très différentes. Si la nouvelle catégorie est fondamentalement éloignée de tout ce que le modèle a vu, la généralisation échoue. Le zero-shot ne fonctionne que si des relations sémantiques relient le connu à l’inconnu.

Biais du Generalized ZSL. En configuration GZSL (classes vues et non vues mélangées au test), les modèles biaisent fortement vers les classes qu’ils ont déjà vues, sous-performant sur les classes nouvelles.

Complexité des tâches complexes. Le zero-shot prompting fonctionne bien pour les tâches simples (classification, extraction d’information). Pour les tâches nécessitant un raisonnement multi-étapes ou un format de sortie très spécifique, le few-shot ou le fine-tuning donnent de meilleurs résultats.

Stratégie recommandée en pratique Commencez toujours par tester en zero-shot. Si les performances sont insuffisantes, ajoutez des exemples (few-shot). Si le few-shot ne suffit pas, envisagez le fine-tuning. Cette approche incrémentale minimise les coûts tout en maximisant les résultats. Et n’oubliez pas le Zero-shot-CoT : ajouter « Réfléchissons étape par étape » avant la réponse peut multiplier les performances de raisonnement par 4 ou 5 sans aucun exemple.

Zero-Shot Chain-of-Thought : la technique qui change tout

L’une des découvertes les plus marquantes des dernières années en zero-shot est le Zero-shot Chain-of-Thought (Zero-shot-CoT), publié par Kojima et al. en 2022. L’idée est d’une simplicité déconcertante : ajouter la phrase « Let’s think step by step » (réfléchissons étape par étape) avant la réponse dans un prompt zero-shot.

Les résultats sont spectaculaires. Sur les benchmarks de raisonnement arithmétique, le Zero-shot-CoT a multiplié la précision par 4 à 5 sur certaines tâches, sans aucun exemple. Sur MultiArith, la précision est passée de 17,7 % à 78,7 %. Sur GSM8K (problèmes mathématiques niveau collège), elle est passée de 10,4 % à 40,7 %. Ces gains se vérifient sur plusieurs familles de modèles (InstructGPT, PaLM 540B).

Ce résultat suggère que les LLMs possèdent des capacités de raisonnement « dormantes » que le bon prompt peut activer. Le Zero-shot-CoT est polyvalent : il fonctionne sur le raisonnement arithmétique, le raisonnement symbolique, le raisonnement logique, et d’autres tâches cognitives complexes, le tout avec un seul template de prompt.

En pratique, la technique est devenue un réflexe en prompt engineering. Avant d’ajouter des exemples (few-shot), testez toujours le zero-shot avec un « Réfléchissons étape par étape » ou « Analysons ce problème méthodiquement ». C’est souvent suffisant.

Le zero-shot en 2026

Le zero-shot est devenu la capacité par défaut attendue de tout modèle fondamental. Les tendances majeures :

Les modèles fondamentaux sont tous zero-shot. CLIP pour la vision, SAM pour la segmentation, les LLMs pour le texte. Le paradigme dominant en 2026 n’est plus « entraîner un modèle spécialisé » mais « utiliser un modèle fondamental en zero-shot et fine-tuner seulement si nécessaire ».

La composition de modèles zero-shot. La tendance est de combiner plusieurs modèles zero-shot pour résoudre des tâches complexes : CLIP + SAM pour la segmentation sémantique, GPT-4 + GLIP + SAM pour la segmentation médicale. Chaque modèle apporte sa spécialité zero-shot, et la combinaison produit un résultat que aucun modèle seul ne pourrait atteindre.

Le zero-shot réduit la barrière d’entrée. Des tâches qui nécessitaient autrefois des équipes de ML spécialisées et des mois d’annotation sont maintenant accessibles via un prompt ou une API. Le zero-shot démocratise l’IA.

Questions fréquentes sur le zero-shot

Quelle est la différence entre zero-shot learning et zero-shot prompting ?

Le zero-shot learning (ZSL) est une architecture de modèle de machine learning conçue pour reconnaître des catégories jamais vues, en utilisant des espaces d’embedding sémantiques et des informations auxiliaires (attributs, descriptions). Le zero-shot prompting est une technique d’utilisation d’un LLM déjà entraîné, où vous lui demandez d’exécuter une tâche sans fournir d’exemples dans le prompt. Les deux partagent le concept de « pas d’exemples spécifiques », mais les mécanismes sont différents. Le ZSL est une question d’architecture, le prompting est une question d’utilisation.

Le zero-shot est-il moins performant que le few-shot ?

En général, oui. Le few-shot (quelques exemples) surpasse le zero-shot (aucun exemple) sur la plupart des tâches, car les exemples aident le modèle à comprendre le format attendu et les nuances de la tâche. L’écart est variable : faible pour les tâches simples (classification binaire), significatif pour les tâches complexes (extraction structurée, raisonnement). Il y a une exception notable : le Zero-shot-CoT (« pensons étape par étape ») peut surpasser le few-shot standard sur les tâches de raisonnement arithmétique et logique.

Quels modèles sont les meilleurs en zero-shot ?

Pour le texte : GPT-5.4, Gemini 3.1 Pro et Claude Opus 4.6 sont les plus performants en zero-shot prompting. Pour la classification d’images : CLIP (et ses variantes comme SigLIP, EVA-CLIP) reste la référence. Pour la segmentation : SAM 2 de Meta est le standard. Pour les LLMs open source : Mistral Large 3, Qwen3, et LLaMA 3 offrent de bonnes performances zero-shot. En règle générale, plus le modèle est grand et a vu de données diverses, meilleur il est en zero-shot.

Quand faut-il utiliser le zero-shot plutôt que le fine-tuning ?

Utilisez le zero-shot quand vous n’avez pas de données étiquetées, quand les catégories changent fréquemment, quand vous prototypez rapidement, ou quand le coût de fine-tuning n’est pas justifié. Passez au fine-tuning quand vous avez besoin de performances maximales sur une tâche spécifique, quand vous avez des données étiquetées abondantes, ou quand le modèle zero-shot ne capture pas les nuances de votre domaine. Le zero-shot est le point de départ, le fine-tuning est l’optimisation.

Le zero-shot fonctionne-t-il pour les images et la vidéo ?

Oui. CLIP permet la classification d’images en zero-shot via des descriptions textuelles des catégories. SAM 2 segmente n’importe quel objet en zero-shot, y compris dans les vidéos. Les LLMs multimodaux comme Gemini 3.1 Pro et GPT-5.4 répondent à des questions sur des images et vidéos en zero-shot. La combinaison de ces modèles (CLIP pour identifier, SAM pour segmenter, LLM pour raisonner) permet des pipelines de vision par ordinateur entièrement zero-shot, sans aucune donnée d’entraînement spécifique au domaine.