Segment Anything

Segment Anything désigne à la fois le paradigme de segmentation universelle introduit par Meta AI en 2023 et l’écosystème de modèles qui en découle. Le concept : un seul modèle capable de segmenter n’importe quel objet dans n’importe quelle image ou vidéo, sans entraînement spécifique au domaine. Autour du modèle fondateur SAM, une galaxie de variantes efficaces (FastSAM, MobileSAM, EfficientSAM), spécialisées (MedSAM, SAM-Med3D) et augmentées (Grounded SAM) s’est développée en moins de deux ans.

Concept: Segmentation universelle promptable en zero-shot
Modèle fondateur: SAM (Meta AI, avril 2023)
Versions officielles: SAM 1 (2023), SAM 2/2.1 (2024), SAM 3 (soumis ICLR 2026)
Variantes efficaces: FastSAM, MobileSAM, EfficientSAM, EdgeSAM, NanoSAM, TinySAM
Variantes médicales: MedSAM, SAM-Med2D, SAM-Med3D, EMedSAM, FastSAM3D
Combinaisons: Grounded SAM (SAM + Grounding DINO), SAM + YOLO, SAM + LLM
Dataset: SA-1B (1.1B masques), SA-V (51K vidéos)
Licence: Apache 2.0

Le paradigme Segment Anything

Avant Segment Anything, la segmentation d’images était une tâche fermée : chaque modèle ne pouvait segmenter que les classes sur lesquelles il avait été entraîné. Un modèle de segmentation de véhicules ne reconnaissait pas les animaux. Chaque nouveau domaine nécessitait un dataset annoté, un entraînement dédié, et des semaines de travail.

Segment Anything renverse cette logique en introduisant la segmentation promptable : l’utilisateur indique ce qu’il veut segmenter (via un clic, une boîte, un masque ou du texte), et le modèle produit le masque correspondant. Comme le modèle est entraîné sur 1.1 milliard de masques couvrant une diversité extrême d’objets et de contextes, il généralise en zero-shot à des domaines jamais vus.

Ce changement de paradigme a eu trois conséquences majeures :

Démocratisation de la segmentation : n’importe qui peut segmenter n’importe quoi sans compétence en ML. Un clic suffit.

Accélération de l’annotation : SAM dans la boucle permet d’annoter 8.4× plus vite qu’une annotation manuelle. C’est devenu le workflow standard pour créer des datasets de segmentation.

Modèle de fondation pour la vision : comme GPT pour le texte, SAM est un modèle de fondation qui sert de brique de base pour des applications composites (SAM + détecteur, SAM + LLM, SAM + générateur).

Les variantes efficaces : SAM pour le monde réel

Le SAM original (ViT-H, 632M paramètres) est puissant mais lourd : ~4 secondes par image sur CPU, ~50ms sur GPU A100. Pour les applications temps réel, mobile et edge, la communauté a développé des variantes allégées.

Variante	Approche	Accélération vs SAM-H	Forces
FastSAM	Remplace le ViT par YOLOv8-seg (CNN). Segmentation d’instances + sélection par prompt.	~50× sur GPU	Très rapide, pas besoin du ViT. Bon pour SegEvery (tous les objets).
MobileSAM	Distillation de connaissances du ViT-H vers un encodeur léger (TinyViT).	~5× plus rapide, 7× plus petit	Qualité proche de SAM, taille réduite. Bon pour le mobile.
EfficientSAM	Pré-entraînement SAMI (reconstruction de features SAM) avec ViT-Tiny/Small.	~20× sur GPU	Backbones réutilisables pour d’autres tâches (classification, détection).
EdgeSAM	Distillation optimisée pour les appareils edge (smartphones, caméras).	~259ms sur CPU	Meilleur compromis qualité/latence sur CPU.
NanoSAM	Distillation vers un encodeur ultra-compact.	~20ms sur GPU (le plus rapide)	Throughput maximal (27.9 images/sec sur COCO).
EfficientViT-SAM	Backbone EfficientViT optimisé pour l’inférence.	~30× GPU, ~50× CPU	Le plus rapide en inférence SegAny globale.
SAM 2 Tiny	Version officielle Meta avec backbone Hiera-T. Images + vidéo.	~47 FPS (A100)	Officiel Meta, supporte la vidéo, bien maintenu.

Quel variant choisir ? Pour un projet officiel et bien maintenu : SAM 2 Tiny (Meta). Pour le temps réel sur GPU : NanoSAM ou EfficientViT-SAM. Pour le mobile/CPU : EdgeSAM ou MobileSAM. Pour un remplacement drop-in rapide : FastSAM (architecture CNN, pas de ViT). Pour le médical : voir la section dédiée ci-dessous.

Les variantes médicales

L’imagerie médicale est l’un des domaines où Segment Anything a eu le plus d’impact, mais aussi où le zero-shot de SAM atteint ses limites. Les images médicales (CT, IRM, échographies, histologie) diffèrent significativement des images naturelles d’ImageNet. Les frontières entre organes sont floues, les structures sont petites, et les modalités visuelles sont très spécifiques.

MedSAM : fine-tuning de SAM sur plus d’un million d’images médicales couvrant de multiples modalités. Améliore significativement les performances par rapport au SAM vanilla sur les tâches médicales, tout en conservant la capacité promptable.

SAM-Med2D : adaptation plus poussée pour la segmentation médicale 2D, avec des adaptateurs spécifiques et un entraînement ciblé sur les cas difficiles (petites structures, frontières floues).

SAM-Med3D : extension à la segmentation volumétrique 3D (scanners CT, IRM). Utilise un encodage positionnel 3D et un backbone adapté pour traiter des volumes entiers plutôt que des coupes 2D individuelles.

FastSAM3D : version accélérée de SAM-Med3D avec distillation progressive et attention sparse 3D. Atteint 8ms par inférence, rendant possible la segmentation interactive en 3D en temps réel.

Embed-MedSAM : conçu pour les environnements à ressources limitées (cliniques en zones rurales, smartphones). Utilise un encodeur RepViT ultra-léger et un mécanisme d’auto-prompting (segmentation automatique sans intervention). Tourne sur un iPhone 14 tout en maintenant une bonne précision.

Les combinaisons : SAM comme brique de base

La force de Segment Anything est de se combiner avec d’autres modèles pour créer des pipelines puissants.

Grounded SAM

La combinaison la plus populaire : Grounding DINO (détecteur open-vocabulary par texte) + SAM. Vous décrivez un objet en texte (« chat noir sur le canapé »), Grounding DINO le localise avec une bounding box, et SAM produit le masque de segmentation pixel-parfait. Résultat : segmentation par description textuelle, sans aucun entraînement.

Grounded SAM atteint 46-49.6 mAP sur le challenge « Segmentation in the Wild » de CVPR 2023 en zero-shot, surpassant les modèles entraînés spécifiquement. C’est devenu un outil standard pour l’annotation automatique de datasets.

SAM + YOLO

Combiner un détecteur YOLO (rapide, classes connues) avec SAM (masques précis). YOLO localise les objets avec des bounding boxes, SAM produit les masques de segmentation correspondants. C’est le workflow d’auto-annotation intégré dans Ultralytics :

from ultralytics.data.annotator import auto_annotate

# YOLO détecte, SAM segmente
auto_annotate(
    data="path/to/images",
    det_model="yolov8x.pt",    # détection
    sam_model="sam2_b.pt"       # segmentation
)

SAM + LLM multimodal

Combiner SAM avec un LLM multimodal (GPT-4o, Gemini) pour la segmentation par raisonnement complexe. Le LLM interprète une instruction (« segmente la personne qui ne porte pas de casque »), décompose la requête, et envoie les prompts appropriés à SAM. SAM 3 internalise partiellement cette capacité avec les concept prompts.

SAM + modèles génératifs

Les masques de SAM alimentent les modèles génératifs (Stable Diffusion, DALL-E) pour l’édition ciblée : remplacer un objet segmenté, modifier son apparence, ou changer l’arrière-plan tout en préservant l’objet principal. C’est la base technique derrière de nombreux outils d’édition photo/vidéo IA.

Le dataset SA-1B

Le dataset SA-1B (Segment Anything 1 Billion) est en soi une contribution majeure. Il contient 11 millions d’images et 1.1 milliard de masques de segmentation, ce qui en fait le plus grand dataset de segmentation jamais créé, de plusieurs ordres de grandeur. Pour comparaison, COCO (le benchmark standard en détection/segmentation) contient environ 200 000 images et 1.5 million de masques.

La création de SA-1B illustre le paradigme du data engine : au lieu d’annoter manuellement chaque masque, Meta a utilisé SAM lui-même dans un processus itératif en trois phases. Phase 1 (assistée) : des annotateurs humains cliquent, SAM propose des masques, les annotateurs corrigent. Phase 2 (semi-automatique) : SAM propose automatiquement des masques pour certains objets, les annotateurs ne font que vérifier et compléter les masques manquants. Phase 3 (automatique) : SAM génère les masques de manière entièrement automatique avec le mode auto (grille de points). Chaque phase améliore le modèle, qui améliore la qualité des annotations, qui améliore le modèle.

Le dataset est distribué sous licence CC BY 4.0, permettant une utilisation libre y compris commerciale. SA-V (pour SAM 2) ajoute 51 000 vidéos réelles et 600 000+ masklets spatio-temporels sous sa propre licence ouverte.

Cas d’usage de l’écosystème Segment Anything

Annotation de datasets à grande échelle : c’est l’application la plus immédiatement productive. Des plateformes comme Roboflow, Label Studio et CVAT intègrent SAM nativement. Un annotateur peut cliquer sur des objets et obtenir des masques précis en millisecondes au lieu de tracer manuellement chaque contour. Selon Meta, SAM 2 dans la boucle accélère l’annotation de 8.4× par rapport à SAM 1 frame par frame.

Édition photo et vidéo par IA : isoler un objet (personne, animal, produit) pour le placer sur un autre fond, appliquer des effets (flou, style), ou le supprimer. Les outils d’édition comme le playground Segment Anything de Meta, les plugins Photoshop/GIMP et les apps mobiles exploitent cette capacité.

Robotique et manipulation : les robots utilisent SAM pour segmenter les objets à saisir dans des scènes complexes. La capacité zero-shot est cruciale car le robot peut rencontrer des objets jamais vus pendant l’entraînement. Grounded SAM combiné avec un bras robotique permet la manipulation guidée par instruction textuelle.

Surveillance environnementale : suivi de la faune sauvage par drone (comptage d’animaux, estimation de populations), surveillance de la déforestation, cartographie des zones inondées après une catastrophe naturelle. SAM élimine le besoin de former un modèle par espèce ou par type de terrain.

E-commerce et mode : segmentation automatique de vêtements sur des mannequins pour les placer sur différents fonds, essayage virtuel, génération de catalogues produits. SAM permet de créer des assets visuels à grande échelle sans retouche manuelle.

Géospatial et urbanisme : segmentation de bâtiments, routes, espaces verts, plans d’eau dans les images satellite. Les variantes fine-tunées de SAM pour l’imagerie aérienne permettent la cartographie automatisée de zones urbaines et rurales.

Recherche scientifique : en biologie (segmentation de cellules, d’organismes), en archéologie (détection de structures), en astronomie (segmentation de galaxies), SAM accélère l’analyse d’images dans des domaines où les datasets annotés sont rares et coûteux à produire.

Limites de l’écosystème Segment Anything

Pas de classification sémantique (SAM 1 et 2) : SAM segmente mais ne nomme pas. Il faut un modèle complémentaire (Grounding DINO, YOLO, LLM) pour identifier la classe de l’objet segmenté. SAM 3 comble partiellement cette lacune avec les concept prompts.

Taille des modèles : le SAM original (632M params) reste trop gros pour le déploiement mobile direct. Les variantes efficaces (MobileSAM, EdgeSAM) réduisent cette taille mais avec une perte de qualité notable sur les cas difficiles (objets fins, textures complexes, occlusions).

Domaines de niche : le zero-shot de SAM atteint ses limites sur l’imagerie thermique, les images radar, la microscopie électronique et certaines modalités médicales spécifiques. Le fine-tuning reste nécessaire pour ces domaines.

Fragmentation de l’écosystème : la prolifération de variantes (FastSAM, MobileSAM, EfficientSAM, EdgeSAM, NanoSAM, TinySAM, etc.) crée de la confusion. Chaque variante a ses propres compromis et son propre niveau de maintenance. SAM 2 officiel de Meta reste le choix le plus sûr pour la plupart des cas.

Performances multi-cibles vidéo : SAM 2 ralentit quand le nombre d’objets suivis simultanément augmente. Au-delà de 5-10 cibles, le temps réel n’est plus garanti sans infrastructure multi-GPU.

Absence de raisonnement complexe (SAM 1 et 2) : SAM ne peut pas interpréter des instructions complexes comme « segmente la seule personne qui ne porte pas de masque ». Il faut un LLM en amont pour décomposer ce type de requête. SAM 3 introduit les concept prompts pour les phrases simples, mais le raisonnement compositionnel reste du ressort des LLM multimodaux.

Bonnes pratiques

Pour l’annotation, combinez YOLO + SAM. C’est le pipeline le plus productif : YOLO localise automatiquement les objets, SAM produit les masques précis. Le tout est intégré dans des outils comme Roboflow, Label Studio et Ultralytics.

Commencez par SAM 2 officiel. C’est le modèle le mieux maintenu, le plus documenté, et il supporte images et vidéo. Ne passez aux variantes efficaces que si vous avez une contrainte réelle de latence ou de mémoire.

Pour le médical, fine-tunez toujours. Le zero-shot de SAM sur les images médicales est impressionnant pour l’exploration, mais insuffisant pour un usage clinique. MedSAM ou un fine-tuning de SAM 2 sur vos données spécifiques est recommandé.

Utilisez Grounded SAM pour la segmentation par texte. C’est la combinaison la plus mature et la plus documentée pour la segmentation ouverte (open-vocabulary). SAM 3 internalisera cette capacité une fois publié.

Exportez vers ONNX/TensorRT pour la production. Les implémentations PyTorch de SAM ne sont pas optimisées pour le déploiement. L’export vers des formats optimisés peut doubler ou tripler la vitesse d’inférence.

Questions fréquentes sur Segment Anything

Quelle est la différence entre SAM et Segment Anything ?

SAM (Segment Anything Model) est le modèle spécifique développé par Meta AI. « Segment Anything » est le paradigme plus large de segmentation universelle promptable que SAM a introduit, incluant le modèle, le dataset SA-1B, les variantes communautaires et les applications qui en découlent. On utilise souvent les deux termes de manière interchangeable, mais « Segment Anything » englobe l’écosystème complet.

FastSAM est-il aussi bon que SAM ?

FastSAM est ~50× plus rapide que SAM-H mais produit des masques de qualité inférieure, notamment pour les petits objets et les frontières fines. Il utilise un CNN (YOLOv8-seg) au lieu d’un ViT, ce qui le rend plus rapide mais lui fait perdre la capacité d’attention globale. Pour l’annotation rapide et le prototypage, FastSAM est un excellent choix. Pour la précision maximale, préférez SAM 2.

SAM peut-il remplacer un modèle de segmentation entraîné ?

Pour l’exploration et l’annotation, oui. Pour le déploiement en production temps réel, non. SAM est trop gros et trop lent pour la plupart des applications de production. Le workflow recommandé : utiliser SAM pour annoter votre dataset, puis entraîner un modèle léger (YOLO-seg, Mask R-CNN) pour le déploiement. SAM est un outil d’annotation et un modèle de fondation, pas un modèle de production edge.

Comment fonctionne Grounded SAM ?

Grounded SAM combine deux modèles en pipeline. D’abord, Grounding DINO (un détecteur open-vocabulary) prend un texte en entrée (« chat noir ») et produit des bounding boxes pour les objets correspondants dans l’image. Ensuite, ces bounding boxes sont passées comme prompts à SAM, qui génère les masques de segmentation pixel-parfait. Le résultat : segmentation par description textuelle, en zero-shot, sans entraînement. Le code est open source sous Apache 2.0.

Quelles sont les applications les plus impactantes de Segment Anything ?

L’annotation de données (8.4× plus rapide avec SAM 2 dans la boucle) est l’application la plus immédiatement productive. L’édition vidéo (effets, remplacement d’arrière-plan) est l’application créative la plus visible. L’imagerie médicale (segmentation d’organes et de lésions) est le domaine scientifique le plus impacté. La surveillance par drone et satellite (segmentation de bâtiments, routes, cultures) est l’application géospatiale la plus prometteuse. Et la réalité augmentée (segmentation temps réel du flux caméra) est l’application grand public en développement.