Image Segmentation (Segmentation d’Images)

L’image segmentation (ou segmentation d’images) est une tâche de vision par ordinateur qui consiste à attribuer une classe à chaque pixel d’une image, produisant un masque qui délimite les contours exacts de chaque objet ou région.

L’image classification dit « c’est un chat ». L’object detection dit « il y a un chat ici » (rectangle). L’image segmentation dit « voici exactement les pixels qui appartiennent au chat, pixel par pixel ». C’est le niveau le plus fin de compréhension visuelle : chaque pixel de l’image reçoit un label.

La segmentation est indispensable quand la forme exacte des objets compte : imagerie médicale (délimiter précisément une tumeur), conduite autonome (savoir où commence et finit la route), édition d’images (isoler un sujet de son fond), robotique (savoir quels pixels sont un objet à saisir). Le lancement de SAM (Segment Anything Model) par Meta en 2023, suivi de SAM 2 (2024) et SAM 3 (novembre 2025), a démocratisé la segmentation en la rendant promptable et zero-shot.

Catégorie: Tâche de vision par ordinateur (compréhension pixel par pixel)
Input: Image (+ optionnellement : points, boxes, ou prompts textuels)
Output: Masque de segmentation (label par pixel)
Types: Sémantique, instance, panoptique
Modèles phares: SAM 3 (Meta, 848M params), U-Net, Mask R-CNN, YOLO (segmentation)
Benchmark: MS COCO (instance), ADE20K (sémantique), Cityscapes (conduite)
Métriques: mIoU (sémantique), mAP mask (instance), PQ (panoptique)

Les trois types de segmentation

Segmentation sémantique

La segmentation sémantique attribue une classe à chaque pixel sans distinguer les instances individuelles. Si l’image contient trois voitures, tous les pixels des trois voitures reçoivent le même label « voiture ». Le résultat est une carte de classes pixel par pixel.

C’est le type le plus utilisé en conduite autonome (distinguer route, trottoir, piétons, véhicules, bâtiments) et en imagerie satellite (classifier chaque pixel en forêt, eau, urbain, agriculture). La métrique standard est le mIoU (mean Intersection over Union), qui mesure le chevauchement entre les masques prédits et les masques de référence, moyenné sur toutes les classes.

Les architectures de référence : FCN (Fully Convolutional Network), U-Net (encoder-decoder avec skip connections), DeepLab (convolutions dilatées + CRF), et les modèles basés sur ViT comme SegFormer et Mask2Former.

Segmentation d’instance

La segmentation d’instance va plus loin : elle distingue chaque objet individuel. Les trois voitures reçoivent des masques séparés avec des identifiants distincts (voiture_1, voiture_2, voiture_3). C’est l’union de l’object detection (localiser et identifier chaque objet) et de la segmentation (délimiter ses contours au pixel près).

Le modèle fondateur est Mask R-CNN (He et al., 2017), qui ajoute une branche de prédiction de masque à Faster R-CNN. YOLO (depuis YOLOv8) supporte aussi la segmentation d’instance en temps réel. La métrique standard est le mAP mask (comme pour l’object detection, mais sur les masques au lieu des bounding boxes).

Segmentation panoptique

La segmentation panoptique combine sémantique et instance. Elle traite deux catégories de classes : les « things » (objets dénombrables : voitures, personnes, animaux) reçoivent un masque d’instance individuel, et les « stuff » (régions amorphes : ciel, route, herbe) reçoivent un label sémantique. C’est la représentation la plus complète d’une scène visuelle.

La métrique est le PQ (Panoptic Quality), qui combine la qualité de la segmentation et la qualité de la reconnaissance. Les modèles Mask2Former et OMG-Seg sont conçus pour la segmentation panoptique unifiée.

Type	Distingue les instances ?	Couvre le fond ?	Métrique	Usage typique
Sémantique	Non	Oui	mIoU	Conduite autonome, satellite, imagerie médicale
Instance	Oui	Non (objets uniquement)	mAP mask	Comptage, tracking, édition d’image
Panoptique	Oui (things) + Non (stuff)	Oui	PQ	Compréhension de scène complète

Architectures clés

U-Net

U-Net (Ronneberger et al., 2015) est l’architecture fondatrice de la segmentation en deep learning. Conçue initialement pour l’imagerie biomédicale, elle utilise une structure encoder-decoder symétrique avec des skip connections qui relient les couches de l’encoder aux couches correspondantes du decoder. L’encoder compresse l’image en features de haut niveau, le decoder reconstruit le masque de segmentation à la résolution originale, et les skip connections préservent les détails fins.

U-Net reste largement utilisée en imagerie médicale (segmentation de cellules, d’organes, de tumeurs) grâce à sa capacité à produire des segmentations précises avec relativement peu de données d’entraînement. De nombreuses variantes existent : U-Net++ (nested skip connections), Attention U-Net (mécanisme d’attention dans les skip connections), et nnU-Net (configuration automatique de U-Net pour chaque dataset).

Mask R-CNN

Mask R-CNN (He et al., 2017) étend Faster R-CNN avec une branche de prédiction de masque. Pour chaque objet détecté, le modèle prédit non seulement la bounding box et la classe, mais aussi un masque binaire pixel par pixel. C’est le modèle de référence pour la segmentation d’instance. Avec un backbone ResNet-101, Mask R-CNN atteint environ 40-42 mAP mask sur COCO.

DeepLab

La famille DeepLab (Google, v1 à v3+) utilise des convolutions dilatées (atrous convolutions) pour capturer le contexte à différentes échelles sans perdre de résolution. DeepLabV3+ combine un encoder Atrous Spatial Pyramid Pooling (ASPP) avec un decoder pour la segmentation sémantique à haute résolution. C’est une référence solide pour la segmentation sémantique sur Cityscapes et ADE20K.

SAM : Segment Anything Model (Meta)

La famille SAM a révolutionné la segmentation en la rendant promptable et zero-shot.

SAM 1 (avril 2023) : premier modèle de segmentation fondationnel. Entraîné sur 1,1 milliard de masques (dataset SA-1B), SAM segmente n’importe quel objet dans n’importe quelle image à partir de prompts visuels (points, bounding boxes). Pas besoin d’entraînement spécifique au domaine. Architecture : encoder ViT + decoder léger de masque.

SAM 2 (2024) : extension à la vidéo. SAM 2 unifie la segmentation image et vidéo via une architecture Transformer avec mémoire en streaming. Vous segmentez un objet dans la première frame, et SAM 2 le suit automatiquement dans toute la vidéo.

SAM 3 (novembre 2025) : passage de la segmentation géométrique (pointer un objet) à la segmentation conceptuelle. SAM 3 introduit le Promptable Concept Segmentation (PCS) : vous décrivez un concept en texte (« bus scolaire jaune ») ou via un exemplaire d’image, et le modèle segmente toutes les instances correspondantes dans l’image ou la vidéo. Architecture : encoder de perception partagé + détecteur DETR + tracker vidéo SAM 2. 848M paramètres. SAM 3 double la précision des systèmes existants sur le benchmark SA-Co (270K concepts évalués, 4M concepts annotés). Meta a aussi annoncé SAM 3D pour la reconstruction 3D d’objets à partir d’images 2D.

SAM 3 : le tournant de la segmentation conceptuelle Avec SAM 3, la segmentation passe du « montrez-moi quoi segmenter » (clic, box) au « dites-moi quoi segmenter » (texte, exemplaire). Cela transforme les workflows d’annotation (pré-annotation massive par concept), l’édition photo/vidéo (effets appliqués à des catégories d’objets), et la robotique (perception par concepts plutôt que par instances prédéfinies). SAM 3 est open-source et intégré dans Ultralytics et Roboflow.

YOLO (segmentation d’instance)

Depuis YOLOv8, les modèles YOLO supportent nativement la segmentation d’instance en temps réel. YOLO26 (septembre 2025) inclut des modules de segmentation améliorés (semantic segmentation loss, multi-scale proto modules). C’est la solution la plus rapide pour la segmentation d’instance en production.

Mask2Former et modèles unifiés

Mask2Former (Cheng et al., 2022) est une architecture unifiée qui gère la segmentation sémantique, d’instance et panoptique avec le même modèle. Basé sur un Transformer avec attention masquée, il atteint l’état de l’art sur les trois tâches. OMG-Seg étend cette approche en ajoutant la segmentation vidéo et interactive.

Benchmarks de référence

Dataset	Type	Classes	Images	Usage
MS COCO	Instance + panoptique	80 (things) + 53 (stuff)	~118K train	Benchmark universel
ADE20K	Sémantique	150	~20K train	Segmentation sémantique intérieur/extérieur
Cityscapes	Sémantique + instance	30	5K fine-annotées	Conduite autonome urbaine
Pascal VOC	Sémantique + instance	20	~11K	Benchmark historique
SA-1B	Masques universels	N/A	11M images, 1,1B masques	Pré-entraînement SAM
SA-Co	Conceptuel	~270K concepts	Images + vidéos	Benchmark SAM 3

Outils et code

Segmentation avec SAM 3 (Ultralytics)

# pip install ultralytics
from ultralytics import SAM3

# Charger SAM 3
model = SAM3("sam3-large.pt")

# Segmentation par concept textuel (PCS)
results = model("photo.jpg", texts=["yellow school bus", "person"])

# Segmentation par prompts visuels (compatible SAM 2)
results = model("photo.jpg", points=[[400, 300]], labels=[1])
results = model("photo.jpg", bboxes=[[100, 100, 400, 400]])

# Afficher les masques
for result in results:
    masks = result.masks  # Masques de segmentation
    result.save("segmented.jpg")

Segmentation d’instance avec YOLO

from ultralytics import YOLO

# Modèle YOLO pré-entraîné pour la segmentation d'instance
model = YOLO("yolo11n-seg.pt")

# Inférence
results = model("photo.jpg")

for result in results:
    for mask, box in zip(result.masks.data, result.boxes):
        classe = result.names[int(box.cls)]
        confiance = float(box.conf)
        print(f"{classe}: {confiance:.2f}")
        # mask contient le masque binaire pixel par pixel

# Fine-tuning sur vos données
model.train(data="dataset-seg.yaml", epochs=100, imgsz=640)

Segmentation sémantique avec U-Net (Hugging Face)

from transformers import SegformerForSemanticSegmentation, SegformerImageProcessor
from PIL import Image
import torch

# SegFormer (architecture moderne type U-Net/Transformer)
processor = SegformerImageProcessor.from_pretrained(
    "nvidia/segformer-b0-finetuned-ade-512-512")
model = SegformerForSemanticSegmentation.from_pretrained(
    "nvidia/segformer-b0-finetuned-ade-512-512")

image = Image.open("scene.jpg")
inputs = processor(images=image, return_tensors="pt")

with torch.no_grad():
    outputs = model(**inputs)
    logits = outputs.logits  # (batch, num_classes, H, W)
    predicted = logits.argmax(dim=1)  # Classe par pixel
    print(f"Classes uniques détectées: {predicted.unique().tolist()}")

Applications concrètes

Imagerie médicale. Segmentation de tumeurs sur IRM et scanners CT, délimitation d’organes pour la planification chirurgicale, comptage et classification de cellules sur des coupes histologiques. U-Net et ses variantes (nnU-Net) restent les standards dans ce domaine. SAM 3 avec des adapters spécialisés (SAM3-Adapter) établit de nouveaux records sur les tâches médicales complexes.

Conduite autonome. Segmentation sémantique de la scène routière : route, trottoir, piétons, véhicules, panneaux, lignes de marquage. Cityscapes est le benchmark de référence. Les modèles doivent fonctionner en temps réel (30+ FPS) sur des GPU embarqués.

Édition photo et vidéo. Isoler le sujet du fond (portrait mode sur smartphones), appliquer des effets à des objets spécifiques, remplacer le fond en visioconférence. SAM 3 permet de segmenter par concept textuel directement dans les apps d’édition. Meta l’intègre dans Edits (son app de création vidéo IA) et Vibes (son concurrent TikTok).

Imagerie satellite et agriculture. Classification des types d’occupation des sols (forêt, urbain, cultures, eau), détection des changements (déforestation, urbanisation), estimation des rendements agricoles par segmentation des parcelles cultivées.

Robotique et manipulation. Segmentation des objets à saisir pour les robots de pick-and-place. La segmentation d’instance est essentielle car le robot doit distinguer des objets identiques posés côte à côte pour planifier sa trajectoire de préhension.

Réalité augmentée. Comprendre la scène 3D pixel par pixel pour placer des objets virtuels de manière réaliste, appliquer des filtres aux personnes/objets, et créer des expériences AR immersives. SAM 3D (Meta) pousse cette capacité en reconstruisant les objets en 3D à partir d’images 2D.

Annotation de données. SAM 3 transforme l’annotation : au lieu de dessiner des masques manuellement (coûteux et lent), l’annotateur décrit ce qu’il veut segmenter et le modèle produit les masques automatiquement. Le gain de temps estimé est de 50 à 70% sur les workflows d’annotation complexes.

Défis de l’image segmentation

Objets fins et frontières ambiguës. Les cheveux, les branches d’arbres, les clôtures, et les objets semi-transparents sont difficiles à segmenter au pixel près. Les modèles produisent souvent des masques trop lisses qui perdent les détails fins.

Objets camouflés. Les animaux ou objets qui se fondent dans leur environnement posent un défi majeur. Le dataset COD-10K teste spécifiquement cette capacité. SAM3-Adapter établit de nouveaux records sur cette tâche en combinant les features de SAM 3 avec des modules spécialisés.

Coût d’annotation. L’annotation de masques pixel par pixel est 5 à 10 fois plus coûteuse que l’annotation de bounding boxes. SAM et ses successeurs réduisent drastiquement ce coût via la segmentation interactive et la pré-annotation automatique.

Cohérence temporelle (vidéo). En segmentation vidéo, les masques doivent être cohérents d’une frame à l’autre. Le flickering (oscillation des masques) est un problème courant. SAM 2 et SAM 3 adressent ce problème avec leur architecture de mémoire en streaming.

Déploiement temps réel. Les modèles de segmentation sont généralement plus lourds que les détecteurs d’objets. YOLO-seg et les variantes légères de SegFormer sont les options les plus réalistes pour la segmentation en temps réel sur des appareils edge.

Bonnes pratiques

Utilisez SAM 3 pour la pré-annotation. Avant d’annoter manuellement, lancez SAM 3 avec des prompts textuels ou visuels sur votre dataset. Le modèle produira des masques de base que vos annotateurs n’auront qu’à corriger. Gain de temps : 50 à 70%.

Choisissez le type de segmentation adapté. Sémantique si vous classifiez des régions (conduite autonome, satellite). Instance si vous comptez et distinguez des objets (robotique, inventaire). Panoptique si vous avez besoin des deux.

Commencez par le transfer learning. Ne partez pas de zéro. Chargez un modèle pré-entraîné (SAM pour la segmentation interactive, SegFormer pour la sémantique, YOLO-seg pour l’instance en temps réel) et fine-tunez sur vos données.

Attention au déséquilibre de classes. En segmentation sémantique, les classes de fond (ciel, route) dominent souvent en nombre de pixels. Utilisez une loss pondérée (Dice Loss, Focal Loss) pour donner plus de poids aux classes minoritaires.

Évaluez avec les bonnes métriques. mIoU pour la sémantique, mAP mask pour l’instance, PQ pour la panoptique. L’accuracy pixel-level est trompeuse (un modèle qui prédit « fond » pour tout obtient une accuracy élevée si le fond domine).

Questions fréquentes sur l’image segmentation

Quelle est la différence entre segmentation sémantique, d’instance et panoptique ?

La segmentation sémantique attribue une classe à chaque pixel mais ne distingue pas les objets individuels (tous les pixels « voiture » reçoivent le même label). La segmentation d’instance distingue chaque objet avec un masque et un identifiant unique (voiture_1, voiture_2). La segmentation panoptique combine les deux : elle distingue les instances pour les objets dénombrables (« things ») et applique un label sémantique aux régions amorphes (« stuff » comme le ciel ou la route). La sémantique est la plus simple, l’instance la plus utile pour le comptage et le tracking, et la panoptique la plus complète pour la compréhension de scène.

SAM 3 remplace-t-il les modèles spécialisés ?

SAM 3 excelle en segmentation zero-shot et interactive, mais il ne remplace pas toujours les modèles fine-tunés sur un domaine spécifique. Pour l’imagerie médicale, un nnU-Net fine-tuné sur vos données sera plus précis qu’un SAM 3 généraliste. Pour la segmentation sémantique en conduite autonome, un DeepLab ou SegFormer entraîné sur Cityscapes restera plus adapté. SAM 3 est imbattable pour la pré-annotation, le prototypage, et les cas où les catégories changent fréquemment. La meilleure stratégie est souvent hybride : SAM 3 pour la pré-annotation, puis un modèle spécialisé fine-tuné sur les masques corrigés.

Combien d’images annotées faut-il pour entraîner un modèle de segmentation ?

Avec un modèle pré-entraîné (SAM, SegFormer, U-Net avec poids ImageNet), 50 à 200 images finement annotées (masques pixel par pixel) peuvent suffire pour un premier modèle fonctionnel. Pour des performances de production, visez 500 à 2000 images annotées. L’annotation de masques est coûteuse (5 à 30 minutes par image selon la complexité), mais SAM 3 réduit ce temps de 50 à 70% via la pré-annotation assistée. Pour les domaines médicaux spécialisés, nnU-Net avec seulement 50 à 100 images annotées par un expert produit souvent des résultats cliniquement utilisables grâce à sa configuration automatique.

Quel modèle pour la segmentation en temps réel ?

YOLO-seg (YOLOv8-seg, YOLO11-seg, YOLO26-seg) est le standard pour la segmentation d’instance en temps réel (30-100+ FPS sur GPU). Pour la segmentation sémantique en temps réel, les variantes légères de SegFormer (SegFormer-B0) ou BiSeNet atteignent 30+ FPS avec une bonne précision. SAM est trop lourd pour du temps réel pur (~1-5 FPS selon la configuration), mais ses variantes distillées (FastSAM, MobileSAM) sont utilisables. Sur mobile, des architectures comme EfficientSeg ou LRASPP (MobileNetV3 + segmentation) offrent 15-30 FPS sur smartphone.

Quelle est la différence entre SAM 1, SAM 2 et SAM 3 ?

SAM 1 (2023) segmente des objets dans des images statiques à partir de prompts visuels (points, boxes). SAM 2 (2024) étend les capacités à la vidéo avec un tracker à mémoire en streaming, permettant de suivre un objet segmenté à travers une séquence vidéo. SAM 3 (novembre 2025, 848M paramètres) introduit la segmentation par concept : au lieu de pointer un objet spécifique, vous décrivez un concept en texte (« bus scolaire jaune ») et le modèle segmente toutes les instances correspondantes dans l’image ou la vidéo. SAM 3 combine un détecteur DETR et le tracker SAM 2 avec un encoder de perception partagé. Meta a aussi lancé SAM 3D pour la reconstruction 3D d’objets segmentés. Les trois versions sont open-source.