Image Colorization : coloriser des images en noir et blanc grâce à l’IA

L’image colorization (colorisation d’images) est la tâche qui consiste à prédire et appliquer des couleurs réalistes sur une image en niveaux de gris, en utilisant des modèles de deep learning capables d’inférer les teintes probables de chaque objet à partir du contexte sémantique de la scène.

Catégorie: Vision par ordinateur, traduction image-à-image (image-to-image translation)
Objectif: Ajouter deux canaux chrominance (a, b) à une image de luminance (L) en espace Lab
Difficulté: Problème fortement mal posé : un même pixel gris peut correspondre à des dizaines de couleurs plausibles
Modèles clés: DeOldify, DDColor, Colorful Image Colorization (Zhang et al.), Palette
Approches: CNN autom., GAN (NoGAN), Transformer (color queries), Diffusion, guidée par texte/exemplaire
Outils grand public: Palette.fm, MyHeritage InColor, DeepAI Colorizer, ImageColorizer, Photoshop Neural Filters

Qu’est-ce que l’image colorization ?

Coloriser une image, c’est prédire l’information de couleur absente d’une photographie en niveaux de gris. Techniquement, on travaille dans l’espace colorimétrique Lab (ou CIE L*a*b*) : l’image d’entrée fournit le canal L (luminance, c’est-à-dire l’information de gris), et le modèle doit générer les canaux a (axe vert-rouge) et b (axe bleu-jaune). Les trois canaux sont ensuite recombinés pour produire l’image couleur finale.

Le problème est fondamentalement ambigu : un pull gris dans une photo noir et blanc pourrait être bleu, rouge, vert ou noir. Le modèle doit choisir la couleur la plus « probable » en se basant sur le contexte sémantique (un ciel sera probablement bleu, de l’herbe probablement verte, la peau aura une teinte spécifique). C’est ce qui rend la colorisation à la fois fascinante et imparfaite : l’IA fait des prédictions statistiques, pas des restitutions exactes.

La colorisation se distingue de l’image restoration (qui corrige des dégradations) et de l’image editing (qui modifie un contenu existant). En pratique, elle intervient souvent comme dernière étape d’un pipeline de restauration de photos anciennes, après la réparation des rayures et l’amélioration de la netteté.

De la colorisation manuelle à l’IA

La colorisation manuelle existe depuis les débuts de la photographie : des artistes peignaient à la main des tirages monochromes dès le XIXe siècle. Dans les années 1980-1990, la colorisation de films classiques par ordinateur (avec intervention humaine massive) a suscité des débats houleux sur l’intégrité artistique. Ted Turner colorisant Casablanca reste un cas d’école.

L’ère du deep learning a tout changé. En 2016, Richard Zhang (UC Berkeley) publie « Colorful Image Colorization », un modèle CNN capable de coloriser automatiquement des images en traitant le problème comme une classification (prédire une distribution de probabilités sur les couleurs possibles plutôt qu’une seule valeur). Cette approche a produit des résultats spectaculaires et a ouvert la voie à toute la recherche moderne.

Depuis, les architectures se sont sophistiquées : GAN pour le réalisme, Transformers pour la compréhension sémantique, modèles de diffusion pour la diversité, et même des approches guidées par le texte pour permettre un contrôle utilisateur.

Techniques et architectures

L’approche par classification (Zhang et al., 2016)

L’idée fondatrice de Zhang et al. : plutôt que de traiter la colorisation comme une régression (prédire une valeur continue de couleur), la formuler comme une classification parmi 313 « bins » de couleurs dans l’espace ab. Le modèle prédit une distribution de probabilités sur ces bins, puis on extrait la couleur finale par moyenne pondérée. Cette formulation permet au modèle d’exprimer l’incertitude (un objet ambigu aura une distribution étalée) et de privilégier les couleurs vives plutôt que de converger vers un gris-brun moyen.

Le réseau utilise une architecture VGG modifiée, entraînée sur 1,3 million d’images ImageNet. Un rééquilibrage des classes est appliqué pour surpondérer les couleurs rares (rouge vif, jaune) par rapport aux couleurs dominantes (brun, gris), ce qui évite les résultats ternes. Le modèle « eccv16 » reste utilisé comme baseline de référence.

Les approches GAN et NoGAN

DeOldify, créé par Jason Antic avec le soutien de Fast.ai, est devenu le projet open source de référence pour la colorisation. Son innovation principale : le « NoGAN training », une technique d’entraînement qui combine les avantages des GAN (couleurs réalistes et vibrantes) tout en éliminant leurs défauts habituels (artefacts, instabilité, flickering en vidéo).

Le principe du NoGAN : on pré-entraîne séparément le générateur et le critique (discriminateur) avec des méthodes conventionnelles fiables, puis on effectue un entraînement GAN très court (30 à 60 minutes sur 1 à 3 % d’ImageNet). Le générateur obtient les capacités de colorisation réaliste qui auraient nécessité des jours d’entraînement GAN progressif, mais sans accumuler les artefacts.

DeOldify propose trois modèles distincts :

Modèle	Backbone	Force	Faiblesse	Usage idéal
Artistic	ResNet34 + U-Net (décodeur profond)	Couleurs les plus vibrantes et détaillées	Résultats variables selon le `render_factor`	Photos avec objets distinctifs, scènes urbaines
Stable	ResNet101 + U-Net	Résultats cohérents et prévisibles	Couleurs moins vives que Artistic	Portraits, paysages naturels
Video	ResNet101 + U-Net	Stabilité temporelle (pas de flickering)	Couleurs plus conservatrices	Films, séquences vidéo

Astuce DeOldify Le modèle « Artistic » donne les résultats les plus impressionnants mais nécessite d’ajuster le paramètre render_factor (entre 10 et 40 selon l’image). Commencez par 35 pour des portraits et descendez à 15-20 pour des paysages. Le modèle « Stable » est plus fiable si vous ne voulez pas expérimenter.

DDColor : l’approche par Transformer et double décodeur

DDColor (DAMO Academy, Alibaba Group, publié à ICCV 2023) représente l’état de l’art actuel en colorisation automatique. Son architecture repose sur deux décodeurs complémentaires : un pixel decoder qui restaure la résolution spatiale, et un color decoder basé sur des Transformers qui utilise des « color queries » (tokens de couleur apprenables) optimisées par cross-attention sur les features visuelles multi-échelle.

L’avantage de cette architecture double : le color decoder établit des corrélations entre la sémantique de la scène et les couleurs appropriées, ce qui réduit significativement le « color bleeding » (bavure de couleur entre objets adjacents), un problème chronique des méthodes précédentes. DDColor intègre aussi une « colorfulness loss » qui pousse le modèle à produire des couleurs vives plutôt que des teintes ternes.

En termes de performance, DDColor colorise des images 256×256 à 25 FPS avec un backbone ConvNeXt-Tiny (ou 21 FPS avec ConvNeXt-Large), soit 96 fois plus rapide que les méthodes Transformer précédentes. Quatre variantes pré-entraînées sont disponibles sur Hugging Face : ddcolor_paper, ddcolor_modelscope, ddcolor_artistic et ddcolor_paper_tiny.

# Inférence DDColor via Hugging Face
from huggingface_hub import PyTorchModelHubMixin

# Charger le modèle
ddcolor = DDColorHF.from_pretrained("piddnad/ddcolor_artistic")

# Ou en ligne de commande
# python scripts/infer.py --model_name ddcolor_artistic --input ./photos/

Approches par modèles de diffusion

Les modèles de diffusion appliqués à la colorisation traitent le problème comme une génération conditionnelle : l’image en gris sert de condition, et le modèle génère itérativement les canaux de couleur. Palette (Google, 2022) a démontré que les modèles de diffusion pouvaient atteindre des performances de colorisation comparables aux GAN tout en offrant une plus grande diversité de résultats.

L’avantage des modèles de diffusion : ils produisent naturellement des résultats variés (plusieurs colorisations plausibles pour une même image), ce qui reflète mieux l’ambiguïté inhérente au problème. L’inconvénient : le temps d’inférence reste significativement plus élevé que les méthodes feedforward.

Colorisation guidée : texte, exemplaires et interaction

La colorisation entièrement automatique a ses limites : le modèle ne peut pas deviner que votre grand-mère portait une robe bleue et non rouge. Trois approches permettent de guider le résultat :

Guidée par exemplaire (exemplar-based) : on fournit une image de référence en couleur, et le modèle transfère les teintes en respectant la correspondance sémantique. BiSTNet et ColorMNet sont des modèles récents dans cette catégorie, particulièrement utiles pour la colorisation vidéo où une frame de référence colorisée permet de propager les couleurs aux frames suivantes.

Guidée par texte (text-guided) : les modèles multimodaux comme L-CAD et TextIR permettent de spécifier les couleurs via des prompts textuels (« robe rouge, ciel bleu, herbe verte »). C’est la tendance la plus récente, combinant compréhension linguistique et génération visuelle.

Interactive (user hints) : l’utilisateur place des points de couleur sur l’image (« ici c’est bleu, là c’est rouge ») et le modèle propage ces indications. Le modèle « siggraph17 » de Zhang (2017) et iColoriT (basé sur Vision Transformer) sont les références dans cette catégorie. Palette.fm utilise cette approche avec une interface grand public intuitive.

L’espace Lab : pourquoi c’est le choix standard

Presque tous les modèles de colorisation travaillent dans l’espace Lab plutôt que RGB. La raison est simple : Lab sépare la luminance (L) de la chrominance (a, b). L’image en gris correspond exactement au canal L. Le modèle n’a donc qu’à prédire deux canaux (a et b) au lieu de trois (R, G, B), ce qui simplifie le problème.

L’espace Lab a aussi l’avantage d’être perceptuellement uniforme : une même distance numérique dans l’espace Lab correspond approximativement à la même différence perçue par l’œil humain, ce qui est idéal pour les fonctions de perte. Le canal L va de 0 (noir) à 100 (blanc), tandis que a et b vont typiquement de -128 à +127.

Certains modèles récents explorent des espaces alternatifs (HSV, YCbCr) ou travaillent directement en RGB, mais Lab reste le standard dominant pour la colorisation.

Métriques d’évaluation

Évaluer la qualité d’une colorisation est intrinsèquement subjectif : il n’existe pas de « bonne réponse » unique. Les métriques utilisées combinent mesures de fidélité et de qualité perceptuelle.

Métriques de fidélité

Le PSNR et le SSIM mesurent la proximité avec l’image de référence (ground truth). Pour la colorisation, ils sont calculés sur les canaux a et b uniquement (le canal L est identique). Problème : ces métriques pénalisent les colorisations « créatives » mais plausibles. Une voiture grise colorisée en bleu (plausible) sera pénalisée si la référence était rouge.

Métriques perceptuelles

Le FID (Fréchet Inception Distance) mesure le réalisme global de la distribution de couleurs par rapport à un ensemble de référence. Plus le FID est bas, plus les images colorisées ressemblent statistiquement à de vraies photos couleur. LPIPS évalue la similarité perceptuelle image par image.

Colorfulness (richesse chromatique)

La métrique « Colorfulness » mesure la saturation et la diversité des couleurs générées. C’est une métrique cruciale car les modèles optimisés uniquement pour PSNR/SSIM convergent vers des teintes ternes (brun-gris) qui minimisent l’erreur moyenne mais produisent des résultats visuellement plats. DDColor introduit explicitement une « colorfulness loss » pour contrer cette tendance.

Le compromis fondamental En colorisation, il y a un compromis permanent entre fidélité (couleurs « correctes » par rapport à la réalité) et vivacité (couleurs saturées et visuellement attractives). Les modèles « safe » comme Stable de DeOldify privilégient la fidélité ; les modèles « bold » comme Artistic privilégient la vivacité. DDColor tente de combiner les deux grâce à sa colorfulness loss.

Outils et modèles open source

DeOldify

Le projet phare de la colorisation open source, créé par Jason Antic. Disponible via Google Colab (gratuit, sans installation), sur Hugging Face avec démo Gradio, et en version desktop via DeOldify.NET (sans GPU requis). La version la plus avancée (commerciale) alimente MyHeritage InColor. Architecture : Self-Attention GAN (SAGAN) avec entraînement NoGAN. Le fork modernisé (thookham/DeOldify) supporte PyTorch 2.5+ et CUDA 12.x.

DDColor

État de l’art en colorisation automatique. Développé par DAMO Academy (Alibaba). Quatre variantes de modèles pré-entraînés sur Hugging Face, intégration ComfyUI disponible via ComfyUI-DDColor, démos sur ModelScope et Replicate. Le modèle ddcolor_artistic produit les couleurs les plus vibrantes, ddcolor_modelscope est le plus équilibré. Licence open source pour la recherche.

Modèles de Zhang (eccv16, siggraph17)

Les modèles fondateurs de Richard Zhang restent pertinents. eccv16 (Colorful Image Colorization) est entièrement automatique. siggraph17 (Real-Time User-Guided Image Colorization) accepte des « hints » de couleur fournis par l’utilisateur, ce qui permet de corriger les erreurs de colorisation en temps réel. Les deux sont intégrés dans le filtre VapourSynth vs-deoldify pour le traitement vidéo.

Palette (Google)

Un modèle de diffusion conditionnel pour la traduction image-à-image, applicable à la colorisation parmi d’autres tâches. Palette montre que les modèles de diffusion peuvent rivaliser avec les approches GAN spécialisées, avec l’avantage de produire des résultats diversifiés. Plus lent mais plus flexible que les approches feedforward.

Modèle	Architecture	Vitesse	Qualité couleurs	Contrôle utilisateur	Licence
DDColor	Dual decoder + Transformer	25 FPS (256px)	Excellente (vivace)	Aucun (automatique)	Apache 2.0
DeOldify Artistic	SAGAN + NoGAN	Rapide	Très bonne (vibrante)	`render_factor`	MIT
DeOldify Stable	SAGAN + NoGAN	Rapide	Bonne (naturelle)	`render_factor`	MIT
Zhang eccv16	VGG modifié	Très rapide	Correcte	Aucun	Recherche
Zhang siggraph17	CNN + propagation hints	Temps réel	Bonne (contrôlée)	Points de couleur	Recherche
Palette	Diffusion conditionnelle	Lente	Très bonne (diverse)	Aucun	Recherche

Outils grand public

Palette.fm

L’outil préféré des utilisateurs qui veulent ajuster le rendu. Palette.fm propose plusieurs filtres de couleur (« presets ») et permet de fine-tuner le résultat. L’interface drag-and-drop est intuitive, la résolution de sortie est élevée. Le plan gratuit ajoute un watermark ; les plans premium suppriment cette limitation. Idéal pour les portraits et projets créatifs où un seul résultat fort compte plus que le volume.

MyHeritage InColor

Alimenté par la version commerciale la plus avancée de DeOldify, MyHeritage InColor est spécialement optimisé pour les photos de famille historiques. Le service gère bien les photos abîmées et les visages anciens. L’accès complet nécessite un abonnement MyHeritage (à partir d’environ 8 $ par mois). Intégré à l’écosystème généalogique de MyHeritage, ce qui en fait un choix naturel pour les passionnés d’histoire familiale.

DeepAI Colorizer

Un outil gratuit, sans inscription, pour coloriser des images individuelles. L’API est disponible pour les développeurs (avec exemples Python sur GitHub). La résolution de sortie en version gratuite est limitée, et il n’y a pas de filtre ou de personnalisation : on obtient un seul résultat par image. DeepAI Pro débloque un accès plus intensif et des résolutions plus élevées.

ImageColorizer.com

La meilleure option pour le traitement par lots. Le service accepte des uploads multiples et offre un contrôle sur l’intensité et le style de colorisation. Interface en ligne complète avec restauration, colorisation, amélioration et suppression d’objets. Particulièrement adapté aux collections de photos et aux albums entiers.

Colourise.sg

Un outil gratuit, sans inscription, développé à Singapour. Son entraînement met l’accent sur les traits de visages asiatiques, ce qui lui donne un avantage pour les photos de cette région. Simple et rapide, sans options de personnalisation.

Adobe Photoshop

Photoshop intègre un filtre Neural « Colorize » dans sa palette Neural Filters, alimenté par Adobe Sensei. Le filtre permet de désigner des zones de couleur spécifiques et de fine-tuner le résultat avec des curseurs. C’est l’option la plus contrôlable pour les professionnels, mais elle reste dépendante de l’abonnement Creative Cloud (environ 24 €/mois pour la formule Photo). Les filtres IA de Photoshop (AI Sharpen, AI Denoise) consomment des crédits génératifs.

Pixbim Color Surprise AI

Un logiciel desktop (Windows) avec achat unique (environ 30 $). Traitement par lots, fonctionne hors ligne, résultats cohérents. Idéal pour les utilisateurs qui préfèrent un outil local sans abonnement. Supporte aussi la vidéo.

Pipeline de colorisation en pratique

Coloriser une photo ancienne

1. Préparation : Numérisez la photo à haute résolution (600 DPI). Si la photo est endommagée, restaurez-la d’abord avec image restoration (Real-ESRGAN + GFPGAN pour les visages). La colorisation fonctionne nettement mieux sur une image déjà propre et nette.

2. Colorisation automatique : Passez l’image dans DDColor (ddcolor_artistic pour des couleurs vives) ou DeOldify (modèle Artistic avec render_factor=35 pour les portraits). Comparez les résultats des deux modèles : DDColor excelle sur les scènes complexes multi-objets, DeOldify sur les portraits et les paysages naturels.

3. Correction manuelle (optionnel) : Si certaines couleurs sont incorrectes (une chemise verte qui devrait être bleue), utilisez le modèle siggraph17 de Zhang pour placer des « hints » de couleur, ou retouchez dans Photoshop avec des calques de teinte/saturation. Pour une colorisation historiquement fidèle, recherchez des sources de référence (uniformes militaires, décors d’époque) et utilisez une approche guidée par exemplaire.

4. Post-traitement : Ajustez la saturation globale (les modèles automatiques ont tendance à sous-saturer ou sur-saturer certaines zones). Un léger ajustement des niveaux et de la balance des blancs améliore souvent significativement le résultat final.

# Pipeline DeOldify via Google Colab ou local
# 1. Cloner le dépôt
git clone https://github.com/jantic/DeOldify.git
cd DeOldify

# 2. Télécharger les poids pré-entraînés
mkdir models
wget https://data.deepai.org/deoldify/ColorizeArtistic_gen.pth -O ./models/ColorizeArtistic_gen.pth

# 3. Lancer la colorisation (via Jupyter Notebook)
# Ouvrir ImageColorizer.ipynb et ajuster render_factor

Coloriser une vidéo

La colorisation vidéo ajoute un défi majeur : la cohérence temporelle. Un objet qui passe du bleu au rouge entre deux frames crée un effet de « flickering » très visible. Trois stratégies existent :

Frame-by-frame : DeOldify (modèle Video) traite chaque frame indépendamment mais produit des résultats étonnamment stables grâce au NoGAN. C’est l’approche la plus simple.

Exemplar-based : Des modèles comme Deep Exemplar-based Video Colorization, DeepRemaster et ColorMNet utilisent une frame de référence colorisée pour propager les couleurs aux frames suivantes. Le filtre VapourSynth vs-deoldify combine DeOldify/DDColor avec ces modèles pour un pipeline vidéo complet.

Post-filtrage : Appliquer un lissage chromatique temporel (chroma smoothing) après la colorisation pour réduire les variations brusques de couleur entre frames. Le filtre vs-deoldify propose des paramètres de désaturation et de dé-vibrance par plage de teintes pour corriger les problèmes spécifiques (les teintes rouge/violet sont les plus instables).

Défis et limites

Ambiguïté fondamentale

Le problème central : la couleur d’un objet ne peut pas toujours être déduite de sa luminance. Un modèle peut coloriser un bus en rouge ou en jaune, les deux étant plausibles. Les modèles convergent vers les couleurs les plus fréquentes dans leurs données d’entraînement, ce qui crée des biais systématiques : les voitures tendent vers le gris/noir, les fleurs vers le rouge, les intérieurs vers le brun.

Color bleeding (bavure de couleur)

Quand la couleur d’un objet « déborde » sur les zones adjacentes, surtout aux frontières floues. Les approches GAN sont particulièrement sensibles à ce problème. DDColor le réduit grâce à son dual decoder et la cross-attention, mais ne l’élimine pas totalement. Des solutions récentes proposent des discriminateurs conditionnés par les contours (edge-conditioned discriminators) pour forcer le modèle à respecter les frontières.

Biais des datasets

Les modèles entraînés sur ImageNet (dominé par des photos occidentales contemporaines) colorisent moins bien les scènes d’autres régions ou d’autres époques. Colourise.sg a partiellement corrigé ce problème en incluant des visages asiatiques. De même, les photos très anciennes (avant 1900) ou les types de pellicules spécifiques peuvent poser problème car ils n’ont pas d’équivalent dans les données d’entraînement.

Cohérence temporelle (vidéo)

Même les meilleurs modèles introduisent des fluctuations de couleur entre frames vidéo, surtout dans les zones sombres où le modèle « hésite » sur la teinte appropriée. Les scènes de nuit et les ombres profondes sont les cas les plus problématiques : les modèles oscillent entre bleu, violet et brun, créant un effet psychédélique.

Authenticité historique

La colorisation IA ne restitue pas les « vraies » couleurs : elle prédit les couleurs les plus probables statistiquement. Pour un usage historique rigoureux, la colorisation automatique doit être vérifiée et corrigée par un historien ou un spécialiste de la période. Les couleurs des uniformes, des drapeaux, des bâtiments et des véhicules d’époque sont souvent documentées et doivent être respectées.

Point de vigilance éthique La colorisation de photos historiques soulève des questions d’authenticité. Des photos colorisées présentées comme « réelles » peuvent induire en erreur. Bonne pratique : toujours mentionner qu’une image a été colorisée par IA quand vous la partagez, surtout dans un contexte éducatif ou journalistique.

Applications

Patrimoine et mémoire familiale

L’application la plus populaire : donner vie à des photos de famille en noir et blanc. La colorisation rend les images plus accessibles émotionnellement et facilite l’identification des personnes et des lieux. MyHeritage InColor a popularisé cet usage avec des millions d’images traitées.

Documentation historique et éducation

Les archives colorisées par IA sont utilisées dans des documentaires, des musées interactifs et des manuels scolaires. Des projets comme « Old Ireland in Colour » (utilisant DeOldify) ont eu un impact culturel significatif en rendant l’histoire visuellement accessible.

Cinéma et restauration de films

La colorisation de films classiques reste controversée mais techniquement possible. Les pipelines modernes combinent DeOldify/DDColor pour la colorisation frame-by-frame, des modèles de cohérence temporelle (ColorMNet, DeepRemaster), et des filtres de post-traitement chromatique. Le coût computationnel reste considérable : un long métrage de 90 minutes représente environ 130 000 frames à traiter.

Création artistique et design

Les artistes utilisent la colorisation comme outil créatif : transformer des dessins en niveaux de gris en illustrations couleur, recolorer des paysages d’anime en style réaliste (un cas d’usage mis en avant par DDColor), ou créer des variations chromatiques d’une même image. Le style transfer et la colorisation se rejoignent dans cet usage.

Imagerie scientifique

La colorisation de clichés médicaux, de micrographies et d’images satellite peut faciliter l’interprétation visuelle. L’application reste prudente dans ce domaine : les couleurs ajoutées doivent correspondre à des conventions établies et ne pas induire de faux diagnostics.

Comparaison des approches : verdict

Quel outil choisir ? Pour la colorisation automatique de photos individuelles, DDColor (ddcolor_artistic) offre les meilleurs résultats actuels en termes de vivacité et de précision sémantique. Pour les portraits et les scènes naturelles, DeOldify Stable reste une alternative solide et plus prévisible.

Pour le traitement par lots sans code, ImageColorizer.com ou Palette.fm sont les options les plus pratiques. Pour un usage professionnel avec contrôle fin, Photoshop Neural Filters reste incontournable malgré ses bugs récents.

Pour la vidéo, le pipeline vs-deoldify (combinant DeOldify + DDColor + modèles de cohérence temporelle) est l’approche la plus complète disponible en open source. C’est aussi la plus complexe à configurer.

Et pour les photos de famille rapides, MyHeritage InColor offre le meilleur compromis entre qualité et facilité d’utilisation.

Concepts connexes

La colorisation est étroitement liée à d’autres tâches du traitement d’images : l’image restoration (souvent la première étape du pipeline), la super-résolution (augmenter la résolution après colorisation), le style transfer et le neural style transfer (transférer un style visuel plutôt que des couleurs), l’image generation (qui partage les architectures GAN et diffusion), et la face generation / face editing (qui exploitent les mêmes priors génératifs pour les visages).

Questions fréquentes sur l’image colorization

L’IA peut-elle restituer les « vraies » couleurs d’une photo en noir et blanc ?

Non. L’IA prédit les couleurs les plus statistiquement probables en fonction du contexte de la scène, pas les couleurs réelles. Un ciel sera probablement colorisé en bleu (correct dans la majorité des cas), mais une chemise sera colorisée dans la couleur la plus fréquente dans les données d’entraînement, sans garantie que ce soit la bonne. Pour les photos historiques où la précision colorimétrique compte (uniformes militaires, drapeaux, bâtiments), il faut vérifier et corriger manuellement en se basant sur des sources documentaires.

Quel est le meilleur outil gratuit pour coloriser des photos ?

Pour un usage sans code, DeepAI Colorizer est gratuit et sans inscription (qualité correcte mais résolution limitée). Colourise.sg est aussi gratuit et performant sur les portraits. Pour la meilleure qualité gratuite, utilisez DDColor ou DeOldify via Google Colab ou les démos Hugging Face : la qualité surpasse celle de la plupart des outils payants, sans limite d’usage. Si vous êtes prêt à installer Python, DDColor avec le modèle ddcolor_artistic donne les résultats les plus vivants.

Quelle est la différence entre DeOldify et DDColor ?

DeOldify utilise un GAN avec entraînement NoGAN (ResNet + U-Net). Il propose trois variantes (Artistic, Stable, Video) avec des compromis vivacité/stabilité. Ses forces : stabilité des résultats, excellente gestion de la vidéo. DDColor utilise un double décodeur avec Transformers et color queries apprenables (ICCV 2023). Ses forces : meilleure gestion des scènes complexes multi-objets, moins de color bleeding, couleurs plus vives. Pour les portraits simples, les deux se valent. Pour les scènes urbaines ou les intérieurs complexes, DDColor a un avantage net.

Peut-on coloriser des vidéos entières avec l’IA ?

Oui, mais avec des limites. DeOldify (modèle Video) traite les vidéos frame par frame avec une stabilité temporelle correcte grâce au NoGAN. Pour une qualité supérieure, le filtre VapourSynth vs-deoldify combine DDColor/DeOldify avec des modèles de cohérence temporelle (ColorMNet, DeepRemaster). Le temps de traitement est significatif : comptez plusieurs heures pour un court métrage de quelques minutes. Le principal défi reste la cohérence des couleurs entre les frames, surtout dans les scènes sombres.

Comment améliorer le résultat d’une colorisation automatique ?

Cinq conseils pratiques. Premièrement, restaurez l’image avant de coloriser (netteté, suppression de rayures). Deuxièmement, testez plusieurs modèles et comparez (DDColor Artistic, DeOldify Artistic, DeOldify Stable) car les résultats varient selon le type d’image. Troisièmement, utilisez le modèle interactif siggraph17 de Zhang ou Palette.fm pour corriger les couleurs incorrectes avec des « hints ». Quatrièmement, ajustez la saturation en post-traitement (un simple calque teinte/saturation dans Photoshop ou GIMP). Cinquièmement, pour les photos historiques, fournissez un contexte de référence : une image similaire de la même époque et du même lieu en couleur, utilisable comme exemplaire pour les modèles guidés.