Cold Start Problem (Problème du Démarrage à Froid)
Le cold start problem (problème du démarrage à froid) est l’incapacité d’un système de recommandation à produire des suggestions pertinentes lorsqu’il dispose de peu ou pas de données d’interaction, que ce soit pour un nouvel utilisateur, un nouvel article, ou un système entièrement nouveau.
Vous venez de créer un compte Netflix. Le système ne sait rien de vous : pas d’historique, pas de préférences, pas de notes. Comment vous recommander un film pertinent dès la première seconde ? C’est le cold start utilisateur. Inversement, Netflix ajoute un nouveau documentaire à son catalogue. Personne ne l’a encore vu. Comment le recommander aux bonnes personnes ? C’est le cold start article. Ce problème est le talon d’Achille du filtrage collaboratif, et il est plus critique que jamais en 2026 : les catalogues de contenu explosent (Spotify ajoute 100 000 morceaux par jour), les utilisateurs sont volatils (ils essaient une plateforme et la quittent si la première expérience est mauvaise), et la compétition pour l’attention est féroce.
- Définition
- Incapacité à recommander efficacement par manque de données d’interaction
- Types
- Cold start utilisateur, cold start article, cold start système
- Impact
- Mauvaise première impression → churn (abandon), articles invisibles → long tail non exploitée
- Solutions classiques
- Filtrage par contenu, questionnaires, popularité, transfert de connaissances
- Solutions modernes
- LLM (zero-shot, raisonnement), meta-learning, GNN, embeddings sémantiques, données synthétiques
- Recherche active
- Survey complet (arXiv, jan. 2025), review Wiley (fév. 2026), WWW 2026, WSDM 2025
Les trois types de cold start
Cold start utilisateur (User Cold Start)
Un nouvel utilisateur arrive sur la plateforme sans aucun historique. Le filtrage collaboratif ne peut pas fonctionner car il n’existe aucun utilisateur « similaire » auquel le comparer (pas de vecteur d’interactions). C’est le cas le plus fréquent : chaque plateforme accueille en permanence de nouveaux utilisateurs.
L’impact est direct et mesurable : si les premières recommandations sont mauvaises, l’utilisateur quitte la plateforme. Les études montrent que la qualité des recommandations pendant les 5 premières interactions est un prédicteur fort de la rétention à long terme. Le cold start utilisateur est donc un problème business critique, pas seulement un défi technique.
Cold start article (Item Cold Start)
Un nouvel article est ajouté au catalogue sans aucune interaction. Le filtrage collaboratif ne peut pas le recommander car personne ne l’a encore évalué ou consommé. C’est un problème croissant avec l’explosion des catalogues : Spotify ajoute environ 100 000 morceaux par jour, YouTube reçoit 500 heures de vidéo par minute, et les plateformes e-commerce intègrent des milliers de nouveaux produits quotidiennement.
L’enjeu est double. Pour la plateforme : un article invisible ne génère pas de revenus. Pour les créateurs : un nouvel artiste ou un petit éditeur ne sera jamais découvert si le système ne peut pas recommander son contenu. C’est le problème de la « longue traîne » (long tail) : la majorité du catalogue reste invisible car seuls les articles populaires (avec beaucoup d’interactions) sont recommandés.
Cold start système (System Cold Start)
Le cas le plus extrême : le système de recommandation lui-même est nouveau, sans aucune donnée d’interaction. C’est le cas du lancement d’une nouvelle plateforme ou d’un nouveau service. Il n’y a ni utilisateurs, ni interactions, ni modèle entraîné. LLMTreeRec (COLING 2025, déployé chez Huawei) cible spécifiquement ce scénario en utilisant les LLM comme recommandeurs zero-shot qui n’ont besoin d’aucune donnée d’entraînement du système.
Solutions classiques
Filtrage par contenu (Content-Based)
Le filtrage par contenu est la solution la plus naturelle pour le cold start article. Si un nouveau film est un thriller américain avec tel acteur et tel réalisateur, le système peut le recommander aux utilisateurs qui ont aimé des films similaires, sans aucune donnée d’interaction. Pour le cold start utilisateur, on peut demander quelques préférences initiales (genres favoris, films déjà vus) et construire un profil à partir des features de contenu.
Limite : la qualité dépend de la richesse des métadonnées. Si les métadonnées sont pauvres (pas de description, genre générique), les recommandations seront médiocres.
Recommandations par popularité
Recommander les articles les plus populaires (les plus vus, les mieux notés) est une stratégie simple mais efficace en cold start. Les contenus populaires ont une probabilité statistiquement plus élevée de plaire à un utilisateur aléatoire. Netflix utilise des listes « Top 10 » et « Trending » comme filet de sécurité pour les nouveaux utilisateurs. C’est une approche non personnalisée, mais elle est bien meilleure que des recommandations aléatoires.
Questionnaires d’accueil (Onboarding)
Demander au nouvel utilisateur ses préférences à l’inscription : genres favoris, artistes aimés, thématiques d’intérêt. Netflix demande de sélectionner quelques titres déjà vus pour construire un profil initial. Spotify propose de choisir des artistes et des genres. Cette approche collecte quelques données explicites qui alimentent immédiatement le moteur de recommandation. Le risque : un questionnaire trop long fait fuir l’utilisateur. L’équilibre est de collecter suffisamment de signal sans créer de friction.
Transfer learning et données croisées
Utiliser des données d’autres domaines ou plateformes pour initialiser le profil. Si un utilisateur se connecte avec son compte Google, ses recherches YouTube et ses avis Google Maps peuvent informer les recommandations Netflix (dans le respect de la vie privée). Le transfer learning permet aussi de transférer des patterns d’une plateforme mature vers une nouvelle (par exemple, transférer les patterns de préférences musicales vers les recommandations de podcasts chez Spotify).
Solutions deep learning
Meta-learning (« apprendre à apprendre »)
Le meta-learning entraîne un modèle qui peut s’adapter rapidement à un nouvel utilisateur avec très peu d’exemples (few-shot learning). MAML (Model-Agnostic Meta-Learning) et ses variantes apprennent des paramètres d’initialisation qui permettent une adaptation en quelques étapes de gradient. Le modèle « apprend à apprendre » les préférences d’un nouvel utilisateur à partir de 3-5 interactions seulement.
Graph Neural Networks
Les GNN peuvent atténuer le cold start en propageant l’information à travers le graphe d’interactions. Un nouvel article connecté à quelques utilisateurs via des métadonnées partagées (même genre, même artiste) peut « hériter » d’embeddings pertinents par propagation de voisinage. Content-based Graph Reconstruction (SIGIR 2024) construit un graphe d’articles basé sur les features de contenu pour recommander les articles cold start.
Apprentissage cross-modal
CMCLRec (SIGIR 2024) utilise l’apprentissage contrastif cross-modal pour le cold start séquentiel : les représentations textuelles et visuelles d’un article permettent de le positionner dans l’espace d’embeddings même sans interaction, en alignant les espaces de différentes modalités.
Données synthétiques et simulation
ColdLLM (WSDM 2025) utilise un LLM pour simuler les interactions que de vrais utilisateurs auraient avec un article cold start. Le LLM, grâce à sa connaissance du monde, prédit quels utilisateurs seraient intéressés par le nouvel article et génère des interactions synthétiques. Ces interactions simulées sont ensuite injectées dans le système de recommandation classique pour initialiser l’embedding de l’article. Le système a été déployé en production dans un environnement à l’échelle du milliard d’utilisateurs.
LLM : la révolution du cold start
Les Large Language Models sont devenus l’axe de recherche le plus actif pour résoudre le cold start. Un survey complet publié en janvier 2025 (arXiv) par Zhang et al. (18 auteurs) et une review systématique publiée en février 2026 (Wiley Interdisciplinary Reviews) documentent cette transformation. La review de 2026 organise les solutions en quatre paradigmes : contenu, structure, transfert et génération.
Recommandation zero-shot
Les LLM peuvent recommander sans aucune donnée d’entraînement spécifique au système. On décrit les articles et les préférences connues de l’utilisateur en langage naturel, et le LLM infère les recommandations à partir de sa connaissance du monde. LLMTreeRec (COLING 2025) structure les articles dans un arbre pour optimiser la recherche par le LLM, atteignant des performances compétitives avec les systèmes deep learning conventionnels entraînés sur de grandes quantités de données. Le système a été déployé en production chez Huawei.
Des travaux récents (Frontiers in AI, mars 2026) montrent que même des « petits » LLM (Gemma 2B, Danube 1.8B) peuvent servir de recommandeurs cold start efficaces, avec une latence de 34 à 60 ms par token et seulement 5,2 Go de mémoire GPU. L’avantage : leur empreinte mémoire reste constante quelle que soit la taille du catalogue (contrairement aux modèles à embeddings classiques dont la mémoire croît linéairement).
Raisonnement LLM pour le cold start
Netflix a publié en janvier 2026 des travaux (WWW 2026) sur l’utilisation du raisonnement LLM pour les recommandations cold start. L’approche utilise des stratégies de raisonnement multi-chemins : le LLM construit plusieurs « chemins de raisonnement » à partir de différents aspects des préférences utilisateur, pondère leur importance, puis agrège les scores pour chaque article candidat.
Les résultats sont remarquables : le modèle fine-tuné avec SFT (Supervised Fine-Tuning) + GRPO (Reinforcement Learning) surpasse le modèle de production de Netflix de 8 % sur la métrique Discovery en conditions warm-start, malgré un entraînement sur seulement quelques milliers d’exemples (contre des centaines de millions pour le modèle de production). En cold start, les gains sont encore plus significatifs car les modèles traditionnels sont particulièrement défaillants.
Enrichissement sémantique
Le Netflix Foundation Model résout le cold start article via des embeddings sémantiques : chaque nouveau titre reçoit une représentation initiale basée sur ses métadonnées (genre, pays, casting, synopsis). Cette représentation est générée par un modèle qui encode les features textuelles et catégorielles. Au fur et à mesure que l’article accumule des interactions, son embedding est affiné par entraînement incrémental, sans nécessiter de recalcul complet du modèle.
Spotify utilise une approche similaire avec ses Semantic IDs : chaque nouvel artiste, podcast ou audiobook est encodé en tokens sémantiques discrets (via signaux textuels et comportementaux), ajoutés au vocabulaire d’un LLM fine-tuné. L’article peut être recommandé dès son ajout au catalogue, avant toute interaction.
Intégration de texte dans la factorisation
RDNMF (Reviews and Descriptions Neural Matrix Factorization, publié début 2026) combine le texte des avis utilisateurs et les descriptions d’articles avec la factorisation matricielle via BERT. Les embeddings textuels pré-entraînés initialisent les facteurs latents des nouveaux articles, permettant au modèle de recommander des articles avec description mais sans interaction.
Taxonomie des approches (review 2026)
La review systématique de février 2026 (Wiley) organise les solutions au cold start en quatre paradigmes complémentaires :
| Paradigme | Source d’information | Techniques | Forces |
|---|---|---|---|
| Contenu | Features des articles/utilisateurs | Embeddings textuels, CNN visuels, analyse audio, NLP | Pas besoin d’interactions, exploite les métadonnées |
| Structure | Graphe d’interactions et de relations | GNN, propagation de voisinage, knowledge graphs | Propage l’information vers les nœuds cold start |
| Transfert | Connaissances d’autres domaines/tâches | Transfer learning, meta-learning, LLM pré-entraînés | Exploite les connaissances du monde, zero-shot possible |
| Génération | Données synthétiques créées par IA | LLM simulateurs (ColdLLM), augmentation par diffusion, VAE | Crée des interactions plausibles pour initialiser les embeddings |
La review conclut qu’aucune solution universelle n’existe. L’efficacité dépend du paradigme dominant dans le scénario spécifique, de la disponibilité des données et du coût computationnel. La combinaison deep learning + LLM offre les meilleures opportunités, mais des lacunes persistent : absence de métriques d’évaluation standardisées et exploration limitée des stratégies d’intégration.
Cas pratiques
Netflix
Netflix combine plusieurs stratégies. L’onboarding demande de sélectionner des titres déjà vus. Les listes « Top 10 » et « Trending » couvrent les nouveaux utilisateurs. Le Foundation Model initialise les embeddings des nouveaux titres via métadonnées sémantiques. Les modèles de raisonnement LLM (WWW 2026) améliorent la Discovery de 8 %. La personnalisation des vignettes (thumbnails) différentes selon les profils commence dès les premières interactions.
Spotify
Spotify utilise l’analyse audio (12 features perceptuelles + embeddings CNN) pour positionner les nouveaux morceaux dans l’espace de contenu. Les Semantic IDs encodent chaque entité du catalogue en tokens discrets pour un LLM fine-tuné. Le filtrage collaboratif enrichi par l’analyse de contenu recommande les morceaux de nouveaux artistes dès leur publication. L’onboarding demande de sélectionner des artistes et des genres.
E-commerce
Les plateformes e-commerce (Amazon, Alibaba) gèrent un flux constant de nouveaux produits. Les embeddings visuels (CNN sur les photos produits) et textuels (descriptions) permettent de positionner les nouveaux articles. Les stratégies de « boosting » exposent temporairement les nouveaux produits à un panel d’utilisateurs pour collecter rapidement des interactions. FilterLLM (2025) convertit les descriptions textuelles en distributions de préférences utilisateur à l’échelle du milliard d’articles.
Huawei (déploiement industriel)
LLMTreeRec, déployé en production chez Huawei, structure l’ensemble du catalogue dans un arbre d’articles pour que le LLM puisse naviguer efficacement. Le système fonctionne en cold start système complet (pas de données d’entraînement) et a surpassé le modèle baseline dans les tests A/B en production. C’est l’un des premiers déploiements industriels documentés d’un LLM pour le cold start à grande échelle.
Défis ouverts
Évaluation. Il n’existe pas de métriques standardisées pour évaluer les systèmes de recommandation en cold start. Les métriques classiques (NDCG, Precision@K) sont calculées sur des données de test avec des utilisateurs et articles « chauds ». Évaluer le cold start nécessite des protocoles spécifiques (isoler les nouveaux utilisateurs/articles dans le test set), ce qui rend les comparaisons entre études difficiles.
Latence et coût computationnel. Les solutions LLM sont plus lentes et plus coûteuses que les modèles d’embeddings classiques. Un LLM à 2 milliards de paramètres nécessite ~5 Go de GPU et produit des tokens à 30-60 ms chacun. Pour un système servant des millions de requêtes par seconde, le coût peut être prohibitif. Les approches de distillation (transférer la connaissance du LLM vers un modèle plus petit) sont un axe de recherche actif.
Qualité des métadonnées. Le filtrage par contenu et les approches LLM dépendent de la qualité des descriptions et métadonnées. Sur les plateformes où les vendeurs remplissent eux-mêmes les fiches produits (marketplaces), les descriptions sont souvent incomplètes, mal catégorisées ou trompeuses. Le nettoyage et l’enrichissement automatique des métadonnées par LLM est une pré-condition à l’efficacité des solutions cold start.
Vie privée et biais. Le transfert de données entre domaines (pour le cold start cross-domain) pose des questions de vie privée. L’apprentissage fédéré est exploré pour entraîner des modèles sans centraliser les données. Par ailleurs, les recommandations en cold start basées sur la popularité renforcent le biais de Matthew (les riches s’enrichissent) au détriment de la découverte de contenu de niche.
Verdict
Le cold start est le problème le plus ancien et le plus persistant des systèmes de recommandation. Malgré deux décennies de recherche, il n’est toujours pas « résolu ». Ce qui a changé en 2025-2026, c’est l’arrivée des LLM comme outil polyvalent : recommandeurs zero-shot en cold start système, enrichisseurs de métadonnées pour le cold start article, et raisonneurs pour le cold start utilisateur.
Les résultats sont impressionnants. Netflix démontre que le raisonnement LLM surpasse son modèle de production (entraîné sur des centaines de millions d’exemples) avec seulement quelques milliers d’exemples. LLMTreeRec fonctionne en production chez Huawei en cold start complet. Même les petits LLM (2B paramètres) sont compétitifs avec les systèmes deep learning conventionnels.
Mais le cold start ne sera jamais totalement éliminé. Il est inhérent à la nature même de la recommandation : recommander nécessite de la connaissance, et la connaissance nécessite des données. Les LLM apportent une base de connaissance du monde qui réduit considérablement le manque de données spécifiques, mais ils ne remplacent pas l’information que seules les interactions réelles fournissent. L’approche gagnante en 2026 : combiner les paradigmes (contenu + structure + transfert + génération) selon le contexte, avec les LLM comme couche transversale qui enrichit chaque paradigme.
Questions fréquentes sur le cold start problem
Pourquoi le cold start est-il si difficile à résoudre ?
Le cold start est fondamentalement un problème de manque d’information. Le filtrage collaboratif, la technique de recommandation la plus puissante, repose sur les patterns de co-consommation entre utilisateurs. Sans interactions, ces patterns n’existent pas. C’est comme essayer de deviner les goûts culinaires de quelqu’un sans jamais l’avoir vu manger. Les solutions existent (demander ses préférences, analyser le contenu, transférer des connaissances), mais aucune ne compense totalement l’absence de données comportementales réelles. C’est pourquoi la qualité de recommandation s’améliore toujours avec le nombre d’interactions, même avec les meilleures solutions cold start.
Les LLM résolvent-ils le cold start ?
Ils l’atténuent considérablement mais ne l’éliminent pas. Les LLM apportent une « connaissance du monde » qui permet de recommander sans données d’interaction spécifiques. LLMTreeRec (déployé chez Huawei) fonctionne en cold start complet. Les modèles Netflix surpassent le modèle de production de 8 % en cold start. Mais les LLM ont des limites : ils ne connaissent pas les goûts spécifiques d’un utilisateur individuel, ils coûtent cher à exécuter, et leur « connaissance du monde » peut être obsolète ou biaisée. La meilleure approche combine LLM (pour l’initialisation) avec des modèles traditionnels (qui prennent le relais dès que des interactions sont disponibles).
Comment Netflix gère-t-il les nouveaux titres (cold start article) ?
Netflix utilise une approche en trois couches. D’abord, le Foundation Model initialise l’embedding du nouveau titre à partir de ses métadonnées (genre, pays, casting, synopsis, vignettes) via un encodeur sémantique. Ensuite, le titre est exposé à un panel ciblé d’utilisateurs (boosting) pour collecter rapidement des interactions réelles. Enfin, l’embedding est affiné par entraînement incrémental au fur et à mesure que les interactions s’accumulent, sans recalcul complet du modèle. Les stratégies de raisonnement LLM (WWW 2026) améliorent encore les recommandations pour les titres avec peu d’interactions.
Quelle est la différence entre cold start et data sparsity ?
Le cold start concerne les entités (utilisateurs ou articles) avec zéro ou très peu d’interactions. La data sparsity (parcimonie des données) est un problème plus large : même pour les utilisateurs existants, la matrice d’interactions est extrêmement creuse (typiquement 1-5 % de remplissage). Un utilisateur Netflix avec 50 films vus sur 15 000 n’est pas « cold start » mais ses données restent très parcimonieuses. La factorisation matricielle et les autoencoders traitent la parcimonie en apprenant des représentations denses. Le cold start est un cas extrême de parcimonie où les données sont insuffisantes pour apprendre une représentation individuelle.
Comment évaluer un système de recommandation en cold start ?
L’évaluation du cold start nécessite des protocoles spécifiques. Pour le cold start utilisateur : isoler les utilisateurs avec moins de N interactions dans le test set et mesurer NDCG@K et Hit Rate sur ces utilisateurs uniquement. Pour le cold start article : masquer les interactions des articles récemment ajoutés et mesurer si le système les recommande aux bons utilisateurs. Pour le cold start système : évaluer en zero-shot, sans aucune donnée d’entraînement du domaine cible. Les tests A/B en production restent l’évaluation la plus fiable (comme LLMTreeRec chez Huawei). La review Wiley de 2026 souligne l’absence de métriques standardisées comme un frein majeur à la comparaison entre études.