Recommendation System (Système de Recommandation)

Un système de recommandation (recommendation system ou recommender system) est un algorithme d’intelligence artificielle qui prédit les préférences d’un utilisateur pour lui suggérer des contenus, produits ou services pertinents, en analysant ses comportements passés et ceux d’utilisateurs similaires.

Quand Netflix vous propose un film, quand Spotify crée votre Discover Weekly, quand Amazon affiche « Les clients ayant acheté cet article ont également acheté… », c’est un système de recommandation à l’œuvre. Ces systèmes pilotent 80 % des contenus visionnés sur Netflix et représentent 35 % du chiffre d’affaires d’Amazon. Le marché mondial des systèmes de recommandation basés sur l’IA devrait atteindre 3,62 milliards de dollars d’ici 2029, en partant de 2,44 milliards en 2025. En 2026, la tendance majeure est l’adoption de modèles de fondation (foundation models) inspirés des LLM, où Netflix traite l’historique de chaque utilisateur comme une « phrase » et ses interactions comme des « mots » pour prédire la prochaine action.

Définition: IA qui prédit les préférences utilisateur pour personnaliser les suggestions
Approches classiques: Filtrage collaboratif, filtrage par contenu, hybride
Approches modernes: Deep learning, factorisation matricielle, Transformers, LLM, GNN
Marché: ~2,44 Mds $ (2025), objectif 3,62 Mds $ (2029), TCAC 8,6 %
Acteurs: Netflix, Spotify, YouTube, Amazon, TikTok, LinkedIn, Uber
Conférence clé: ACM RecSys (annuelle, dernière édition Prague 2025)

Les trois approches fondamentales

Filtrage collaboratif (Collaborative Filtering)

Le filtrage collaboratif repose sur l’hypothèse que des utilisateurs aux comportements similaires auront des préférences similaires. Si l’utilisateur A et l’utilisateur B ont aimé les mêmes films, et que A a aimé un film que B n’a pas vu, le système recommande ce film à B.

Deux variantes existent. Le filtrage collaboratif « user-based » compare les utilisateurs entre eux. Le filtrage collaboratif « item-based » compare les articles entre eux (deux films sont similaires si les mêmes personnes les ont aimés). En pratique, l’approche item-based est plus stable et scalable car le catalogue d’articles évolue moins vite que la base d’utilisateurs.

Le filtrage collaboratif est l’approche qui a rendu Spotify célèbre. Elle ne nécessite aucune connaissance du contenu : pas besoin de savoir qu’un morceau est du jazz ou du rock, il suffit de savoir qui l’écoute. Son principal inconvénient : le problème du démarrage à froid (impossible de recommander un article que personne n’a encore évalué).

Filtrage par contenu (Content-Based Filtering)

Le filtrage par contenu recommande des articles similaires à ceux que l’utilisateur a déjà aimés, en analysant les caractéristiques intrinsèques des articles (genre, acteurs, durée pour un film ; tempo, tonalité, énergie pour un morceau musical). Il ne dépend pas des comportements d’autres utilisateurs et peut donc recommander des articles nouveaux (pas de cold start sur les articles).

Son inconvénient : il tend à enfermer l’utilisateur dans une « bulle de filtres » en ne recommandant que des articles très similaires à ce qu’il connaît déjà (sur-spécialisation).

Approches hybrides

En pratique, tous les systèmes de recommandation modernes sont hybrides : ils combinent filtrage collaboratif et filtrage par contenu, souvent complétés par des signaux contextuels (heure, appareil, localisation, météo). Netflix, Spotify, YouTube et Amazon utilisent tous des systèmes hybrides. La question n’est plus « quel type de filtrage utiliser ? » mais « comment combiner les signaux de la façon la plus efficace possible ? ».

L’évolution technologique

Factorisation matricielle (2006-2015)

La factorisation matricielle a marqué un tournant avec le Netflix Prize (2006-2009). La matrice utilisateurs × articles (très creuse : chaque utilisateur n’a noté qu’une infime fraction des articles) est décomposée en deux matrices de faible rang, révélant des « facteurs latents » qui capturent les préférences implicites. SVD (Singular Value Decomposition) et SVD++ sont les techniques fondatrices. Cette approche reste utilisée en production chez Netflix.

Deep learning (2015-2023)

Le deep learning a multiplié les possibilités. Les principales architectures utilisées dans les systèmes de recommandation :

Architecture	Application RecSys	Exemple
Autoencoders	Apprendre des représentations latentes des préférences utilisateur	AutoRec, variational autoencoders pour RecSys
CNN	Analyser le contenu visuel (images de produits, pochettes)	Recommandations mode, déco
RNN / LSTM / GRU	Modéliser les séquences d’interactions (sessions de navigation)	GRU4Rec (session-based), SASRec
Factorization Machines	Capturer les interactions entre features de faible et haut ordre	DeepFM (CTR prediction pour la publicité)
Transformers	Modéliser les relations à longue portée dans les séquences d’interactions	SASRec, BERT4Rec, Netflix Foundation Model
Graph Neural Networks	Modéliser le graphe utilisateurs-articles-interactions	PinSage (Pinterest), LightGCN

DeepFM (Factorization Machine + réseau de neurones profond) est devenu un standard pour la prédiction de taux de clic (CTR) dans la publicité en ligne. GRU4Rec a établi le paradigme des recommandations basées sur les sessions (un utilisateur anonyme dont on ne connaît que les derniers clics). SASRec (Self-Attentive Sequential Recommendation) a démontré que les mécanismes d’attention des Transformers surpassaient les RNN pour la recommandation séquentielle.

L’ère des Foundation Models et LLM (2024-présent)

La tendance la plus marquante de 2025-2026 est l’adoption des architectures de type LLM par les systèmes de recommandation. L’idée : traiter l’historique complet d’un utilisateur comme une séquence de « tokens » (ses interactions) et entraîner un modèle de fondation par prédiction auto-régressive du prochain token, exactement comme un LLM prédit le prochain mot.

Netflix Foundation Model (2025-2026) Netflix a développé un modèle de fondation basé sur les Transformers qui unifie des dizaines de modèles spécialisés en un seul. Chaque interaction utilisateur (lecture, recherche, pause, défilement) devient un token enrichi de métadonnées (heure, appareil, durée, localisation). Le modèle est entraîné par apprentissage auto-supervisé sur des centaines de milliards d’interactions. Les tests montrent une hausse de 15 % du taux de complétion sur les contenus de niche. Netflix a aussi résolu le problème du cold start via des embeddings sémantiques : le contenu nouveau reçoit une représentation basée sur ses métadonnées (genre, pays, casting), qui est affinée au fur et à mesure des interactions. Netflix a publié en février 2026 un article détaillant l’intégration de ce modèle dans la page d’accueil et la recherche.

Spotify adapte des LLM open-weight (LLaMA) à son domaine en introduisant une « tokenisation sémantique » : chaque entité du catalogue (artiste, épisode de podcast, audiobook) est convertie en « semantic ID » via hachage sensible à la localité (LSH) et ajoutée au vocabulaire du LLM fine-tuné. Cela débloque le séquencement de playlists, les recommandations de podcasts personnalisées, et la recherche sémantique dans le catalogue pour plus de 600 millions d’utilisateurs.

À RecSys 2025 (Prague), la keynote de Jure Leskovec (Stanford) a porté sur les « Relational Foundation Models » (RFM) : un modèle unique capable d’alimenter des prédictions dans des dizaines de cas d’usage, du taux de clic à l’engagement sur le contenu. La keynote de Xavier Amatriain (VP AI Products, Google) a souligné l’importance des feedbacks négatifs et de la qualité des données, rappelant que les progrès viennent autant de la data que des modèles.

Les défis fondamentaux

Le problème du démarrage à froid (Cold Start)

Le cold start est le talon d’Achille de tout système de recommandation. Un nouvel utilisateur n’a pas d’historique. Un nouvel article n’a pas d’interactions. Comment recommander dans ces situations ? Les approches modernes combinent : des embeddings sémantiques du contenu (métadonnées, descriptions, visuels) pour les articles nouveaux, des modèles démographiques ou contextuels pour les utilisateurs nouveaux, et l’apprentissage à partir de très peu d’interactions (few-shot). Un survey complet publié début 2025 recense les approches LLM pour le cold start, montrant que les LLM peuvent exploiter les descriptions textuelles d’articles pour générer des représentations utiles sans aucune donnée d’interaction.

Feedback implicite vs explicite

Le feedback implicite (clics, temps de visionnage, scrolls, achats) est bien plus abondant que le feedback explicite (notes, likes, avis écrits). Mais il est aussi plus bruité : un clic ne signifie pas toujours un intérêt, et un non-clic ne signifie pas toujours un désintérêt (l’utilisateur n’a peut-être simplement pas vu l’article). Les modèles doivent apprendre à distinguer le signal du bruit. Netflix traite le problème en modélisant chaque interaction avec des « post-action features » (durée de visionnage, reprise ou abandon) qui enrichissent la supervision.

Bulle de filtres et diversité

Un système trop performant enferme l’utilisateur dans une bulle : il ne voit que du contenu similaire à ce qu’il consomme déjà, sans découverte. Les systèmes modernes intègrent des mécanismes de diversité et d’exploration (sérendipité) pour exposer les utilisateurs à du contenu nouveau. L’apprentissage par renforcement (reinforcement learning) est particulièrement adapté car il peut optimiser l’engagement à long terme (pas seulement le clic immédiat) en explorant des recommandations moins évidentes.

Scalabilité et latence

Netflix sert plus de 300 millions d’utilisateurs avec un catalogue de plus de 15 000 titres. Spotify gère 600 millions d’utilisateurs et un catalogue de plus de 100 millions de morceaux. Les recommandations doivent être générées en quelques millisecondes, ce qui impose des contraintes sévères sur la taille et la complexité des modèles. Netflix note que contrairement aux LLM qui tolèrent des secondes de latence, les systèmes de recommandation exigent une latence de l’ordre de la milliseconde, ce qui limite le scaling des modèles.

Équité et biais

Les systèmes de recommandation peuvent amplifier les biais présents dans les données : surreprésenter les artistes populaires, sous-recommander les créateurs issus de minorités, ou renforcer des stéréotypes de consommation. Les « fairness-aware recommender systems » intègrent des contraintes d’équité dans l’entraînement et l’évaluation, un axe de recherche actif documenté dans un survey complet publié en 2025-2026.

Applications par secteur

Secteur	Exemples	Spécificité
Streaming vidéo	Netflix, YouTube, Disney+	Foundation models, recommandation séquentielle, thumbnails personnalisés
Streaming audio	Spotify, Apple Music, Deezer	Filtrage collaboratif + analyse audio + LLM, playlists automatiques
E-commerce	Amazon, Alibaba, Zalando	Cross-selling, upselling, prédiction CTR, recommandations visuelles
Réseaux sociaux	TikTok, Instagram, LinkedIn	Feed ranking, recommandation de connexions, viralité
Publicité	Google Ads, Meta Ads, Taboola	Prédiction CTR, attribution, retargeting
Santé	Recommandation de traitements, parcours patient	Contraintes d’explicabilité, enjeux éthiques forts
Finance	Recommandation de produits financiers, détection de fraude	Réglementation stricte, données sensibles

Pipeline d’un système de recommandation en production

Un système de recommandation en production ne se résume pas à un seul modèle. C’est un pipeline en plusieurs étapes, chacune avec ses propres contraintes de latence et de scalabilité.

Étape 1 : Candidate Generation (génération de candidats). Parmi des millions d’articles, le système présélectionne quelques centaines de candidats potentiellement intéressants pour l’utilisateur. C’est la phase de filtrage grossier, qui doit être rapide. Les approches typiques : recherche par plus proches voisins dans un espace d’embeddings (Approximate Nearest Neighbor, ANN), filtrage collaboratif léger, ou règles métier simples.

Étape 2 : Ranking (classement). Les candidats sélectionnés sont classés par un modèle plus sophistiqué (deep learning, Transformer) qui prédit un score de pertinence pour chaque candidat. C’est la phase la plus coûteuse en calcul, mais elle ne porte que sur quelques centaines d’articles au lieu de millions.

Étape 3 : Re-ranking (re-classement). Le classement est ajusté pour intégrer des contraintes business : diversité (ne pas montrer 10 films du même genre), fraîcheur (promouvoir le contenu récent), équité (exposition des créateurs), et cohérence de la page (alterner les formats). C’est aussi là qu’interviennent les filtres de contenu inapproprié.

Étape 4 : Serving et personnalisation de la présentation. Les recommandations sont servies à l’utilisateur avec une présentation personnalisée. Netflix personnalise même les vignettes (thumbnails) : la même série peut être présentée avec une image d’action à un utilisateur et une image romantique à un autre, selon leurs préférences visuelles.

Ce pipeline en cascade permet de traiter des catalogues de millions d’articles avec une latence de quelques dizaines de millisecondes. YouTube, par exemple, utilise un premier modèle (candidate generation) qui réduit des dizaines de millions de vidéos à quelques centaines, puis un second modèle (ranking) qui produit le classement final affiché à l’utilisateur.

Métriques d’évaluation

L’évaluation des systèmes de recommandation utilise des métriques spécifiques. La recherche distingue deux tâches principales : la prédiction de notes (rating prediction, évaluée par RMSE, MAE) et le classement top-N (top-N ranking, évalué par Precision@K, Recall@K, NDCG, Hit Rate, MAP). En production, les métriques business prennent le dessus : taux de clic (CTR), taux de conversion, temps de session, taux de rétention, et revenu par utilisateur.

L’évaluation offline (sur des données historiques) ne suffit pas : un modèle qui performe bien offline peut échouer en A/B test live parce qu’il ne capture pas les effets de rétroaction (le modèle influence ce que l’utilisateur voit, ce qui modifie son comportement). L’évaluation hors-ligne avec des estimateurs off-policy (inverse probability weighting) est un axe de recherche actif chez Netflix pour réduire cet écart.

Verdict

Les systèmes de recommandation sont probablement l’application de l’IA la plus rentable qui existe. Ils génèrent directement du revenu (chaque recommandation pertinente est un achat ou un visionnage de plus) et touchent des milliards d’utilisateurs quotidiennement. La compétition est féroce : quelques pourcents d’amélioration sur le taux de rétention valent des millions de dollars pour Netflix ou Spotify.

L’évolution vers les foundation models (Netflix Foundation Model, Spotify avec LLaMA) est le changement architecturall le plus significatif depuis la factorisation matricielle du Netflix Prize. L’idée de traiter les interactions utilisateur comme un « langage » et d’appliquer les techniques de LLM est élégante et performante. Elle unifie des dizaines de modèles spécialisés en un seul, simplifie le système et permet le transfer learning entre tâches.

Pour un développeur IA, les systèmes de recommandation sont un excellent terrain d’apprentissage. Ils couvrent le filtrage collaboratif, la factorisation matricielle, le deep learning (autoencoders, RNN, Transformers, GNN), le reinforcement learning, et maintenant les LLM. Les datasets publics (MovieLens, Amazon Reviews, Criteo) permettent de démarrer rapidement, et les postes en RecSys sont parmi les mieux rémunérés de l’industrie tech.

Questions fréquentes sur les systèmes de recommandation

Comment Netflix recommande-t-il des films ?

Netflix utilise un modèle de fondation basé sur les Transformers qui traite l’historique complet de chaque utilisateur (visionnages, recherches, pauses, défilements) comme une séquence de tokens. Le modèle, entraîné par apprentissage auto-supervisé sur des centaines de milliards d’interactions, prédit la prochaine action de l’utilisateur. En parallèle, Netflix utilise la factorisation matricielle (SVD++), le reinforcement learning pour adapter l’interface en temps réel, et des réseaux de neurones profonds pour le traitement à grande échelle. Environ 80 % des contenus visionnés sur Netflix proviennent de recommandations. Le modèle gère le cold start (contenu nouveau) via des embeddings sémantiques basés sur les métadonnées du titre (genre, pays, casting).

Quelle est la différence entre filtrage collaboratif et filtrage par contenu ?

Le filtrage collaboratif recommande en se basant sur les comportements d’utilisateurs similaires (« les gens qui ont aimé X ont aussi aimé Y »). Il ne nécessite aucune connaissance du contenu mais souffre du cold start. Le filtrage par contenu recommande en se basant sur les caractéristiques intrinsèques des articles (genre, auteur, style) par rapport au profil de l’utilisateur. Il peut recommander des articles nouveaux mais tend à enfermer l’utilisateur dans une bulle. En pratique, tous les systèmes modernes sont hybrides et combinent les deux approches.

Les LLM remplacent-ils les systèmes de recommandation traditionnels ?

Pas exactement : ils les englobent. Netflix et Spotify adoptent des architectures de type LLM (Transformers auto-régressifs) comme « modèle de fondation » qui unifie plusieurs modèles spécialisés. Le modèle de fondation traite toutes les interactions utilisateur comme une séquence, exactement comme un LLM traite du texte. Mais les systèmes de recommandation ont des contraintes spécifiques que les LLM standard ne gèrent pas : latence en millisecondes (vs secondes pour ChatGPT), vocabulaire dynamique (de nouveaux articles chaque jour), et feedback implicite bruité. Les LLM sont aussi explorés pour le cold start (exploiter les descriptions textuelles d’articles) et l’explicabilité (générer des explications en langage naturel des recommandations). À RecSys 2025, les LLM étaient le sujet dominant.

Qu’est-ce que le problème du cold start ?

Le cold start désigne l’incapacité d’un système de recommandation à faire des prédictions quand il manque d’informations. Trois cas : un nouvel utilisateur (pas d’historique d’interactions), un nouvel article (personne ne l’a encore consommé), ou un nouveau système (pas de données du tout). Les solutions modernes incluent : des embeddings sémantiques basés sur les métadonnées (Netflix), des LLM qui exploitent les descriptions textuelles, des questionnaires d’accueil (préférences initiales), et du transfer learning depuis d’autres domaines ou plateformes.

Comment évaluer un système de recommandation ?

L’évaluation se fait à deux niveaux. Offline : sur des données historiques, avec des métriques comme NDCG (Normalized Discounted Cumulative Gain), Precision@K, Recall@K et Hit Rate pour le classement top-N, ou RMSE et MAE pour la prédiction de notes. Online : via des tests A/B en production, mesurant des métriques business (taux de clic, taux de conversion, durée de session, rétention). L’évaluation offline est nécessaire mais insuffisante : un modèle excellent offline peut échouer en production à cause des effets de rétroaction. Netflix utilise des estimateurs off-policy pour réduire cet écart, et la tendance à RecSys 2025 est vers des évaluations « fuzzy » plus proches du produit réel.