Content-Based Filtering (Filtrage par Contenu)

Le filtrage par contenu (content-based filtering, CBF) est une technique de système de recommandation qui suggère des articles similaires à ceux qu’un utilisateur a déjà appréciés, en analysant les caractéristiques intrinsèques des articles (texte, audio, image, métadonnées) plutôt que les comportements d’autres utilisateurs.

Quand Spotify vous recommande un morceau « parce que vous avez écouté » un artiste donné, c’est du filtrage par contenu : le système a analysé les caractéristiques audio (tempo, énergie, tonalité) et les métadonnées (genre, artiste, époque) du morceau que vous avez écouté, puis cherche des morceaux aux caractéristiques similaires. Contrairement au filtrage collaboratif (qui se base sur les comportements d’utilisateurs similaires), le filtrage par contenu ne nécessite pas de données d’autres utilisateurs. C’est son principal avantage : il peut recommander un article dès sa publication, même si personne ne l’a encore consommé. C’est sa réponse au problème du cold start.

Définition: Recommandation basée sur la similarité entre les caractéristiques des articles et le profil de préférences de l’utilisateur
Données requises: Caractéristiques des articles (texte, audio, image, métadonnées) + historique de l’utilisateur
Techniques clés: TF-IDF, embeddings, CNN pour images, analyse audio, NLP, LLM
Forces: Pas de cold start article, pas besoin d’autres utilisateurs, explicable
Faiblesses: Sur-spécialisation (bulle de filtres), nécessite des features riches
Utilisé par: Spotify (audio + métadonnées), YouTube (vidéo + texte), Netflix (métadonnées + thumbnails)

Principe de fonctionnement

Le filtrage par contenu repose sur deux composantes : un profil article (item profile) qui décrit les caractéristiques de chaque article, et un profil utilisateur (user profile) qui représente les préférences de l’utilisateur, construit à partir des articles qu’il a consommés.

Le processus se déroule en trois étapes. Premièrement, l’extraction de features : chaque article est représenté par un vecteur de caractéristiques (genre, auteur, mots-clés, attributs audio, features visuelles). Deuxièmement, la construction du profil utilisateur : les vecteurs des articles consommés par l’utilisateur sont agrégés (moyenne pondérée, centroïde) pour former un profil de préférences. Troisièmement, le matching : le système calcule la similarité (cosinus, distance euclidienne) entre le profil utilisateur et les profils de tous les articles candidats, puis recommande les plus proches.

Techniques d’extraction de features

Analyse textuelle

Pour les articles à contenu textuel (articles de presse, livres, descriptions de produits, fiches de films), l’extraction de features textuelles est la brique de base.

TF-IDF (Term Frequency-Inverse Document Frequency). Technique classique qui pondère chaque mot par sa fréquence dans le document (TF) divisée par sa fréquence dans l’ensemble du corpus (IDF). Les mots discriminants (qui apparaissent dans peu de documents) reçoivent un poids élevé. TF-IDF reste une baseline solide pour le filtrage par contenu textuel, utilisée en production dans de nombreux systèmes de recherche et de recommandation.

Embeddings de texte. Les modèles de langage modernes (BERT, Sentence Transformers, modèles d’embedding comme BGE de BAAI) convertissent les descriptions textuelles en vecteurs denses de haute dimension. Contrairement à TF-IDF, ces embeddings capturent le sens sémantique : deux descriptions utilisant des mots différents mais exprimant la même idée seront proches dans l’espace d’embedding. C’est le standard actuel pour le filtrage par contenu textuel.

LLM pour l’enrichissement de contenu. Les Large Language Models apportent une dimension supplémentaire. Au lieu de simplement encoder le texte existant, les LLM peuvent générer des descriptions enrichies : extraire les thèmes, le ton, le public cible, ou même inférer des caractéristiques non explicites. Spotify utilise des LLM pour « comprendre » le positionnement culturel d’un morceau au-delà de ses métadonnées brutes. Des travaux de 2025 montrent que les descriptions générées par LLM, combinées aux descriptions originales, améliorent la couverture et la diversité des recommandations par rapport aux descriptions seules.

Analyse audio

Spotify est le cas d’école du filtrage par contenu audio. La plateforme utilise 12 features perceptuelles pour caractériser chaque morceau : danceability (aptitude à danser), energy (intensité), valence (positivité émotionnelle), acousticness, instrumentalness, liveness, speechiness, tempo, loudness, key (tonalité), mode (majeur/mineur) et duration.

Au-delà de ces features de haut niveau, des réseaux de neurones spécialisés analysent directement les spectrogrammes audio. Les architectures comme MusicNN et VGGish extraient des embeddings audio profonds qui capturent des patterns complexes : la texture sonore, les progressions harmoniques, le timbre instrumental. Les modèles contrastifs langage-audio comme CLAP (Contrastive Language-Audio Pretraining) alignent les embeddings audio et textuels dans un espace partagé, permettant de rechercher de la musique à partir de descriptions textuelles (« musique jazz relaxante pour un dimanche matin »).

La classification de genre musical par deep learning a atteint des niveaux de précision remarquables. Des travaux de 2025 utilisant des capsule neural networks ont obtenu une précision de 99,9 % sur la classification de genre, bien que les limites de cette métrique sur des genres ambigus restent discutées. La reconnaissance d’émotions musicales (MER, Music Emotion Recognition) est un axe complémentaire qui intègre les dimensions de valence et d’arousal pour des recommandations basées sur l’humeur.

Analyse visuelle

Les CNN (Convolutional Neural Networks) analysent les images pour recommander des articles visuellement similaires. En e-commerce (mode, décoration, immobilier), un utilisateur qui consulte un canapé bleu mid-century se verra recommander des meubles de style et couleur similaires. Les architectures ResNet et EfficientNet servent de backbone pour l’extraction de features visuelles.

Spotify Research a publié en 2025 (RecSys) une approche utilisant des Multimodal Large Language Models (MLLM) pour analyser les vidéos courtes associées aux morceaux. Le MLLM extrait le texte à l’écran (OCR), identifie les entités et actions en utilisant sa connaissance du monde, et compose des descriptions contextuelles alignées temporellement. Ces descriptions multimodales enrichissent les features de contenu bien au-delà de ce que les features audio ou textuelles seules peuvent capturer.

Approche multimodale

La tendance majeure en 2025-2026 est la fusion multimodale : combiner texte, audio, image et vidéo dans un espace d’embedding partagé. Des travaux récents proposent d’enrichir des embeddings textuels pré-entraînés avec des informations multimodales (audio, images) et des signaux collaboratifs via apprentissage contrastif. Les embeddings résultants sont utilisables à la fois pour la recommandation et la recherche textuelle, ce qui unifie deux fonctionnalités traditionnellement séparées.

Spotify a développé un framework de représentations utilisateur généralisées (RecSys 2025) qui combine un encodeur audio (embeddings directement appris à partir de features audio), des interactions catalogue, et des signaux multi-temporels (court terme, moyen terme, long terme) via un autoencoder. Les embeddings utilisateur résultants alimentent ensuite des modèles de transfer learning légers pour chaque tâche spécifique (recommandation musicale, podcasts, recherche), réduisant la duplication d’efforts entre équipes.

Content-Based vs Collaborative Filtering

Critère	Filtrage par Contenu	Filtrage Collaboratif
Données nécessaires	Caractéristiques des articles + historique individuel	Matrice d’interactions multi-utilisateurs
Cold start article	✅ Peut recommander dès la publication	❌ Nécessite des interactions préalables
Cold start utilisateur	⚠️ Nécessite un minimum d’historique individuel	❌ Impossible sans historique
Sérendipité	❌ Faible (recommande du similaire)	✅ Élevée (peut surprendre)
Explicabilité	✅ Facile (« similaire à ce que vous aimez »)	⚠️ Modérée (« les gens comme vous »)
Bulle de filtres	❌ Risque élevé (sur-spécialisation)	⚠️ Risque modéré (biais de popularité)
Richesse de features	Critique (la qualité dépend des features)	Minimale (seules les interactions suffisent)

En pratique, tout le monde est hybride Aucune plateforme majeure n’utilise le filtrage par contenu seul. Spotify combine analyse audio, métadonnées, NLP/LLM et filtrage collaboratif. Netflix fusionne les embeddings sémantiques de contenu avec son Foundation Model basé sur les interactions. La question n’est jamais « contenu ou collaboratif ? » mais « comment pondérer les deux selon le contexte ? ». Le contenu domine pour les articles nouveaux et les utilisateurs qui explorent, le collaboratif domine pour les patterns établis.

LLM et la renaissance du filtrage par contenu

Les LLM ont considérablement renforcé le filtrage par contenu en 2024-2026. Historiquement, le CBF était considéré comme moins performant que le CF car la qualité des features de contenu était limitée. Les LLM changent la donne sur plusieurs fronts.

Enrichissement automatique des descriptions. Un LLM peut prendre les métadonnées brutes d’un article (titre, genre, date, auteur) et générer une description riche capturant le ton, le public cible, les thèmes, et le contexte culturel. Ces descriptions enrichies, une fois converties en embeddings, sont de bien meilleures features de contenu que les métadonnées brutes seules.

Résolution du cold start. Pour un article entièrement nouveau, le LLM peut inférer ses caractéristiques à partir de sa description, de ses images et de son contexte, sans aucune donnée d’interaction. Netflix utilise cette approche pour initialiser les embeddings de nouveaux titres via leurs métadonnées (genre, pays, casting), qui sont ensuite affinés au fur et à mesure des interactions.

Recommandation conversationnelle. Les systèmes de recommandation conversationnels (CRS) permettent à l’utilisateur de décrire ce qu’il cherche en langage naturel (« je veux quelque chose de léger et drôle pour un soir de semaine »). Le LLM traduit cette intention en un vecteur de préférence dans l’espace de contenu, puis le matching s’effectue par similarité d’embeddings. TALKPLAY (Spotify, 2025) unifie la génération de playlists et le dialogue dans un seul modèle de prédiction de token.

Semantic IDs. Spotify a développé une technique de tokenisation sémantique qui convertit les embeddings de contenu en « Semantic IDs » discrets via une quantification résiduelle sans lookup (Residual Lookup-Free Quantization). Ces IDs compacts sont ajoutés au vocabulaire d’un LLM (LLaMA fine-tuné), permettant au modèle de « parler » le langage du catalogue Spotify. Le modèle peut ensuite séquencer des playlists, recommander des podcasts et fournir des explications en langage naturel des recommandations, le tout dans un cadre unifié.

GNN hybrides : contenu + graphe

Les Graph Neural Networks (GNN) offrent un cadre naturel pour combiner filtrage par contenu et filtrage collaboratif. Dans un graphe biparti utilisateurs-articles, les nœuds articles peuvent être enrichis par des features de contenu (embeddings audio, textuels, visuels). Le GNN propage ensuite ces features à travers les arêtes du graphe (interactions) pour produire des recommandations hybrides.

PinSage (Pinterest) est l’exemple emblématique : il combine des features visuelles (CNN sur les images de pins) avec la structure du graphe d’interaction pour recommander des épingles sur un graphe de 3 milliards de nœuds. Dans le domaine musical, des travaux utilisant PinSage sur un dataset Spotify montrent que les GNN hybrides (contenu + graphe) surpassent les approches purement collaboratives ou purement par contenu sur la tâche de prédiction de morceaux similaires, tout en offrant une meilleure diversité et une meilleure gestion des articles peu populaires (long tail).

Applications concrètes

Musique (Spotify, Apple Music, Deezer). Le filtrage par contenu audio est essentiel pour recommander des morceaux de nouveaux artistes (cold start) et pour les fonctionnalités « radio » (créer une station à partir d’un morceau de référence). Spotify combine 12 features perceptuelles, des embeddings audio profonds (L3-Net, VGGish, MusicNN), des embeddings textuels (paroles, descriptions) et des LLM pour une compréhension multimodale de chaque titre. Les 713 millions d’utilisateurs actifs de Spotify bénéficient de ce système.

Vidéo (YouTube, Netflix, TikTok). YouTube analyse les thumbnails, les titres, les descriptions et les tags pour le filtrage par contenu. Netflix utilise les métadonnées enrichies (genre, pays, casting, résumé) et personnalise même les vignettes affichées selon le profil de l’utilisateur. Spotify Research a récemment démontré l’utilisation de MLLM pour analyser les vidéos courtes et en extraire des descriptions contextuelles riches.

E-commerce (Amazon, Zalando, ASOS). Le filtrage par contenu visuel recommande des produits visuellement similaires. Les CNN extraient des features d’images produits (couleur, forme, style, texture) et les embeddings résultants alimentent la recherche visuelle (« trouver des produits similaires à cette photo ») et la recommandation.

Presse et actualités (Google News, Apple News). Le filtrage par contenu textuel analyse les articles de presse pour recommander des sujets similaires. Les embeddings de texte et le NLP permettent de grouper les articles par thème, de suivre l’évolution d’une actualité, et de personnaliser le fil d’actualités.

Limites et défis

Sur-spécialisation (over-specialization). Le CBF ne recommande que des articles similaires à ceux déjà consommés. Un amateur de rock ne verra que du rock, jamais de jazz ou de classique. C’est la « bulle de filtres » par excellence. Les systèmes modernes contrebalancent ce risque en mélangeant CBF avec CF et en ajoutant des mécanismes d’exploration (epsilon-greedy, Thompson sampling).

Qualité des features. La performance du CBF dépend directement de la qualité et de la richesse des features extraites. Si les métadonnées sont pauvres ou incorrectes (genre mal assigné, description vide), les recommandations seront médiocres. Les LLM atténuent ce problème en enrichissant automatiquement les métadonnées, mais la qualité des données sources reste critique.

Limites de l’analyse de contenu. L’analyse automatique de contenu ne capture pas tout. Un film peut être techniquement similaire à un autre (même genre, même durée, mêmes acteurs) mais avoir un ton radicalement différent. Les features perceptuelles audio de Spotify ne capturent pas le sens des paroles ni le contexte culturel d’un morceau. C’est pourquoi les LLM multimodaux sont si prometteurs : ils apportent la compréhension sémantique que les features numériques seules ne fournissent pas.

Scalabilité du calcul de similarité. Calculer la similarité entre un profil utilisateur et des millions d’articles nécessite des techniques de recherche approximative de plus proches voisins (ANN). Les bibliothèques comme FAISS (Meta), ScaNN (Google) et Annoy (Spotify) permettent de rechercher parmi des centaines de millions de vecteurs en quelques millisecondes.

Verdict

Le filtrage par contenu a longtemps été le parent pauvre des systèmes de recommandation, surpassé par le filtrage collaboratif en précision brute. Les LLM et les embeddings multimodaux changent la donne en 2025-2026. La capacité à comprendre le contenu en profondeur (sémantique textuelle, émotions musicales, contexte visuel, positionnement culturel) rapproche le CBF de la compréhension humaine du contenu.

Le CBF ne remplacera pas le CF, mais il est devenu indispensable dans les systèmes hybrides. Il résout le cold start, apporte l’explicabilité (« parce que ce morceau a une énergie et un tempo similaires »), et complète le CF pour les articles peu populaires (long tail) où les données d’interaction sont insuffisantes. La fusion contenu + collaboratif + GNN + LLM est l’architecture standard des systèmes de recommandation de pointe.

Pour un développeur, le CBF est le point d’entrée le plus accessible : il suffit d’un catalogue avec des descriptions, un modèle d’embedding (Sentence Transformers, modèle d’embedding OpenAI ou open source), et un moteur de recherche vectorielle (FAISS, Pinecone, Weaviate). Vous pouvez construire un système de recommandation par contenu fonctionnel en quelques heures.

Questions fréquentes sur le filtrage par contenu

Comment Spotify analyse-t-il le contenu musical pour recommander ?

Spotify utilise trois couches d’analyse de contenu. Les métadonnées (genre, artiste, année, label) fournies par les artistes eux-mêmes. L’analyse audio avec 12 features perceptuelles (danceability, energy, valence, tempo, etc.) calculées sur le spectrogramme du morceau. Et des embeddings profonds extraits par des CNN spécialisés (MusicNN, VGGish, L3-Net) qui capturent des patterns sonores subtils. Depuis 2025, Spotify intègre également des LLM pour analyser les paroles, les pochettes, les vidéos courtes et le contexte culturel de chaque titre, le tout dans un espace d’embedding partagé. Les Semantic IDs convertissent ces embeddings en tokens discrets intégrés dans un LLM fine-tuné (LLaMA) pour la recommandation conversationnelle et l’explication.

Le filtrage par contenu peut-il fonctionner sans historique utilisateur ?

En théorie, le CBF nécessite un minimum d’historique pour construire un profil utilisateur (savoir ce que l’utilisateur a aimé). Mais en pratique, il peut démarrer plus vite que le CF. Quelques interactions suffisent (3-5 articles consommés) pour construire un profil initial exploitable. Les systèmes conversationnels (CRS) vont encore plus loin : l’utilisateur décrit ce qu’il cherche en langage naturel, et le LLM traduit cette description en préférences de contenu, sans aucun historique nécessaire. C’est l’approche la plus prometteuse pour le cold start utilisateur.

Qu’est-ce que la « bulle de filtres » et comment l’éviter ?

La bulle de filtres (filter bubble) est le phénomène par lequel le CBF enferme l’utilisateur dans un cercle de recommandations de plus en plus similaires à ce qu’il consomme déjà. L’utilisateur ne découvre plus rien de nouveau. Les solutions incluent : combiner le CBF avec du filtrage collaboratif (qui peut recommander du contenu inattendu), ajouter des mécanismes d’exploration aléatoire (epsilon-greedy), optimiser pour l’engagement à long terme via le reinforcement learning (pas seulement le clic immédiat), et intégrer des métriques de diversité dans la fonction d’objectif du modèle. Spotify introduit aussi le profilage multi-dimensionnel : plutôt qu’un seul embedding utilisateur, le système apprend plusieurs embeddings représentant différentes facettes des goûts (un pour le jazz, un pour le hip-hop), activés selon le contexte.

Quelle est la différence entre TF-IDF et les embeddings pour le filtrage par contenu ?

TF-IDF est une représentation éparse basée sur la fréquence des mots. Elle est simple, rapide et interprétable, mais ne capture pas le sens sémantique (deux phrases avec des mots différents mais un sens identique auront des représentations très différentes). Les embeddings (BERT, Sentence Transformers) sont des représentations denses dans un espace vectoriel continu, entraînées pour rapprocher les textes de sens similaire. Ils capturent les synonymes, les paraphrases et les relations sémantiques complexes. En 2026, les embeddings sont le standard pour le CBF textuel. TF-IDF reste utile comme baseline de comparaison et dans les systèmes très contraints en ressources.

Les Semantic IDs de Spotify, c’est quoi exactement ?

Les Semantic IDs sont une technique développée par Spotify Research (publiée en novembre 2025) pour intégrer les entités de son catalogue (artistes, podcasts, épisodes, audiobooks) dans un LLM. Le processus : chaque entité est d’abord encodée en un embedding continu (via des signaux textuels et comportementaux). Cet embedding est ensuite discrétisé en une séquence courte de tokens via une quantification résiduelle sans lookup (Residual LFQ). Ces tokens discrets sont ajoutés au vocabulaire d’un LLM (LLaMA) qui est fine-tuné sur les données de personnalisation Spotify. Le résultat : le LLM peut « parler » le langage du catalogue Spotify, permettant le séquencement de playlists, les recommandations cold start, et les explications en langage naturel des recommandations.