Open-Domain Dialogue

L’open-domain dialogue (dialogue en domaine ouvert) désigne les systèmes conversationnels capables de maintenir une conversation naturelle, engageante et cohérente sur n’importe quel sujet, sans être limités à un domaine spécifique ou à l’accomplissement d’une tâche prédéfinie. L’objectif n’est pas de résoudre un problème, mais de converser de manière fluide et pertinente.

Catégorie: NLP / Systèmes de dialogue / Conversational AI
Aussi appelé: Chit-chat, social dialogue, non-task-oriented dialogue
Approches: LLMs génératifs, retrieval-based, hybride retrieval+génération
Modèles clés: ChatGPT, Claude, Gemini, LLaMA, Qwen, Meena, BlenderBot
Datasets: DailyDialog, PersonaChat, Wizard of Wikipedia, TopicalChat, RealTalk
Métriques: Perplexité, BLEU, éval. humaine (engageance, cohérence, naturalness)
Opposé à: Task-Oriented Dialogue

Open-domain vs. task-oriented : deux philosophies

Un système de dialogue orienté tâche a un objectif mesurable : réserver un restaurant, résoudre un problème technique, traiter une réclamation. La conversation est un moyen au service d’une fin. Un système open-domain n’a pas d’objectif externe. La conversation elle-même est la fin : être intéressant, empathique, informatif, divertissant ou simplement agréable à fréquenter.

Cette distinction, longtemps structurante en recherche, s’estompe avec les LLMs modernes. ChatGPT et Claude gèrent aussi bien une conversation libre qu’une tâche structurée. Ils sont fondamentalement des systèmes open-domain auxquels on peut greffer des capacités orientées tâche (via le function calling, les outils, les system prompts). La convergence entre les deux mondes est l’une des tendances majeures de l’IA conversationnelle.

Évolution historique

Les pionniers (1966-2010)

ELIZA (1966, MIT) est le premier système de dialogue open-domain. Créé par Joseph Weizenbaum, il simulait un psychothérapeute en reformulant les phrases de l’utilisateur sous forme de questions. Malgré sa simplicité (pattern matching), il a provoqué un phénomène inattendu : certains utilisateurs se sont réellement attachés au programme, préfigurant les questions éthiques liées aux chatbots actuels.

PARRY (1972) simulait un patient paranoïaque, et certains psychiatres n’ont pas réussi à le distinguer d’un vrai patient dans un test à l’aveugle. ALICE (1995) et Cleverbot (1997) ont poussé les approches rule-based et retrieval-based à leurs limites, montrant que des règles sophistiquées ne suffisaient pas pour un dialogue ouvert vraiment convaincant.

Ère neurale (2015-2020)

L’application des réseaux de neurones séquence-à-séquence (Seq2Seq) au dialogue a ouvert une nouvelle ère. Les modèles apprenaient à générer des réponses directement à partir des données de conversation, sans règles manuelles. Cependant, ces modèles souffraient de réponses génériques (« I don’t know », « That’s interesting ») et d’un manque de cohérence sur les dialogues multi-tours.

Meena (Google, 2020) a montré qu’augmenter massivement la taille du modèle (2.6 milliards de paramètres) et la qualité des données améliorait significativement la qualité du dialogue. Google a introduit la métrique SSA (Sensibleness and Specificity Average), montrant que Meena rivalisait avec les humains sur certaines dimensions conversationnelles.

BlenderBot (Meta, 2020-2022) a combiné les capacités de dialogue avec la recherche d’information sur Internet, la gestion de persona et la mémoire à long terme, produisant un chatbot open-domain nettement plus complet. BlenderBot 3 intégrait un mécanisme de feedback utilisateur pour s’améliorer en continu.

Ère LLM (2022-aujourd’hui)

Le lancement de ChatGPT en novembre 2022 a redéfini les attentes. Les LLMs modernes (GPT-5.4, Claude Opus 4.6, Gemini, LLaMA 4) sont des systèmes open-domain d’une qualité sans précédent : ils maintiennent la cohérence sur des dizaines de tours, adaptent leur ton et leur style, gèrent la mémoire contextuelle sur de longues fenêtres (jusqu’à 1M tokens), et intègrent des connaissances encyclopédiques.

Les améliorations clés qui ont permis ce saut qualitatif sont l’entraînement par RLHF (Reinforcement Learning from Human Feedback) qui aligne les réponses avec les préférences humaines, l’instruction-tuning qui rend les modèles suiveurs d’instructions, et les fenêtres de contexte étendues qui permettent de maintenir la cohérence sur de longues conversations. La Chatbot Arena (LMSYS) fournit un classement ELO basé sur des comparaisons humaines en aveugle, devenant le benchmark de référence pour la qualité conversationnelle.

Les trois approches architecturales

Retrieval-based

Le système sélectionne la meilleure réponse dans un corpus prédéfini de réponses candidates. À chaque tour, le message de l’utilisateur est encodé et comparé (par similarité cosinus ou par un modèle de ranking) à l’ensemble des réponses disponibles. La réponse la plus pertinente est retournée.

Avantages : les réponses sont toujours grammaticalement correctes et factuellement fiables (puisqu’elles sont pré-écrites), pas d’hallucination possible. Limites : manque de flexibilité (si aucune réponse du corpus ne correspond, le système échoue), répétitivité, et incapacité à généraliser au-delà du corpus.

Generation-based

Le système génère la réponse token par token via un modèle de langage. C’est l’approche dominante depuis les LLMs. Le modèle reçoit l’historique de la conversation et produit la suite la plus probable.

Avantages : flexibilité totale (peut répondre à n’importe quel sujet), naturel et variété des réponses. Limites : hallucination (génération de fausses informations), incohérence potentielle, et difficulté à contrôler le contenu (le modèle peut dire des choses inappropriées sans guardrails).

Hybride (retrieval-augmented generation)

L’approche qui combine le meilleur des deux mondes. Le système récupère d’abord des informations pertinentes dans une base de connaissances (via RAG), puis utilise un LLM pour générer une réponse qui intègre ces informations. C’est l’architecture de référence pour les chatbots qui doivent être à la fois naturels et factuellement fiables.

Les défis fondamentaux de l’open-domain dialogue

Cohérence à long terme

Maintenir la cohérence sur des dizaines ou des centaines de tours de dialogue est un défi majeur. Le système doit se souvenir de ce qui a été dit, ne pas se contredire, et maintenir une persona stable. Les LLMs avec de longues fenêtres de contexte (1M tokens pour Claude Opus 4.6) gèrent mieux ce problème que les modèles à contexte court, mais la qualité de la mémoire se dégrade sur les très longs échanges (phénomène de lost in the middle).

Des travaux récents à ICLR 2026 sur l’évaluation de la mémoire conversationnelle des LLMs montrent que les benchmarks existants (LoCoMo, MemoryBank, LongMemEval) ont des limitations : la plupart étendent artificiellement la longueur des conversations en concaténant des sessions courtes de différents utilisateurs, ce qui simplifie l’évaluation car les segments sont facilement séparables. Les vrais dialogues longs nécessitent un raisonnement sur des dépendances à longue distance entre des sujets entrelacés.

Engagement et intérêt

Une bonne conversation n’est pas seulement correcte, elle est intéressante. Le système doit poser des questions pertinentes, apporter de nouvelles informations, rebondir de manière inattendue, et éviter les réponses génériques ou ennuyeuses. Les métriques automatiques (BLEU, perplexité) ne capturent pas cette dimension, d’où l’importance de l’évaluation humaine.

Personnalité et persona

Un chatbot sans personnalité est fade. Le dataset PersonaChat (Zhang et al., 2018) a popularisé le concept de « persona » : un ensemble de traits de caractère et de faits biographiques qui définissent le chatbot (« J’aime le jardinage », « J’ai deux enfants », « Je suis optimiste »). Les LLMs modernes gèrent la persona via le system prompt, mais maintenir une personnalité cohérente sur de longues sessions reste un défi.

Sécurité et alignement

Un système open-domain peut être amené à discuter de n’importe quel sujet, y compris des sujets sensibles, dangereux ou controversés. Les techniques d’alignement (RLHF, Constitutional AI chez Anthropic) visent à rendre les réponses utiles sans être nuisibles. C’est un domaine de recherche active qui touche à la value alignment et à l’AI governance.

Factualité

En conversation libre, les utilisateurs posent des questions factuelles (« Quelle est la capitale du Burkina Faso ? ») et le système doit répondre correctement. Les LLMs peuvent halluciner des réponses fausses avec assurance. L’intégration de RAG et la recherche web en temps réel (comme dans Perplexity) atténuent ce problème sans l’éliminer.

Datasets de référence

Dataset	Taille	Source	Particularité
DailyDialog	~13 000 dialogues	Conversations quotidiennes	Multi-tour ; annotations d’émotions et d’actes de dialogue
PersonaChat	~10 000 dialogues	Crowdsourcing (Facebook)	Chaque interlocuteur a une persona définie
Wizard of Wikipedia	~22 000 dialogues	Crowdsourcing (Facebook)	Dialogues informés par Wikipedia ; knowledge-grounded
TopicalChat	~8 000 dialogues	Crowdsourcing (Amazon)	Dialogues guidés par des articles d’actualité
RealTalk	21 jours de conversations	Conversations réelles	Le plus récent ; conversations longue durée en conditions réelles
Chatbot Arena	Millions de comparaisons	LMSYS.org	Classement ELO par évaluation humaine en aveugle

Comment évaluer un dialogue open-domain

L’évaluation est le problème le plus difficile de l’open-domain dialogue. Il n’y a pas de « bonne réponse » unique : une question peut avoir des dizaines de réponses pertinentes et engageantes.

Métriques automatiques : la perplexité mesure la qualité du modèle de langage (plus basse = mieux), BLEU compare les réponses générées à des références humaines, et des métriques dédiées comme USR (Unsupervised and Reference-free) évaluent la cohérence, le naturel et l’informativité sans référence. Cependant, toutes ces métriques corrèlent faiblement avec le jugement humain. Des travaux récents (IWSDS 2026) sur l’évaluation automatique de conversations réelles montrent que les LLMs fine-tunés pour l’évaluation améliorent la corrélation avec les jugements humains de 34%.

Évaluation humaine : le gold standard. Les évaluateurs jugent les réponses sur plusieurs dimensions : naturalness (la réponse semble-t-elle humaine ?), coherence (est-elle cohérente avec le contexte ?), engagingness (est-elle intéressante ?), sensibleness (a-t-elle du sens ?), specificity (est-elle spécifique ou générique ?). La Chatbot Arena de LMSYS utilise des comparaisons en aveugle entre modèles pour produire un classement ELO, c’est l’évaluation la plus fiable du domaine.

LLM-as-judge : une tendance récente consiste à utiliser un LLM puissant (GPT-4, Claude) pour évaluer les réponses d’autres modèles. G-Eval (utilisant GPT-4 avec des critères structurés) corrèle mieux avec les jugements humains que les métriques automatiques traditionnelles. C’est un compromis entre le coût de l’évaluation humaine et la fiabilité des métriques automatiques.

Applications concrètes

Compagnons virtuels : des applications comme Replika, Character.ai ou Pi (Inflection AI) proposent des compagnons conversationnels pour le divertissement, le soutien émotionnel ou simplement la compagnie. Les travaux sur les robots compagnons pour les personnes âgées (Autonomous Robots, Springer 2025) montrent que les LLMs améliorent significativement la qualité de l’interaction, mais que les défis de l’incarnation physique (multimodalité, latence, gestion des erreurs) restent importants.

Assistants généraux : ChatGPT, Claude, Gemini sont fondamentalement des systèmes open-domain enrichis de capacités task-oriented. Leur succès commercial repose sur leur polyvalence conversationnelle.

Éducation et apprentissage des langues : les tuteurs conversationnels open-domain qui s’adaptent au niveau de l’apprenant et maintiennent une conversation naturelle sur des sujets variés. GPT-4o est cité comme outil remarquable pour la pratique des langues grâce à ses réponses vocales rapides et naturelles.

Jeux et divertissement : les PNJ (personnages non-joueurs) dans les jeux vidéo alimentés par des LLMs peuvent tenir des conversations ouvertes et contextuelles avec les joueurs, enrichissant l’immersion.

Recherche en sciences sociales : simuler des conversations pour étudier les dynamiques sociales, tester des interventions thérapeutiques, ou créer des « utilisateurs virtuels » pour évaluer d’autres systèmes (simulateurs d’utilisateur pour les TOD).

Comment les LLMs ont transformé l’open-domain dialogue

Avant les LLMs, l’open-domain dialogue était le parent pauvre de la recherche : les performances étaient décevantes, les systèmes produisaient des réponses génériques, et l’évaluation était un casse-tête. Les LLMs ont résolu ou considérablement atténué la plupart des problèmes historiques :

Qualité des réponses : les LLMs génèrent des réponses naturelles, spécifiques et contextuellement pertinentes, éliminant le problème des réponses génériques (« I don’t know ») qui plaguait les modèles Seq2Seq.

Gestion du contexte : les fenêtres de contexte étendues permettent de maintenir la cohérence sur des dizaines de tours, là où les modèles précédents perdaient le fil après 3 à 5 échanges.

Polyvalence : un même modèle gère la conversation libre, les questions factuelles, le code, l’analyse, la créativité, la résolution de problèmes. La distinction entre open-domain et task-oriented s’estompe.

Personnalisation : les system prompts permettent de définir une persona, un ton et des contraintes comportementales sans ré-entraînement. La fonctionnalité « styles » de Claude ou les « custom instructions » de ChatGPT illustrent cette capacité.

Les problèmes qui persistent : l’hallucination factuelle, la mémoire au-delà de la fenêtre de contexte (la plupart des LLMs oublient tout entre les sessions), et le coût computationnel des conversations longues.

Verdict

L’open-domain dialogue a été transformé par les LLMs au point de devenir quasiment synonyme de « conversation avec une IA ». Les systèmes actuels (ChatGPT, Claude, Gemini) offrent une qualité conversationnelle qui aurait semblé impossible il y a cinq ans. Les défis restants sont la mémoire à long terme (au-delà d’une session), la factualité, la personnalisation profonde et l’évaluation.

Pour construire un système open-domain aujourd’hui, vous n’avez pas besoin de développer un modèle from scratch. Utilisez un LLM existant (Claude, GPT-5.4, LLaMA 4) avec un system prompt bien conçu pour la persona et les contraintes. Pour la mémoire inter-sessions, ajoutez une base vectorielle qui stocke les faits importants de chaque conversation. Pour la factualité, intégrez du RAG. L’open-domain dialogue est passé d’un problème de recherche à un problème d’ingénierie d’intégration.

Questions fréquentes sur l’open-domain dialogue

Quelle est la différence entre open-domain dialogue et chitchat ?

Les deux termes sont souvent utilisés comme synonymes. Le chitchat désigne spécifiquement la conversation informelle et sociale (small talk), tandis que l’open-domain dialogue est un terme plus large qui englobe toute conversation non limitée à un domaine spécifique, y compris les discussions informatives, les débats, le brainstorming ou l’exploration de sujets complexes. Un chatbot chitchat est un sous-type de système open-domain optimisé pour la conversation sociale légère.

Les LLMs ont-ils résolu le problème de l’open-domain dialogue ?

En grande partie, oui, en ce qui concerne la qualité tour-par-tour. Les LLMs modernes produisent des réponses naturelles, contextuelles et engageantes qui rivalisent avec les humains sur de nombreuses dimensions. Les problèmes non résolus sont la mémoire à très long terme (se souvenir d’une conversation d’il y a 6 mois), la factualité garantie (ne jamais halluciner), la personnalisation profonde (vraiment comprendre et s’adapter à un utilisateur spécifique), et l’évaluation (nous n’avons toujours pas de bonne métrique automatique pour la qualité conversationnelle).

Comment évaluer la qualité d’un chatbot open-domain ?

L’évaluation humaine reste le gold standard. Les dimensions clés sont le naturalness (la réponse semble humaine), la coherence (cohérence avec le contexte), l’engagingness (l’envie de continuer la conversation), la specificity (réponses spécifiques vs. génériques), et la safety (absence de contenu nuisible). La Chatbot Arena de LMSYS (classement ELO par comparaisons en aveugle) est le benchmark de référence. Pour une évaluation automatique, G-Eval (LLM-as-judge avec GPT-4) est le meilleur proxy actuellement disponible.

Quels sont les meilleurs LLMs open source pour le dialogue ?

En 2026, les trois modèles open source les plus recommandés pour le dialogue sont LLaMA 3.1 8B Instruct (le plus efficace en ressources, excellent multilingue), Qwen3-14B (le plus polyvalent avec un mode dual thinking/non-thinking), et GLM-4-32B (le plus puissant pour les cas enterprise avec function calling avancé). Pour le français spécifiquement, Mistral offre des performances natives supérieures grâce à son entraînement sur des données francophones.

Comment ajouter de la mémoire à long terme à un chatbot open-domain ?

Trois approches coexistent : (1) Mémoire dans le contexte, en incluant un résumé des conversations précédentes dans le system prompt à chaque session (simple mais limité par la fenêtre de contexte). (2) Base vectorielle qui stocke les faits importants extraits de chaque conversation, puis les récupère par similarité sémantique au début de chaque nouvelle session (la technique RAG appliquée à la mémoire). (3) Memory banks structurés, comme les profils utilisateur enrichis au fil des conversations, qui capturent les préférences, les faits biographiques et l’historique. Les systèmes comme Claude avec sa fonctionnalité mémoire ou ChatGPT avec ses custom memories implémentent une version simplifiée de l’approche (3).