Summarization (Résumé Automatique de Texte)

La summarization (ou résumé automatique de texte, aussi appelée text summarization ou ATS pour Automatic Text Summarization) est une tâche de traitement automatique du langage naturel qui consiste à produire automatiquement une version condensée d’un ou plusieurs documents, en conservant les informations essentielles et le sens original.

Vous avez un rapport de 50 pages, 200 emails non lus, ou 3 heures de transcription de réunion. La summarization condense tout ça en quelques paragraphes exploitables. C’est l’une des applications NLP les plus directement utiles : elle fait gagner du temps à tout le monde, du développeur qui résume une documentation technique au dirigeant qui a besoin des points clés d’un marché.

La recherche en résumé automatique remonte à 1958 (les travaux pionniers de Luhn chez IBM), mais c’est l’avènement des Transformers et des LLM qui a rendu la summarization véritablement exploitable en production. Les modèles actuels produisent des résumés fluides, cohérents et fidèles au texte source, même si environ 30% des résumés abstractifs contiennent encore des erreurs factuelles selon certaines études.

Catégorie: Tâche NLP de génération / compréhension de texte
Input: Un ou plusieurs documents textuels
Output: Résumé condensé (quelques phrases à quelques paragraphes)
Types: Extractive, abstractive, hybride
Benchmarks clés: CNN/DailyMail (300K articles), XSum (220K articles BBC), Newsroom (1,3M articles)
Métriques: ROUGE-1, ROUGE-2, ROUGE-L, BERTScore, factualité
Modèles phares: BART, PEGASUS, T5, LLM (GPT, Claude, Gemini, Mistral)

Extractive vs Abstractive : les deux paradigmes

La distinction fondamentale en summarization oppose deux approches radicalement différentes.

Résumé extractif

Le résumé extractif fonctionne comme un surligneur numérique : il sélectionne les phrases les plus importantes du document original et les assemble pour former le résumé. Aucun mot nouveau n’est généré. Le résumé est composé exclusivement de phrases copiées du texte source.

Les algorithmes extractifs doivent résoudre un problème de classement : quelles phrases portent le plus d’information ? Plusieurs approches existent :

Méthodes fréquentielles : les phrases contenant les mots les plus fréquents (hors stopwords) sont considérées comme les plus importantes. L’algorithme de Luhn (1958) et TF-IDF scoring sont les bases historiques.

Méthodes par graphe : TextRank (adaptation de PageRank de Google aux phrases) construit un graphe où les nœuds sont des phrases et les arêtes représentent la similarité entre phrases. Les phrases les plus centrales (connectées) sont sélectionnées. LexRank utilise une approche similaire avec des similarités cosinus sur des vecteurs TF-IDF.

Méthodes par machine learning : un classifieur binaire prédit pour chaque phrase si elle doit être incluse dans le résumé ou non. Les features incluent la position de la phrase dans le document, sa longueur, la présence de mots-clés, et son score de similarité avec le titre.

Méthodes neuronales : des modèles BERT ou RoBERTa encodent les phrases en vecteurs contextuels puis classifient chaque phrase. BertSumExt (Liu & Lapata, 2019) est une référence dans cette catégorie.

Avantages : fidèle au texte source (pas d’hallucination), rapide, interprétable (on voit quelles phrases sont sélectionnées). Inconvénients : résumés souvent peu fluides, redondance possible, incapacité à reformuler ou synthétiser des idées dispersées dans le document.

Résumé abstractif

Le résumé abstractif génère de nouvelles phrases qui n’existent pas dans le texte source. Il reformule, synthétise, et condense l’information, produisant des résumés qui ressemblent à ce qu’un humain écrirait. C’est le paradigme dominant depuis l’émergence des Transformers.

Les modèles abstractifs utilisent une architecture encoder-decoder : l’encoder lit et comprend le document source, le decoder génère le résumé mot par mot. Les modèles phares :

BART (Facebook/Meta) : modèle seq2seq pré-entraîné par débruitage de texte corrompu. BART-large-CNN (fine-tuné sur CNN/DailyMail) est le modèle de référence pour la summarization en anglais. Excellentes performances sur les résumés d’articles de presse.

PEGASUS (Google) : pré-entraîné spécifiquement pour la summarization avec une tâche de « gap sentence generation » (masquer des phrases entières et demander au modèle de les régénérer). Performances particulièrement fortes sur XSum et les résumés très courts (une phrase).

T5 (Google) : modèle « text-to-text » universel qui traite toutes les tâches NLP comme de la génération de texte. Pour la summarization, le prompt est simplement « summarize: [texte] ». T5-large et T5-3B offrent d’excellentes performances.

LLM (GPT, Claude, Gemini, Mistral) : les grands modèles de langage sont naturellement capables de résumer du texte via un simple prompt. Leur immense contexte (1M+ tokens pour Claude Opus 4.6 ou GPT-5.4) permet de résumer des documents très longs en une seule requête. En termes de qualité subjective, les résumés LLM sont souvent préférés aux résumés des modèles spécialisés, même si les métriques automatiques (ROUGE) ne reflètent pas toujours cette préférence.

Avantages : résumés fluides et cohérents, capacité de synthèse et de reformulation, flexibilité (contrôle de la longueur, du style, du point de vue). Inconvénients : risque d’hallucination (injection d’informations non présentes dans la source), coût de calcul plus élevé, moins de transparence.

Le problème de la fidélité factuelle Des études montrent qu’environ 30% des résumés abstractifs contiennent au moins une erreur factuelle par rapport au texte source. Le modèle peut halluciner des noms, des dates, des chiffres, ou inverser des relations causales. C’est le principal obstacle à l’adoption en production dans des domaines critiques (juridique, médical, financier). Vérifiez toujours les faits clés d’un résumé automatique.

Approches hybrides

Les meilleures architectures combinent les deux paradigmes. Une première étape extractive sélectionne les passages clés (réduisant la taille de l’input et filtrant le bruit), puis une étape abstractive reformule et synthétise ces passages en un résumé fluide. Cette approche « extract-then-abstract » améliore à la fois la fidélité et la qualité linguistique.

Comparaison des approches

Critère	Extractif	Abstractif	Hybride
Fidélité au source	Excellente	Moyenne (risque d’hallucination)	Bonne
Fluidité linguistique	Moyenne	Excellente	Très bonne
Capacité de synthèse	Faible	Excellente	Bonne
Vitesse d’inférence	Rapide	Lente	Moyenne
Coût	Faible	Élevé (GPU/API)	Moyen
Interprétabilité	Haute (phrases identifiées)	Faible	Moyenne

Single-document vs Multi-document

La summarization single-document condense un seul texte. C’est la tâche standard évaluée par les benchmarks comme CNN/DailyMail et XSum.

La summarization multi-document synthétise les informations de plusieurs documents sur un même sujet. C’est nettement plus complexe : le système doit gérer la redondance (les mêmes faits rapportés différemment), les contradictions (des sources qui se contredisent), et la complémentarité (des informations différentes qui se complètent). Les cas d’usage typiques sont la revue de presse (synthétiser 10 articles sur un même événement) et la revue de littérature (synthétiser plusieurs articles de recherche sur un sujet).

Les LLM avec leurs fenêtres de contexte massives (1M+ tokens) ont transformé la multi-document summarization. Vous pouvez passer plusieurs documents en contexte et demander une synthèse en un seul prompt, ce qui était impossible avec les modèles pré-Transformer.

Benchmarks et métriques

Datasets de référence

Dataset	Taille	Langue	Type de résumé	Particularité
CNN/DailyMail	300K+ articles	Anglais	Bullet points	Benchmark le plus utilisé, articles de presse
XSum	220K+ articles	Anglais	1 phrase	Résumés extrêmement concis (BBC)
Newsroom	1,3M articles	Anglais	Variable	38 sources de presse, grande diversité
NYT	650K articles	Anglais	Abstractif	New York Times, résumés manuels de haute qualité
SAMSum	16K dialogues	Anglais	Résumé de conversation	Résumé de dialogues (type chat/messagerie)
MultiNews	56K clusters	Anglais	Multi-document	Synthèse de plusieurs articles sur un même sujet
LCSTS	2,4M paires	Chinois	Texte court	Résumé de microblogs chinois

Métriques d’évaluation

ROUGE (Recall-Oriented Understudy for Gisting Evaluation) : la famille de métriques standard pour la summarization. ROUGE-1 mesure le chevauchement d’unigrammes, ROUGE-2 le chevauchement de bigrammes, et ROUGE-L la plus longue sous-séquence commune entre le résumé généré et le résumé de référence. ROUGE capture la couverture du contenu mais ne mesure ni la fluidité ni la fidélité factuelle.

BERTScore : utilise les embeddings BERT pour mesurer la similarité sémantique entre le résumé généré et la référence. Plus robuste que ROUGE aux reformulations (deux phrases exprimant la même idée avec des mots différents obtiennent un score élevé).

Factualité : métrique émergente et critique. Des outils comme FactCC, DAE (Dependency Arc Entailment), et des évaluations par LLM (LLM-as-judge) vérifient si les faits du résumé sont fidèles au document source. Indispensable pour les applications critiques.

Évaluation humaine : reste le gold standard. Les annotateurs évaluent typiquement la fluidité, la cohérence, la pertinence et la fidélité factuelle du résumé. Coûteuse mais irremplaçable pour capturer les nuances que les métriques automatiques manquent.

ROUGE a ses limites ROUGE mesure le chevauchement lexical, pas la qualité sémantique. Un résumé qui reformule parfaitement le contenu avec des mots différents obtiendra un ROUGE faible. Inversement, un résumé qui copie des phrases non pertinentes obtiendra un ROUGE élevé. Utilisez ROUGE comme indicateur de screening, pas comme métrique finale. Complétez avec BERTScore et une évaluation de factualité.

Outils et modèles pour la summarization

Modèles spécialisés (Hugging Face)

from transformers import pipeline

# BART fine-tuné sur CNN/DailyMail (référence pour l'anglais)
summarizer = pipeline("summarization", model="facebook/bart-large-cnn")

article = """
The European Union announced a comprehensive new AI regulation
framework today, requiring all companies deploying AI systems
to conduct risk assessments and maintain transparency about
their algorithms. The regulation, which will take effect in
2026, establishes four categories of AI risk and imposes
different requirements for each. High-risk AI systems, including
those used in healthcare and law enforcement, will face the
strictest requirements including mandatory third-party audits.
"""

summary = summarizer(article, max_length=60, min_length=20,
                     do_sample=False)
print(summary[0]['summary_text'])

# PEGASUS pour résumés très concis (1-2 phrases)
summarizer_pegasus = pipeline("summarization",
                              model="google/pegasus-xsum")
summary = summarizer_pegasus(article, max_length=40, min_length=10)
print(summary[0]['summary_text'])

# T5 avec prompt explicite
from transformers import T5Tokenizer, T5ForConditionalGeneration

tokenizer = T5Tokenizer.from_pretrained("t5-base")
model = T5ForConditionalGeneration.from_pretrained("t5-base")

input_text = "summarize: " + article
inputs = tokenizer(input_text, return_tensors="pt",
                   max_length=512, truncation=True)
outputs = model.generate(**inputs, max_length=80, min_length=20)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

Résumé extractif en Python

# Avec sumy (algorithmes extractifs classiques)
# pip install sumy
from sumy.parsers.plaintext import PlaintextParser
from sumy.nlp.tokenizers import Tokenizer
from sumy.summarizers.text_rank import TextRankSummarizer
from sumy.summarizers.luhn import LuhnSummarizer

parser = PlaintextParser.from_string(article, Tokenizer("english"))

# TextRank
summarizer_tr = TextRankSummarizer()
summary_tr = summarizer_tr(parser.document, sentences_count=2)
for sentence in summary_tr:
    print(sentence)

Summarization avec un LLM

from anthropic import Anthropic

client = Anthropic()

# Résumé avec contrôle fin via prompt
response = client.messages.create(
    model="claude-sonnet-4-6",
    max_tokens=300,
    messages=[{
        "role": "user",
        "content": f"""Résumez le texte suivant en 3 bullet points
maximum, en français. Chaque point doit capturer une idée clé.
Ne pas ajouter d'information absente du texte.

Texte :
{article}"""
    }]
)
print(response.content[0].text)

Astuce : contrôler la longueur et le style Avec les LLM, vous contrôlez le résumé via le prompt : nombre de phrases, format (bullet points, paragraphe, tableau), langue, ton (technique, grand public), et niveau de détail. C’est un avantage majeur par rapport aux modèles spécialisés qui offrent peu de contrôle au-delà de max_length et min_length.

Comparaison des outils

Outil/Modèle	Type	Langues	Documents longs	Usage recommandé
BART-large-CNN	Abstractif	Anglais	~1024 tokens max	Articles de presse, textes courts en anglais
PEGASUS	Abstractif	Anglais	~1024 tokens max	Résumés ultra-concis (1-2 phrases)
T5 / mT5	Abstractif	Multi (mT5)	~512-1024 tokens	Usage général, multilingue avec mT5
LED (Longformer Encoder-Decoder)	Abstractif	Anglais	~16K tokens	Documents longs (rapports, articles scientifiques)
LLM (Claude, GPT, Mistral)	Abstractif	Multilingue	100K à 1M+ tokens	Documents très longs, contrôle fin, multilingue
TextRank / LexRank	Extractif	Toutes	Illimité	Résumé rapide, pas besoin de GPU
BertSumExt	Extractif	Anglais	~512 tokens	Extractif neuronal, haute fidélité

Applications concrètes

Synthèse d’actualités et veille

Condenser des dizaines d’articles sur un même sujet en une synthèse de quelques paragraphes. Les outils comme Perplexity et les fonctions de Deep Research de Claude ou ChatGPT utilisent intensivement la summarization pour produire des synthèses de recherche à partir de multiples sources web.

Résumé de réunions

Combiner transcription automatique + summarization pour produire des comptes-rendus de réunions automatiques. Des outils comme Otter.ai, Fireflies, et les fonctions IA de Zoom et Teams proposent cette fonctionnalité nativement. Le résumé de dialogue (dataset SAMSum) est une sous-tâche spécifique qui tient compte de la structure conversationnelle.

Documents juridiques

Résumer des contrats, des décisions de justice, ou de la documentation réglementaire. L’enjeu de fidélité factuelle est critique ici : une omission ou une erreur dans le résumé d’un contrat peut avoir des conséquences juridiques. Les modèles spécialisés (LegalBERT) et les approches hybrides extract-then-abstract sont préférés.

Littérature médicale et scientifique

Synthétiser des articles de recherche, des essais cliniques, ou des dossiers patients. NotebookLM de Google permet de charger des documents et de poser des questions ou demander des résumés sur leur contenu. Les modèles biomédicaux (BioBART, SciBERT) sont optimisés pour le vocabulaire spécialisé.

Résumé d’emails et de fils de discussion

Condenser de longs fils d’emails en quelques points clés. Les Copilot M365 de Microsoft et les fonctions IA de Gmail proposent cette fonctionnalité directement dans l’interface de messagerie.

Documentation produit et support

Générer des résumés exécutifs de documentations techniques, des changelogs condensés, ou des synthèses de tickets de support pour identifier les tendances et les problèmes récurrents.

Défis de la summarization

Fidélité factuelle. Le défi numéro un. Les modèles abstractifs peuvent halluciner des faits, changer des chiffres, attribuer des citations aux mauvaises personnes, ou inverser des relations causales. La détection et la correction automatique de ces erreurs est un domaine de recherche très actif.

Longueur des documents. Les modèles spécialisés (BART, PEGASUS, T5) ont des fenêtres de contexte limitées (512 à 1024 tokens). Pour les documents longs, il faut soit utiliser un modèle adapté (LED avec 16K tokens), soit découper le document et résumer par morceaux, soit utiliser un LLM avec une grande fenêtre de contexte. Le résumé par morceaux (chunked summarization) peut perdre la cohérence globale.

Évaluation. ROUGE ne capture pas la qualité réelle. Un résumé peut avoir un bon score ROUGE tout en étant factuellement incorrect ou incohérent. L’évaluation humaine est coûteuse et subjective. Les métriques de factualité (FactCC, DAE) sont encore imparfaites.

Biais de position. Les modèles extractifs et abstractifs ont tendance à favoriser les phrases du début du document (lead bias), car les articles de presse (sur lesquels ils sont entraînés) concentrent l’information clé dans les premiers paragraphes. Sur des documents avec une structure différente (rapports techniques, articles scientifiques), ce biais dégrade les résultats.

Multilinguisme. Les meilleurs modèles spécialisés sont entraînés sur de l’anglais. Pour le français, mT5 et mBART offrent des performances correctes mais inférieures aux modèles anglais. Les LLM multilingues (Claude, GPT, Mistral) sont la solution la plus pragmatique pour le résumé en français.

Summarization pour le français

L’écosystème de summarization en français est moins riche qu’en anglais, mais des solutions existent.

LLM multilingues : Claude, GPT, et Mistral résument du français nativement avec une excellente qualité. C’est la solution la plus pragmatique et la plus performante. Mistral Large 3, étant un modèle français, est particulièrement compétent sur le français.

mT5 et mBART : versions multilingues de T5 et BART. Peuvent être fine-tunés sur des corpus de résumé en français. Performances inférieures aux LLM mais exécutables localement sans coût API.

CamemBERT + BertSumExt : pour le résumé extractif en français, un modèle BertSumExt basé sur CamemBERT offre une option fiable et économique.

Datasets : le dataset OrangeSum (résumés d’articles du journal Le Monde et de L’Express) est la principale ressource pour entraîner et évaluer des modèles de summarization en français. MLSUM (MultiLingual SUMmarization) couvre aussi le français dans un cadre multilingue.

Bonnes pratiques

Choisissez extractif ou abstractif selon le risque. Pour des documents juridiques, médicaux ou financiers où une erreur factuelle a des conséquences, préférez l’extractif ou l’hybride extract-then-abstract. Pour des cas moins critiques (veille, synthèse informelle), l’abstractif offre une meilleure qualité de lecture.

Vérifiez la fidélité factuelle. Ne faites jamais confiance aveuglément à un résumé abstractif. Mettez en place une vérification des faits clés (chiffres, noms, dates) soit par des métriques automatiques de factualité, soit par relecture humaine.

Contrôlez la longueur. Un résumé trop court perd de l’information, un résumé trop long ne remplit pas son rôle. En général, un ratio de compression de 5:1 à 10:1 (un résumé 5 à 10 fois plus court que l’original) est un bon point de départ. Ajustez selon le cas d’usage.

Gérez les documents longs avec une stratégie adaptée. Pour les documents de plus de 10 000 tokens, trois options : un LLM à grande fenêtre (Claude, GPT-5.4), un modèle à contexte long (LED, LongT5), ou une approche par morceaux (résumer chaque section, puis résumer les résumés). La troisième option est la moins coûteuse mais la moins cohérente.

Évaluez sur votre domaine. Les scores ROUGE sur CNN/DailyMail ne prédisent pas les performances sur vos rapports internes. Constituez un jeu de test de 50 à 100 documents avec des résumés de référence dans votre domaine et évaluez votre système dessus.

Questions fréquentes sur la summarization

Quelle est la différence entre résumé extractif et abstractif ?

Le résumé extractif sélectionne et copie les phrases les plus importantes du texte original pour former le résumé. Aucun mot nouveau n’est créé. Le résumé abstractif génère de nouvelles phrases qui reformulent et condensent le contenu du texte source, à la manière d’un humain qui résumerait un document avec ses propres mots. L’extractif est plus fidèle au texte source mais moins fluide. L’abstractif est plus naturel mais peut introduire des erreurs factuelles (hallucinations). Les meilleurs systèmes actuels combinent les deux approches dans une architecture hybride.

Quel modèle utiliser pour résumer du texte en français ?

La solution la plus performante est un LLM multilingue (Claude, GPT, Mistral) avec un prompt adapté. Mistral Large 3 est particulièrement compétent en français. Si vous avez besoin d’un modèle exécutable localement, mT5 fine-tuné sur OrangeSum ou MLSUM est une option. Pour le résumé extractif sans GPU, TextRank fonctionne dans toutes les langues et ne nécessite aucun modèle pré-entraîné.

Comment résumer un document très long (100+ pages) ?

Trois stratégies. La plus simple : utiliser un LLM à grande fenêtre de contexte (Claude Opus 4.6 avec 1M tokens peut traiter des centaines de pages). La deuxième : le résumé hiérarchique (résumer chaque section ou chapitre, puis résumer les résumés). La troisième : le résumé incrémental (parcourir le document par morceaux et maintenir un résumé courant que l’on met à jour progressivement). Pour les documents très structurés (rapports avec sections), le résumé hiérarchique est souvent le plus pertinent car il préserve la structure.

Le résumé automatique est-il fiable pour des documents juridiques ou médicaux ?

Pas sans vérification humaine. Les modèles abstractifs peuvent halluciner des faits, omettre des clauses critiques, ou reformuler de manière à altérer le sens juridique. Pour ces domaines sensibles, préférez un résumé extractif (qui cite directement le texte source) ou un résumé abstractif systématiquement vérifié par un professionnel du domaine. Utilisez le résumé automatique comme aide à la lecture (gain de temps pour identifier les passages importants), pas comme substitut à l’analyse humaine.

Qu’est-ce que ROUGE et comment l’interpréter ?

ROUGE (Recall-Oriented Understudy for Gisting Evaluation) est une famille de métriques qui mesure le chevauchement de mots entre un résumé généré et un résumé de référence. ROUGE-1 mesure les unigrammes partagés, ROUGE-2 les bigrammes, et ROUGE-L la plus longue sous-séquence commune. Les scores sont entre 0 et 1 (plus élevé = meilleur). Sur CNN/DailyMail, les meilleurs modèles obtiennent environ ROUGE-1 ~44, ROUGE-2 ~21, ROUGE-L ~41. Attention : ROUGE ne mesure que le chevauchement lexical. Un résumé peut obtenir un bon ROUGE tout en étant factuellement incorrect. Complétez toujours ROUGE avec BERTScore (similarité sémantique) et une évaluation de fidélité factuelle.