Paraphrase (Paraphrasage)

La paraphrase (ou paraphrasage) est une tâche de traitement automatique du langage naturel qui consiste à reformuler un texte en modifiant les mots et la structure syntaxique tout en préservant le sens original.

Deux phrases sont des paraphrases si elles expriment la même idée avec des mots et une construction différents. « Le chat a attrapé la souris » et « La souris a été attrapée par le chat » sont des paraphrases. « L’IA transforme l’industrie » et « L’intelligence artificielle révolutionne le secteur industriel » aussi. La paraphrase est fondamentale parce qu’elle touche à la compréhension même du sens : si une machine sait paraphraser correctement, c’est qu’elle a compris le texte.

En NLP, la paraphrase se décline en deux tâches complémentaires : la génération de paraphrases (produire une reformulation d’un texte donné) et l’identification de paraphrases (déterminer si deux textes sont sémantiquement équivalents). Ces deux tâches alimentent un large éventail d’applications : augmentation de données, résumé automatique, question answering, détection de plagiat, simplification de texte, et amélioration de la rédaction.

Catégorie: Tâche NLP de génération / compréhension de texte
Sous-tâches: Paraphrase Generation (PG) et Paraphrase Identification (PI)
Input (génération): Phrase ou texte source
Output (génération): Une ou plusieurs reformulations sémantiquement équivalentes
Datasets clés: MRPC, QQP (Quora), PAWS, ParaNMT-50M, MULTIPIT
Modèles: T5, PEGASUS, BART, LLM (GPT, Claude), DeBERTa (identification)
Métriques: BLEU, ROUGE, METEOR, BERTScore, similarité sémantique

Génération vs Identification : les deux faces de la paraphrase

Génération de paraphrases (Paraphrase Generation)

La génération de paraphrases prend un texte en entrée et produit une ou plusieurs reformulations qui expriment le même sens avec des mots et une structure différents. C’est une tâche de génération de texte conditionnée par la sémantique du texte source.

Une bonne paraphrase doit satisfaire quatre critères simultanément : être sémantiquement fidèle (même sens), lexicalement diversifiée (mots différents), syntaxiquement variée (structure différente), et grammaticalement correcte. Concilier ces quatre exigences est le défi central de la génération de paraphrases.

Exemple :

Original	Paraphrase 1	Paraphrase 2
Le deep learning a révolutionné le NLP.	L’apprentissage profond a transformé le traitement du langage naturel.	Le domaine du NLP a connu une révolution grâce au deep learning.
Ce produit coûte trop cher.	Le prix de ce produit est excessif.	Ce produit est hors de prix.

Identification de paraphrases (Paraphrase Identification)

L’identification de paraphrases (PI, aussi appelée paraphrase detection) détermine si deux textes sont sémantiquement équivalents. C’est une tâche de classification binaire : étant donnée une paire de phrases, le modèle prédit « paraphrase » ou « non-paraphrase ».

La PI est plus subtile qu’il n’y paraît. « Le chat a mangé la souris » et « La souris a été mangée par le chat » sont des paraphrases (transformation passive). Mais « Le chat a mangé la souris » et « La souris a mangé le chat » ne le sont pas, bien que les mots soient identiques. Les modèles doivent capturer les relations sémantiques fines, pas juste le chevauchement lexical.

Le dataset PAWS (Paraphrase Adversaries from Word Scrambling) a été spécifiquement conçu pour tester cette capacité : il contient des paires de phrases avec un chevauchement lexical très élevé mais des sens différents, exposant les faiblesses des modèles qui se fient trop aux mots plutôt qu’à la structure.

Méthodes de génération de paraphrases

Approches par règles

Les méthodes les plus anciennes utilisent des règles de transformation linguistique : passivisation (« X fait Y » → « Y est fait par X »), substitution par synonymes (via WordNet), réordonnancement syntaxique, et changement de voix. Ces approches sont explicables et contrôlables, mais produisent des paraphrases limitées en diversité et nécessitent un travail d’ingénierie considérable pour chaque langue.

Traduction pivot (back-translation)

Une technique élégante et simple : traduire le texte vers une autre langue (par exemple français → anglais), puis retraduire vers la langue d’origine (anglais → français). Les différences de structure entre les langues produisent naturellement des reformulations. Le dataset ParaNMT-50M (50 millions de paires de paraphrases anglaises) a été construit entièrement par cette méthode de back-translation. C’est aussi une technique d’augmentation de données très populaire pour enrichir les corpus d’entraînement.

Modèles séquence-à-séquence

Les architectures encoder-decoder (LSTM, Transformer) sont naturellement adaptées à la génération de paraphrases. L’encoder lit la phrase source et produit une représentation sémantique, le decoder génère la paraphrase mot par mot. Les modèles pré-entraînés ont transformé cette approche.

T5 (Text-to-Text Transfer Transformer) : traite la paraphrase comme une tâche text-to-text avec le préfixe « paraphrase: « . Fine-tuné sur des corpus de paraphrases, T5 produit des reformulations fluides et diversifiées. Une étude récente a montré qu’un modèle T5-small fine-tuné par knowledge distillation depuis ChatGPT peut produire des paraphrases de qualité comparable avec significativement moins de paramètres.

PEGASUS : bien que conçu pour la summarization, PEGASUS s’avère excellent pour la paraphrase grâce à sa tâche de pré-entraînement (reconstituer des phrases manquantes), qui l’oblige à comprendre et reformuler le contenu.

BART : son pré-entraînement par débruitage (reconstruire un texte corrompu) le rend naturellement apte à la reformulation. BART fine-tuné sur des données de paraphrase produit des résultats compétitifs.

LLM pour la paraphrase

Les grands modèles de langage comme GPT, Claude et Mistral excellent en paraphrase via un simple prompt. L’avantage majeur : le contrôle par instructions. Vous pouvez demander une reformulation plus simple, plus formelle, plus concise, avec un vocabulaire spécifique, ou ciblée pour un public donné.

# Paraphrase avec un LLM via prompt
from anthropic import Anthropic

client = Anthropic()
response = client.messages.create(
    model="claude-sonnet-4-6",
    max_tokens=200,
    messages=[{
        "role": "user",
        "content": """Génère 3 paraphrases de cette phrase,
en variant le vocabulaire et la structure syntaxique.
Conserve le sens exact.

Phrase : "L'intelligence artificielle transforme
profondément les méthodes de travail dans tous les secteurs."
"""
    }]
)
print(response.content[0].text)

Les LLM sont aussi utilisés comme « teachers » dans des approches de knowledge distillation : on génère un grand corpus de paraphrases avec un LLM puissant (GPT-3.5/4), puis on entraîne un petit modèle spécialisé (T5-small, Flan-T5-small, BART-base) à reproduire cette qualité. Le résultat : un modèle compact et rapide qui produit des paraphrases de qualité comparable au LLM, sans les coûts API.

Méthodes d’identification de paraphrases

L’identification de paraphrases est une tâche de classification de paires de phrases. Les approches ont évolué des features manuelles vers les Transformers.

Approches par features

Les méthodes traditionnelles extraient des features de similarité entre les deux phrases : chevauchement de mots, similarité cosinus sur des vecteurs TF-IDF, distance d’édition, score de similarité WordNet, alignement de dépendances syntaxiques. Ces features alimentent un classifieur (SVM, Random Forest, Logistic Regression).

Transformers pré-entraînés

Les modèles BERT, RoBERTa, et DeBERTa dominent les benchmarks d’identification de paraphrases. Le modèle prend les deux phrases en entrée (séparées par un token [SEP]), encode leur relation via le mécanisme d’attention croisée, et prédit si elles sont sémantiquement équivalentes.

DeBERTa-v3-large atteint un F1 de 92% sur le dataset MULTIPIT (crowdsourced) et 83,2% sur MULTIPIT-Expert (annotations strictes), ce qui en fait le modèle de référence pour cette tâche. Sur le benchmark GLUE, la tâche MRPC (Microsoft Research Paraphrase Corpus) fait partie des évaluations standard de la compréhension du langage.

Sentence embeddings

Les modèles de type Sentence Transformer encodent chaque phrase en un vecteur dense. La similarité cosinus entre les vecteurs indique le degré de paraphrase. Cette approche est plus rapide que l’encodage de paires (pas besoin de passer les deux phrases ensemble dans le modèle) et se prête bien à la recherche de paraphrases à grande échelle.

Datasets de référence

Dataset	Taille	Type	Particularité
MRPC (Microsoft Research Paraphrase Corpus)	5 800 paires	Identification	Paires de phrases extraites de news, benchmark GLUE
QQP (Quora Question Pairs)	400K paires	Identification	Paires de questions Quora, détection de doublons
PAWS (Paraphrase Adversaries from Word Scrambling)	108K paires	Identification (adversarial)	Paires à fort chevauchement lexical, conçu pour piéger les modèles
ParaNMT-50M	50M paires	Génération	Construit par back-translation, pour entraîner des sentence embeddings
MULTIPIT	130K paires	Identification	Paraphrases sur Twitter, annotations crowdsourced + expert
MSCOCO Paraphrases	~500K paires	Génération	Descriptions d’images reformulées par différents annotateurs
Wiki Answer	Variable	Génération	Questions reformulées sur Wikipedia

Applications concrètes

Augmentation de données

C’est l’application la plus répandue en production. Quand vous avez un petit dataset de classification de texte ou de sentiment analysis, la génération de paraphrases permet de multiplier les exemples d’entraînement en créant des variations de chaque texte. Un dataset de 1 000 exemples peut être augmenté à 5 000 ou 10 000 par paraphrasage. Le back-translation est la méthode la plus courante pour l’augmentation, mais les LLM et T5 fine-tuné produisent des résultats de meilleure qualité.

Détection de plagiat

Les systèmes de détection de plagiat modernes ne se contentent plus de chercher des copies exactes. Ils utilisent l’identification de paraphrases pour détecter le plagiat par reformulation (la forme la plus courante de plagiat académique). Les modèles basés sur BERT et les sentence embeddings mesurent la similarité sémantique entre documents pour identifier les passages paraphrasés.

Simplification de texte

La paraphrase est au cœur de la simplification de texte : reformuler un texte complexe en utilisant un vocabulaire et des structures plus simples, tout en préservant le sens. Applications : accessibilité (rendre des textes administratifs ou médicaux compréhensibles pour le grand public), éducation (adapter le niveau de langue aux apprenants), et vulgarisation scientifique.

Amélioration du Question Answering

Dans les systèmes de QA et les chatbots, la capacité à reconnaître que « Comment puis-je annuler ma commande ? » et « Je voudrais supprimer mon achat » sont des paraphrases permet de router les deux questions vers la même réponse. La détection de doublons (le dataset QQP de Quora est exactement ce cas d’usage) réduit la redondance dans les bases de FAQ.

Aide à la rédaction

Les outils de rédaction assistée par IA (comme QuillBot, les fonctions de reformulation de Grammarly, ou les LLM directement) utilisent la génération de paraphrases pour proposer des reformulations, améliorer le style, et adapter le ton. L’utilisateur choisit parmi plusieurs variantes celle qui convient le mieux à son contexte.

Test de robustesse des modèles NLP

La génération de paraphrases sert à tester la robustesse des modèles NLP. Si un modèle de sentiment analysis classifie « Ce produit est excellent » comme positif mais « Ce produit est vraiment formidable » comme neutre, c’est un problème de robustesse. Les paraphrases adversariales (comme celles de PAWS) sont spécialement conçues pour exposer ces fragilités.

Débiaisage de texte

La paraphrase est utilisée pour le débiaisage (mitigation de biais) : reformuler des phrases biaisées en versions neutres tout en préservant le sens informatif. La campagne NLPCC 2025 a inclus une tâche partagée sur la mitigation du biais de genre en chinois, où les annotateurs paraphrasent des phrases biaisées en versions neutres. C’est un domaine en croissance rapide à l’intersection de l’éthique IA et du NLP.

Tutoriel : paraphrase en Python

Génération de paraphrases avec T5

from transformers import T5Tokenizer, T5ForConditionalGeneration

# Modèle T5 fine-tuné pour la paraphrase
model_name = "Vamsi/T5_Paraphrase_Paws"
tokenizer = T5Tokenizer.from_pretrained(model_name)
model = T5ForConditionalGeneration.from_pretrained(model_name)

texte = "paraphrase: L'intelligence artificielle transforme le monde du travail. "
inputs = tokenizer(texte, return_tensors="pt", max_length=256, truncation=True)

# Générer plusieurs paraphrases avec beam search
outputs = model.generate(
    **inputs,
    max_length=256,
    num_beams=5,
    num_return_sequences=3,
    no_repeat_ngram_size=2,
    early_stopping=True
)

for i, output in enumerate(outputs):
    paraphrase = tokenizer.decode(output, skip_special_tokens=True)
    print(f"Paraphrase {i+1}: {paraphrase}")

Identification de paraphrases avec Sentence Transformers

from sentence_transformers import SentenceTransformer, util

model = SentenceTransformer('all-MiniLM-L6-v2')

phrase1 = "Le chat a attrapé la souris dans le jardin."
phrase2 = "La souris a été capturée par le chat dans le jardin."
phrase3 = "Le chien dort sur le canapé."

embeddings = model.encode([phrase1, phrase2, phrase3])

# Similarité cosinus entre les paires
sim_1_2 = util.cos_sim(embeddings[0], embeddings[1]).item()
sim_1_3 = util.cos_sim(embeddings[0], embeddings[2]).item()

print(f"'{phrase1}' vs '{phrase2}': {sim_1_2:.3f}")  # ~0.85+ (paraphrases)
print(f"'{phrase1}' vs '{phrase3}': {sim_1_3:.3f}")  # ~0.15  (non-paraphrases)

# Seuil typique pour la détection de paraphrases : 0.7-0.8

Augmentation par back-translation

from transformers import pipeline

# Traduction FR → EN → FR pour générer des paraphrases
fr_en = pipeline("translation", model="Helsinki-NLP/opus-mt-fr-en")
en_fr = pipeline("translation", model="Helsinki-NLP/opus-mt-en-fr")

original = "Le deep learning a considérablement amélioré les performances en NLP."

# Étape 1 : FR → EN
anglais = fr_en(original)[0]['translation_text']
print(f"EN: {anglais}")

# Étape 2 : EN → FR (la back-translation produit naturellement une paraphrase)
paraphrase = en_fr(anglais)[0]['translation_text']
print(f"Paraphrase: {paraphrase}")

Back-translation multilingue pour plus de diversité Pour des paraphrases plus variées, faites pivoter par plusieurs langues intermédiaires (FR → DE → FR, FR → JA → FR, etc.). Chaque langue intermédiaire produit des reformulations différentes. C’est la méthode la plus simple pour augmenter un dataset sans modèle de paraphrase dédié.

Évaluation de la qualité des paraphrases

Évaluer une paraphrase est intrinsèquement difficile car il faut mesurer deux propriétés potentiellement contradictoires : la préservation du sens (similarité sémantique) et la diversité de la reformulation (différence lexicale et syntaxique).

Métrique	Mesure	Avantage	Limite
BLEU	Chevauchement de n-grams avec la référence	Standard, comparable	Pénalise les reformulations lexicalement diversifiées (paradoxe)
ROUGE	Rappel des n-grams de la référence	Complémentaire à BLEU	Même biais que BLEU
METEOR	Alignement flexible (synonymes, stemming)	Plus tolérant aux variations lexicales	Dépend de ressources linguistiques
BERTScore	Similarité sémantique via embeddings BERT	Capture le sens au-delà des mots	Opaque, coût de calcul
Similarité cosinus (sentence embeddings)	Proximité dans l’espace vectoriel	Rapide, multilingue	Sensible au choix du modèle d’embedding
Diversité lexicale	1 – chevauchement de mots avec la source	Mesure la variété de reformulation	Ne mesure pas la qualité
Diversité syntaxique	Différence d’arbres syntaxiques	Mesure la variété structurelle	Requiert un parser syntaxique

Le paradoxe de l’évaluation de paraphrases : BLEU pénalise les paraphrases qui utilisent des mots différents de la référence (ce qui est pourtant le but d’une bonne paraphrase). BERTScore est plus adapté car il mesure la similarité sémantique, mais il ne capture pas la diversité syntaxique. En pratique, combinez BERTScore (pour la fidélité sémantique) avec une mesure de diversité lexicale (pour vérifier que la paraphrase n’est pas une simple copie).

Défis de la paraphrase

Préserver le sens exact. Le problème fondamental. « Le médicament est efficace » et « Le médicament fonctionne bien » sont proches mais pas strictement identiques (« efficace » a des connotations plus fortes que « fonctionne bien »). La granularité de l’équivalence sémantique varie selon le contexte d’application.

Diversité vs fidélité. Plus une paraphrase est diversifiée (mots et structure très différents), plus le risque de dérive sémantique est élevé. Trouver le bon équilibre est un défi permanent, surtout en génération automatique.

Paraphrases adversariales. Les modèles qui se fient au chevauchement lexical sont vulnérables aux paires adversariales (haut chevauchement de mots, sens différent). Le dataset PAWS a montré que même les modèles BERT peuvent être trompés par de simples réarrangements de mots.

Paraphrase au niveau du document. La plupart des travaux portent sur la paraphrase de phrases. La reformulation de paragraphes ou de documents entiers, en préservant la cohérence et la structure argumentative, reste un défi largement ouvert.

Multilinguisme. Les ressources de paraphrase (datasets, modèles fine-tunés) sont concentrées sur l’anglais. Pour le français et les autres langues, le back-translation et les LLM multilingues sont souvent les seules options disponibles.

Bonnes pratiques

Pour l’augmentation de données : le back-translation est le plus simple et le plus fiable. Pour une meilleure qualité, utilisez un LLM avec des instructions spécifiques (« Reformule cette phrase en gardant exactement le même sens ») puis filtrez les résultats avec un modèle de similarité sémantique (score cosinus > 0,8 avec des sentence embeddings).

Pour la détection de paraphrases : un modèle DeBERTa ou RoBERTa fine-tuné sur QQP ou MRPC est le meilleur point de départ. Pour une détection à grande échelle (comparer chaque texte avec des millions d’autres), utilisez des sentence embeddings avec un index vectoriel (FAISS) pour un pré-filtrage rapide, puis un cross-encoder pour la vérification fine.

Pour la rédaction assistée : un LLM avec des instructions de style (« reformule de manière plus formelle », « simplifie pour un public non-expert ») offre le meilleur contrôle. Générez 3 à 5 variantes et laissez l’utilisateur choisir.

Validez la qualité. Vérifiez systématiquement que les paraphrases générées préservent le sens (BERTScore > 0,85) et apportent de la diversité (chevauchement lexical < 70%). Un contrôle humain sur un échantillon reste indispensable pour les usages critiques.

Questions fréquentes sur la paraphrase

Quelle est la différence entre paraphrase et résumé ?

La paraphrase reformule un texte en changeant les mots et la structure tout en préservant l’intégralité du sens et (approximativement) la même longueur. Le résumé condense le texte en ne gardant que les informations essentielles, avec une réduction significative de la longueur. Une paraphrase d’une phrase de 20 mots fera environ 20 mots. Un résumé d’un document de 1000 mots fera 100 à 200 mots. Les deux tâches partagent des mécanismes communs (compréhension du sens, reformulation) mais leurs objectifs sont différents.

Quels sont les meilleurs outils pour générer des paraphrases en français ?

Les LLM multilingues (Claude, GPT, Mistral) produisent les paraphrases de meilleure qualité en français, avec un contrôle fin via le prompt. Pour une solution plus économique, le back-translation via Opus-MT (Helsinki NLP) fonctionne bien. Les modèles T5 fine-tunés pour la paraphrase sont principalement disponibles en anglais, mais mT5 peut être fine-tuné sur des données françaises si vous en disposez. Pour l’identification de paraphrases en français, les modèles CamemBERT ou FlauBERT fine-tunés sur des données de similarité sémantique sont recommandés.

Comment utiliser la paraphrase pour augmenter un dataset ?

La méthode la plus efficace : pour chaque exemple de votre dataset, générez 2 à 5 paraphrases. Filtrez les résultats en vérifiant que la similarité sémantique avec l’original est supérieure à 0,8 (via sentence embeddings) et que le chevauchement lexical est inférieur à 70% (pour garantir une vraie reformulation). Conservez le même label que l’original. Cette technique est particulièrement utile pour les classes minoritaires dans les datasets déséquilibrés. Attention : l’augmentation par paraphrase fonctionne mieux pour la classification de texte et la sentiment analysis que pour les tâches d’extraction d’information, où les variations lexicales peuvent perturber l’apprentissage.

La paraphrase automatique est-elle considérée comme du plagiat ?

C’est une zone grise éthique et juridique. Techniquement, la paraphrase reformule le contenu avec des mots différents, ce qui la distingue de la copie directe. Cependant, dans le contexte académique, paraphraser les idées d’un auteur sans citation reste du plagiat, même si les mots sont entièrement différents. Le plagiat concerne l’appropriation d’idées, pas seulement de mots. Les outils de détection de plagiat modernes (Turnitin, Compilatio) utilisent la détection de similarité sémantique pour identifier les paraphrases plagiaires. L’utilisation de la paraphrase automatique pour contourner les détecteurs de plagiat est une pratique contraire à l’éthique académique.

Quelle est la différence entre paraphrase identification et NLI (Natural Language Inference) ?

L’identification de paraphrases détermine si deux phrases sont sémantiquement équivalentes (relation symétrique). Le NLI (ou textual entailment) détermine si une phrase (l’hypothèse) est impliquée, contredite, ou neutre par rapport à une autre phrase (la prémisse). C’est une relation asymétrique. « Un chat mange une souris » implique « Un animal mange » (entailment), mais la réciproque n’est pas vraie. La paraphrase est un cas particulier de NLI où les deux phrases s’impliquent mutuellement (bidirectional entailment). En pratique, les modèles NLI (BART-large-mnli, DeBERTa) sont souvent réutilisés pour la détection de paraphrases, car la capacité à détecter l’implication est un superset de la capacité à détecter la paraphrase.