Event Extraction

L’event extraction (extraction d’événements) est une tâche de traitement du langage naturel qui consiste à identifier automatiquement les événements mentionnés dans un texte non structuré, à détecter leurs déclencheurs (triggers), à classifier leur type et à extraire les arguments associés (participants, lieu, date, cause, résultat) pour les organiser en une représentation structurée exploitable par une machine.

Catégorie: Tâche NLP / Text Mining / Information Extraction
Sous-tâches: Event Detection (trigger identification + classification) + Event Argument Extraction
Datasets clés: ACE 2005, MAVEN, Rich ERE, BioNLP, TAC KBP
Métriques: F1-score (trigger classification + argument extraction)
État de l’art: LLMs (GPT-5.4, Claude Opus 4.6) en zero-shot/few-shot + modèles fine-tunés spécialisés
Domaines: Finance, biomédical, sécurité, juridique, veille médiatique

Qu’est-ce que l’event extraction exactement ?

Prenons une phrase simple : « Apple a licencié 200 employés à Austin le 15 mars. » Un humain comprend immédiatement qu’il s’agit d’un événement de type licenciement, que le déclencheur est le mot « licencié », que l’agent est Apple, que les personnes affectées sont 200 employés, que le lieu est Austin et que la date est le 15 mars. L’event extraction vise à reproduire cette compréhension de manière automatique et structurée.

Contrairement à la simple reconnaissance d’entités nommées (NER) qui identifie des noms, des lieux ou des dates isolés, l’event extraction va plus loin : elle capture la dynamique, c’est-à-dire ce qui s’est passé, qui était impliqué, où, quand et pourquoi. C’est cette dimension temporelle et relationnelle qui en fait une tâche nettement plus complexe que la NER ou la relation extraction.

Les deux sous-tâches fondamentales

L’event extraction se décompose traditionnellement en deux étapes :

1. Event Detection (détection d’événements) : il s’agit d’identifier le trigger (déclencheur) dans le texte, c’est-à-dire le mot ou l’expression qui signale l’occurrence d’un événement, puis de classifier le type d’événement. Par exemple, dans « L’entreprise a acquis sa rivale », le trigger est « acquis » et le type est « Acquisition ».

2. Event Argument Extraction (extraction d’arguments) : une fois l’événement détecté, on extrait les participants et attributs associés. Chaque argument a un rôle sémantique précis : Agent, Patient, Lieu, Temps, Instrument, Cause, etc. Dans l’exemple précédent, « L’entreprise » a le rôle Buyer, « sa rivale » le rôle Artifact.

Pipeline vs. End-to-End L’approche historique traite ces deux sous-tâches séquentiellement (pipeline), ce qui provoque de la propagation d’erreurs : si le trigger est mal détecté, l’extraction d’arguments échoue en cascade. Les approches récentes basées sur les LLMs traitent les deux tâches simultanément (end-to-end), réduisant significativement ce problème. Des travaux publiés en 2025 montrent des gains de plus de 12% en F1-score par rapport aux méthodes pipeline classiques.

Schémas d’événements et ontologies

Pour que l’event extraction fonctionne, il faut définir un schéma d’événements : un ensemble structuré de types d’événements avec leurs rôles d’arguments attendus. Plusieurs schémas de référence existent :

ACE (Automatic Content Extraction) : le standard historique, défini par le programme ACE du DARPA. Le corpus ACE 2005, développé par le Linguistic Data Consortium (LDC), contient environ 1 800 fichiers en anglais, arabe et chinois annotés pour 33 types d’événements regroupés en 8 catégories (Life, Movement, Transaction, Business, Conflict, Contact, Personnel, Justice). Chaque type a des rôles d’arguments prédéfinis. C’est le benchmark le plus utilisé dans la littérature scientifique.

Rich ERE (Entities, Relations, Events) : une extension d’ACE avec des annotations plus riches, couvrant les relations causales et temporelles entre événements. Ce schéma est utilisé dans les évaluations TAC KBP.

MAVEN (Massive General Domain Event Detection) : un dataset à grande échelle lancé par l’université Tsinghua, couvrant 168 types d’événements issus de FrameNet, bien plus diversifié qu’ACE. Il s’appuie sur des articles Wikipedia et offre un cadre d’évaluation plus réaliste pour les systèmes modernes.

BioNLP : des schémas spécifiques au domaine biomédical (GENIA, BioNLP-ST) pour extraire des événements comme les interactions protéine-protéine, les modifications génétiques ou les processus cellulaires.

Dataset	Types d’événements	Langues	Domaine	Taille
ACE 2005	33	EN, AR, ZH	Actualités, forums	~1 800 docs
MAVEN	168	EN	Général (Wikipedia)	~4 480 docs
Rich ERE	38	EN, ES, ZH	Actualités, forums	~1 000 docs
BioNLP-ST	9-13 (selon édition)	EN	Biomédical	Variable
TAC KBP	18-38	EN, ZH, ES	Actualités	Variable

Évolution des méthodes : du rule-based aux LLMs

L’event extraction a connu quatre grandes ères méthodologiques. Comprendre cette évolution permet de saisir pourquoi les approches actuelles sont ce qu’elles sont.

Ère 1 : approches à base de règles (1991-2010)

Les premiers systèmes, issus des conférences MUC (Message Understanding Conference) organisées par le DARPA à partir de 1987, reposaient sur des patterns linguistiques écrits à la main. Des expressions régulières et des grammaires formelles étaient utilisées pour détecter des événements dans des domaines très restreints (terrorisme, fusions-acquisitions). Ces systèmes étaient précis dans leur domaine, mais impossibles à généraliser : changer de domaine signifiait réécrire toutes les règles.

Ère 2 : apprentissage automatique classique (2005-2015)

Avec l’arrivée du programme ACE en 2004-2005, la communauté a basculé vers le machine learning supervisé. Des modèles comme MaxEnt (maximum entropy), les SVM et les CRF (Conditional Random Fields) apprenaient à détecter les triggers et arguments à partir de features manuellement conçues : lemmes, POS tags, dépendances syntaxiques, etc. L’article fondateur de Li et al. (2013) a montré que les modèles joints (event detection + argument extraction simultanés) surpassaient les approches pipeline.

Ère 3 : deep learning (2015-2022)

L’introduction des réseaux de neurones a supprimé le besoin de feature engineering. Les architectures clés ont été :

CNN (DMCNN, 2015) : les réseaux convolutionnels dynamiques de Chen et al. ont été les premiers à utiliser des représentations apprises pour l’event detection, avec des gains significatifs sur ACE 2005.

RNN/BiLSTM (JRNN, 2016) : les réseaux récurrents bidirectionnels ont permis de capturer le contexte séquentiel plus efficacement, améliorant l’extraction d’arguments.

GCN (2018) : les réseaux convolutionnels sur graphes ont exploité les arbres de dépendance syntaxique pour mieux modéliser les relations entre triggers et arguments.

Transformers/BERT (2019+) : l’arrivée de BERT a transformé le domaine. Les modèles pré-entraînés ont fourni des représentations contextuelles riches, propulsant les scores F1 sur ACE 2005 au-delà de 75% pour la détection de triggers. Des variantes comme OneIE (Lin et al., 2020) et Text2Event (Lu et al., 2021) ont unifié la tâche en génération séquence-à-structure.

Ère 4 : LLMs et approches génératives (2023-aujourd’hui)

L’ère actuelle est dominée par les grands modèles de langage. Deux stratégies coexistent :

LLMs en zero-shot / few-shot : des modèles comme GPT-5.4 ou Claude Opus 4.6 peuvent extraire des événements directement depuis un prompt, sans entraînement spécifique. On leur fournit un schéma d’événements et quelques exemples, et ils produisent une sortie structurée (JSON, XML). Cette approche est particulièrement intéressante pour les domaines où les données annotées sont rares.

LLMs fine-tunés (instruction-tuned) : des travaux récents comme ceux présentés à ACL 2025 montrent qu’on peut fine-tuner un LLM avec des guidelines d’annotation pour obtenir des performances supérieures aux modèles spécialisés. L’approche consiste à générer automatiquement des consignes d’annotation, puis à entraîner le modèle à les suivre. Les résultats sur ACE 2005 rivalisent avec les meilleurs systèmes supervisés.

LLMs vs. modèles spécialisés : le compromis Les LLMs excellent en généralisation et en adaptabilité (changement de domaine sans ré-entraînement), mais les modèles fine-tunés spécialisés restent souvent supérieurs en termes de F1-score brut sur les benchmarks établis. Pour un projet en production, le choix dépend de votre volume de données annotées : beaucoup de données = modèle spécialisé ; peu de données ou nouveau domaine = LLM en few-shot.

Performances actuelles sur les benchmarks

Voici un aperçu des performances état de l’art sur les principaux benchmarks, en F1-score :

Benchmark	Tâche	SOTA F1-score	Approche
ACE 2005 (EN)	Trigger Classification	~76-78%	Transformer + GCN / LLM fine-tuné
ACE 2005 (EN)	Argument Extraction	~55-60%	End-to-end génératif
MAVEN	Event Detection	~68-70%	BERT + CRF / LLM
BioNLP-ST 2011	Event Extraction	~72%	BERT + domain-specific
MLEE	Event Detection	~82%	Dependency Graph + Transformer

Un constat important : l’extraction d’arguments reste nettement plus difficile que la détection de triggers. Sur ACE 2005, l’écart est d’environ 20 points de F1. Cela s’explique par la complexité de l’attribution des rôles sémantiques, surtout quand les arguments sont éloignés du trigger dans le texte ou répartis sur plusieurs phrases.

Implémenter l’event extraction en pratique

Approche 1 : LLM via prompt engineering

La méthode la plus rapide pour démarrer. Vous envoyez un texte à un LLM avec un prompt structuré définissant les types d’événements et les rôles attendus, et le modèle retourne un JSON structuré.

Exemple de prompt pour ChatGPT ou Claude :

Vous êtes un expert en extraction d'événements.
Analysez le texte suivant et extrayez tous les événements.

Pour chaque événement, retournez un objet JSON avec :
- "trigger": le mot déclencheur
- "type": le type d'événement (Acquisition, Licenciement, Nomination, Investissement, Procès, Faillite)
- "arguments": liste d'objets {"role": ..., "text": ...}

Texte : "Carrefour a annoncé le rachat de Cora pour 1,1 milliard
d'euros. Le PDG Alexandre Bompard a confirmé l'opération lors
d'une conférence de presse à Paris le 12 mars."

Répondez uniquement en JSON.

Cette approche fonctionne remarquablement bien pour des cas d’usage métier où vous contrôlez le domaine. Elle ne nécessite aucune donnée d’entraînement et s’adapte à n’importe quel schéma d’événements simplement en modifiant le prompt.

Approche 2 : modèle fine-tuné

Pour des performances maximales sur un domaine précis avec un volume important de documents, le fine-tuning reste la référence. Les options principales :

OmniEvent : un toolkit open source complet qui supporte plusieurs paradigmes (token classification, sequence labeling, MRC, Seq2Seq) avec BERT, T5 et d’autres backbones. Il fournit une évaluation unifiée sur ACE 2005 et MAVEN.

Fine-tuning de LLMs open source : des modèles comme Llama 4 ou Mistral peuvent être fine-tunés sur vos données d’événements via LoRA ou QLoRA, avec un coût de calcul raisonnable. L’article « Instruction-Tuning LLMs for Event Extraction with Annotation Guidelines » (ACL 2025) montre que cette approche peut surpasser les modèles spécialisés plus anciens.

spaCy + custom components : pour des besoins plus légers, vous pouvez construire un pipeline spaCy avec un composant NER personnalisé pour les triggers et un classifieur de relations pour les arguments.

Approche 3 : extraction multi-documents

Les événements réels sont souvent rapportés dans plusieurs sources. L’extraction multi-documents combine les informations de différents articles pour construire une représentation consolidée d’un même événement. Cela implique de résoudre la coréférence événementielle (deux mentions réfèrent-elles au même événement ?) et de fusionner les arguments. Des travaux récents combinent LLMs et modèles spécialisés (SLMs) pour tirer parti de la généralisation des grands modèles et de la précision des modèles fine-tunés.

Attention aux hallucinations Les LLMs en mode zero-shot peuvent inventer des événements ou des arguments qui n’existent pas dans le texte source. Validez systématiquement les extractions contre le texte original. Pour les cas critiques (finance, juridique, médical), combinez l’extraction LLM avec une étape de vérification par grounding ou par un humain dans la boucle.

Cas d’usage concrets

Finance et veille économique

L’event extraction est massivement utilisée en finance pour détecter automatiquement les fusions-acquisitions, les levées de fonds, les changements de direction, les annonces de résultats et les alertes réglementaires dans les flux d’actualités et les rapports SEC/AMF. Les systèmes de trading algorithmique exploitent ces extractions pour réagir en temps réel aux événements de marché. BloombergGPT et les plateformes de financial AI intègrent l’event extraction comme brique fondamentale.

Biomédical et pharmacovigilance

Dans le domaine biomédical, l’event extraction sert à identifier les interactions médicamenteuses, les effets indésirables, les mutations génétiques et les résultats d’essais cliniques dans la littérature scientifique. Le dataset BioNLP-ST a stimulé la recherche dans ce domaine depuis 2009. Les systèmes comme ExcavatorCovid ont montré leur utilité pendant la pandémie pour extraire automatiquement les événements liés au COVID-19 et construire des graphes temporels et causaux.

Sécurité et renseignement

Les agences de renseignement et les forces de l’ordre utilisent l’event extraction pour surveiller les flux d’information en temps réel : détection d’attaques, de mouvements de troupes, de catastrophes naturelles, de manifestations. Le programme ACE du DARPA a été initialement conçu pour ce cas d’usage. La structuration automatique des événements permet de construire des graphes de connaissances dynamiques pour la prise de décision.

Juridique et compliance

L’extraction d’événements dans les documents juridiques (contrats, décisions de justice, documents réglementaires) permet d’identifier automatiquement les obligations, les délais, les violations et les sanctions. Ce domaine pose des défis spécifiques liés au vocabulaire juridique et à la complexité des structures de phrases. Des travaux récents sur le Legal AI montrent que les modèles Transformer pré-entraînés (comme Legal-BERT) améliorent significativement les performances par rapport aux approches classiques.

Veille médiatique et fact-checking

Les médias et les plateformes de veille utilisent l’event extraction pour monitorer les tendances, construire des timelines automatiques et alimenter des systèmes de détection de fake news. L’extraction structurée permet de comparer les versions d’un même événement entre différentes sources et de repérer les incohérences.

Event extraction vs. relation extraction vs. NER

La confusion entre ces trois tâches est fréquente. Voici les distinctions clés :

Tâche	Ce qu’elle identifie	Exemple	Sortie
NER	Entités (personnes, lieux, organisations)	« Apple » → ORG, « Austin » → LOC	Entités typées
Relation Extraction	Relations statiques entre entités	(Apple, headquartered_in, Cupertino)	Triplets relationnels
Event Extraction	Événements dynamiques avec participants et contexte	Licenciement(Agent: Apple, Patient: 200 employés, Lieu: Austin, Date: 15 mars)	Structures événementielles

La NER est une brique de base. La relation extraction capture des faits statiques. L’event extraction capture des dynamiques temporelles et causales. Les trois sont souvent combinées dans un pipeline d’extraction d’information complet.

Défis ouverts et directions de recherche

Extraction cross-domaine : les modèles entraînés sur un domaine (actualités) performent mal sur un autre (biomédical, juridique). L’adaptation de domaine via few-shot learning et transfer learning est un axe de recherche actif.

Extraction multi-lingue : la plupart des ressources sont en anglais. Des efforts sont en cours pour créer des corpus dans d’autres langues (le corpus ACE-2005-PT pour le portugais a été publié par le LDC en 2024), mais le français reste sous-représenté.

Événements implicites : « Le cours de l’action a chuté de 30% » implique un événement de perte financière sans trigger explicite. Détecter ces événements implicites reste un défi majeur.

Extraction au niveau document : les événements complexes s’étendent sur plusieurs phrases, voire plusieurs paragraphes. Les modèles actuels, optimisés au niveau de la phrase, peinent à capturer ces dépendances longue distance, même avec des fenêtres de contexte étendues.

Causalité et temporalité : relier les événements entre eux (cause-conséquence, séquence temporelle) pour construire des timelines cohérentes est un problème ouvert qui intéresse particulièrement les applications de veille et de renseignement.

Le rôle des LLMs dans l’avenir de l’event extraction Les grands modèles de langage changent la donne en rendant l’event extraction accessible sans données annotées. Mais ils ne remplacent pas les modèles spécialisés pour les applications à haute précision. La tendance est à la collaboration : utiliser un LLM pour le bootstrapping et la généralisation, puis un modèle fine-tuné pour la précision. Les travaux sur les approches collaboratives multi-modèles (LLM + SLM) publiés à EMNLP 2025 confirment cette direction.

Outils et frameworks

Voici les principaux outils pour implémenter l’event extraction :

OmniEvent Open Source : toolkit Python complet pour l’event detection et l’argument extraction. Supporte BERT, T5, CNN, LSTM, CRF. Évaluation unifiée sur ACE 2005 et MAVEN. C’est le point de départ recommandé pour la recherche.

Hugging Face Transformers Open Source : pas de pipeline event extraction dédié, mais les modèles token classification et Seq2Seq peuvent être adaptés. De nombreux modèles fine-tunés sur ACE 2005 sont disponibles sur le Hub.

LangChain / LlamaIndex Open Source : pour construire des pipelines d’extraction basés sur des LLMs avec sortie structurée (JSON mode, function calling). Idéal pour les applications métier.

APIs LLM (OpenAI, Anthropic, Google) Pro : l’approche la plus simple pour un MVP. Envoyez votre texte avec un prompt structuré, recevez un JSON. GPT-5.4 et Claude Opus 4.6 sont les plus performants en extraction structurée. Gemini excelle sur les documents multimodaux (PDF scannés).

spaCy + custom pipes Open Source : pour des pipelines légers et rapides en production. Nécessite plus de travail d’implémentation, mais offre un contrôle total et une latence minimale.

Verdict

L’event extraction est passée d’une tâche de niche réservée aux chercheurs en NLP à une capacité accessible à tout développeur grâce aux LLMs. Si vous démarrez un projet d’extraction d’événements aujourd’hui, commencez par un LLM en few-shot avec JSON mode pour valider votre cas d’usage. Si les performances ou le coût justifient un investissement supplémentaire, passez à un modèle fine-tuné. Pour les cas critiques (finance, santé), combinez les deux avec une vérification humaine.

Le domaine est en pleine accélération, porté par les progrès des LLMs et la demande croissante en extraction d’information structurée. La principale limitation reste le manque de datasets annotés pour les langues autres que l’anglais et pour les domaines spécialisés.

Questions fréquentes sur l’event extraction

Quelle est la différence entre event detection et event extraction ?

L’event detection est une sous-tâche de l’event extraction. Elle se concentre uniquement sur l’identification du trigger (mot déclencheur) et la classification du type d’événement. L’event extraction englobe l’event detection plus l’extraction des arguments (participants, lieu, date, cause, etc.). En pratique, quand on parle d’event extraction, on désigne l’ensemble du processus : détecter l’événement ET extraire toutes les informations structurées associées.

Comment utiliser GPT ou Claude pour l’event extraction ?

La méthode la plus simple consiste à envoyer votre texte avec un prompt structuré qui définit les types d’événements et les rôles d’arguments attendus, puis à demander une sortie en JSON. Utilisez le JSON mode ou le function calling pour garantir un format de sortie exploitable. Pour de meilleurs résultats, fournissez 2 à 3 exemples annotés dans le prompt (few-shot). GPT-5.4 et Claude Opus 4.6 sont les modèles les plus performants pour cette tâche, avec des coûts respectifs d’environ 2,50 $/M tokens (input) et 5 $/M tokens (input).

L’event extraction fonctionne-t-elle en français ?

Oui, mais avec des limitations. Les LLMs multilingues (GPT-5.4, Claude, Gemini) gèrent le français correctement en zero-shot. En revanche, il n’existe pas de dataset français de référence comparable à ACE 2005 pour l’entraînement et l’évaluation de modèles spécialisés. Pour un projet en français, l’approche LLM est donc fortement recommandée. Si vous avez besoin de performances maximales, vous pouvez fine-tuner un modèle multilingue comme CamemBERT ou un LLM open source sur vos propres données annotées en français.

Quelles sont les métriques utilisées pour évaluer l’event extraction ?

La métrique standard est le F1-score, calculé séparément pour la détection de triggers (trigger identification + classification) et l’extraction d’arguments (argument identification + role classification). On distingue souvent le match exact (le span du trigger ou de l’argument doit correspondre exactement à la référence) et le match relaxé (un chevauchement partiel suffit). Sur ACE 2005, les meilleurs systèmes atteignent environ 76-78% en F1 pour les triggers et 55-60% pour les arguments.

L’event extraction peut-elle traiter des documents longs ?

C’est un défi actif. Les modèles classiques travaillent au niveau de la phrase, ce qui limite leur capacité à relier des événements répartis sur plusieurs paragraphes. Les LLMs avec de longues fenêtres de contexte (1M tokens pour Claude Opus 4.6, ~1M pour GPT-5.4) ouvrent de nouvelles possibilités pour l’extraction au niveau document. Cependant, la qualité de l’extraction tend à se dégrader sur les très longs textes (phénomène de lost in the middle). La stratégie recommandée est de découper le document en sections, d’extraire les événements par section, puis de consolider les résultats en résolvant les coréférences.