AlphaFold

AlphaFold est un système d’intelligence artificielle développé par Google DeepMind qui prédit la structure tridimensionnelle des protéines à partir de leur séquence d’acides aminés, avec une précision comparable aux méthodes expérimentales.

Avant AlphaFold, déterminer la forme 3D d’une seule protéine pouvait prendre des années de travail en laboratoire et coûter des centaines de milliers d’euros. Depuis sa version 2 en 2020, AlphaFold résout ce problème en quelques minutes. Le système a valu à ses créateurs, Demis Hassabis et John Jumper, le prix Nobel de chimie 2024, et il est aujourd’hui utilisé par plus de 3,4 millions de chercheurs dans 190 pays.

Développeur: Google DeepMind / Isomorphic Labs
Version actuelle: AlphaFold 3 (mai 2024)
Prix: Gratuit (usage académique) · Commercial via Isomorphic Labs
Accès: AlphaFold Server · Code GitHub (CC-BY-NC-SA 4.0)
Base de données: AlphaFold DB : +200 millions de structures prédites
Distinction: Prix Nobel de chimie 2024 (Hassabis & Jumper)
Utilisateurs: +3,4 millions de chercheurs (mars 2026)

Pourquoi la structure des protéines est si importante

Les protéines sont les machines moléculaires fondamentales du vivant. Elles assurent la quasi-totalité des fonctions biologiques : catalyse enzymatique, transport de l’oxygène, défense immunitaire, signalisation cellulaire. Leur fonction dépend directement de leur forme 3D, c’est-à-dire la manière dont la chaîne d’acides aminés se replie dans l’espace.

Connaître la structure d’une protéine permet de comprendre comment elle interagit avec d’autres molécules, et donc de concevoir des médicaments qui se fixent précisément sur elle. C’est le socle de la biologie structurale et de la découverte de médicaments (drug discovery).

Le problème du repliement des protéines

Le « protein folding problem » (problème du repliement des protéines) est un défi scientifique vieux de 50 ans. Une protéine est constituée d’une chaîne de quelques dizaines à plusieurs milliers d’acides aminés. Le nombre de conformations possibles est astronomique : pour une protéine de 100 résidus, il existe plus de configurations théoriques qu’il n’y a d’atomes dans l’univers observable. Prédire par le calcul la structure finale à partir de la séquence seule était considéré comme l’un des plus grands problèmes ouverts en biologie.

Les méthodes expérimentales traditionnelles (cristallographie aux rayons X, spectroscopie RMN, cryo-microscopie électronique) produisent des résultats fiables mais sont extrêmement lentes et coûteuses. La Protein Data Bank (PDB), le dépôt mondial de structures expérimentales, ne contient qu’environ 200 000 structures après plus de 50 ans d’efforts collectifs.

Historique : d’AlphaFold 1 à AlphaFold 3

AlphaFold 1 (2018)

La première version d’AlphaFold est présentée lors de la compétition CASP13 (Critical Assessment of Structure Prediction), le benchmark de référence pour la prédiction de structures protéiques. DeepMind se classe premier (entrée A7D), surpassant les méthodes existantes. Le système utilise déjà du deep learning mais reste limité en précision par rapport aux méthodes expérimentales.

AlphaFold 2 (2020-2021)

C’est la version qui révolutionne le domaine. En novembre 2020, AlphaFold 2 remporte CASP14 avec une avance considérable : un score GDT_TS médian de 92,4, soit une erreur médiane (RMSD_95) inférieure à 1 ångström, trois fois plus précis que le deuxième système et comparable aux méthodes expérimentales. Les organisateurs de CASP déclarent le problème du repliement des protéines « résolu ».

Les points clés d’AlphaFold 2 :

Caractéristique	Détail
Architecture	Evoformer (basé sur le mécanisme d’attention des Transformers)
Entrée	Séquence d’acides aminés + alignements de séquences multiples (MSA)
Sortie	Coordonnées 3D de tous les atomes de la protéine
Précision	~1 ångström d’erreur médiane (niveau expérimental)
Code	Open Source (Apache 2.0, usage commercial autorisé)
Base de données	+214 millions de structures (quasi-totalité des protéines connues)
Publication	Nature, juillet 2021 (citée +43 000 fois)

En juillet 2021, DeepMind publie la méthodologie complète dans Nature, rend le code open source, et lance avec EMBL-EBI la base de données AlphaFold Protein Structure Database (AFDB). D’abord 350 000 structures, la base s’étend rapidement à 214 millions d’entrées couvrant la quasi-totalité des protéines cataloguées.

AlphaFold 3 (2024)

AlphaFold 3, publié dans Nature en mai 2024, marque un saut conceptuel majeur. Là où AlphaFold 2 se limitait aux protéines individuelles, AlphaFold 3 prédit les interactions entre protéines et l’ensemble des biomolécules : ADN, ARN, ligands, ions et résidus modifiés.

Le changement fondamental d’AlphaFold 3 AlphaFold 3 passe d’une architecture Evoformer spécialisée à un réseau de diffusion (similaire aux générateurs d’images comme Stable Diffusion). Le modèle part de coordonnées atomiques bruitées et les affine itérativement jusqu’à obtenir une prédiction précise. Cette approche permet de traiter tous les types de molécules dans un cadre unifié.

Performances clés d’AlphaFold 3 :

Capacité	AlphaFold 2	AlphaFold 3
Protéines (monomères)	✅ Haute précision	✅ Précision améliorée
Complexes protéine-protéine	Via AlphaFold-Multimer	✅ Natif, plus précis
Protéine-ADN / ARN	❌	✅
Protéine-ligand (petites molécules)	❌	✅ (+50% précision vs méthodes existantes)
Ions et résidus modifiés	❌	✅
Architecture	Evoformer + Structure Module	Evoformer simplifié + Diffusion Network
Risque d’hallucination	Faible	Possible (atténué par cross-distillation)

Hallucinations dans AlphaFold 3 L’utilisation d’un réseau de diffusion introduit un risque d’hallucination : le modèle peut générer des structures plausibles visuellement mais qui n’existent pas en réalité. AlphaFold 3 implémente un algorithme de cross-distillation avec AlphaFold-Multimer v2 pour réduire ce risque, mais la validation expérimentale reste indispensable.

La question de l’accès au code

Contrairement à AlphaFold 2 (licence Apache 2.0, usage commercial), AlphaFold 3 a d’abord été accessible uniquement via l’AlphaFold Server, avec des limitations : 10 requêtes par jour (puis 20, puis 30 actuellement) et impossibilité de prédire les interactions protéine-ligand pour éviter la concurrence avec Isomorphic Labs.

Cette restriction a provoqué une controverse importante dans la communauté scientifique. Une lettre ouverte signée par plus de 650 chercheurs a dénoncé le manque de reproductibilité. En novembre 2024, DeepMind a finalement publié le code source et les poids du modèle sous licence CC-BY-NC-SA 4.0 (usage académique non commercial uniquement). Les poids sont accessibles sur demande auprès de Google.

Architecture technique d’AlphaFold

Pipeline AlphaFold 2

Le fonctionnement d’AlphaFold 2 repose sur plusieurs étapes :

1. Recherche génétique et de templates. À partir de la séquence d’acides aminés, le système effectue une recherche dans des bases de données de séquences (UniRef, BFD, MGnify) pour construire un alignement de séquences multiples (MSA). Il recherche également des structures templates dans la PDB. Cette étape est purement CPU et peut prendre plusieurs heures.

2. Le module Evoformer. C’est le cœur du modèle. Il traite deux représentations en parallèle : une représentation MSA (relations entre séquences homologues) et une représentation « paire » (relations spatiales entre résidus). Le module utilise le mécanisme d’attention (row attention, column attention, triangular attention) pour propager l’information entre ces deux représentations sur 48 blocs successifs.

3. Le Structure Module. Il convertit les représentations de l’Evoformer en coordonnées 3D atomiques. Il opère par raffinement itératif (« recycling ») : le modèle est exécuté plusieurs fois (généralement 3 passages) en réinjectant la prédiction précédente comme point de départ.

4. Score de confiance (pLDDT). AlphaFold produit un score de confiance par résidu (predicted Local Distance Difference Test), de 0 à 100. Les régions avec un pLDDT supérieur à 90 sont considérées comme très fiables. Les régions désordonnées (intrinsèquement flexibles) obtiennent typiquement un score faible, ce qui est informatif en soi.

Ce qui change dans AlphaFold 3

AlphaFold 3 conserve une version simplifiée de l’Evoformer mais remplace le Structure Module par un réseau de diffusion. L’Evoformer se concentre davantage sur la représentation « paire » plutôt que sur le MSA. Le réseau de diffusion part de coordonnées atomiques aléatoires (bruit gaussien) et les débruite itérativement pour converger vers la structure prédite, de façon analogue aux modèles de diffusion utilisés en génération d’images.

Cette approche unifie le traitement de tous les types d’atomes (protéine, ADN, ARN, ligands, ions) dans un seul framework, alors qu’AlphaFold 2 nécessitait des modules spécialisés pour chaque type de molécule.

AlphaFold Server et AlphaFold Database

AlphaFold Server

L’AlphaFold Server (alphafoldserver.com) est une interface web gratuite qui donne accès aux capacités de prédiction d’AlphaFold 3 sans nécessiter d’infrastructure GPU. Les chercheurs peuvent soumettre des séquences et recevoir des prédictions de structures moléculaires complexes en quelques clics.

Caractéristiques actuelles du serveur :

Paramètre	Valeur
Quota journalier	30 jobs par utilisateur
Types de molécules	Protéines, ADN, ARN, ligands (ensemble limité), ions
Usage	Non commercial uniquement
Visualisation	Intégrée via Mol* (avec mesures, annotations)
Templates	Personnalisables (date de coupure PDB ajustable)

Limitation importante pour le drug design Le serveur ne permet pas de prédire les interactions entre protéines et molécules médicamenteuses candidates (ligands non répertoriés). Cette restriction protège les activités commerciales d’Isomorphic Labs. Pour ce type de prédiction, il faut utiliser le code open source en local ou passer par un partenariat avec Isomorphic.

AlphaFold Database (AFDB)

La base de données AlphaFold, gérée conjointement par EMBL-EBI et Google DeepMind, est l’une des ressources scientifiques les plus utilisées au monde. Elle contient plus de 214 millions de prédictions de structures protéiques, couvrant la quasi-totalité des protéines cataloguées dans UniProt.

En mars 2026, une mise à jour majeure a ajouté 1,7 million d’homodimères (complexes de deux protéines identiques) couvrant 20 espèces parmi les plus étudiées, y compris l’humain et les pathogènes prioritaires de l’OMS. Ce travail a été réalisé en collaboration avec NVIDIA et l’Université nationale de Séoul, qui ont contribué à l’accélération des pipelines de calcul.

Les chiffres clés de l’AFDB :

Métrique	Valeur
Structures monomères	+214 millions
Homodimères (nouveauté mars 2026)	1,7 million
Utilisateurs	+3,4 millions dans 190 pays
Taille des données	~23 téraoctets
Licence	CC BY 4.0 (libre accès)
Interface	Redesign complet publié en janvier 2026

Prix Nobel de chimie 2024

Le 9 octobre 2024, l’Académie royale des sciences de Suède a décerné le prix Nobel de chimie conjointement à Demis Hassabis et John Jumper (pour la prédiction de structures protéiques via AlphaFold) et à David Baker (pour le design computationnel de protéines). C’est la première fois qu’une contribution majeure de l’IA est récompensée par un Nobel de chimie.

Le comité Nobel a souligné qu’AlphaFold 2 a permis de prédire la structure de la quasi-totalité des 200 millions de protéines connues, un travail qui aurait pris des centaines de millions d’années par méthodes expérimentales. La publication originale dans Nature est citée plus de 43 000 fois, ce qui en fait l’une des publications scientifiques les plus citées de tous les temps.

Isomorphic Labs et l’application pharmaceutique

Isomorphic Labs, fondée en 2021 par Demis Hassabis, est la branche commerciale de la technologie AlphaFold pour la découverte de médicaments. L’entreprise, filiale d’Alphabet, applique AlphaFold 3 et d’autres modèles d’IA propriétaires au design de molécules thérapeutiques.

Les partenariats majeurs d’Isomorphic Labs :

Partenaire	Date	Montant potentiel	Focus
Eli Lilly	Janvier 2024	~1,7 milliard $	Petites molécules, cibles non divulguées
Novartis	Janvier 2024 (élargi février 2025)	~1,2 milliard $	Petites molécules, cancers (pancréas, poumon, colorectal)
Johnson & Johnson	2025	Non divulgué	Multi-modalité (petites molécules + biologiques)

En avril 2025, Isomorphic Labs a levé 600 millions de dollars en Series A (mené par Thrive Capital), et l’entreprise prépare ses premiers essais cliniques sur des médicaments entièrement conçus par IA, avec un focus oncologie et immunologie.

Valeur totale des partenariats Les accords avec Eli Lilly et Novartis représentent à eux seuls près de 3 milliards de dollars potentiels (hors royalties sur les ventes futures). C’est l’un des plus gros investissements jamais réalisés dans la découverte de médicaments par IA.

Cas d’usage concrets d’AlphaFold

Découverte de médicaments

AlphaFold a doublé la proportion de poches protéiques « druggables » identifiées (de 19,8 % à 41,8 %) et atteint des taux de réussite de 60 % en criblage virtuel, contre 30 % pour les méthodes traditionnelles. En pratique, cela signifie que les chercheurs peuvent identifier plus rapidement les sites où un médicament pourrait se fixer sur une protéine cible, réduisant considérablement la phase de recherche initiale.

Maladies négligées

L’initiative DNDi (Drugs for Neglected Diseases) utilise AlphaFold pour accélérer la recherche sur la maladie de Chagas et la leishmaniose, des pathologies tropicales qui touchent des millions de personnes dans les pays à faible revenu. Le fait que la base de données soit gratuite et que plus d’un million d’utilisateurs soient dans des pays à revenu faible ou intermédiaire en fait un outil de démocratisation scientifique.

Vaccins et résistance antimicrobienne

Des chercheurs de l’Université d’Oxford ont utilisé AlphaFold 2 pour déterminer la structure complète de la protéine de surface Pfs48/45 du parasite du paludisme, une étape clé pour le développement de vaccins antipaludéens. AlphaFold est également utilisé pour étudier les mécanismes de résistance aux antibiotiques.

Ingénierie enzymatique

AlphaFold permet de concevoir des enzymes capables de dégrader le plastique, de produire des biocarburants ou de catalyser des réactions chimiques spécifiques. En comprenant la forme exacte de l’enzyme, les chercheurs peuvent la modifier pour améliorer son efficacité ou changer sa spécificité.

Agriculture et cultures résilientes

Les prédictions AlphaFold aident à comprendre les protéines impliquées dans la résistance des plantes au stress hydrique, aux maladies et aux ravageurs. Cela ouvre la voie à des cultures génétiquement optimisées pour résister au changement climatique.

Alternatives et concurrents

AlphaFold n’est pas le seul système de prédiction de structures protéiques, même s’il reste le plus précis et le plus utilisé.

Outil	Développeur	Particularité	Licence
RoseTTAFold	David Baker (UW)	Architecture à trois pistes, précision proche d’AF2	Open Source
ESMFold	Meta AI	Prédiction rapide sans MSA (basé sur un LLM protéique)	Open Source
OpenFold	Consortium OpenFold	Réimplémentation open source d’AF2, entraînable	Open Source (MIT)
OpenFold3	Consortium OpenFold	Version ouverte en développement visant la parité avec AF3	Beta
HelixFold	Baidu	Reproduction d’AF3 par le géant chinois	Recherche
Chai-1	Chai Discovery	Prédiction multi-moléculaire, alternative open source à AF3	Open Source

Notre verdict : AlphaFold 3 reste la référence absolue en termes de précision, particulièrement pour les interactions protéine-ligand, mais sa licence non commerciale pousse les entreprises pharma à se tourner vers Isomorphic Labs pour un usage industriel. Pour la recherche académique, la combinaison AlphaFold Server + code GitHub couvre la majorité des besoins. Les alternatives open source comme OpenFold ou Chai-1 sont pertinentes si vous avez besoin d’entraîner vos propres modèles ou d’un usage commercial libre.

Comment utiliser AlphaFold

Option 1 : AlphaFold Server (le plus simple)

Étape 1. Rendez-vous sur alphafoldserver.com et connectez-vous avec un compte Google.

Étape 2. Entrez la séquence d’acides aminés de votre protéine (format FASTA) ou son identifiant UniProt.

Étape 3. Ajoutez éventuellement d’autres chaînes (protéines, ADN, ARN, ligands, ions) pour modéliser un complexe moléculaire.

Étape 4. Configurez les paramètres de template (date de coupure PDB, activation/désactivation des templates).

Étape 5. Lancez la prédiction. Le résultat est disponible en quelques minutes à quelques heures selon la complexité.

Étape 6. Visualisez la structure avec le viewer Mol* intégré. Examinez les scores de confiance (pLDDT) et la matrice PAE (Predicted Aligned Error).

Option 2 : Installation locale (AlphaFold 3)

Pour les équipes qui ont besoin de plus de flexibilité (volume de prédictions élevé, molécules non supportées par le serveur), l’installation locale est possible mais nécessite :

Prérequis	Détail
GPU	NVIDIA avec support CUDA (A100 ou H100 recommandé)
RAM	64 Go minimum
Stockage	~2 To pour les bases de données génétiques
Licence	CC-BY-NC-SA 4.0 (non commercial uniquement)
Poids du modèle	Accès sur demande auprès de Google DeepMind

Le pipeline se décompose en deux phases distinctes : le data pipeline (recherche génétique et de templates, CPU uniquement, le plus long) et l’inférence (prédiction de structure, nécessite un GPU). Ces deux phases peuvent être exécutées sur des machines différentes via les flags --run_data_pipeline et --run_inference.

Option 3 : Consulter la base de données

Si la protéine qui vous intéresse fait partie des organismes couverts par l’AFDB, la structure prédite est probablement déjà disponible. Rendez-vous sur alphafold.ebi.ac.uk, recherchez par identifiant UniProt ou par séquence, et téléchargez la structure au format mmCIF ou PDB.

Limites et pièges à connaître

AlphaFold est un outil puissant, mais il ne remplace pas les méthodes expérimentales. Voici les limites à garder en tête :

Les régions désordonnées ne sont pas des erreurs. Beaucoup de protéines contiennent des régions intrinsèquement désordonnées qui n’ont pas de structure 3D fixe. AlphaFold leur attribue un pLDDT faible, ce qui est correct : l’absence de structure stable est l’information biologique pertinente.

La dynamique n’est pas modélisée. AlphaFold prédit une structure statique, alors que les protéines sont des objets dynamiques qui changent de conformation. Pour étudier la dynamique, il faut compléter avec des simulations de dynamique moléculaire.

Les mutations ponctuelles ne sont pas toujours bien captées. AlphaFold peut ne pas prédire correctement l’effet d’une seule mutation sur la structure. Pour ce cas d’usage, AlphaMissense (un modèle complémentaire de DeepMind) est plus adapté.

La précision varie selon les molécules dans AF3. Si AlphaFold 3 est excellent pour les complexes protéine-protéine, la précision sur les interactions protéine-ligand, bien que supérieure aux méthodes précédentes, reste variable selon la nature du ligand. La validation expérimentale reste indispensable pour la conception de médicaments.

AlphaFold 3 peut halluciner. Le réseau de diffusion peut générer des structures plausibles mais incorrectes. Il est essentiel de vérifier les scores de confiance et de comparer avec les données expérimentales disponibles.

AlphaFold dans l’écosystème de l’IA

AlphaFold illustre parfaitement comment le deep learning peut résoudre des problèmes scientifiques fondamentaux quand trois conditions sont réunies : des données de haute qualité (la PDB, 50 ans de structures expérimentales), une architecture de modèle adaptée (Transformers/Evoformer, puis diffusion), et une puissance de calcul massive.

Le projet a également démontré l’importance du transfer learning : AlphaFold 2 apprend des patterns d’évolution dans les alignements de séquences pour inférer la proximité spatiale des résidus, une forme sophistiquée d’apprentissage par transfert depuis les données évolutives vers la prédiction structurale.

AlphaFold s’inscrit dans une tendance plus large de l’IA pour la science, aux côtés de projets comme AlphaGo (jeux), AlphaGeometry (mathématiques) et GNoME (découverte de matériaux), tous issus de Google DeepMind.

Verdict

AlphaFold est, sans aucune exagération, l’application la plus transformative de l’IA dans les sciences fondamentales. En cinq ans, il a résolu un problème vieux de 50 ans, gagné un prix Nobel, et touché plus de 3,4 millions de chercheurs. La version 3, avec sa capacité à modéliser les interactions multi-moléculaires, ouvre la porte à une accélération radicale de la découverte de médicaments.

Pour un chercheur en biologie ou en chimie, ne pas utiliser AlphaFold revient à se priver volontairement d’un microscope. C’est un outil devenu incontournable, gratuit pour la recherche académique, et dont l’impact ne fait que s’amplifier.

La seule ombre au tableau : la restriction commerciale d’AlphaFold 3. Si vous êtes dans l’industrie pharmaceutique, vous devrez passer par Isomorphic Labs ou vous tourner vers les alternatives open source. Mais pour la recherche fondamentale, il n’y a tout simplement pas mieux.

Questions fréquentes sur AlphaFold

Quelle est la différence entre AlphaFold 2 et AlphaFold 3 ?

AlphaFold 2 prédit uniquement la structure 3D de protéines individuelles. AlphaFold 3, publié en mai 2024, va bien plus loin : il prédit les interactions entre protéines et d’autres biomolécules (ADN, ARN, ligands, ions). Sur le plan technique, AlphaFold 3 utilise un réseau de diffusion à la place du Structure Module d’AlphaFold 2, ce qui lui permet de traiter tous les types d’atomes dans un cadre unifié. En termes de précision sur les interactions protéine-ligand, AlphaFold 3 surpasse de 50 % les meilleurs outils existants.

AlphaFold est-il gratuit ?

Pour la recherche académique, oui. L’AlphaFold Server est gratuit (jusqu’à 30 prédictions par jour), et la base de données AFDB est accessible en libre accès sous licence CC BY 4.0. Le code d’AlphaFold 3 est disponible sur GitHub sous licence CC-BY-NC-SA 4.0 (non commercial). AlphaFold 2 reste entièrement open source sous licence Apache 2.0, y compris pour un usage commercial. Pour un usage commercial d’AlphaFold 3, il faut passer par Isomorphic Labs.

AlphaFold remplace-t-il les expériences en laboratoire ?

Non. AlphaFold produit des prédictions, pas des données expérimentales. Ces prédictions sont remarquablement précises pour les protéines bien repliées (erreur médiane inférieure à 1 ångström), mais elles ne capturent pas la dynamique des protéines, ne modélisent pas les effets de l’environnement (pH, température, interactions avec la membrane cellulaire), et peuvent contenir des erreurs, notamment pour les régions désordonnées ou les complexes multi-moléculaires. AlphaFold accélère considérablement la recherche en réduisant le nombre d’expériences nécessaires, mais la validation expérimentale reste indispensable.

Combien de protéines AlphaFold a-t-il prédit ?

La base de données AlphaFold contient plus de 214 millions de structures de protéines individuelles, couvrant la quasi-totalité des protéines cataloguées dans UniProt. En mars 2026, 1,7 million de complexes homodimères (deux protéines identiques interagissant ensemble) ont été ajoutés, grâce à une collaboration entre EMBL-EBI, Google DeepMind, NVIDIA et l’Université nationale de Séoul. La base de données est utilisée par plus de 3,4 millions de chercheurs dans 190 pays.

AlphaFold peut-il concevoir de nouveaux médicaments ?

AlphaFold 3 prédit comment une protéine interagit avec un ligand (une petite molécule potentiellement thérapeutique), ce qui est fondamental pour le design de médicaments. Cependant, AlphaFold seul ne conçoit pas de médicaments : il fournit les informations structurales nécessaires. La conception de médicaments nécessite ensuite des étapes supplémentaires (optimisation chimique, tests de toxicité, essais cliniques). Isomorphic Labs, la filiale d’Alphabet dédiée, combine AlphaFold avec d’autres modèles d’IA propriétaires pour automatiser davantage ce processus. L’entreprise prépare actuellement ses premiers essais cliniques sur des molécules entièrement conçues par IA.