Protein Folding : prédire la structure 3D des protéines grâce à l’IA

Le protein folding (repliement des protéines) assisté par IA utilise des architectures de deep learning pour prédire la structure tridimensionnelle d’une protéine à partir de sa seule séquence d’acides aminés. AlphaFold (Google DeepMind), couronné par le prix Nobel de chimie 2024, a résolu un défi vieux de 50 ans en atteignant une précision comparable aux méthodes expérimentales, ouvrant la voie à des avancées majeures en biologie structurale, en conception de médicaments et en ingénierie protéique.

Catégorie: Bioinformatique, biologie structurale computationnelle
Défi fondamental: Prédire la structure 3D d’une protéine à partir de sa séquence d’acides aminés (20 acides aminés, repliement en millisecondes, espace conformationnel astronomique)
Modèle de référence: AlphaFold 2 (DeepMind, 2020), AlphaFold 3 (DeepMind + Isomorphic Labs, 2024)
Benchmark: CASP (Critical Assessment of Structure Prediction), biennal depuis 1994
Score AlphaFold 2: GDT ~90 sur cibles difficiles (CASP14, 2020), comparable à la précision expérimentale
Base de données: AlphaFold DB : 200+ millions de structures prédites (EMBL-EBI + DeepMind)
Prix Nobel 2024: Demis Hassabis, John Jumper (prédiction de structures) et David Baker (design de protéines)

Qu’est-ce que le protein folding ?

Les protéines sont des chaînes d’acides aminés qui se replient spontanément en structures tridimensionnelles complexes. Cette structure 3D détermine la fonction biologique de la protéine : une enzyme catalyse une réaction chimique précise parce que son site actif a une géométrie spécifique, un anticorps reconnaît un antigène parce que sa région variable adopte une forme complémentaire.

Le « problème du repliement des protéines » est l’un des plus anciens défis de la biologie : comment prédire la structure 3D d’une protéine à partir de sa seule séquence d’acides aminés ? Depuis Christian Anfinsen (Nobel de chimie 1972, démonstration que la séquence détermine la structure), ce problème a résisté pendant 50 ans aux approches computationnelles classiques.

L’espace conformationnel est astronomique : une protéine de 100 acides aminés pourrait théoriquement adopter un nombre de conformations supérieur au nombre d’atomes dans l’univers observable. Pourtant, les protéines se replient en millisecondes. C’est le « paradoxe de Levinthal » (1969) : la nature ne parcourt pas toutes les conformations possibles, elle suit un chemin de repliement guidé par des interactions physiques (liaisons hydrogène, interactions hydrophobes, ponts disulfure, forces de van der Waals).

Approches expérimentales vs computationnelles

Méthodes expérimentales

Trois techniques dominent la détermination expérimentale des structures protéiques : la cristallographie aux rayons X (résolution atomique, nécessite un cristal de la protéine), la résonance magnétique nucléaire (RMN, en solution, limitée aux petites protéines) et la cryo-microscopie électronique (cryo-EM, en plein essor, permet l’étude de grands complexes). Ces méthodes sont précises mais lentes : des mois à des années par structure, à un coût de dizaines de milliers d’euros minimum.

La Protein Data Bank (PDB), créée en 1971, contient environ 238 000 structures résolues expérimentalement. C’est une fraction infime des 253 millions de séquences protéiques connues (UniProtKB, juin 2025). Ce fossé entre séquences connues et structures résolues est précisément le problème que l’IA a résolu.

Approches computationnelles pré-IA

Avant le deep learning, deux grandes familles d’approches coexistaient. Les méthodes basées sur la physique (dynamique moléculaire, minimisation d’énergie) tentaient de calculer la conformation la plus stable en simulant les interactions atomiques, mais le coût computationnel était prohibitif pour les grandes protéines. Les méthodes par homologie (template-based modeling) utilisaient les structures connues de protéines similaires comme modèles, mais échouaient pour les protéines sans homologue connu.

CASP : le benchmark mondial

Le concours CASP (Critical Assessment of Structure Prediction), fondé en 1994 par John Moult (University of Maryland) et Krzysztof Fidelis (UC Davis), est le benchmark de référence. Tous les deux ans, les équipes participantes prédisent les structures de protéines dont la structure a été résolue expérimentalement mais pas encore publiée. C’est un test en aveugle, la référence absolue pour évaluer les progrès du domaine.

Le score GDT (Global Distance Test) évalue la précision : un score de 0 à 100, où ~20 correspond à une prédiction aléatoire, >80 à un bon modèle pour les cibles faciles (template-based), et >90 à une précision comparable à l’expérimental. Pendant 25 ans, les scores sur les cibles difficiles (free modeling, sans homologue connu) plafonnaient autour de 40.

Édition CASP	Année	Meilleur score (cibles difficiles)	Événement marquant
CASP1-CASP12	1994-2016	~20-40 GDT	Progrès incrémentaux, plafonnement
CASP13	2018	~60 GDT	AlphaFold 1 (DeepMind) remporte la compétition
CASP14	2020	~90 GDT	AlphaFold 2 atteint la précision expérimentale
CASP15	2022	>90 GDT	Premières évaluations de complexes multi-protéiques et ARN
CASP16	2024	>90 GDT	Évaluation de la liaison aux ligands, ADN, modélisation intégrative

La révolution AlphaFold

AlphaFold 1 (2018)

Première participation de DeepMind au CASP13. AlphaFold 1 utilise un réseau de neurones profond pour estimer une carte de distances entre résidus, puis optimise la structure avec un potentiel statistique. Le système atteint ~60% de précision sur les cibles difficiles, surpassant tous les concurrents. C’est un bond sans précédent, mais encore insuffisant pour une utilisation pratique.

AlphaFold 2 (2020)

Le moment charnière. AlphaFold 2 réinvente complètement l’architecture et remporte CASP14 avec des scores GDT ~90 sur les cibles difficiles, une précision comparable aux méthodes expérimentales. L’article fondateur est publié dans Nature en juillet 2021 (Jumper et al.).

Architecture Evoformer : Le cœur d’AlphaFold 2 est l’Evoformer, un module Transformer spécialisé qui traite simultanément deux types de représentations : les alignements de séquences multiples (MSA, informations évolutives sur les co-variations entre résidus) et les représentations par paires (relations géométriques entre chaque paire de résidus). Le traitement conjoint de ces deux sources d’information est la clé de la performance.

Module de structure : Les représentations sont converties en coordonnées 3D par un module de structure qui opère dans un espace de « frames » rigides (Invariant Point Attention, IPA), respectant les contraintes physiques de la chaîne polypeptidique.

Recyclage : Le réseau effectue plusieurs passes (recycling), affinant les prédictions à chaque itération. AlphaFold 2 utilise typiquement 3 cycles de recyclage.

Données d’entraînement : Le modèle est entraîné sur la PDB (structures expérimentales) et sur de vastes bases de données de séquences (UniProt, BFD) pour construire les MSA. L’information évolutive contenue dans les MSA est cruciale : les co-variations entre positions révèlent quels résidus sont en contact spatial dans la structure 3D.

AlphaFold 3 (mai 2024)

Co-développé par Google DeepMind et Isomorphic Labs. AlphaFold 3 étend les capacités au-delà des protéines seules : il prédit la structure de complexes protéine-protéine, protéine-ADN, protéine-ARN, protéine-ligand, protéine-ion et protéine-sucre.

Architecture Pairformer : Variante simplifiée de l’Evoformer, plus efficace computationnellement.

Module de diffusion : AlphaFold 3 remplace le module de structure d’AF2 par un réseau de diffusion qui part d’un nuage d’atomes aléatoire et converge itérativement vers la structure la plus probable. Cette approche est plus flexible et permet de modéliser des molécules au-delà des protéines.

Limites : La prédiction de complexes protéine-ligand et protéine-acide nucléique est moins fiable que la prédiction de structures protéiques seules, en raison d’un volume de données d’entraînement inférieur pour ces interactions. Le code est disponible pour un usage non commercial ; l’accès aux poids d’entraînement est restreint aux chercheurs académiques sur demande.

Les autres modèles de prédiction

RoseTTAFold (Baker Lab, University of Washington)

Développé par le groupe de David Baker (co-lauréat du Nobel 2024), RoseTTAFold utilise un réseau à trois voies (« three-track network ») qui intègre simultanément les informations de séquence 1D, les matrices de distances 2D et les coordonnées 3D. Sa précision approche celle d’AlphaFold 2, avec des forces spécifiques sur la prédiction de l’effet des mutations.

RoseTTAFold-All-Atom : Extension qui prédit les complexes protéine-acide nucléique, protéine-ligand et modifications post-traductionnelles, positionnée comme alternative open source à AlphaFold 3.

ESMFold (Meta AI)

Approche radicalement différente : ESMFold utilise un protein language model (ESM-2, jusqu’à 15 milliards de paramètres) pour prédire les structures à partir d’une seule séquence, sans MSA. L’avantage : une vitesse 60 fois supérieure à AlphaFold 2 pour les séquences courtes. Le compromis : une précision légèrement inférieure pour les protéines avec de nombreux homologues, mais ESMFold peut surpasser AlphaFold 2 pour les protéines orphelines (sans homologue connu, MSA peu profondes). Meta AI a généré l’ESM Metagenomic Atlas : plus de 600 millions de structures de protéines métagénomiques.

Autres modèles notables

OmegaFold (HeliXon) : Modèle single-sequence similaire à ESMFold, combinant un protein language model avec des contraintes géométriques.

OpenFold (OpenFold Consortium) : Réimplémentation open source et entraînable d’AlphaFold 2, avec OpenProteinSet (5 millions de MSA diversifiés). OpenFold3, version préliminaire publiée fin 2025, vise à reproduire les capacités d’AlphaFold 3 en open source.

Chai-1 et Boltz-1 : Modèles open source de nouvelle génération pour la prédiction de complexes biomoléculaires, étendant les capacités au-delà des protéines seules.

Modèle	Développeur	Input	Force principale	Limite
AlphaFold 2	Google DeepMind	Séquence + MSA	Précision de référence (~90 GDT CASP14)	Lent (MSA obligatoire), protéines seules
AlphaFold 3	DeepMind + Isomorphic Labs	Séquence + MSA	Complexes multi-moléculaires (ADN, ARN, ligands)	Accès restreint, ligands moins fiables
RoseTTAFold	Baker Lab (UW)	Séquence + MSA	Prédiction de mutations, open source	Légèrement moins précis qu’AF2
ESMFold	Meta AI	Séquence seule	Vitesse (60× AF2), protéines orphelines	Moins précis avec MSA riches
OmegaFold	HeliXon	Séquence seule	Rapidité, pas de MSA requis	Précision inférieure sur cibles standard
OpenFold / OpenFold3	OpenFold Consortium	Séquence + MSA	Entièrement open source, entraînable	En développement (OpenFold3)

AlphaFold DB : 200+ millions de structures

En partenariat avec l’EMBL-EBI (European Bioinformatics Institute), DeepMind a publié AlphaFold DB, une base de données en accès libre contenant plus de 200 millions de structures protéiques prédites, couvrant la quasi-totalité d’UniProt. La base fournit des téléchargements individuels pour le protéome humain et pour 47 autres organismes clés en recherche et en santé mondiale.

Chaque prédiction est accompagnée d’un score de confiance par résidu (pLDDT, predicted Local Distance Difference Test) qui indique la fiabilité de la prédiction pour chaque acide aminé. Un pLDDT >90 indique une confiance très élevée, 70-90 une confiance bonne, et <50 une région probablement désordonnée ou mal prédite.

La base a été mise à jour en mars 2026, avec l’intégration de données de partenaires tiers (protéines kinetoplastides, bactéries AllTheBacteria, virus BFVD et Viro3D) et AlphaMissense (prédiction de l’effet des variants faux-sens).

Prix Nobel de chimie 2024

Le 9 octobre 2024, le prix Nobel de chimie a été attribué à Demis Hassabis et John Jumper (Google DeepMind) pour la prédiction de structures protéiques, et à David Baker (University of Washington) pour le design computationnel de protéines. C’est la première fois qu’une avancée scientifique rendue possible par l’intelligence artificielle est reconnue par un Nobel (avec le Nobel de physique 2024 pour les réseaux de neurones).

Le comité Nobel a souligné que ces travaux ont résolu le problème du repliement des protéines, un défi ouvert depuis plus de 50 ans, et qu’ils ont des implications transformatrices pour la médecine, la biotechnologie et la recherche fondamentale.

David Baker, avec son logiciel Rosetta puis RoseTTAFold, a fait sa première participation au CASP en 1998 et a été un pionnier du design de protéines de novo (protéines n’existant pas dans la nature, conçues sur ordinateur). Il travaille notamment sur un spray nasal contre les variants du coronavirus, utilisant des protéines artificielles conçues par design computationnel.

Applications

Drug discovery

La prédiction de structures a élargi considérablement le champ du drug discovery basé sur la structure. Pfizer, Novartis et AstraZeneca ont intégré AlphaFold et RoseTTAFold dans leurs pipelines internes pour automatiser la prédiction de structures, le docking moléculaire et le criblage de composés candidats. Isomorphic Labs (filiale d’Alphabet, spin-off de DeepMind) se consacre entièrement à l’application d’AlphaFold au drug discovery.

Ingénierie protéique et design de novo

Des outils comme ProteinMPNN (design de séquences pour une structure cible), RFDiffusion (génération de nouvelles structures par diffusion) et ProGen permettent de concevoir des protéines entièrement nouvelles. Ces protéines artificielles ont des applications en biocatalyse industrielle, en biomatériaux, en thérapeutique (anticorps designer, enzymes thérapeutiques) et en diagnostique.

Compréhension des maladies

Le mauvais repliement des protéines est directement impliqué dans de nombreuses maladies : Alzheimer (agrégation de protéines tau et amyloïde-bêta), Parkinson (agrégation d’alpha-synucléine), fibrose kystique (mutation CFTR), maladies à prions. La prédiction de structures aide à comprendre les mécanismes moléculaires de ces pathologies et à identifier des cibles thérapeutiques.

Médecine de précision

AlphaMissense (DeepMind, 2023) utilise AlphaFold pour prédire l’effet pathogène des variants faux-sens dans le protéome humain, contribuant à l’interprétation des données génomiques en clinique.

Limites et défis actuels

Conformations multiples et dynamique

Les modèles actuels prédisent une structure unique et statique. Or les protéines sont dynamiques : elles adoptent de multiples conformations, et cette flexibilité est souvent essentielle à leur fonction. Les protéines intrinsèquement désordonnées (IDP), qui n’adoptent pas de structure stable, sont particulièrement mal prédites. Des approches d’ensembles (comme FiveFold, qui combine AlphaFold 2, RoseTTAFold, OmegaFold, ESMFold et EMBER3D) tentent de capturer cette diversité conformationnelle.

Protéines multi-domaines

L’orientation relative des domaines dans les protéines multi-domaines reste un point faible. Une étude dans Scientific Reports (2025) a rapporté des déviations allant jusqu’à 30 Å entre la structure expérimentale d’une protéine à deux domaines et la prédiction AlphaFold, avec un RMSD global de 7,7 Å. Ces cas restent rares mais rappellent que la validation expérimentale reste indispensable pour les applications critiques.

Complexes et interactions

La prédiction de complexes multi-protéiques, protéine-ligand et protéine-acide nucléique reste moins fiable que la prédiction de protéines monomériques. AlphaFold 3 et ses concurrents (Chai-1, Boltz-1, RoseTTAFold-All-Atom) progressent sur ce front, mais les benchmarks CASP15 et CASP16 montrent qu’il reste du chemin.

Docking et drug discovery

Utiliser directement les structures prédites par AlphaFold pour le docking moléculaire, sans tenir compte de la flexibilité conformationnelle ou des déformations de la poche de liaison induites par le ligand, donne des taux de succès inférieurs au docking sur structures expérimentales. La combinaison avec des données expérimentales (cryo-EM, spectrométrie de masse, RMN) est recommandée pour les applications à haut risque comme la conception d’anticorps ou de thérapies ciblées.

Prédiction de structures ≠ résolution du repliement Il est important de distinguer deux problèmes. La prédiction de structures (ce qu’AlphaFold fait) prédit la forme finale d’une protéine. Le problème du repliement au sens strict concerne le chemin de repliement : comment et pourquoi la protéine atteint cette conformation. AlphaFold n’a pas résolu le second problème. Les modèles de deep learning exploitent des patterns statistiques dans les données, sans simuler la physique du repliement. Comprendre le chemin de repliement reste un défi fondamental de la biophysique.

Concepts connexes

Le protein folding est étroitement lié à AlphaFold (page dédiée au modèle), au drug discovery (application majeure), à l’healthcare AI (domaine parent), et à l’imagerie médicale IA (autre domaine de l’IA en santé). Les architectures sous-jacentes incluent les Transformers (Evoformer, Pairformer), les modèles de diffusion (module de structure AF3), les CNN (prédiction de cartes de distances) et le deep learning en général.

Questions fréquentes sur le protein folding par IA

AlphaFold a-t-il « résolu » le problème du repliement des protéines ?

AlphaFold 2 a résolu le problème de la prédiction de structures monomériques avec une précision comparable à l’expérimental (GDT ~90 sur cibles difficiles au CASP14). C’est un accomplissement majeur, reconnu par le prix Nobel de chimie 2024. Cependant, le problème du repliement au sens physique (comprendre le chemin et la cinétique du repliement) n’est pas résolu : AlphaFold prédit la forme finale sans simuler le processus. De plus, la prédiction de complexes multi-moléculaires, de protéines intrinsèquement désordonnées et d’ensembles conformationnels reste un chantier actif.

Quelle est la différence entre AlphaFold 2 et AlphaFold 3 ?

AlphaFold 2 (2020) prédit les structures de protéines monomériques (et de complexes protéine-protéine via AF2-Multimer) avec l’architecture Evoformer + module de structure IPA. AlphaFold 3 (mai 2024) utilise une architecture Pairformer simplifiée et un module de diffusion, et étend la prédiction aux complexes protéine-ADN, protéine-ARN, protéine-ligand, protéine-ion et protéine-sucre. AF3 est plus général mais moins fiable pour les interactions non-protéiques en raison de données d’entraînement plus limitées pour ces modalités.

Peut-on utiliser AlphaFold gratuitement ?

Oui. AlphaFold DB (alphafold.ebi.ac.uk) donne un accès libre à plus de 200 millions de structures prédites. Le serveur AlphaFold 3 est accessible gratuitement pour la recherche non commerciale. Le code source d’AlphaFold 2 est entièrement open source. Pour AlphaFold 3, le code est disponible mais les poids d’entraînement sont restreints aux chercheurs académiques. Des alternatives entièrement open source existent : OpenFold, RoseTTAFold, Chai-1, Boltz-1.

Quelle est la fiabilité des prédictions d’AlphaFold ?

Pour les protéines globulaires bien repliées avec des homologues connus, la fiabilité est très élevée (pLDDT >90 pour la majorité des résidus). Les points faibles identifiés : les régions intrinsèquement désordonnées (pLDDT <50, prédictions peu fiables), l'orientation relative des domaines dans les protéines multi-domaines (déviations possibles), les régions de surface flexibles (boucles), et les sites de liaison qui changent de conformation en présence d'un ligand. Le score pLDDT par résidu permet d'évaluer la fiabilité zone par zone.

Comment la prédiction de structures aide-t-elle la découverte de médicaments ?

La prédiction de structures ouvre des cibles auparavant inaccessibles au structure-based drug design (avant AlphaFold : ~238 000 structures PDB ; après : 200+ millions de structures prédites). Les applications concrètes : docking moléculaire pour identifier des composés candidats, design de ligands basé sur la forme du site actif, identification de poches de liaison druggables, conception d’anticorps et de protéines thérapeutiques. Les grandes pharmas (Pfizer, Novartis, AstraZeneca) intègrent ces prédictions dans leurs pipelines, tout en les combinant avec des données expérimentales pour les applications critiques.