Thèse Apprentissage Automatique pour la Reconnaissance Anticorps-Antigène Modèles et Théorie H/F - Doctorat.Gouv.Fr
- CDD
- Doctorat.Gouv.Fr
Les missions du poste
Établissement : Ecole normale supérieure - PSL École doctorale : Physique en Ile de France Laboratoire de recherche : Laboratoire de Physique de l'École normale supérieure Direction de la thèse : Simona COCCO ORCID 0000000218527789 Début de la thèse : 2026-09-01 Date limite de candidature : 2026-05-12T23:59:59 Ce projet de doctorat s'articule autour de trois tâches principales, décrites ci-après :
Tâche 1 : Génération de variants protéiques viraux potentiels et inférence du paysage séquentiel des anticorps.
Nous avons précédemment développé des modèles non supervisés, basés sur l'énergie et génératifs, tels que les machines de Boltzmann restrictives (RBM), afin d'inférer les paysages de fitness protéique pour des séquences virales soumises à la pression d'échapper aux anticorps. Nous nous appuierons sur ces travaux antérieurs pour échantillonner les voies évolutives des variants du SARS-CoV-2 sous la pression actuelle des anticorps9,10.
Nous combinerons dans un seul modèle d'apprentissage automatique les séquences d'anticorps et d'antigènes. À cette fin, nous explorerons diverses architectures, notamment les LLM protéiques3, les RBM convolutifs et les \beta-VAE11.
Le résultat de la tâche 1 sera des variants viraux futurs putatifs, pour lesquels il faudra concevoir de nouveaux anticorps puissants, ainsi que des modèles d'apprentissage automatique pour le paysage séquentiel des anticorps. Les variants putatifs d'intérêt seront utilisés dans la tâche 2 pour caractériser dans quelle mesure notre prédiction de la liaison antigène-anticorps devrait être hors distribution.
Tâche 2 : Maîtrise de l'erreur de généralisation hors échantillon.
Si les modèles d'apprentissage automatique sont généralement très performants lorsqu'ils sont testés sur des données proches de l'ensemble d'apprentissage, ils présentent souvent une très mauvaise capacité de généralisation dans des contextes hors échantillon, c'est-à-dire lorsqu'ils sont testés sur des données très éloignées de l'ensemble d'apprentissage. Ce problème récurrent constitue un obstacle majeur dans la prédiction de la liaison antigène-anticorps. Les modèles entraînés sur des tests de liaison, par exemple via des essais de liaison directe (DMS) de variants d'antigènes contre un ensemble limité d'anticorps, ne permettent pas de prédire avec précision la liaison à un autre anticorps non vu dès lors qu'il diffère des anticorps des données d'entraînement par quelques acides aminés.
Ce problème soulève deux questions :
1. D'un point de vue mathématique, peut-on concevoir un cadre statistique gérable pour estimer le risque hors distribution et comprendre ce qui détermine la baisse de performance avec la distance par rapport à l'ensemble d'apprentissage ?
2. À son tour, cette compréhension mathématique pourrait-elle être utilisée pour concevoir de meilleurs protocoles expérimentaux, c'est-à-dire une composition (anticorps, antigène) des tests de liaison qui limiterait autant que possible les erreurs hors distribution ?
Nous proposons d'aborder cette question urgente en nous appuyant sur des travaux récents sur la régression linéaire à haute dimension, dans un cadre où la dimension et le nombre de données d'apprentissage tendent vers l'infini selon un rapport fixé.
Tâche 3 : Comparaison et amélioration des modèles d'apprentissage automatique à l'aide d'expériences biologiques
Caractérisation des anticorps. Nous testerons et améliorerons nos modèles d'apprentissage automatique grâce à la collaboration en cours avec le groupe d'E. Andreano (Biotecnopolo di Siena, Italie)..
Génération de nanocorps. Nous collaborons par ailleurs avec l'équipe de D. Bikard, de l'Institut Pasteur à Paris, pour la conception, à l'aide d'expériences d'évolution dirigée en laboratoire, de nanocorps capables de reconnaître les variants préoccupants du SARS-CoV-2. Nous collaborerons avec cette équipe afin de proposer des séquences de nanocorps hautement évolutives qui serviront de point de départ aux expériences d'évolution dirigée. Les séquences évoluées identifiées à chaque cycle de diversification seront exploitées pour améliorer notre modèle du paysage de fitness des anticorps développé dans les tâches 1 et 2.
Les méthodes d'apprentissage automatique ouvrent de nouvelles perspectives pour s'attaquer à des problèmes fondamentaux en médecine. Parmi celles-ci figure la conception d'anticorps à échappement zéro, capables de reconnaître non seulement les virus actuels mais aussi leurs futurs variants, et d'assurer ainsi une protection immunitaire large et durable contre les infections. Une telle tâche nécessite avant tout de modéliser avec précision la liaison anticorps-antigène pour des séquences d'acides aminés arbitrairement nouvelles (et inconnues) de l'anticorps et de l'antigène (protéine virale). Cela représente un défi de taille pour plusieurs raisons :
Tâche 1 : Génération de variants protéiques viraux potentiels et inférence du paysage séquentiel des anticorps. Tâche 2 : Maîtrise de l'erreur de généralisation hors échantillon.Tâche 3 : Comparaison et amélioration des modèles d'apprentissage automatique à l'aide d'expériences biologiques Apprentissage automatique, physique statistique, biologie évolutive.
Le profil recherché
Le candidat doit avoir une tres bonne formation en physique théorique et statistique , modélisation, Programmation et Apprentissage
Machine.
Pour candidature il est nécessaire d'envoyer
- le CV du candidat ou de la candidate ;
- une lettre de motivation d'une page décrivant les ambitions pour le sujet décrit et la pertinence de la candidature par rapport à la
description du sujet ;
- une copie des derniers diplômes.
Les résultats seront communiqués en 2 phases entre le 30 mai et mi-juin maximum ;