Le génome humain est constitué d'un ADN de 3 milliards de paires de bases (les briques qui le constituent), dont 23.000 gènes codant pour des protéines.
Connaissez-vous le site Thispersondoesnotexist (littéralement, "cette personne n'existe pas ") ? Il crée grâce à une intelligence artificielle des visages d'humains très réalistes mais totalement inventés. Une équipe européenne est allée plus loin encore, en créant des séquences entières d'ADN humain, là encore entièrement artificielles. Ces travaux surprenants sont publiés dans la revue PLoS Genetics.
Un algorithme capable de générer des génomes artificiels humains
"Les réseaux neuronaux génératifs ont été utilisés efficacement dans de nombreux domaines différents au cours de la dernière décennie, y compris dans l'imagerie photoréaliste", observent les auteurs de ces nouveaux travaux. En appliquant un concept similaire avec les données génétiques, les chercheurs ont entraîné leurs réseaux de neurones à l'aide de séquences issues de 2.500 personnes, stockées dans des banques de données. Le système devait générer des séquences aux caractéristiques similaires, puis mélangeait ses créations aux vrais afin de voir s'il parvenait à voir la différence. A force d'entraînement, les génomes artificiels générés ont fini par reproduire fidèlement les caractéristiques des vrais génomes, telles que les fréquences des allèles (les différentes versions d'un gène). Un des plus gros défis de ces travaux a d'ailleurs été d'en vérifier la fiabilité, explique à Sciences et Avenir Aurélien Decelle, co-auteur de ces travaux et chercheur à l'Université Paris-Saclay. "Nous avons donc passé un certain temps à étudier les propriétés statistiques des séquences générées", précise-t-il.
Seulement des séquences, et pas des génomes entiers
Ces génomes "réalistes" et "de haute qualité" sont une première, précisent les chercheurs dans la publication. Ce type de réseau de neurones avait déjà été utilisé en génétique pour la génération de courtes séquences, "de l'ordre de la dizaine ou de la centaine de paire de bases" (les briques constituant notre ADN, qui sont chez nous au nombre d'environ 3 milliards), explique à Sciences et Avenir Flora Jay, qui a co-dirigé ces travaux à l'Université Paris-Saclay. "Mais générer des séquences aussi longues (une dizaine de milliers de variants couvrant plusieurs millions de paires de bases) et dans le cadre de la génétique des populations, c’est-à-dire pour une grande diversité d’individus, est nouvelle, et constitue une grande avancée", ajoute-t-elle.
Résultat, ces génomes artificiels "ne sont pas différenciables des autres génomes de la biobanque que nous avons utilisée pour former notre algorithme, à l'exception d'un détail : ils n'appartiennent à aucun vrai donneur", explique dans un communiqué Luca Pagani, co-auteur de l'étude.
Pour autant, l'exercice n'est pas encore parfaitement au point. "L'un des principaux inconvénients est que, en raison des limites de calcul, ces modèles ne peuvent pas encore être exploités pour créer des génomes artificiels entiers", et doit s'arrêter à des bribes, expliquent les auteurs. De plus, les allèles très rares sont difficilement représentés par l'algorithme. Dernier défi, il faut "surveiller de près l’originalité des données générées, c'est-à-dire le fait qu’elles soient suffisamment différentes des génomes de véritables donneurs", appuie Flora Jay, précisant qu'il s'agit d'un sujet de recherche en cours.
Etudier le génome humain sans soucis éthiques liés aux données privées
Loin d'être sans autre objet que la prouesse scientifique en elle-même, ce type d'intelligence artificielle peut résoudre les problèmes éthiques associés aux banques de données génétiques. "En génétique des populations, les chercheurs doivent régulièrement comparer les données qu'ils ont produites à quelques génomes de référence ou parfois même à un large panel de référence. L’idéal est que ces génomes reflètent la diversité génétique", explique Flora Jay. Les génomes artificiels pourraient remplir cet office de façon fiable et sécurisée.
"Les bases de données génomiques existantes constituent une ressource inestimable pour la recherche biomédicale, mais elles ne sont pas accessibles au public ou sont protégées par des procédures d'application longues et épuisantes en raison de préoccupations éthiques valables", explique le premier auteur Burak Yelmen. "Les génomes artificiels peuvent nous aider à surmonter ce problème dans un cadre éthique sûr." Dans le futur, Flora Jay envisage que ces génomes artificiels "contribueront à des applications aussi diverses que la compréhension de notre passé évolutif ou l’épidémiologie médicale grâce à l’inclusion d’une plus large diversité génétique".