Meta vient de dévoiler les bases de son système data2vec, un système qui veut révolutionner l'IA avec une approche à la fois généraliste et plus autonome que jamais.
© © geralt - Pixabay
Comme tous les humains, vous disposez d’une capacité d’abstraction très impressionnante. Si l’on propose la même information à plusieurs d’entre nous sous des formes différentes (texte, image et vidéo par exemple), chacun sera plus ou moins capable d’arriver au même résultat. Un constat qui ressemble à une évidence, mais qui est en fait une vraie petite prouesse bioalgorithmique.
Car cette flexibilité, c’est l’un des aspects déterminants de l’intelligence humaine. À l’inverse, la rigidité des machines est une barrière conséquente qui empêche encore d’utiliser cette technologie dans des secteurs où elle pourrait faire des merveilles. Mais nous ne sommes probablement plus très loin de ce stade grâce aux recherches de Meta AI.
En effet, la firme a annoncé la genèse de data2vec. Il s’agit d’un programme présenté comme le “premier algorithme autosupervisé de haute performance qui travaille avec plusieurs modalités.” En pratique, data2vec travaille simultanément sur les parties vocales, visuelles et textuelles pour tenter de produire un ensemble de données plus précis, complet et cohérent.
C’est quoi, l’autosupervision ?
Aujourd’hui, la majorité des applications de l’IA reposent encore sur de systèmes dits “supervisés”. Ils fonctionnent grâce à d’immenses bases de données dont chaque élément doit être consciencieusement annoté; en substance l’objectif est d’expliquer à la machine ce qu’on attend d’elle pour lui permettre d’extrapoler sur de nouvelles données, cette fois non labélisées.
Par exemple, pour entraîner une IA capable de reconnaître les animaux, il faudra ainsi récupérer des milliers d’images et commencer par expliquer à l’IA que l’image A représente un chien, tandis que l’image B présente une vache… et ainsi de suite. Vous l’aurez compris, c’est un processus qui est extrêmement chronophage dans le meilleur des cas. Et dans le pire, il peut être tout simplement impossible de collecter assez de données pour entraîner une IA à la tâche souhaitée.
Des experts autodidactes, mais trop spécialisés
C’est là qu’interviennent les IAs autosupervisées. Il s’agit d’ une subdivision de la recherche en intelligence artificielle où les machines apprennent par elles-mêmes, directement à partir de leur environnement et sans la moindre donnée étiquetée. C’est un concept qui a déjà permis des avancées assez spectaculaires; Google AI a par exemple mis au point un système autosupervisé capable de classifier des images médicales avec une précision phénoménale.
Mais le concept a aussi ses limites, dont une qui a des implications très concrètes. En effet, si les humains semblent capables d’apprendre de manière semblable indépendamment de format de l’information, ce n’est pas le cas des machines. Contrairement à nous, les algorithmes d’apprentissage autosupervisé peuvent tirer des conclusions extrêmement différentes si on leur donne la même information sous des formes (Meta parle de “modalités”) différentes, comme du texte, de son, ou de vidéo.
Cela signifie que les algorithmes autosupervisés doivent être entraînés pour une tâche très précise, et sont souvent limités à une seule modalité; avec les méthodes traditionnelles, il est par exemple impossible d’entraîner une IA qui génère du texte de la même façon qu’un programme de synthèse vocale. La recherche était donc toujours en attente d’un système holistique, capable de travailler à la fois de façon autosupervisée, mais aussi sur plusieurs modalités à la fois – un peu comme le fait l’intelligence humaine. Et c’est ce qu’ont réussi à produire les chercheurs de Meta avec data2vec.
Jusqu’à aujourd’hui, les IAs autosupervisées étaient avant tout des experts, capables de travailler sur un type précis de données (son, image, texte…) mais complètement démunis lorsqu’il s’agit d’utiliser d’autres modalités. © Derick McKinney – Unsplash
Un mille-feuille algorithmique généraliste
Ici, leur algorithme travaille en parallèle sur plusieurs unités de différentes modalités en même temps. Pour cela, data2vec prend de la hauteur et entraîne lui-même plusieurs “sous-algorithmes”. Il peut ainsi proposer un résultat aussi cohérent et pertinent que possible à partir d’un large faisceau d’informations très différentes.
Pour illustrer le concept, imaginez un groupe de travail fictif composé de différents experts – les sous-systèmes responsables de chaque modalité. Problème : si ces experts sont chacun extrêmement compétents dans leur domaine, ils ne comprennent strictement rien au travail de leurs collègues et ne disposent donc pas d’une vision globale. Il y a donc besoin d’une plaque tournante impartiale, à même de synthétiser le travail des différents experts dans un résultat unique. Et c’est précisément ce rôle de plaque tournante qu’assume data2vec.
Plus précisément, le système commence par générer une représentation abstraite (en pratique, une couche d’un réseau de neurones) d’une image, d’un texte ou d’un clip audio. Cette représentation, qui correspond “physiquement” à une couche du réseau de neurones, peut être interprétée par tous les autres sous-systèmes; en substance, il s’agit plus ou moins du briefing du chef de groupe aux différents experts.
Cela permet alors à chaque sous-système de travailler individuellement sur cette représentation en utilisant l’ensemble des données, et pas seulement celles qui relèvent habituellement de sa spécialité. L’ensemble de ces contributions est ensuite synthétisé pour parvenir à un résultat unique et cohérent.
Data2vec pose les bases de nouvelles intelligences artificielles généralistes, voire des futures IAs dites “fortes” qui font rêver les auteurs de science-fiction.© Yuyeung Lau – Unsplash
Un changement de paradigme révolutionnaire
Meta explique que cette approche généraliste et holistique serait capable de surpasser les algorithmes à usage unique dans certains domaines critiques, comme la vision par ordinateur et le travail sur la voix. “Data2vec démontre que ces algorithmes autosupervisés sont capables de fonctionner avec différentes modalités, et même de le faire mieux que les meilleurs algorithmes actuels”, explique le communiqué de presse.
Avec un tel système, les chercheurs pourront s’affranchir du travail de forçat rébarbatif et chronophage qu’est l’étiquetage; ils disposeront donc de plus de temps pour travailler sur la théorie et renforcer leurs algorithmes; la promesse de vrais progrès scientifiques. Il s’agit donc d’une évolution majeure; le concept de data2vec pourrait avoir des retombées non seulement spectaculaires, mais aussi très concrètes dans une foule de domaines. Affaire à suivre !
Le texte de l’étude est disponible ici.