«Ce n'est pas forcément celui qui a le meilleur algorithme qui gagne, c'est celui qui a le plus de données», disait le chercheur en intelligence artificielle (IA) Jean-Claude Heudin.
C'est en regardant des milliers de parties de jeu de go qu'AlphaGo, l'IA de DeepMind, a réussi à battre les meilleurs champions. GPT-3, le modèle d'apprentissage de texte développé par OpenAI, a lui été nourri avec des centaines de milliards de mots pour pouvoir écrire des programmes informatiques ou des articles de presse. Bref, pour la plupart des gens, IA va de pair avec big data.
Cela confère naturellement un énorme avantage compétitif à ceux qui possèdent les données, comme Google, Facebook ou Microsoft. Pourtant, ces dernières années, certains modèles d'IA parviennent à d'excellents résultats en se fiant à des bases de données réduites, rapportent Husanjot Chahal et Helen Toner, chercheurs au Center for Security and Emerging Technology (CSET) de l'université de Georgetown, dans le Scientific American.
L'idée consiste à «transférer» le savoir appris grâce à la big data à des ensembles de petite taille. Des chercheurs indiens ont par exemple utilisé le système entraîné sur la base d'ImageNet pour localiser des reins sur des échographies à partir de seulement quarante-cinq exemples. Une autre équipe a eu recours à la même méthode pour développer un modèle de reconnaissance de langage en allemand à partir d'une base de données en anglais.
«Dans les prochaines années, le transfert d'apprentissage va se développer encore plus rapidement que l'intelligence artificielle dans son ensemble», prédisent les deux auteurs.
Small is beautiful
Cette approche présente en effet de nombreux avantages. Elle permet par exemple d'utiliser l'intelligence artificielle dans des domaines où l'on dispose de très peu de données, comme les catastrophes naturelles –qui sont relativement rares– ou les données médicales de populations ne faisant pas l'objet d'un suivi régulier. «Cela va permettre d'explorer des domaines entièrement nouveaux», s'enthousiasment les deux auteurs.
Le CEA Tech a lui aussi trouvé une méthode d'apprentissage pour entraîner les réseaux de neurones à moindre coût. Plutôt que de se baser sur un ensemble de données étiquetées, le système note les ressemblances entre les objets pour extrapoler ses connaissances.
«Avec une banque de données où seules 25% de données sont étiquetées, on parvient à une précision de 89%», se félicite le CEA Tech. Cette «IA frugale», comme la surnomme Orange, est non seulement économe en données mais aussi en énergie.
En travaillant sur des bases de données plus petites, on réduit considérablement le temps d'entraînement et la puissance de calcul que l'on devrait gaspiller en partant de zéro. Pas négligeable quand on sait qu'entraîner un réseau neuronal de grande taille émet autant que les émissions de cinq voitures durant toute leur durée de vie.
Alors que la quantité de données stockées devrait être multipliée par cinq entre 2018 et 2025, il est tentant de vouloir exploiter au maximum cette manne. Mais le «small data» produit des résultats tout aussi convaincants que de chercher à puiser dans ce gigantesque fourre-tout.