La semaine dernière, La Quadrature du Net a transmis à la CNIL sa position relative à la vidéosurveillance dite « algorithmique », ainsi que plus de 170 contributions de personnes nous ayant mandatées dans le cadre d’une contre-consultation populaire. Nous allons revenir prochainement sur le détail des arguments qui conduisent, selon nous, à combattre toute légitimation de ces dispositifs. En attendant, il est essentiel de revenir sur ce que signifie ce terme et sur la nature exacte de ces technologies déployées depuis plusieurs années en France. Alors, de quoi parle t-on ?
Définitions
Selon la CNIL, la « vidéo augmentée désigne ici des dispositifs vidéo auxquels sont associés des traitements algorithmiques mis en œuvre par des logiciels, permettant une analyse automatique, en temps réel et en continu, des images captées par la caméra. »
Vidéosurveillance/Vidéoprotection « augmentée » ou « intelligente », comme l’écrivent les institutions et les industriels ou encore vidéosurveillance « algorithmique » ou « automatisée » (VSA) comme nous préférons la nommer. Tous ces termes recouvrent une même réalité aux contours plus ou moins flous et aux promesses plus ou moins concrétisées. Il s’agit de l’ajout d’une couche d’algorithme aux caméras de vidéosurveillance dites « classiques ». Et ce, dans le but de rendre automatique l’analyse des images captées par caméras, jusqu’à présent réalisée par des humains, des opérateurs vidéo au sein de centres de supervision urbains (CSU). Alors pourquoi ces différences de langage ?
Parce que les mots ont un poids fort, nous préférons « automatisation » – ce terme déconstruit la notion d’intelligence qu’apporterait soi-disant la technologie. L’automatisation n’est pas un procédé neutre et en dehors du monde social mais qui transporte1 avec lui les représentations et normes de celui-ci. Et « algorithmique » pour rendre visible l’ajout de ces logiciels fabriqués par des start-ups et multinationales dont on ne sait pas grand-chose.
Cette surcouche algorithmique vise à faire de l’analyse vidéo, que ce soit en temps réel ou après coup, et à repérer… ce que la police a envie de repérer. Cela va de la « détection de comportement suspect », au « maraudage » (le fait d’être statique dans l’espace public), en passant par le « dépassement d’une ligne », le suivi de personne, la détection d’objet abandonné, d’une bagarre, d’un vol, etc.
Le déploiement de la VSA dans les villes
Que ce soit à Toulouse en 2016 avec IBM (projet abandonné en 2019), à Nîmes depuis 2015 avec Briefcam, à Marseille dès 2018 avec la SNEF, à Paris avec la RATP qui autorise des entreprises à tester leurs algos sur les utilisateur·ices des métros, ou encore avec la municipalité de Suresnes qui met à disposition sa population en tant que cobaye pour la start-up parisienne XXII, la vidéosurveillance algorithmique se déploie un peu partout en France. S’il reste compliqué de quantifier le nombre de villes qui utilisent la VSA, en raison du manque criant de transparence de ces dernières, il est possible d’en repérer au moins une cinquantaine, le vrai nombre devant malheureusement dépasser la centaine, rien qu’en France.
Depuis plusieurs années, nous suivons ce déploiement, souvent très opaque (toutes les municipalités ne sont pas aussi loquaces que celle d’Estrosi). Alors que la VSA faisait l’objet jusqu’il y a peu de très nombreuses expérimentations sauvages, la CNIL a explicitement demandé en janvier 2022 aux industriels du secteur de lui faire des retours sur l’usage de ces technologies « afin d’accompagner leur déploiement », prenant clairement un parti : celui des industriels de la sécurité. La VSA semble en passe d’inonder le marché de la sécurité urbaine numérique.
Et ce marché de la VSA prend forme : si des acteurs comme IBM à Toulouse n’ont pas réussi à rendre efficace leur produit et semblent s’être retirés, l’entreprise israélienne Briefcam (entité du groupe Canon) prétend dominer le marché en France tandis que des villes signent des partenariats avec des start-up ou firmes françaises, soutenues par les décideurs politiques, afin de rendre les industries françaises concurrentielles sur le marché international de la sécurité urbaine numérique.
Les exemples de Briefcam et Two-I
Briefcam est une entreprise qui produit des logiciels de vidéosurveillance algorithmique très bien implantée en France, aux États-Unis et dans une quarantaine de pays. En 2020, déjà plus de 35 villes françaises utilisaient son logiciel, dont voici une démonstration assez révélatrice.
Dans cette vidéo, l’entreprise affirme être capable de condenser des heures de vidéos en quelques minutes, de pouvoir faire du suivi de personnes en fonction d’attributs (femme, homme, sac, chapeaux, couleurs d’habits…). On sait aussi que le logiciel de Briefcam est doté d’une option de reconnaissance faciale, que les élus à la sécurité sont très impatients d’enclencher.
Two-I de son côté est une start-up française, basée du côté de Metz. Ayant d’abord tenté de se faire une place dans la détection d’émotions (notamment l’expérimentation avortée à Nice de détection d’émotions dans les tramways), elle s’est finalement lancée dans la vidéosurveillance algorithmique et la conception de ce que les industriels appellent une « plateforme d’hypervision ». Ces plateformes mettent en carte et traduisent les nombreuses données collectées par les caméras et les algorithmes, dans le but « d’optimiser la gestion de la ville ». En somme, ces plateformes permettent de rendre utilisable la vidéosurveillance algorithmique, via une mise en carte des données et alertes captées par les caméras et algorithmes.
Hyperviseur de Two-I, voir la vidéo de présentation ici.
L’exemple des logiciels de Briefcam ou encore de Two-I (qui ne sont que deux exemples parmi une dizaine d’autres entreprises sécuritaires du même type) est révélateur de ce nouveau marché de la sécurité mais aussi d’un basculement dans le concept de sécurité. Dorénavant, ce sont des entreprises privées qui, concevant les algorithmes vendus aux collectivités territoriales, décident ce qu’il y a derrière une alerte pour « comportement anormal ou suspect ». À travers l’automatisation, les entreprises acquièrent un pouvoir de police et d’édiction des normes et des comportements dans l’espace public, s’inscrivant parfaitement dans l’expansion des politiques sécuritaires.
Les effets de la vidéosurveillance algorithmique
L’ajout d’algorithme à la vidéosurveillance « classique » n’est pas anodin. Cela témoigne d’un changement d’échelle dans la surveillance par les caméras qui, jusqu’à présent, comme le décrit Tanguy Le Goff2, était un « travail de surveillance […] jugé ennuyeux et monotone » au sein duquel les opérateurs vidéo mettaient en place des stratégies pour réaliser ce travail de manière partielle.
L’automatisation de cette surveillance est censée décupler les yeux derrière l’écran des caméras. Et cela se traduit notamment par la criminalisation de comportements jusqu’alors anodins ou presque comme le dépôt d’ordures sauvage, le non port du masque ou encore les déjections canines. L’automatisation permet à la police d’étendre sa capacité d’action à de nouveaux champs sur lesquels elle a maintenant un pouvoir de répression. La police peut décupler sa capacité à normaliser l’espace public : si le maraudage, c’est-à-dire le fait de rester statique plus de 300 secondes, alerte les forces de l’ordre, on peut craindre pour les personnes qui ne peuvent pas voir la rue comme un « simple endroit de passage », car ils y vivent ou en font un repère social nécessaire. Nous reviendrons dans un prochain article sur le fait que les algorithmes sur les caméras augmentent la répression policière sur les populations déjà particulièrement ciblée par les forces de l’ordre.
Un autre aspect de la VSA est la tendance croissante à être mis en données. Au-delà de la surveillance de l’espace public et de la normalisation des comportements qu’accentue la VSA, c’est tout un marché économique de la data qui se frotte les mains. Le prétendu « encadrement » des dispositifs promis par la CNIL permettrait aux entreprises de la Technopolice d’utiliser les espaces publics et les personnes qui les traversent ou y vivent comme des « données sur pattes ». Et aux industries de la sécurité de se faire de l’argent sur nous, d’améliorer leurs algorithmes de répression et ensuite de les vendre sur le marché international. C’est ce que fait la multinationale française Idémia, qui affine ses dispositifs de reconnaissance faciale aux aéroports français avec les dispositifs PARAFE ou MONA pour ensuite vendre des équipements de reconnaissance faciale à la Chine et ainsi participer à la surveillance de masse et au génocide des Ouïghours, ou encore pour remporter les appels d’offres de l’Union Européenne en vue de réaliser de la biométrie aux frontières de l’UE.
De quoi la VSA est-elle le nom ?
Vidéosurveillance automatisée et Smart City nourrissent la même fiction : celle d’une ville dont les capteurs mettent en données, où les algorithmes trient et détectent et où une plateforme centrale permettrait à la police de gérer la ville à distance.
La vidéosurveillance algorithmique, c’est un marché de la sécurité qui tente de s’accroître en devenant « numérique » c’est-à-dire avec de l’IA et des algorithmes. Et comme le montre Myrtille Picaud3, les industriels et décideurs politiques français font pression pour structurer une filière industrielle sécuritaire forte afin d’être concurrentielle sur le marché international, qui représente un marché économique énorme. Les grands événements sportifs comme les Jeux Olympiques de Paris en 2024 ou encore la coupe du monde de Rugby en 2023 représentent une aubaine pour accélérer le développement de technologies sécuritaires, offrir une vitrine aux industriels français et normaliser ces dispositifs.
Pour les industriels, la VSA représente la possibilité de justifier le déploiement de centaines de milliers de caméras en France. Déploiement largement décrié4 même par les institutions publiques, mais qui, par un tour de magie, prendrait tout son sens avec l’ajout d’algorithmes (argument absurde, nous y reviendrons dans un prochain article). La VSA permettrait d’utiliser les caméras à leur plein potentiel et même d’accélérer leur déploiement : il en faudra plus et il faudra aussi remplacer les anciennes qui ne seraient pas d’assez bonne qualité pour les algorithmes ; et surtout s’assurer de poursuivre l’installation démesurée de caméras qui continueront à rapporter beaucoup d’argent aux entreprises du secteur.
En plus de constituer une justification à la multiplication des caméras de vidéosurveillance, la VSA forme une ressource rentable5 politiquement, expliquant l’engouement immodéré des élus locaux pour la vidéosurveillance. La VSA est une mesure de court terme que les élus locaux peuvent mobiliser pour montrer qu’ils agissent. La sécurité numérique constitue6 également une source d’attractivité et de distinction dans la concurrence territoriale, dans la recherche de capital symbolique pour attirer tourisme et classe créative.
La vidéosurveillance algorithmique, c’est un renouveau dans la croyance en la « prophétie technologique7 » intégrée dans la Smart City. Cette croyance permet de continuer à déployer des caméras et, surtout, de trouver toujours plus de débouchés économiques.
Pour conclure :
En somme, la vidéosurveillance algorithmique est une technologie en passe d’être largement déployée en France et qui l’est peut être déjà beaucoup plus que ce que nous pouvons en douter, qui sert à justifier l’existence de l’immense parc de vidéosurveillance français, en tentant de le rendre plus performant, via l’automatisation de la détection d’infractions. Cette technologie s’intègre dans la fiction plus large de la Smart City, qui base la gestion de la ville sur l’IA et représente un énorme marché économique. Ces technologies d’automatisation réduisent encore les espaces de liberté dans les rues et sur les places des villes, augmentant la répression sur les populations les plus visées déjà par la police. Nous reviendrons plus en détail sur ce pour quoi nous sommes contre cette technologie et comment il est possible de lutter contre son déploiement.