BFM Tech

Les photos Flickr, puits de données pour entraîner les algorithmes de reconnaissance faciale

BFM Business Elsa Trujillo , Journaliste BFM Tech
IBM a brassé plusieurs millions de photos Flickr pour entraîner ses algorithmes de reconnaissance faciale.

IBM a brassé plusieurs millions de photos Flickr pour entraîner ses algorithmes de reconnaissance faciale. - James Cridland/ Pixabay

Pour peaufiner ses algorithmes de reconnaissance faciale, IBM s'en est remis à la base de photos Flickr. Le tout sans le consentement des photographes ni des personnes ayant été immortalisées, fait remarquer NBC.

Comment refuser d'exploiter un océan de données à portée de main? IBM n'a pas su dire non. Le 29 janvier dernier, l'entreprise annonçait mettre à la disposition de la communauté scientifique une base baptisée "Diversity in Faces". Le fichier reprenait des métadonnées associées à un million de visages humains, pour contribuer à réduire les biais raciaux des algorithmes de reconnaissance faciale. Le souci: l'entreprise s'est appuyée sur des photos Flickr librement accessibles, sans demander leur avis aux photographes et personnes ayant été prises en photo, a souligné NBC

Les chercheurs d’IBM expliquent avoir utilisé "des images publiques issues de la base de données YFCC-100M, partagées sous la licence Creative Commons", et étant donc libres de droit. "Aucune des personnes que j’ai photographiées ne savait que ces images étaient utilisées de cette façon", s'étonne néanmoins auprès de NBC un photographe dont plus de 700 photos ont été brassées dans la base de données publiée par IBM. Le média américain propose un outil pour déterminer, à partir d'un nom d'utilisateur Flickr, si des photographies ont été utilisées par l'entreprise américaine. 

Un "vilain petit secret"

IBM est loin d'être la seule entreprise à s'en remettre aux données librement accessibles - et gratuites - pour entraîner ses algorithmes. Jason Schultz, professeur à l’Ecole de Droit de la New York University (NYU) sollicité par NBC y voit le "vilain petit secret des bases de données d’apprentissage". "La plupart du temps, les chercheurs récupèrent n’importe quelle image qui traîne", note-t-il.

L'exploitation à la louche des données publiquement accessibles, désormais difficile à ignorer, suscite néanmoins parfois des réactions disproportionnées. En janvier, certains utilisateurs de Facebook se sont alarmés à la suite du "10-year challenge", un défi consistant à mettre côte à côte deux photos de soi, l'une d'aujourd'hui, l'autre datant d'il y a dix ans.

Certains y ont vu un moyen aisé pour Facebook d'améliorer ses algorithmes de reconnaissance faciale, et leur capacité à reconnaître une personne ayant vieilli. Facebook s'était alors défendu en niant toute implication volontaire de leur part face à ce "meme généré par les utilisateurs" de son réseau. Une telle méfiance s'est néanmoins avérée difficile à dissiper. Comme le soulignait la sociologue Zeynep Tufekci en réponse à Facebook, "Je vous crois, mais le problème est, au delà de ce meme, la confiance des utilisateurs, que vous avez perdue."