Google et le reCAPTCHA : comment nous avons travaillé à notre insu pour entraîner l’IA
Depuis plus de treize ans, Google utilise un stratagème ingénieux pour entraîner ses intelligences artificielles (IA) sans que nous en soyons conscients. Ce stratagème, connu sous le nom de reCAPTCHA, a été intégré sur de nombreux sites internet dans le but de différencier les utilisateurs humains des robots. Mais au-delà de cet objectif sécuritaire, le reCAPTCHA a servi un but encore plus vaste : faire travailler des millions de personnes pour améliorer les outils de reconnaissance d’images de Google.
Le fonctionnement du reCAPTCHA : un exercice apparemment banal
Lorsque nous accédons à un site web et que l’on nous demande de “cliquer sur toutes les images contenant un pont” ou “identifier les numéros de rue”, nous participons sans le savoir à une tâche bien plus complexe. En effet, chaque clic et chaque sélection sont utilisés pour affiner les algorithmes de Google, notamment ceux utilisés pour la reconnaissance d’images.
Initialement, ces tests nous demandaient d’identifier des textes flous ou de résoudre des puzzles d’images. Mais au fil du temps, ces tâches se sont diversifiées, demandant souvent de lier des objets spécifiques à des images, comme des vélos, des feux de circulation, ou encore des panneaux de signalisation. Ces données, minutieusement collectées, ont permis à Google d’améliorer drastiquement la précision de ses IA.
Un gain colossal pour Google
Les chercheurs estiment que ce processus a permis à Google d’économiser jusqu’à 6,1 milliards de dollars. Ce chiffre impressionnant découle du temps cumulé que nous avons tous passé à résoudre ces tests, estimé à 816 millions d’heures. Si cette durée semble insignifiante pour une seule personne, multipliée par des millions d’internautes, elle représente une économie énorme en termes de coûts de développement pour Google.
Plus surprenant encore, Google facture l’utilisation de ces tests à des sites tiers, générant ainsi un revenu supplémentaire tout en utilisant notre travail gratuit pour améliorer ses propres technologies.
Les implications éthiques et pratiques
Ce système soulève de nombreuses questions éthiques. D’une part, nous contribuons à un service sans être rémunérés ni même informés de cette contribution. D’autre part, la complexité croissante de ces tests les rend de plus en plus frustrants pour les utilisateurs, au point où certains professionnels se spécialisent désormais dans ce que l’on appelle le “data labelling” ou annotation de données, une tâche rémunérée qui ressemble fortement à celle que nous accomplissons gratuitement.
L’avenir du reCAPTCHA
Bien que cette méthode ait largement bénéficié à Google, il est peu probable que nous assistions à sa disparition prochaine. Cependant, l’émergence de nouvelles technologies, comme les agents IA autonomes capables de contourner ces tests, pourrait forcer Google à repenser sa stratégie. En attendant, le reCAPTCHA reste un outil puissant pour entraîner des IA de plus en plus sophistiquées, avec notre participation involontaire.
Cet article souligne comment une tâche quotidienne et apparemment anodine peut avoir des implications vastes et profondes, tant pour les utilisateurs que pour les entreprises qui en bénéficient.