Tech & internet

Ami humain, le CAPTCHA et le reCAPTCHA ne sont bientôt plus, voici leur histoire

Grégor Brandy, mis à jour le 16.03.2017 à 13 h 45

Google compte faire disparaître ces formulaires.

Google Really Needs reCaptcha | Alan Levine via Flickr CC License by, 

CAPTCHA of the day :-) | itst via Flickr CC License by, 

Anyone want to challenge me to a "Most Impossible CAPTCHA" contest? | dennis crowley via Flickr CC License by, 

flip captcha | Abraham Williams via Flickr CC License by, 

Captcha | Phil Whitehouse via Flickr CC License by, Google. Montage: Slate.fr

Google Really Needs reCaptcha | Alan Levine via Flickr CC License byCAPTCHA of the day :-) | itst via Flickr CC License byAnyone want to challenge me to a "Most Impossible CAPTCHA" contest? | dennis crowley via Flickr CC License byflip captcha | Abraham Williams via Flickr CC License byCaptcha | Phil Whitehouse via Flickr CC License by, Google. Montage: Slate.fr

C'est une petite partie de l'internet qui est en train de disparaître. Google a annoncé que le CAPTCHA tel qu'on le connaissait aujourd'hui allait être remplacé par un CAPTCHA invisible. Plus besoin de rentrer des bouts de texte illisibles ou incompréhensibles, de cliquer sur un bouton, ou sur les bons animaux ou de trouver les échelles pour prouver que vous n'êtes pas un robot et arriver sur la bonne page. À la place, Google va se baser simplement sur votre façon de naviguer, explique le géant du web dans un post de blog.

«Les utilisateurs humains pourront passer sans voir la petite boîte “Je ne suis pas un robot” pendant que les utilisateurs suspects et les bots devront résoudre des défis.»

Si vous avez passé un peu de temps sur internet depuis le début des années 2010, vous avez forcément vu passer ces petites boîtes sur lequelles, on passait parfois beaucoup plus de temps que prévu à essayer de déchiffrer.

Le CAPTCHA, sa première version est née au début des années 2000, à l'université Carnegie Mellon, aux États-Unis. À l'époque, explique Mental Floss, l'équipe menée par Luis von Ahn «voulait trouver un moyen d'éliminer les immenses armées de spambots qui se faisaient passer pour des utilisateurs normaux». Ensemble, ils ont donc conçu un programme qui montre à l'écran du texte déformé, qu'un ordinateur est incapable de libre, mais qu'un humain peut facilement déchiffrer (enfin, normalement).

«Tout ce qu'un humain devait faire était de taper ce texte dans un boîte, et ils pouvaient continuer leur navigation.»

Encyclopédie de la web-culture, Titiou Lecoq et Diane Lisarelli, Robert Laffont

200 millions de CAPTCHAS résolus par jour en 2011

Ils ont décidé d'appeler ça CAPTCHA, parce que c'est un acronyme de «Completely Automated Public Turing test to tell Computers and Humans Apart», («Test public de Turing complètement automatique ayant pour but de différencier les humains des ordinateurs», en français).

Lors d'une conférence TED, Luis von Ahn était revenu rapidement sur cette création et expliquait que les CAPTCHA servaient par exemple à leurs débuts à empêcher des revendeurs à la sauvette d'acheter des millions de billets à la fois sur Ticketmaster en écrivant un programme informatique, ou éviter qu'un robot à spams n'ouvre trop de comptes sur une même plateforme.


 

Mais quelques années après, en 2009, von Ahn a commencé à se demander s'il ne pouvait pas mettre tout ce temps passé à résoudre des CAPTCHA à profit. Dans un article du New York Times, il raconte qu'avec son groupe, il a estimé que les humains décodaient environ 200 millions de CAPTCHAs par jour, et passaient environ dix secondes sur chacun d'entre eux. Au total cela représente 500.000 heures passées par jour à les résoudre.

«Donc, on s'est demandé ce que l'on pouvait faire d'utile avec tout ce temps.»

La naissance du reCAPTCHA

Et plutôt que d'utiliser des mots déformés un peu n'importe comment, ils se sont demandés si à la place, ils ne pouvaient pas demander aux utilisateurs du Web s'ils ne pouvaient pas déchiffrer certains mots issus de vieux textes. C'est comme ça qu'est né le reCAPTCHA. Au lieu des lettres et de mots déformés, il fallait désormais retranscrire des mots et des chiffres issus d'archives, continue Mental Floss. Un mot est connu par le logiciel, mais pas l'autre. Grâce à ce système, l'utilisateur va aider le logiciel à trouver la solution à son mot. Et pour s'assurer que des erreurs n'apparaissent ou que des personnes malintentionnées introduisent seuls une mauvaise traduction, le mot inconnu va être présenté à différentes personnes. Une fois que suffisamment d'entre elles l'auront écrit de la même façon, le mot sera officiellement numérisé.

«Les ordinateurs sont bons pour lire de vieux documents, mais une encre qui laisse des tâches ou un papier endommagé peut rendre certains mots compliqués à lire, explique Mental Floss. Heureusement pour von Ahn, les humains le font très bien.»

Ce projet, ils l'ont également débuté à l'université de Carnegie-Melon, avant de le transformer en start-up. Après avoir prouvé les bienfaits de leur technique avec les archives du New York Times, l'équipe a vendu sa technologie à Google qui l'utilisait pour que les utilisateurs numérisent des parties de livres que les ordinateurs n'arrivaient pas à retranscrire d'eux-mêmes. Une main d'œuvre gratuite (750.000 personnes en 2011 avaient retranscrit au moins un mot) qui a permis à l'entreprise américaine de compléter la numérisation de deux millions et demi de livres par an, expliquait Luis von Ahn en 2011, mais aussi d'améliorer ses algorithmes de reconnaissance optique de caractère, et ce «pour un coût dérisoire», écrit Numérama.

Les trolls ne veulent pas jouer

Le système a aussi permis à Google d'améliorer Google Maps et plus particulièrement Google Street View, à partir de 2012. 

«Désormais, le nombre de mots qu’il n’arrive pas à déchiffrer est sans doute très faible. Google cherche donc à recycler l’idée pour d’autres finalités, ce qu’il commence à faire avec Google Street View. Plutôt que d’afficher toujours deux mots, Recaptcha peut désormais afficher un mot (pour la crédibilité) et l’image d’une plaque de numéro de maison, d’immeuble ou de commerce. Cette solution lui permet d’affiner sa connaissance des rues, pour situer précisément les adresses entrées dans Google Maps.»

Reste que le concept n'a pas plus à tout le monde. Dans leur Encyclopédie de la web-culture, Titiou Lecoq et Diane Lisarelli écrivent que des internautes, passablement agacés d'aider Google gracieusement «ont lancé un mouvement de sabotage de la numérisation».

«Le principe est simple. Puisque le deuxième mot du reCAPTCHA ne peut pas être reconnu par l’ordinateur, autant écrire n’importe quoi. Mais comme pour être validé, ce second terme doit avoir été tapé par plusieurs internautes différents, des listes des mots suggérés circulent avec des réponses limités du type: fag [pédé], nigger [nègre] et goatse [on vous laisse chercher sur internet, à vos risques et périls].»

Payer pour le travail effectué?

D'autres ont tenté de passer par des systèmes plus classiques. En 2015, une internaute américaine avait porté plainte contre Google qu'elle accusait de «détourner son service reCAPTCHA à son avantage, à l’insu et au détriment de l’utilisateur», explique le Journal du Geek. Elle avait dû remplir un formulaire lors de l'ouverture de son compte Gmail. Mais la juge en charge de l'affaire «a estimé que la plaignante n’apportait pas la preuve que les “quelques secondes” prises par les internautes pour compléter le CAPTCHA méritaient compensation».

«Elle estime au contraire que le comportement de Google n’est pas “immoral et oppressif” puisque, même allégués, ces faits ne se font pas aux bénéfices exclusifs de Google, l’internaute y trouvant avantage puisqu’il bénéficie ensuite d’un compte Gmail gratuit. Elle ajoute en outre que les “transcriptions” effectuées par les utilisateurs augmentent l’utilité des autres services gratuits de Google, tels que Google Maps ou Google Books. Même mis au courant des pratiques de Google, les internautes ne renonceraient pas pour autant à utiliser ses services.»

Une décision qui se trouve au cœur d'un concept qui s'appelle le «digital labor», et dont on risque d'entendre beaucoup parler ces prochains mois et ces prochaines années.

Un aspect humoristique

Plus drôle, le CAPTCHA a aussi servi d'inspiration artistique et humoristique: le CAPTCHArt. À partir des deux mots proposés par le logiciel, il fallait trouver une image, créer un montage permettant d'associer les deux ou raconter une petite histoire qui se termine sur le CAPTCHA en question.

 

 

 

Si cette pratique est née sur le blog SomethingAwful en 2009, Know Your Meme raconte qu'elle a fortement gagné en popularité à partir de juillet 2010, quand m00t, le créateur de 4chan a obligé tous les utilisateurs du board à utiliser des reCAPTCHAs pour valider leurs posts.

«En 2011, le CAPTCHArt a également inspiré Inglip, une série de BDs à base de rage comics, qui tournait autour d'un personnage qui tenait des conversations absurdes avec ses acolytes via les reCAPTCHAs.»

Les problèmes du CAPTCHA

Mais le CAPTCHA et le reCAPTCHA possédaient aussi un problème. Pour les personnes dyslexiques, rentrer des caractères dans le bon ordre peut parfois devenir très compliqué, sans parler des personnes aveugles. Sur Reddit, quelques personnes racontaient leurs problèmes face aux formulaires. Pourtant il existe des solutions, comme les CAPTCHAs audio, où un son déformé remplace le texte.

Google avait partiellement corrigé ce problème, fin 2014, en détruisant partiellement le CAPTCHA avec le «No CAPTCHA reCAPTCHA». Google estimait alors que les intelligences artificielles d'alors étaient en mesure de résoudre 99,8% des textes déformés et que «par conséquent, on ne pouvait plus compter sur ce test».

 

Plutôt que de devoir entrer des caractères, des mots ou des chiffres, les utilisateurs n'avaient plus qu'à cliquer dans une case assurant que l'on n'est pas un robot. Et dans certains cas (comme sur mobile), il proposait de chercher l'image correspondante à l'indice donné, comme cliquer sur celles qui montrent un chat.

En juin dernier, Mental Floss expliquait que la course aux armements entre les experts en sécurité internet et les spambots risquait de ne jamais finir, et que le «no CAPTCHA reCAPTCHA allait finir par trouver plus malin que lui et finalement être remplacé».

Avec son CAPTCHA invisible, Google semble être déjà passé à l'étape suivante. Sur internet, contrairement à l'adage, le géant du web sait probablement déjà si vous êtes un chien, et sans rien vous demander, il peut aussi savoir presque à coup sûr si vous êtes un robot.

Grégor Brandy
Grégor Brandy (396 articles)
Journaliste