LIFE
Google suggest et le «fichier juif»
par Jean Véronis,
le 2 mai 2012

Dimanche 29 avril, TF1 a perturbé ma sieste dominicale en m'envoyant une équipe pour recueillir quelques mots pour le JT de 20h sur l'affaire du «fichier juif» de Google...

Une séquence de fin de JT n'est pas un format qui se prête beaucoup à l'élaboration, et je me suis dit que je pourrais essayer de rassembler ici mes réfléxions sur le sujet. Je pense que tout le monde a désormais entendu parler de l'affaire.

Plusieurs associations, SOS Racisme, le MRAP, l'UEJF et l'AIPJ, ont assigné Google en référé pour «trouble manifestement illicite», estimant que le moteur contrevient à la loi française, qui interdit tout fichage ethnique, en associant fréquemment le mot juif à des noms de personnalités dans son module de suggestion.

Je ne suis pas juriste et je laisse d'autres bien plus qualifiés s'exprimer sur le sujet. Je me contenterai d'apporter modestement quelques éléments de nature technique au débat. 

1. Le problème est-il nouveau?

Non. Au contraire, il ressort régulièrement. A ma connaissance c'est Colombe Schneck qui avait soulevé le lièvre en mai 2009 sur France Inter (écouter l'émission, voir également sur le blog de Renaud Revel). Il a été redécouvert par Emmanuelle Anizon sur Telerama.fr fin 2010, article qui avait été relayé par Le Monde (15 février 2011, article de Stéphane Foucart uniquement en archives payantes), le Nouvel Obs, etc.

J'avais fait moi-même remarquer sur mon blog en 2010 que d'autres suggestions de Google reflétaient les stéréotypes les plus désagréables sur les juifs, les noirs, les femmes, les arabes...

(voir aussi de beaux exemples en écho sur Slate et une analyse intéressante d'Olivier Ertzscheid). 

2. L'explication de Google

L'AFP avait relayé la chose et Google m'avait répondu par le même canal, expliquant qu'il s'agissait d'une agrégation automatique, pur «reflet de l'activité de recherche de tous les utilisateurs du moteur».

La ligne de défense de Google cette fois-ci est globalement la même. La firme affirme que les suggestions se sont «aucunement issues d'un choix éditorial de la part de Google», mais «générées de manière totalement algorithmique, sur la base de critères purement objectifs».

Google Suggest «apprend» en effet ce que les internautes ont tapé, et le restitue ensuite en fonction des premières lettres tapées par l'utilisateur (cet algorithme existe depuis 2004, et avait fait l'objet d'un de mes premiers billets sur ce blog).

3. L'algorithme peut-il être leurré?

Les suggestions reflètent-elles les vraies fréquences naturelles de requêtes ou bien peuvent-elles être «spammées»? On m'a posé plusieurs fois la question et l'on peut en effet légitimement se demander si les décomptes sur lesquels sont basées les suggestions ne sont pas faussées par des individus ou groupes organisés. Je n'ai évidemment ni certitude ni preuve, mais on peut se poser la question en voyant par exemple un certain nombre de requêtes qui, comme par hasard, correspondent à des titres de posts sur des forums...

Diverses techniques existent qui pourraient permettre de contourner les limites de Google (campagnes coordonnées, utilisation de proxies, programmes malveillants divers implantés à l'insu d'utilisateurs sur de nombreuses machines, Amazon Mechanical Turk, etc.) et qui pourraient leurrer Google quant au nombre de requêtes de tel ou tel type.

L'idée a certainement déjà traversé l'esprit de quelques spécialistes de SEO, et on peut imaginer que des groupes d'idéologies ou d'intérêts divers puissent mener des attaques ciblées sur des personnes ou entreprises. Google pourrait expliquer si le phénomène existe et si des mesures particulières sont prises pour le contrecarrer.

Dans le cas précis de la plainte qui sera étudiée le 23 mai, je crois plutôt que l'association de nombreux noms avec le mot juif résulte d'une ambiance délétère, et d'un souci malsain qui est de «débusquer les juifs» pour reprendre les termes de l'avocat de SOS Racisme.

4. Cela concerne-t-il seulement les juifs?

Non. Toutes les religions y passent. On se demande visiblement si Obama ne serait pas musulman, Zidane chrétien ou Jospin protestant:

Dans certains cas l'association est vraie, dans d'autres non.... C'est sans doute la faiblesse de la plainte déposée contre Google. Il est difficile de voir dans ces associations un «fichier juif». Parmi les requêtes les plus proposées, on a «Sarkozy juif» ou «Hollande juif», mais à ma connaissance ce n'est la religion ni de l'un ni de l'autre (pas plus qu'Obama n'est musulman). Nous verrons ce que dit la justice.

Remarquons au passage que les associations ne concernent pas que les religions. Un certain nombre de dénominations plus ou moins injurieuses sont récurrentes:

Sur ce point, notons que Google a déjà été attaqué en justice (et a perdu plusieurs fois). Dès 2009, Direct Energie avait condamné Google pour l'association du nom de cette société avec le mot arnaque. A ma connaissance c'était le premier cas en France et le jugement est extrêmement intéressant à lire. En 2010, un particulier s'était plaint de voir son nom associé aux doux qualificatifs d'escroc, sataniste, arnaque ou violeur et avait obtenu gain de cause. En février, la société de vente directe de produits diététiques Kriss Laure a fait condamner Google à supprimer la suggestion kriss laure secte sous une astreinte de 2.500 euros par jour.

Nicolas Sarkozy serait donc fondé (comme d'autres) à attaquer Google et gagnerait probablement selon cette jurisprudence.

Dans le cas des religions, c'est peut-être un peu différent. A nouveau, je ne suis pas juriste, mais il me paraît difficile de voir dans les mots juif ou musulman des insultes (j'espère!). Le point de vue judiciaire sur ce cas serait intéressant (mais apparemment ce n'est pas la ligne d'attaque qu'ont choisie les associations, puisqu'elle ne se plaignent pas d'une insulte mais d'un fichage illégal).

5. Google intervient-il?

Oui. Contrairement à ce que la firme déclare le processus n'est pas totalement algorithmique, et il y a bien intervention humaine (même en dehors des cas imposés par la justice comme ci-dessus). Certainement pas pour ajouter des suggestions mais pour en filtrer certaines.

Par exemple, il est assez simple de vérifier que «les arabes...», «les nègres...» ou «les youpins...» ne ramènent aucune suggestion. Il y a donc bien une liste d'exclusion, mais elle semble assez rudimentaire, et le choix des termes filtrés paraît assez aléatoire.

On peut d'ailleurs, de façon assez intéressante, voir sous la surface de l'algorithme car la liste ne semble pas inclure les fautes d'orthographe...

 

6. Des solutions techniques existent-elles?

Oui. Il serait assez trivial pour une firme qui a les moyens de Google d'opérer des filtrages sur un certain nombre de «patrons» de requêtes correspondant à ce qui choque le plus apparemment les sensibilités, à savoir l'association d'un patronyme avec une liste de mots tels que juif, musulman, escroc, etc.

7. Pourquoi Google ne réagit-il pas?

Seule la firme a la réponse. Le phénomène est connu depuis plusieurs années et Google ne souhaite visiblement pas intervenir. Même dans les cas qui ont porté à condamnation (comme l'association avec le mot escroc) on voit qu'aucune action globale n'a été prise (exemple «Sarkozy escroc» ci-dessus).

8. Faut-il réagir?

Je n'ai pas un penchant réglementeur et liberticide, mais visiblement des gens ou des groupes sont dérangés, voire choqués, par certaines suggestions. Mais jusqu'où faut-il aller? Les correcteurs orthographiques n'osent plus proposer le mot arabe ou le mot juif... Est-ce bien raisonnable?

Le débat est donc nécessaire, et même salutaire.

***

Finissons sur une note d'humour sur le mode de l'arroseur arrosé:

Peut-être que la dernière suggestion est la bonne. Cela expliquerait toutes ces questions qu'on lui pose sur les religions: Il doit savoir...

Jean Véronis

Article également paru sur Technologies du Langage