Les biais algorithmiques : pourquoi tant d'erreurs ?
Nous avons vu précédemment ce qu’est un algorithme : « une suite finie de règles à appliquer dans un ordre déterminé à un nombre fini de données pour arriver avec certitude […], en un nombre fini d’étapes, à un certain résultat et cela indépendamment des données » (Dictionnaire des mathématiques / A. Bouvier).
Grâce/à cause de l’informatique, omniprésente dans nos vies, les algorithmes ont une utilité concrète : les logiciels les utilisent pour effectuer automatiquement des tâches répétitives et ennuyeuses, sans intervention humaine. Et pourtant, cette intervention existe, et avec des effets involontaires et parfois négatifs : c’est le problème des biais algorithmiques.
Dans son livre « De l’autre côté de la machine », Aurélie Jean raconte sa découverte de ce problème. Jeune chercheuse, elle travaille sur un algorithme pour comprendre la croissance du muscle cardiaque en laboratoire. Pour elle, aucun biais possible car elle se base sur des modèles d’êtres humains, pas d’animaux. Mais elle comprend rapidement que faute de connaissance en anatomie ou en médecine, son modèle dépend de ce que les médecins lui ont expliqué, et de ce qu’elle a compris. Autant de raisons pour elle de se tromper, et donc d’introduire des biais dans son algorithme.
Grâce/à cause de l’informatique, omniprésente dans nos vies, les algorithmes ont une utilité concrète : les logiciels les utilisent pour effectuer automatiquement des tâches répétitives et ennuyeuses, sans intervention humaine. Et pourtant, cette intervention existe, et avec des effets involontaires et parfois négatifs : c’est le problème des biais algorithmiques.
Dans son livre « De l’autre côté de la machine », Aurélie Jean raconte sa découverte de ce problème. Jeune chercheuse, elle travaille sur un algorithme pour comprendre la croissance du muscle cardiaque en laboratoire. Pour elle, aucun biais possible car elle se base sur des modèles d’êtres humains, pas d’animaux. Mais elle comprend rapidement que faute de connaissance en anatomie ou en médecine, son modèle dépend de ce que les médecins lui ont expliqué, et de ce qu’elle a compris. Autant de raisons pour elle de se tromper, et donc d’introduire des biais dans son algorithme.
Les biais peuvent être explicites ou implicites.
Un biais explicite est un choix fait par le créateur de l’algorithme, qui décide sciemment de ne pas utiliser une étape ou une donnée, en considérant qu’elle n’a que peu d’influence sur le résultat. A-t-il vérifié que c’est bien le cas ? Peut-il même le vérifier ? Toute la question est là.
Un biais implicite, par contre, est une décision prise inconsciemment par le créateur de l’algorithme, liée à ses a priori, sans même qu’il ne s’en rende compte. On a par exemple pu constater qu’un algorithme de traduction de l’anglais vers le français traduisait les mots « nurse » et « doctor » (neutres en anglais) respectivement par un mot féminin (« infirmière ») et un mot masculin (« docteur »), reproduisant une distinction sociale stéréotypée liée au sexe.
Ces biais implicites sont aggravés par le « machine learning », la capacité de l’algorithme à apprendre automatiquement par l’expérience. Cette capacité est indispensable pour que l’algorithme soit le plus efficace possible. Si vous créez un algorithme pour identifier des chiens sur des photos, vous devrez indiquer ce qu’est un chien (quatre pattes, oreilles… en tenant compte des races) et ce qu’il n’est pas (pour éviter de confondre avec un renard). Puis fournir à l’algorithme des milliers de photos en le corrigeant, pour qu’il puisse finalement reconnaître tous les chiens, même les plus exotiques.
On notera qu’un humain est capable de faire la même chose, mais spontanément et facilement. L’intelligence artificielle est encore loin de l’intelligence humaine !
Quelques exemples de biais algorithmiques pour finir.
Un premier biais est lié au caractère daté des données : « L’algorithme est prédictif de la continuité du passé » (Philippe Cahen, prospectiviste). Un algorithme utilisé pour trier les candidats à un poste dans le cadre d’un recrutement va utiliser les données des années précédentes, à savoir les candidats recrutés. Mais si à l’époque les recruteurs (consciemment ou inconsciemment…) défavorisaient les femmes, l’algorithme va « logiquement » reproduire ce biais, et continuer cette discrimination.
La qualité des données fournies à l’algorithme pèse aussi lourdement sur le résultat. Un exemple bien connu est celui d’un algorithme de reconnaissance faciale qu’on découvre incapable de reconnaître des personnes à la peau noire. Pourquoi ? Parce que sa base de données incluait majoritairement des photos de personnes à la peau blanche, créant un biais qu’on va espérer implicite.
On ajoutera le problème de la prophétie auto-réalisatrice. Un algorithme est utilisé pour déterminer le taux de crédit à appliquer à un emprunteur, en fonction de son risque de ne pas pouvoir rembourser : plus le risque est élevé, plus le taux est élevé. Or plus le taux est élevé, plus le risque de ne pas rembourser est élevé… C’est un cercle vicieux.
Un biais bien connu des consommateurs que nous sommes est celui des recommandations sur les sites de vente en ligne : « Vous avez aimé… vous aimerez… ». Ces recommandations sont issues d’algorithmes utilisant comme données vos précédents achats et les produits que vous avez simplement consultés. Résultat : l’algorithme ne va vous recommander que des sujets auxquels vous vous êtes déjà intéressés, et vous empêcher de découvrir autre chose. Si cela vous gêne pour de simples achats, songez que le problème est le même avec l’information (plus vous vous intéressez à un sujet, plus l’algorithme vous en propose, au détriment des autres) et les opinions (plus vous vous intéressez à un bord politique, plus l’algorithme vous oriente vers ce bord).
Terminons par un bon (et triste) exemple des effets indésirables et imprévus du couple algorithme-machine learning : l’affaire Tay. En 2016, Microsoft met en ligne sur les réseaux sociaux un prototype d’intelligence artificielle baptisée Tay. Elle est dotée d’une personnalité initiale, celle d’une adolescente, et doit répondre aux messages reçus en s’adaptant à ceux-ci.
Microsoft a dû désactiver Tay au bout de 24 heures : elle était devenue raciste et complotiste. La raison ? Pendant toute sa brève existence, elle avait reçu majoritairement des messages de ce type, envoyés par des « trolls ». Elle avait appris, en effet, mais dans un environnement parfaitement toxique…
Comme le disait Albert Einstein : « L’intelligence artificielle ne fait pas le poids face à la stupidité naturelle ». Surtout quand la première est créée par la seconde…
Le saviez-vous ?
Cette célèbre photographie a fêté son 70e anniversaire le 14 mars dernier !
Pour en savoir plus :
De l'autre côté de la machine / Aurélie Jean. - Editions de l'Observatoire, 2019
A quoi rêvent les algorithmes / Dominique Cardon. - Seuil, 2015