Intelligence artificielle. Big data. Deep learning. Ces concepts seraient l’avenir de la médecine, permettant notamment d’améliorer le diagnostic d’un malade grâce à une lecture plus affûtée des radios que celle du meilleur radiologue. Car aussi entraîné qu’il soit à détecter un nodule, le radiologue, comme tout être humain, n’est pas exempt de failles et de biais cognitifs (les psychologues en ont listé plus de 180 !), parmi lesquels le sexisme. Une étude américaine publiée en 2018 dans la revue Women’s Health a montré qu’un homme se plaignant de douleurs thoraciques avait 2,5 fois plus de chances de se voir orienté vers un cardiologue par son médecin généraliste qu’une femme ! Alors qu’un algorithme, se dirait-on, est aussi sensible aux symptômes d’un homme qu’à ceux d’une femme. Tout dépend de la façon dont il a été éduqué, nous expliquent des chercheurs de l’Université nationale du littoral à Santa Fe (Argentine)…
Enzo Ferrante et son équipe se sont intéressés à ce diagnostic assisté par ordinateur (DAO) en plein essor, se déployant pour détecter sans intervention humaine des cancers de la peau à la maladie d’Alzheimer en passant par la (ou plutôt la ?) Covid-19. Ces innovations reposent sur des algorithmes perfectionnés qui s’« entraînent » à classer des images (ou d’autres données comme des séquences ADN) selon la pathologie qui leur est associée, ces éléments étant pris dans de gigantesques bases de données médicales, afin de pouvoir ensuite reproduire cette opération de classement pour poser un diagnostic en analysant des données inconnues.
Les neurones artificiels rêvent-ils de poumons féminins ?
Lorsqu’il s’agit d’analyser des images, les algorithmes d’intelligence artificielle reposent le plus souvent sur ce qu’on appelle des réseaux de neurones convolutifs, une classe d’intelligence artificielle développée par le spécialiste français Yann Le Cun qui s’inspirent du fonctionnement du cortex visuel (pour tout comprendre sur ces algorithmes d’IA, je vous recommande l’excellente vidéo de Science4All). Les chercheurs argentins en ont analysé trois, dont l’algorithme CheXNet, développé par le groupe d’apprentissage automatique (machine learning) de l’université Stanford (États-Unis) : à partir d’une radio des poumons, il permet de déterminer (et même de localiser) la présence d’une anomalie thoracique parmi une liste de 14 pathologies courantes (pneumonie, nodule, pneumothorax, œdème, etc.).
Ils ont ensuite entraîné ces trois algorithmes à partir de radios récoltées dans deux immenses bases de données américaines, Chest-XRay14 et CheXpert, contenant respectivement 112 120 et 224 316 radios provenant de près de 100 000 patients au total. L’expérience a consisté à entraîner ces algorithmes à partir de jeux de données exclusivement masculins ou féminins, puis à tester leurs performances en termes de diagnostic face à des radios de poumons d’hommes et de femmes.
Conclusion : pour une majorité des 14 pathologies considérées, les performances étaient significativement différentes lorsque l’algorithme a “appris” à partir d’un échantillon unisexe, l’algorithme faisant plus d’erreurs lorsqu’il devait diagnostiquer un patient du sexe opposé à celui qui constituait son échantillon d’apprentissage. L’équipe argentine a ainsi mis en évidence un biais algorithmique lié à un éventuel déséquilibre en terme de sexe des bases de données d’apprentissage des outils de diagnostic assisté par ordinateur. Des biais malheureusement bien connus des spécialistes de l’intelligence artificielle, dénoncés en 2018 dans la revue Nature ou dans le livre Algorithmes : la bombe à retardement de Cathy O’Neil. Par exemple, les algorithmes de reconnaissance faciale ont par exemple beaucoup plus de mal à déterminer le sexe d’un visage noir, car ils se sont entraîné sur des bases de données où les visages blancs sont sur-représentés.
Pour les chercheurs argentins, il est indispensable de tenir compte de ce biais potentiel dans le processus d’accréditation des outils diagnostiques informatiques par les autorités de santé, en veillant à ce que les bases de données utilisées pour l’apprentissage des algorithmes reflètent de façon fidèle la composition de la population. Une telle démarche a récemment été entreprise par la Food & Drug Administration, suite à une prise de conscience de la sous-représentation des femmes dans les essais cliniques, conduisant à des résultats ne tenant pas compte de leurs spécificités physiologiques. Si rien n’est fait, les algorithmes seront condamnés à reproduire les biais de leurs concepteurs.
Source : A.J. Larrazabal et al., Gender imbalance in medical imaging datasets produces biased classifiers for computer-aided diagnosis, PNAS, 26 mai 2020.
Crédit photo : BAUSCHRON – Wikimeia Commons (CC BY-SA 4.0) ; U.S. Navy photo by Photographer’s Mate 3rd Class Jacob J. Kirk – Wikimedia Commons.