L’IA aide-t-elle réellement les cliniciens à prodiguer de meilleurs soins ?

On parle beaucoup des grands modèles de langage (LLM) en médecine. Ils résument des dossiers, rédigent des courriers, proposent des hypothèses diagnostiques ou expliquent un traitement en langage patient. Le potentiel est réel. Mais l’impact clinique ne dépend pas principalement de la “puissance” du modèle. Le vrai défi est de transformer une technologie prometteuse en un outil fiable, intégré et utile au quotidien. En pratique, on observe souvent une règle empirique : 20% de l’effort concerne le modèle ; 80% concerne tout le travail sociotechnique autour.

Le vrai chantier : l’implémentation

Un LLM n’est pas un système de soins. Entre une démonstration impressionnante et une utilisation sûre en consultation, il y a l’intégration aux données, aux processus et aux responsabilités. Un outil peut être excellent sur le papier et inefficace sur le terrain si les données locales sont incomplètes, si le contexte clinique est mal transmis, ou si l’interface ajoute des étapes et ralentit le médecin.

Les projets qui réussissent partent donc rarement de “quel modèle choisir ?”, mais plutôt de “où, quand et pour quoi l’IA doit-elle intervenir ?”. Une IA utile est celle qui s’insère dans le bon moment décisionnel, avec une friction minimale, et qui apporte une valeur mesurable : temps gagné, erreurs évitées, meilleure coordination, meilleure information du patient.

IA augmentée : l’humain dans la boucle

Deuxième principe essentiel : l’IA doit rester un copilote, pas un pilote. Les systèmes génératifs peuvent produire des réponses plausibles mais erronées (hallucinations), omettre un élément important, ou amplifier des biais. La sécurité impose donc une supervision humaine réelle : le clinicien garde le dernier mot.

Concrètement, cela implique des garde-fous de conception. Les sorties de l’IA doivent être clairement présentées comme des propositions (draft), faciles à corriger, et surtout difficiles à valider “sans lire”. Sinon, on crée un risque connu : l’automatisation du jugement. Quand la charge de travail augmente, on est tenté de faire confiance à la machine, précisément au moment où l’attention baisse.

Un exemple convaincant : les scribes numériques

Le cas d’usage le plus parlant aujourd’hui est celui des assistants de documentation (scribes, parfois “ambient”). Ils génèrent automatiquement une note clinique ou un résumé à partir de la consultation. L’intérêt est immédiat : réduire la charge administrative, diminuer la documentation en dehors des heures, et libérer du temps de qualité pour le patient.

C’est un bon exemple parce que le bénéfice ne vient pas d’un “diagnostic par IA”, mais d’un gain organisationnel et cognitif. Cependant, le succès dépend encore de l’implémentation : qualité des notes générées, temps de relecture, intégration au dossier, et surtout règles claires sur la confidentialité, le consentement et la sous-traitance si l’audio ou des données sensibles sont traités.

La confiance : gouvernance et responsabilités

Pour que l’IA soit acceptée, il faut une gouvernance explicite : qui est responsable ? Qui valide les cas d’usage ? Qui gère un incident ? Qui décide des mises à jour ? Sans cadre, la confiance s’érode et l’outil est contourné, ou utilisé de manière hétérogène.

Une gouvernance robuste inclut généralement un responsable clinique, un responsable IT/sécurité, et une procédure d’escalade. Elle définit aussi des règles d’usage : situations pertinentes, exclusions (par exemple urgences instables), et exigences de traçabilité.

L’évaluation continue : la “pharmacovigilance” de l’IA

Enfin, l’évaluation n’est pas un test initial. Les performances peuvent évoluer dans le temps : changements de population, de pratiques, de qualité des données, mises à jour logicielles. Il faut donc une surveillance continue : indicateurs de qualité, suivi des erreurs, détection des dérives (drift), analyse des biais par sous-groupes, et une boucle de signalement simple pour les cliniciens.

Conclusion

Si l’on veut que les LLM améliorent réellement les soins, il faut déplacer le débat : moins “quel est le meilleur modèle ?” et davantage “comment le déployer en sécurité, dans le bon workflow, avec une supervision humaine, une gouvernance claire et une surveillance continue ?”. C’est cette discipline d’intégration — plus que l’algorithme — qui déterminera l’impact clinique réel.

Jean Gabriel Jeannot, le 18.03.2026

Image. A gauche le pilote, à droite le co-pilote.