L'IA a-t-elle surpassé les médecins urgentistes ? Une étude de Harvard met en lumière "l'avenir du diagnostic"

L'IA a-t-elle surpassé les médecins urgentistes ? Une étude de Harvard met en lumière "l'avenir du diagnostic"

L'IA a-t-elle surpassé les médecins urgentistes ? L'étude de Harvard révèle "l'avenir du diagnostic"

Face à un patient amené aux urgences, les médecins doivent prendre une première décision avec des informations limitées.
Cette décision, parfois retardée de quelques minutes ou secondes, peut être une question de vie ou de mort.

Dans cet environnement médical extrêmement tendu, l'IA a produit un diagnostic plus précis que les médecins humains. Cette nouvelle a provoqué une onde de choc non seulement parmi les professionnels de la santé, mais aussi dans l'industrie technologique et sur les réseaux sociaux.

TechCrunch a rapporté une nouvelle étude menée par une équipe de recherche de la Harvard Medical School et du Beth Israel Deaconess Medical Center. L'étude a comparé des modèles de raisonnement d'OpenAI, tels que "o1" et "GPT-4o", avec des médecins humains sur plusieurs tâches médicales. L'un des points les plus remarqués a été la comparaison des capacités de diagnostic à partir de cas réels d'urgences.

L'étude a porté sur 76 patients ayant consulté aux urgences de Beth Israel. L'équipe de recherche a demandé à deux médecins internistes et aux modèles d'IA de proposer un diagnostic basé sur les informations du dossier médical électronique. Ensuite, deux autres médecins ont évalué les diagnostics sans savoir s'ils provenaient d'humains ou de l'IA.

Les résultats ont été choquants. Lors de la phase initiale de triage, l'OpenAI o1 a proposé un "diagnostic précis ou très proche" dans 67 % des cas, contre 55 % et 50 % pour les médecins humains. Cela signifie que, dans les conditions de cette étude, l'IA a surpassé les médecins humains dans la tâche de restreindre le diagnostic à partir d'informations initiales limitées.

De plus, lorsque plus d'informations étaient disponibles, la précision du diagnostic d'o1 a atteint environ 82 % selon les rapports. Les médecins humains ont également amélioré leur précision à 70-79 %, mais l'IA a montré un niveau égal ou légèrement supérieur.

À la vue de ces chiffres, on pourrait être tenté de dire que "l'IA a enfin surpassé les médecins". En réalité, c'est une perception répandue sur les réseaux sociaux. Cependant, ce que cette étude montre réellement est une image de l'IA médicale plus complexe et plus réaliste.


L'IA excelle dans le "raisonnement clinique sur papier"

Dans cette étude, l'IA a traité des informations textuelles enregistrées dans les dossiers médicaux électroniques. Cela inclut les signes vitaux du patient, l'âge, les antécédents médicaux, les notes brèves des infirmières et les informations de test, qui sont des éléments que les médecins utilisent pour poser un diagnostic.

Il est important de noter que l'IA n'a pas observé la couleur du visage du patient, ni évalué sa respiration difficile, ni palpé son abdomen. Les informations que les médecins captent inconsciemment sur le terrain, telles que le tremblement de la voix du patient, sa démarche, sa transpiration, les réactions de sa famille accompagnante et l'atmosphère entre le personnel médical, ne sont pas incluses.

En d'autres termes, cette IA n'a pas "examiné le patient aux urgences", mais a "réfléchi à un diagnostic à partir des informations textuelles enregistrées aux urgences".

Ce point a été fortement souligné par les professionnels de la santé et les techniciens sur les réseaux sociaux. Sur Hacker News, un commentaire affirmant que "les médecins ne diagnostiquent pas réellement les patients des urgences en se basant uniquement sur des notes" a reçu un large soutien. La tâche évaluée par l'IA ne représente qu'une partie de la réalité des soins d'urgence, et tirer la conclusion que "l'IA remplacera les médecins urgentistes" uniquement sur cette base est prématuré.

Sur Reddit, des réactions similaires ont été observées, telles que "le comparatif n'était pas avec des médecins urgentistes mais avec des internistes" et "le but principal des urgences n'est pas de deviner le diagnostic final, mais de ne pas manquer une condition mettant la vie en danger". C'est un point de vue très important.

Dans les soins d'urgence, il ne s'agit pas seulement de "quel est le diagnostic final de ce patient", mais aussi de "y a-t-il un danger de mort immédiat", "un traitement est-il nécessaire immédiatement", "le patient peut-il rentrer chez lui", "faut-il le transférer à une spécialité". La capacité à poser un diagnostic précis et la capacité à trier en toute sécurité sans manquer une condition dangereuse se chevauchent mais ne sont pas identiques.


Néanmoins, la signification du "67 %" ne peut être ignorée

Cependant, il serait dangereux de rejeter ces résultats comme une simple surestimation.

La phase initiale des urgences est marquée par un manque d'informations. Les résultats des tests ne sont souvent pas encore disponibles, et le patient lui-même peut avoir du mal à décrire ses symptômes. Pour les personnes âgées, les patients avec des troubles de la conscience ou des barrières linguistiques, la difficulté augmente encore.

Dans de telles situations, si l'IA peut lire de manière transversale les informations des dossiers médicaux électroniques et proposer une large gamme de diagnostics différentiels, elle pourrait devenir un "second regard" utile pour les médecins.

Dans un cas présenté par The Guardian, un patient atteint d'embolie pulmonaire s'est détérioré après le traitement, et les médecins ont soupçonné que les anticoagulants n'étaient pas efficaces. En revanche, l'IA a mis en évidence les antécédents de lupus du patient, suggérant une inflammation pulmonaire possible. Finalement, l'observation de l'IA s'est avérée correcte.

De tels exemples illustrent bien la force de l'IA médicale. Les médecins humains sont influencés par le temps limité, la fatigue, le nombre de patients à charge, l'expérience récente et les biais de spécialité. L'IA ne se fatigue pas et peut lire d'un coup l'énorme quantité d'informations dans les dossiers médicaux électroniques, repérant des antécédents ou des combinaisons de valeurs de test souvent négligés.

Bien sûr, l'IA a aussi ses biais et ses erreurs. Cependant, si elle fait des erreurs d'une manière différente de celle des humains, la combinaison médecin-IA pourrait potentiellement améliorer la sécurité par rapport à un médecin seul.


Vers "Médecin + IA" plutôt que "IA vs Médecin"

L'essence de cette recherche n'est pas que "l'IA remplace les médecins". C'est plutôt une question de "comment les médecins devraient utiliser l'IA".

Les chercheurs eux-mêmes ne prétendent pas que l'IA peut assumer seule les décisions vitales aux urgences. Ils soulignent plutôt la nécessité d'essais cliniques prospectifs pour vérifier la sécurité et l'efficacité dans les soins réels aux patients.

Un malentendu courant dans les discussions sur l'IA médicale est d'évaluer les capacités de l'IA comme un "remplacement complet de l'humain". Cependant, dans la réalité des soins médicaux, de nombreux systèmes basés sur l'IA sont déjà utilisés de manière auxiliaire, comme l'IA pour le diagnostic par imagerie, la vérification des interactions médicamenteuses, l'aide à la rédaction des dossiers médicaux et les modèles de prédiction des risques.

Ce que montre cette étude, c'est que l'IA générative et les grands modèles de langage évoluent d'outils de génération de texte à des "outils d'aide au raisonnement clinique".

En intégrant les symptômes du patient, ses antécédents, ses valeurs de test et ses dossiers médicaux passés, l'IA peut proposer "ne devrions-nous pas envisager cette maladie", "ne devrions-nous pas ajouter ce test", "ce choix de médicament comporte-t-il un risque". Utilisée de cette manière, l'IA pourrait devenir un assistant pour élargir le filet de diagnostic, plutôt qu'un substitut aux médecins.

La perspective du Dr Adam Rodman, présentée par The Guardian, s'aligne sur cette direction. L'avenir des soins médicaux pourrait se diriger vers un modèle impliquant "médecins, patients et IA".


Les attentes et les précautions qui se sont répandues sur les réseaux sociaux

 

Les réactions sur les réseaux sociaux se divisent en trois grandes catégories.

La première est l'attente envers l'IA médicale. Sur Hacker News, on peut lire des opinions telles que "à long terme, dans des domaines comme la médecine qui nécessitent des connaissances, de l'expérience et de la reconnaissance de motifs, l'IA pourrait surpasser les humains". Tout comme l'IA montre rapidement sa puissance dans le développement de logiciels, on pense que, si les modèles spécialisés évoluent en médecine, ils pourraient surpasser de nombreux médecins dans divers domaines.

Les partisans de cette position prêtent également attention à la réalité des soins médicaux. Les médecins sont très occupés et le temps qu'ils peuvent consacrer à chaque patient est limité. Les dossiers médicaux sont volumineux et les connaissances spécialisées sont mises à jour quotidiennement. Si l'IA est introduite de manière appropriée, elle pourrait réduire les omissions et améliorer le niveau de soins dans les régions rurales ou les zones à pénurie de médecins.

La deuxième catégorie est la prudence envers la conception de l'étude. Sur Reddit, les réactions soulignant que "le titre est trompeur" étaient fréquentes. Les critiques portent sur le fait que le comparatif n'était pas avec des "médecins urgentistes" mais avec des "internistes", que l'objectif des soins d'urgence n'est pas nécessairement de deviner le diagnostic final, et que l'IA n'a pas réellement examiné les patients.

Sur Hacker News, on pouvait également lire des commentaires tels que "ces benchmarks peuvent facilement être biaisés" et "il ne faut pas tirer de conclusions fortes à partir d'une seule étude". Dans l'évaluation de l'IA, il peut y avoir des indices involontaires dans le jeu de données ou des paramètres de tâche différents de la pratique. Dans des domaines à haut risque comme la médecine, il est nécessaire de distinguer la victoire sur le benchmark de la sécurité dans la pratique clinique.

La troisième catégorie concerne les préoccupations éthiques et de responsabilité. Sur Reddit, plusieurs réactions se demandaient "qui sera responsable si un patient meurt à cause d'une erreur de diagnostic de l'IA". Les médecins ont des obligations professionnelles, une responsabilité en cas de faute médicale et un devoir d'explication. Mais dans le cas des modèles d'IA, la responsabilité est floue entre l'entreprise de développement, l'hôpital qui l'a adopté, le médecin qui l'a utilisé et les autorités réglementaires.

Ce problème est l'un des plus grands obstacles à la diffusion de l'IA médicale. Il ne s'agit pas seulement de savoir si l'IA fournit un diagnostic correct, mais aussi de savoir qui vérifie, qui explique et qui fait face au patient lorsque l'IA se trompe. Sans cela, il est difficile de faire confiance pleinement à l'IA dans le milieu médical.


La frontière entre "deuxième avis utile" et "automatisation dangereuse"

À la lumière de cette étude, l'utilisation la plus réaliste de l'IA médicale pour le moment est probablement en tant que "deuxième avis".

Par exemple, lorsque le médecin réfléchit à un diagnostic, l'IA peut proposer des diagnostics différentiels. Elle peut indiquer des maladies facilement négligées, des maladies graves mais rares, et des risques découlant de l'historique médicamenteux ou des antécédents médicaux. Le médecin peut s'en inspirer pour prendre une décision finale basée sur son propre examen, ses tests et son dialogue avec le patient.

Dans ce format, l'IA peut réduire les omissions tout en laissant la responsabilité et le jugement à l'humain. Dans des environnements comme les urgences, où le temps est limité et la pression décisionnelle élevée, l'IA pourrait avoir un effet bénéfique en réduisant les "oublis".

Le danger, en revanche, est l'automatisation qui consiste à accepter les propositions de l'IA telles quelles. Si l'IA propose un diagnostic erroné avec assurance, il y a un risque que l'humain s'y conforme. Les commentaires d'experts présentés par The Guardian soulignent également le risque que les médecins suivent inconsciemment les réponses de l'IA.

Cela se rapproche du problème connu sous le nom de "biais d'automatisation". Les humains ont tendance à percevoir les réponses fournies par un ordinateur comme objectives et précises. Dans un environnement occupé, le sentiment de sécurité que procure le fait que "l'IA le dit aussi" peut affaiblir la pensée indépendante.

Par conséquent, l'introduction de l'IA médicale nécessite plus que simplement placer un modèle précis. Il est nécessaire de concevoir comment les médecins vont vérifier les propositions de l'IA, détecter les erreurs de l'IA, expliquer aux patients et enregistrer ces informations.


Les avantages et les risques pour les patients

Du point de vue des patients, il y a de grandes attentes envers le soutien au diagnostic par l'IA.

Les omissions par les médecins pourraient être réduites. La découverte des maladies rares pourrait être accélérée. Même dans les petits hôpitaux ruraux, un soutien en connaissances comparable à celui des grands hôpitaux pourrait être disponible. L'IA pourrait proposer des candidats importants même la nuit, les week-ends, ou lorsque des spécialistes ne sont pas immédiatement disponibles.

Cependant, il y a aussi un risque accru que les patients saisissent directement leurs symptômes dans l'IA et prennent des décisions sans consulter un médecin. Cette étude a comparé l'IA dans le cadre de l'évaluation par des médecins utilisant des données du milieu médical. Il ne s'agit pas de dire qu'un chatbot accessible au grand public fournirait la même précision si les symptômes y étaient saisis.

En fait, la réponse de l'IA peut varier considérablement en fonction de la façon dont le patient exprime ses symptômes. Si des symptômes graves ne sont pas mentionnés ou si des informations que le patient ne juge pas importantes sont omises, l'IA peut être orientée dans une mauvaise direction. L'interrogatoire et l'examen physique par le médecin jouent un rôle dans la capture des informations que le patient ne peut pas exprimer verbalement.

C'est pourquoi cette étude ne transmet pas le message "si vous êtes examiné par l'IA, vous n'avez pas besoin d'aller à l'hôpital". Plus précisément, elle dit que "si les médecins utilisent correctement l'IA, la qualité du diagnostic pourrait être améliorée".


Le travail des médecins va-t-il disparaître ?

Comme d'habitude, la question "les médecins peuvent-ils être remplacés par l'IA" est débattue sur les réseaux sociaux.

Cependant, le travail des médecins ne se limite pas à deviner le nom du diagnostic. Ils écoutent les inquiétudes des patients, expliquent la nécessité des tests, proposent des options de traitement, prennent en compte les effets secondaires et le contexte de vie, parlent aux familles, soutiennent les décisions en fin de vie, et annoncent les mauvais pronostics. Ils connectent également avec le