Hat die KI die Notärzte übertroffen? Die Harvard-Studie zeigt die "Zukunft der Diagnostik" auf

Hat die KI die Notärzte übertroffen? Die Harvard-Studie zeigt die "Zukunft der Diagnostik" auf

Hat die KI den Notarzt übertroffen? Die Harvard-Studie zeigt die "Zukunft der Diagnose"

Vor einem Patienten in der Notaufnahme eine erste Entscheidung auf der Grundlage begrenzter Informationen treffen.
Diese Entscheidung kann manchmal über Leben und Tod entscheiden, wenn sie sich um Minuten oder Sekunden verzögert.

In diesem extrem angespannten medizinischen Umfeld stellte die KI eine genauere Diagnose als menschliche Ärzte – eine Nachricht, die nicht nur unter medizinischen Fachleuten, sondern auch in der Tech-Branche und in sozialen Medien große Wellen schlägt.

Berichtet wurde darüber von TechCrunch, basierend auf einer neuen Studie eines Forscherteams der Harvard Medical School und des Beth Israel Deaconess Medical Center. In der Studie wurden OpenAIs Schlussfolgerungsmodelle wie „o1“ und „GPT-4o“ mit menschlichen Ärzten in mehreren medizinischen Aufgaben verglichen. Besonders beachtet wurde der Vergleich der Diagnosefähigkeiten bei tatsächlichen Notaufnahmefällen.

Untersucht wurden 76 Patienten, die die Notaufnahme von Beth Israel aufsuchten. Das Forscherteam ließ zwei Internisten und ein KI-Modell Diagnosen auf Grundlage der Informationen in den elektronischen Patientenakten stellen. Anschließend bewerteten zwei weitere Ärzte die Diagnosen, ohne zu wissen, ob sie von Menschen oder KI stammten.

Das Ergebnis war schockierend. In der Anfangsphase der Triage lieferte OpenAIs o1 in 67 % der Fälle eine „genaue oder sehr nahe Diagnose“. Die menschlichen Ärzte erreichten jeweils 55 % und 50 %. Das bedeutet, dass die KI unter diesen Studienbedingungen bei der Eingrenzung von Diagnosen aus begrenzten Anfangsinformationen besser abschnitt als menschliche Ärzte.

In einer Phase, in der mehr Informationen verfügbar waren, stieg die Diagnosegenauigkeit von o1 laut Berichten auf etwa 82 %. Auch die menschlichen Ärzte verbesserten ihre Genauigkeit auf 70–79 %, aber die KI zeigte ein gleichwertiges oder leicht überlegenes Niveau.

Betrachtet man nur diese Zahlen, könnte man sagen: „Endlich hat die KI die Ärzte übertroffen.“ Tatsächlich wird dies in den sozialen Medien oft so wahrgenommen. Doch was diese Studie wirklich zeigt, ist ein viel komplexeres und realistischeres Bild der medizinischen KI.


Die Stärke der KI lag in der „klinischen Schlussfolgerung auf dem Papier“

In dieser Studie verarbeitete die KI die in den elektronischen Patientenakten aufgezeichneten Textinformationen. Dazu gehören Vitalzeichen, Alter, Anamnese, kurze Notizen von Pflegekräften und Testergebnisse – ein Teil der Informationen, die Ärzte für Diagnosen verwenden.

Wichtig ist, dass die KI weder den Gesichtsausdruck des Patienten sah, noch Atembeschwerden beobachtete oder den Bauch abtastete. Informationen wie die Stimme des Patienten, die Art des Gehens, das Schwitzen, die Reaktionen der begleitenden Familie und die Atmosphäre zwischen dem medizinischen Personal, die Ärzte unbewusst wahrnehmen, waren nicht enthalten.

Das bedeutet, dass die KI in diesem Fall nicht „den Patienten in der Notaufnahme sah“, sondern „eine Diagnose aus den in der Notaufnahme aufgezeichneten Textinformationen ableitete“.

Dieser Punkt wird auch von medizinischen Fachleuten und Technikern in den sozialen Medien stark betont. Auf Hacker News fand ein Kommentar, der darauf hinwies, dass „Ärzte in der Realität nicht nur anhand von Notizen Notfallpatienten diagnostizieren“, große Unterstützung. Die von der KI bewerteten Aufgaben sind ein Ausschnitt der realen Notfallmedizin, und es ist voreilig, allein aus diesen Ergebnissen zu schließen, dass „die KI den Notarzt ersetzt“.

Auch auf Reddit gab es ähnliche Reaktionen, wie „War der Vergleichsgegenstand nicht eher Internisten als Notärzte?“ und „Das Hauptziel der Notaufnahme ist nicht die genaue Enddiagnose, sondern das Erkennen lebensbedrohlicher Zustände.“ Dies ist ein sehr wichtiger Punkt.

In der Notfallmedizin geht es nicht nur darum, „was die endgültige Diagnose dieses Patienten ist“, sondern auch darum, „ob eine unmittelbare Lebensgefahr besteht“, „ob sofortige Maßnahmen erforderlich sind“, „ob der Patient nach Hause geschickt werden kann“ oder „ob er an eine Fachabteilung überwiesen werden sollte“. Die Fähigkeit, eine genaue Diagnose zu stellen, und die Fähigkeit, gefährliche Zustände sicher zu erkennen und zuzuordnen, überschneiden sich zwar, sind aber nicht identisch.


Dennoch ist die Bedeutung der „67 %“ nicht zu ignorieren

Es wäre jedoch gefährlich, die Ergebnisse als bloße Überbewertung abzutun.

In der Anfangsphase der Notaufnahme sind die Informationen begrenzt. Oft liegen noch keine Testergebnisse vor, und der Patient kann seine Symptome möglicherweise nicht gut beschreiben. Bei älteren Patienten, Patienten mit Bewusstseinsstörungen oder Sprachbarrieren wird es noch schwieriger.

In solchen Situationen könnte die KI, wenn sie die Informationen in den elektronischen Patientenakten umfassend lesen und eine breite Palette von Differenzialdiagnosen vorschlagen kann, für Ärzte ein nützliches „zweites Auge“ sein.

In einem von The Guardian vorgestellten Fall verschlechterte sich der Zustand eines Patienten mit Lungenembolie nach der Behandlung, und die Ärzte vermuteten, dass das Antikoagulans nicht wirkte. Die KI hingegen wies auf die Vorgeschichte des Patienten mit Lupus hin und schlug vor, dass eine Entzündung der Lunge vorliegen könnte. Letztendlich war der Hinweis der KI korrekt.

Solche Fälle verdeutlichen die Stärken der medizinischen KI. Menschliche Ärzte sind durch begrenzte Zeit, Ermüdung, die Anzahl der betreuten Patienten, die jüngsten Erfahrungen und die Voreingenommenheit ihrer Fachgebiete beeinflusst. Die KI wird nicht müde und kann die riesige Menge an Informationen in den elektronischen Patientenakten auf einmal lesen und Kombinationen von Anamnesen und Testergebnissen erkennen, die leicht übersehen werden.

Natürlich hat auch die KI Vorurteile und kann Fehler machen. Aber wenn sie auf andere Weise übersehen wird als der Mensch, könnte die Kombination aus Arzt und KI sicherer sein als ein einzelner Arzt.


Nicht „KI vs. Arzt“, sondern „Arzt + KI“

Der Kern dieser Studie ist nicht die Frage, ob „die KI den Arzt ersetzt“. Vielmehr nähert sie sich der Frage, „wie Ärzte die KI nutzen sollten“.

Auch die Forscher selbst behaupten nicht, dass die KI in der Notaufnahme lebenswichtige Entscheidungen allein treffen kann. Vielmehr sei eine prospektive klinische Prüfung erforderlich, um die Sicherheit und Wirksamkeit in der tatsächlichen Patientenversorgung zu überprüfen.

Ein häufiges Missverständnis in der Diskussion über medizinische KI ist, die Fähigkeiten der KI als „vollständigen Ersatz für den Menschen“ zu bewerten. In der realen medizinischen Praxis werden jedoch bereits viele KI-Systeme als Hilfsmittel eingesetzt, wie z. B. bildgebende Diagnostik-KI, Wechselwirkungsprüfungen von Medikamenten, Unterstützung bei der Erstellung von Krankenakten und Risikomodelle.

Die aktuelle Studie zeigt, dass generative KI und groß angelegte Sprachmodelle sich von bloßen Textgenerierungstools zu „Werkzeugen zur Unterstützung der klinischen Schlussfolgerung“ entwickeln.

Sie integrieren die Symptome des Patienten, die Anamnese, Testergebnisse und frühere medizinische Aufzeichnungen und schlagen vor, „ob diese Krankheit in Betracht gezogen werden sollte“, „ob dieser Test hinzugefügt werden sollte“ oder „ob bei dieser Medikamentenauswahl ein Risiko besteht“. In dieser Anwendung könnte die KI nicht den Arzt ersetzen, sondern als Unterstützer fungieren, der das Diagnose-Netzwerk erweitert.

Die von The Guardian vorgestellte Sichtweise von Dr. Adam Rodman entspricht genau dieser Richtung. Die zukünftige Medizin könnte sich zu einem Modell entwickeln, das „Arzt, Patient und KI“ umfasst.


Die Erwartungen und Vorsichtsmaßnahmen, die sich in den sozialen Medien verbreiten

 

Die Reaktionen in den sozialen Medien lassen sich in drei Hauptkategorien einteilen.

Die erste ist die Erwartung an die medizinische KI. Auf Hacker News gab es die Meinung, dass „langfristig die Wahrscheinlichkeit hoch ist, dass KI in Bereichen wie Wissen, Erfahrung und Mustererkennung die Menschen übertrifft“. So wie KI in der Softwareentwicklung schnell an Einfluss gewinnt, könnte sie auch in der Medizin mit der Weiterentwicklung spezialisierter Modelle in vielen Bereichen die Ärzte übertreffen.

Diese Menschen richten ihre Aufmerksamkeit auch auf die Realität der medizinischen Praxis. Ärzte sind beschäftigt und die Zeit, die sie für einen einzelnen Patienten aufwenden können, ist begrenzt. Die medizinischen Aufzeichnungen sind umfangreich und das Fachwissen wird täglich aktualisiert. Wenn KI richtig eingeführt wird, könnte sie dazu beitragen, Übersehenes zu reduzieren und den medizinischen Standard in ländlichen oder unterversorgten Gebieten zu erhöhen.

Die zweite Kategorie ist die Vorsicht gegenüber dem Studiendesign. Auf Reddit war die Reaktion „Die Überschrift ist irreführend“ weit verbreitet. Kritisiert wurde, dass der Vergleichsgegenstand nicht „Notärzte“, sondern „Internisten“ waren, dass das Ziel der Notfallmedizin nicht unbedingt die genaue Enddiagnose ist und dass die KI keine tatsächlichen Patienten untersucht hat.

Auch auf Hacker News gab es Stimmen, die sagten: „Solche Benchmarks können leicht verzerrt werden“ und „Man sollte keine starken Schlussfolgerungen aus einer einzigen Studie ziehen“. Bei der Bewertung von KI kann es vorkommen, dass unbeabsichtigte Hinweise in den Datensätzen enthalten sind oder die Aufgabenstellung von der Praxis abweicht. In einem Hochrisikobereich wie der Medizin muss zwischen einem Sieg im Benchmark und der Sicherheit in der klinischen Praxis unterschieden werden.

Die dritte Kategorie betrifft die Verantwortung und Ethik. Auf Reddit gab es mehrere Reaktionen mit dem Tenor „Wer trägt die Verantwortung, wenn ein Patient aufgrund eines Diagnosefehlers der KI stirbt?“. Bei Ärzten gibt es medizinische Fehler, Rechenschaftspflicht und berufliche Pflichten. Bei KI-Modellen ist jedoch unklar, ob die Verantwortung bei den Entwicklungsunternehmen, den einführenden Krankenhäusern, den nutzenden Ärzten oder den Regulierungsbehörden liegt.

Dieses Problem ist eines der größten Hindernisse für die Verbreitung von medizinischer KI. Es geht nicht nur darum, ob die KI die richtige Diagnose stellt, sondern auch darum, wer die Fehler überprüft, wer sie erklärt und wer sich den Patienten stellt, wenn etwas schiefgeht. Ohne eine klare Regelung wird es schwierig sein, der KI im medizinischen Umfeld voll zu vertrauen.


Die Grenze zwischen „nützlicher Zweitmeinung“ und „gefährlicher Automatisierung“

Basierend auf dieser Studie scheint die realistischste Anwendung von medizinischer KI derzeit die „Zweitmeinung“ zu sein.

Zum Beispiel könnte die KI Differenzialdiagnosen vorschlagen, wenn der Arzt über eine Diagnose nachdenkt. Sie könnte auf leicht zu übersehende Krankheiten, schwerwiegende, aber seltene Erkrankungen und Risiken hinweisen, die sich aus der Medikamenten- oder Anamnesegeschichte ergeben. Der Arzt würde dies als Referenz nutzen und auf Grundlage seiner eigenen Untersuchung, Tests und Gespräche mit dem Patienten eine endgültige Entscheidung treffen.

In dieser Form könnte die KI ihre Stärken nutzen, während die menschliche Verantwortung und Entscheidungsfindung erhalten bleibt. Besonders in der Notaufnahme, wo die Zeit begrenzt ist und der Entscheidungsdruck hoch ist, könnte die KI dazu beitragen, „Denkfehler“ zu reduzieren.

Gefährlich wäre jedoch die Automatisierung, bei der die Vorschläge der KI ohne Überprüfung übernommen werden. Wenn die KI selbstsicher eine falsche Diagnose stellt, besteht die Gefahr, dass Menschen davon beeinflusst werden. Auch in den von The Guardian vorgestellten Expertenkommentaren wurde auf das Risiko hingewiesen, dass Ärzte unbewusst den Antworten der KI folgen könnten.

Dies ähnelt dem Problem des „Automatisierungsbias“. Menschen neigen dazu, die von Computern gegebenen Antworten als objektiv und korrekt wahrzunehmen. Besonders in einer geschäftigen Umgebung kann das Gefühl „Die KI sagt das auch“ die unabhängige Denkweise schwächen.

Daher reicht es nicht aus, einfach ein hochpräzises Modell einzuführen, wenn medizinische KI implementiert wird. Es muss entworfen werden, wie Ärzte die Vorschläge der KI überprüfen, wie sie Fehler der KI erkennen, wie sie den Patienten erklären und wie sie dies dokumentieren.


Vorteile und Risiken für Patienten

Aus Sicht der Patienten gibt es große Erwartungen an die Unterstützung durch KI-Diagnosen.

Ärztliche Übersehungen könnten reduziert werden. Seltene Krankheiten könnten früher entdeckt werden. Auch in kleinen Krankenhäusern auf dem Land könnte man Unterstützung auf dem Niveau großer Krankenhäuser erhalten. In Situationen, in denen nachts oder an Feiertagen kein Spezialist sofort verfügbar ist, könnte die KI wichtige Vorschläge machen.

Andererseits steigt das Risiko, dass Patienten ihre Symptome direkt in die KI eingeben und ohne ärztliche Untersuchung selbst Entscheidungen treffen. Diese Studie verwendete Daten aus der medizinischen Praxis und verglich die KI im Rahmen einer ärztlichen Bewertung. Es bedeutet nicht, dass die gleiche Genauigkeit erreicht wird, wenn Laien ihre Symptome in einen frei zugänglichen Chatbot eingeben.

Vielmehr hängt die Antwort der KI stark davon ab, wie der Patient seine Symptome beschreibt. Wenn wichtige Symptome ausgelassen oder Informationen, die der Patient für unwichtig hält, weggelassen werden, könnte die KI in die falsche Richtung geführt werden. Die ärztliche Anamnese und körperliche Untersuchung haben die Aufgabe, Informationen zu erfassen, die der Patient nicht in Worte fassen kann.

Deshalb vermittelt diese Studie nicht die Botschaft „Wenn Sie sich von der KI untersuchen lassen, brauchen Sie kein Krankenhaus“. Vielmehr lautet die Botschaft: „Wenn Ärzte die KI richtig nutzen, könnte die Qualität der Diagnosen verbessert werden.“


Wird der Beruf des Arztes verschwinden?

Wie immer gibt es in den sozialen Medien Diskussionen darüber, ob „Ärzte durch KI ersetzt werden könnten“.

Doch die Arbeit eines Arztes besteht nicht nur darin, die richtige Diagnose zu stellen. Sie hören den Ängsten der Patienten zu. Sie erklären die Notwendigkeit von Tests. Sie bieten Behandlungsoptionen an. Sie berücksichtigen Nebenwirkungen und den Lebenshintergrund. Sie sprechen mit der Familie. Sie unterstützen Entscheidungen am Lebensende. Sie übermitteln schlechte Prognosen. Sie verbinden die Patienten mit dem Gesundheitssystem, Versicherungen und lokalen Ressourcen.

Dies ist keine bloße Informationsverarbeitung. Es ist Arbeit, die Werturteile, Vertrauensbeziehungen, körperliche Eingriffe und ethische Verantwortung umfasst.

Auch wenn die KI Diagnosevorschläge machen kann, werden Patienten weiterhin fragen: „Was soll ich tun?“, „Soll ich diese Behandlung erhalten?“ und „Wie erkläre ich das meiner Familie?“. In diesen Situationen wird die Rolle des menschlichen Arztes umso wichtiger.

Allerdings wird sich die Arbeitsweise der Ärzte ändern. Die KI wird Krankenakten lesen, Differenzialdiagnosen erstellen, Testvorschläge machen und einen Entwurf für einen Behandlungsplan erstellen. Der Arzt wird dies überprüfen und auf den Kontext des Patienten abstimmen. Das bedeutet, dass Ärzte sich