Der Hype um eine KI-Entwicklung war zuletzt 2016 derart groß wie heute. Damals besiegte ein Algorithmus von Google den amtierenden Weltmeister in GO, dem komplexesten Strategiespiel der Welt. Jetzt feiert die Entwicklung auf dem Feld der künstlichen Intelligenz (KI) den nächsten Höhepunkt: Im Februar 2023 konnte der Text Roboter ChatGPT bei den drei theoretischen Teilen des United States Medical Licensing Examination (USMLE) unter bestimmten Bedingungen mehrfach die vorgeschriebene Mindestpunktzahl erreichen, das berichten US-Experten im Fachjournal „PLOS Digital Health“. Allerdings hatte das Team um Victor Tseng vom kalifornischen Start-up AnsibleHealth einige Fragen ausgeklammert. „Das Erreichen der Mindestpunktzahl für diese notorisch schwierige Expertenprüfung, und das ganz ohne menschliche Unterstützung, ist ein bemerkenswerter Meilenstein in der Entwicklung der klinischen KI“, bewerteten die Autoren die Leistung.
Und der virtuelle Tausendsassa von OpenAI kann noch weit mehr, nämlich unter anderem mithilfe von natürlicher Sprachverarbeitung (NLP) menschenähnliche Texte generieren, die auf gegebenen Eingaben oder Themen basieren und konkrete Fragen, etwa nach Schmerzen im Auge oder Ziehen in der Schulter, beantworten. Er kann aber auch Texte von einer Sprache in eine andere übersetzen, Geschichten auf Basis von Anfangssätzen oder anderen Vorgaben schreiben, der Entscheidungsfindung helfen, indem er verschiedene Möglichkeiten abwägt und Vor- und Nachteile diskutiert und nicht zuletzt als Chatbot eingesetzt werden, um mit Benutzern zu interagieren. OpenAI, der Herausgeber des Chatbots, ist ein ursprünglich als Non-Profit-Organisation gegründetes und heute auch kommerziell agierendes Unternehmen. Es konzentriert sich auf die Erforschung und Entwicklung von künstlicher Intelligenz (KI).
Gespeist wird GPT3.5 – das KI-Modul, auf dem die Anwendung ChatGPT aufbaut – aus verschiedenen Quellen, von Nachrichtenartikeln und Büchern über Blogs und Foren bis hin zu sozialen Medien und gesprochener Sprache. Der Name steht für „Chat Generative Pre-trained Transformer“: Aus rund einer halben Billion Worte Text hat das sogenannte Large Language Model (LLM) gelernt, wie Sprache funktioniert und wie sie sich in welchem Kontext ausdrücken sollte.
Die gesamte Wikipedia-Enzyklopädie macht aber gerade einmal drei Prozent der von GPT3.5 eingelesenen Informationen aus, erklärt Professor Dr. rer. nat. Ute Schmid, Psychologin und Informatikerin vom Lehrstuhl für Kognitive Systeme der Universität Bamberg.
Zum Interview mit Prof. Dr. rer. nat. Ute Schmid
Zeitenwende in der künstlichen Intelligenz
„2023 ist das Jahr der Zeitenwende in der künstlichen Intelligenz“, sagt kein Geringerer als Professor Dr. Sebastian Thrun, der als einer der geistigen Väter künstlicher Intelligenz (KI) gilt. „Bisher konnte die eine KI besser Schach spielen als ein menschlicher Spieler, und eine andere konnte Röntgenbilder besser als ein Mediziner auf Anzeichen von Lungenkrebs untersuchen. Die neue Generation der Künstlichen Allgemeinen Intelligenz, kurz KAI, ist hingegen derart universell, dass sie bis zu einem gewissen Grad alle intellektuellen Aufgaben so gut wie ein Mensch bewältigen kann, häufig sogar besser.“
Die KI-Expertin Dr. Narges Ahmidi, Leiterin der Abteilung Reasoned AI Decisions am Fraunhofer-Institut für Kognitive Systeme IKS in München, ist überzeugt:
„Diese Technologie wird die Art und Weise ändern, wie wir über KI denken.“
Doch wie bringt sich ChatGPT konkret in das Gesundheitswesen ein? Kann der Sprachroboter die Arbeit von Medizinern erleichtern? In der Tat sind schon erste konkrete Einsatzbereiche denkbar. Die Spanne der möglichen Anwendungsfelder in der Medizin ist groß:
„ChatGPT oder ähnliche Anwendungen könnten in Zukunft beispielsweise als Diagnose-Unterstützungssystem Verwendung finden, das Ärztinnen und Ärzten hilft, Erkrankungen anhand von Symptomen und Krankengeschichten zu identifizieren – nicht zwangsläufig besser als Ärzte, dafür aber in nur einem Bruchteil der Zeit.
Informationen während der Behandlung könnten besser in den Prozess integriert werden, wie etwa Kontextwissen. Oder der Arzt schreibt eine Anamnese, die über Chat GPT analysiert werden kann, wobei der Bot auf referenziertes Wissen zurückgreift“, sagt eHealth-Experte Dr. André Sander. „Der Arzt hat ja keine Zeit, während einer Behandlung Dinge zu googlen. Das wird künftig automatisiert und in die Software-Systeme von Ausgabegeräten, die Ärzte benutzen, über standardisierte Schnittstellen, kurz APIs, integriert sein. Ich gehe davon aus, dass es in Kürze eine Pluralität an Anbietern geben wird, die ähnliche Technologien zur Verfügung stellen, unabhängig vom Gesundheitssystem. Viele wollen damit Geld verdienen. Hoffentlich übersteht die Technologie die Einführung ohne Schaden, nämlich Vertrauensverlust, ähnlich wie bei Bitcoin.“
Das Rennen um die stärkste KI
Inzwischen ist das Rennen um die stärkste KI bereits in vollem Gange – allein im März wurden Hunderte neuer KI-Tools präsentiert. Zu den ereignisreichsten Releases zählten OpenAI’s GPT-4, Midjourney V5 und Microsofts Vorstellung des 365 Copilots, die alle innerhalb einer Woche vorgestellt wurden. Zudem sind neben ChatGPT im KI-Handwerkskasten noch weitere Werkzeuge zu finden wie Murf AI als Text-to-Audio-Generator, Synthesia zur Videoproduktion, Cogram (YC W22) zur Dokumentation von Meetings oder Perplexity AI zur Recherche. Richtig eingesetzt steigern sie massiv die Effizienz von Routinejobs. Microsofts Tochtergesellschaft für Spracherkennung, Nuance Communications, kündigte Mitte März Dragon Ambient eXperience (DAX) Express an, eine klinische Anwendung für klinische Notizen für Mitarbeiter des Gesundheitswesens mit Intelligenz. DAX Express soll den Verwaltungsaufwand der Kliniker reduzieren, indem es innerhalb von Sekunden nach einem Patientenbesuch automatisch einen Entwurf einer klinischen Notiz erstellt. Die Technologie wird angetrieben durch eine Kombination aus Ambient A.I., die Erkenntnisse aus unstrukturierten Daten wie Gesprächen gewinnt, und dem neuesten Modell von OpenAI, GPT-4.
„Vor allem die große Flut an diagnostischen Informationen der Patienten zu verarbeiten, wird für Mediziner immer schwieriger. Wir hoffen, dass uns KI-Systeme dabei künftig zunehmend unterstützen können. Auch Large Language Modelle wie ChatGPT können dabei in Zukunft eine große Hilfe sein“
sagt Professor Dr. med. Kai Wehkamp, Geschäftsführender Oberarzt der Klinik für Innere Medizin I des Universitätsklinikums Schleswig-Holstein (UKSH) und Leiter des Projekts MAIA, bei dem ein KI-basiertes System zur Früherkennung von Komplikationen und Krankheiten implementiert werden soll. Aktuell rät er aber noch zu einer vorsichtigen Nutzung des trainierten Transformers. „Wir müssen beim Einsatz von ChatGPT klar unterscheiden zwischen unkritischen Anwendungsfällen, wo es keine Folgen hat, wenn etwas schiefläuft und kritischen Bereichen, wo es unmittelbare Konsequenzen bei Fehlern gibt. Wenn etwa einem Patienten ganz allgemein eine Krankheit erklärt wird, auf einem Wikipedia Niveau, richten ungenaue Informationen in der Regel keinen Schaden an. Aber wenn es darum geht, patientenbezogene Informationen zu verarbeiten, dann besteht schnell das Risiko, dass die Zusammenhänge nicht ganz richtig verstanden werden. Gerade in der Medizin kann das sehr schnell der Fall sein, etwa bei einer Krebsdiagnose. Das kann weitreichende Konsequenzen haben und zum Beispiel bei einem Patienten starke Verunsicherung, Angst oder auch falsche Hoffnung auslösen.“
Der Arzt entscheidet weiterhin
Zwar machen auch die Menschen in der Medizin regelmäßig Fehler, aber für Professor Dr. Kai Wehkamp ist es etwas anderes, wenn ein technisches System für die Anwendung am Menschen zugelassen wird, von dem man genau weiß, dass es noch Fehler macht. „Wir müssen hier weiterhin ärztliche Verantwortung übernehmen, selbst bei einem automatisierten Arztbrief.
Der Arzt muss daher immer nochmal drüber schauen, auch wenn eine KI etwas meistens gut macht, darf man nicht aufhören, deren Aussagen zu überprüfen – zumindest, solange die KI noch fehleranfällig ist.“
So denken auch die Hausärzte: „In der derzeitigen Form kann ChatGPT die Patientinnen und Patienten dabei unterstützen, sich mit ihrer Gesundheit auseinanderzusetzen. Eine konkrete Rolle in der unmittelbaren Versorgung ist derzeit nicht erkennbar. Grundsätzlich gilt: Die online-Recherche kann den Arztbesuch nicht ersetzen. Sie kann helfen sich zu orientieren, mehr jedoch nicht. Daran ändert derzeit auch ChatGPT nichts“, sagt Vincent Jörres, Pressesprecher des Deutschen Hausärzteverband e.V.. Laut einer Umfrage des Branchenverbands Bitkom suchen aktuell 74 Prozent der deutschen Internetnutzer online nach alternativen Behandlungsmethoden und 68 Prozent nach zusätzlichen Informationen.
Eine gewisse Distanz gegenüber den Ergebnissen solcher Bots empfiehlt die KI-Expertin Dr. Narges Ahmidi. Man dürfe das Tool nicht überschätzen. „ChatGPT wirkt, als würde ein Mensch mit einem sprechen. Und man hat zudem das Gefühl, dass es eine Menge weiß. Das ist zwar zunächst positiv. Aber selbst, wenn das System einen Fehler macht, klingt es sehr überzeugt. Man sollte dem aber nicht zu sehr vertrauen, zumindest noch nicht in der aktuellen Generation. Die ist noch sehr wild und ungezähmt. Man kann zwar zusätzlich nach der Quelle fragen, aber es gibt viele Beispiele, dass die Quellen falsch sind. Aktuell gibt es keinen Weg, genau herauszufinden, wie sicher die Aussage der KI-Anwendung ist.“ Ihr volles Potenzial werde die Technologie in Kliniken und Arztpraxen ohnehin erst in einigen Jahren entfalten. Das liegt für Dr. Ahmidi nicht zuletzt an der immer noch rückständigen Digitalisierung im deutschen Gesundheitswesen.
„Viele Systeme müssen noch sehr viel effektiver und digitaler werden, bevor ChatGPT übergreifend größeren Nutzen stiften kann. Ich erwarte hier eine parallele Bewegung: Die KI muss vertrauenswürdiger werden und das Gesundheitssystem gleichzeitig digitaler. Das wird aber noch fünf Jahre benötigen, zumindest was eine durchschnittliche Klinik anbelangt. Manche Kliniken, die weiter vorne sind bei der Digitalisierung, werden es vielleicht schon in ein bis zwei Jahren schaffen.“
Dem Bot fehlt noch die Inferenz
ChatGPT habe zudem derzeit noch einen weiteren wesentlichen Mangel: „Das Medizin-Examen der USA würde der Text-Roboter – mit gewissen Abstrichen – schon bestehen. Aber wäre er auch ein guter Arzt? Ich denke nicht. Dafür fehlt die Inferenz, also die Fähigkeit, logische Schlussfolgerungen aus den ermittelten Ergebnissen abzuleiten. Für die Medizin etwa bedeutet das beispielsweise eine Antwort auf die Frage, welche Behandlung konkret nun die gerade richtige für den entsprechenden Patienten ist.
Der Mensch als Experte hat hingegen die Fähigkeit, nicht nur das Gelernte auch mit der ärztlichen Erfahrung zu paaren und zum Wohle des Patienten zu nutzen und eine neue Situation zu bewerten und entsprechend zu handeln. Da ist die KI noch um einiges davon entfernt.“
Aber der Transformer entwickle sich schnell weiter: „Die derzeit trainierten, aber noch nicht veröffentlichten Versionen, werden bestimmt in der Lage sein, verschiedene Behandlungsvorschläge bei einer bestimmten Krebserkrankung zu unterbreiten. Und in drei bis fünf Jahren wird ChatGPT bereits sehr sicher sein für die Nutzung.“
Auch Dr. André Sander sieht noch einige aktuelle Mängel: „Das Wissen von ChatGPT endet Mitte 2021. Alles, was danach ins Internet kam, erfasst der Bot erst nach und nach. Das ist vor allem im Bereich der Medizin eins der größten Probleme. Zudem fehlt noch die Referenz auf die Ausgangsdaten. Wir müssen es schaffen, dass Daten, die ChatGPT zur Verfügung stellt, noch in einem zweiten Schritt validiert und differenziert werden. Dafür eignen sich die Methoden der regelbasierten KI als Ergänzung, weil diese Methoden Terminologie basiert und damit sicherer in der Aussage sind“, so der eHealth-Experte.
„Effizienz und Behandlungsqualität werden durchaus steigen. Aber ich glaube nicht, dass es eine Revolution wird. ChatGPT kennt nur Durchschnitte, aber nichts Individuelles. Das muss der Arzt in der Hand haben.“
Braucht es ein Recht auf Nicht-Behandlung durch Algorithmen?
Zu klären ist dann auch noch die Frage, ob Patienten künftig ein Recht auf Nicht-Behandlung durch Algorithmen haben. Dabei sei in Übereinstimmung mit den Überlegungen zum Europäischen „AI Act“ entscheidend, dass transparent wird, ob man mit einem Menschen oder einem KI-System interagiert oder auch ob ein Text von einem KI-System verfasst wurde, sagt Professorin Ute Schmid.
„Zur Frage des Rechts auf Nichtbehandlung durch KI würde ich meinen, dass dieses Recht bestehen muss – Patienten haben ja generell das Recht, sich für oder gegen eine Behandlungsmethode oder eine Operation zu entscheiden.
Es kann dann aber vermutlich nicht daraus abgeleitet werden, dass entstehende höhere Kosten generell übernommen werden und man muss gegebenenfalls auch in Kauf nehmen, dass ein Behandlungsergebnis ohne Einsatz von KI weniger gute Resultate erzielt, als man es mit dem Einsatz einer entsprechenden Technologie hätte erzielen können“ Nach wie vor sollte es aber den medizinischen Expertinnen und Experten obliegen, zu entscheiden, welche Behandlungsform in einem bestimmten Fall die für den Patienten wohl beste ist.
„KI ist ein sehr weites Feld, hier wird ja simuliert, was sonst menschliche Intelligenz erfordert. Und einfache Algorithmen, die man durchaus als künstliche Intelligenz verstehen kann, sind bereits in vielen digitalen Medizingeräten wie z.B. Computertomographen im Einsatz. Aber Machine Learning (ML) trainiert ein System auf große Datenmengen. Sobald Machine-Learning im Einsatz ist, sollte dies transparent gemacht werden. Ein Mediziner, der die ML-Technik einsetzt, muss verstehen, dass die Ergebnisse von einer KI erstellt wurden und welche Genauigkeit und Zuverlässigkeit diese haben“, sagt Professor Kai Wehkamp. „Ein radiologischer Befund könnte ja künftig von einem Mediziner oder von einer KI erstellt sein. Da sollte der behandelnde Arzt wissen, wer hier die Quelle ist. Aber man sollte KI-Anwendungen nicht stigmatisieren.
Solange nur sichere, also wissenschaftlich validierte KI-Anwendungen zugelassen werden, benötigen wir auch keine exklusive Aufklärung der Patienten über den Einsatz von KI – wir müssen ja ohnehin Patienten über die eingesetzten Techniken aufklären, und dazu gehört auch der Hinweis auf den Einsatz digitaler Systeme wie ML-Anwendungen.
Aber solange der Zulassungsprozess den Regeln evidenzbasierter Medizin entspricht, wie wir es auch für Medikamente oder klassische Medizintechnik wie z.B. Stents fordern, solange gibt es auch keinen Grund für Patienten, eine „KI-freie Medizin“ einzufordern.
Wir werden auf absehbare Zeit ohnehin erstmal den Menschen als letztendlichen Entscheider dabeihaben, der die Verantwortung trägt und sich durch KI-Anwendungen nur unterstützen lässt.
Übertriebenes Misstrauen gegen KI zu schüren halte ich nicht für angemessen, vorausgesetzt, wir haben wissenschaftlich fundierte Sicherheitskriterien für digitale Medizinanwendungen. Diese müssen aber auch den tatsächlichen Einsatz berücksichtigen und sicherstellen, dass es nicht zu Patientengefährdung durch unkritische Übernahme von KI-Empfehlungen kommt.“
Wenn die Algorithmen grundsätzlich zugelassen und damit als sicher im medizinischen Sinne klassifiziert seien, sei es auch sinnvoll, sie einzusetzen, sagt auch Dr. André Sander. Unter einer Voraussetzung:
„Der Patient sollte immer das Recht haben, zu wissen, auf welcher Basis er behandelt wird.“
„Eine KI, die der gesamten Menschheit nutzt“
Hintergrund und Ziele von ChatGPT
Chatbots wie ChatGPT von OpenAI basieren auf großen Sprachmodellen, auch Large Language Models (LLM) genannt. Dabei handelt es sich um künstliche Intelligenz-Systeme, die darauf trainiert sind, menschliche Sprache zu verstehen und in natürlicher Sprache zu antworten. Der Name steht für „Chat Generative Pre-trained Transformer“. Die zugrundeliegende „Transformer“-Architektur, die seit 2017 entwickelt wird, zielt darauf ab, Muster in der Sprache zu erkennen und anzuwenden. Im ersten Schritt erfasst der Encoder-Teil des Transformer-Modells die Bedeutung von Wörtern in einem Text, indem er ihre Beziehungen zu anderen Wörtern und ihre Position innerhalb des Textes berücksichtigt. Der Decoder-Teil ist für die Textausgabe verantwortlich. Er verwendet die vom Encoder erfassten Bedeutungen und Beziehungen der Wörter, um neuen, sinnvollen Text zu generieren - also z.B. eine Antwort auf die Frage, wer gerade Bundesgesundheitsminister ist. Dabei hängt die Qualität und Aktualität der Antwort von den verwendeten Trainingsdaten ab. Trainiert werden diese Modelle mit möglichst vielen Daten - im Prinzip allem, was im Internet und auf andere Weise digital verfügbar ist: von Wikipedia, digitalisierten Büchern, Websites, Pressemitteilungen über spezielle Datenbanken bis hin zu Tweets und anderen Beiträgen in sozialen Netzwerken. Im Fall von ChatGPT reichen die Trainingsdaten aktuell nur bis ins Jahr 2021. 2015 war OpenAI als Stiftung in San Francisco gestartet. Namhafte Tech-Unternehmer wie Elon Musk, Peter Thiel, Reid Hoffman oder Sam Altman gaben insgesamt eine Milliarde Dollar, um ein Ziel zu verwirklichen: Eine künstliche Intelligenz zu entwickeln, die „der gesamten Menschheit nutzt“, wie es in der Satzung heißt. Heute sind laut US-Medien die Eigentümer der in ein Forschungsunternehmen umgewandelten Organisation Microsoft mit 49 Prozent, weitere Investoren wie Risikokapitalgeber Khosla Venture oder die Stiftung von LinkedIn-Gründer Reid Hoffman mit 49 Prozent sowie die Stiftung selber mit zwei Prozent an OpenAI beteiligt.