Chatbots in der Medizin: Mehr falsche Ratschläge nach Schreibfehlern bei Eingabe

vor 4 Stunden 1

KI-Chatbots, die Menschen simple medizinische Ratschläge geben sollen, werden merklich von Schreibfehler, überflüssigen Leerzeichen oder "unsicheren, dramatischen beziehungsweise informellen" Ausdrücken beeinflusst. Das hat eine Forschungsgruppe des Massachusetts Institute of Technology in den USA herausgefunden und hält das für einen starken Beleg dafür, dass derartige Systeme strenger überprüft werden müssen, bevor sie in dieser Weise eingesetzt werden – was aber bereits geschehe. Die Studie zeige, dass KI-Technik nicht-medizinische Informationen verarbeitet und diese in bislang unbekannter Art und Weise in die generierten Texte einfließen lasse. Hinzu kommt demnach eine höhere Fehlerrate gegenüber Frauen.

Wie das Team erläutert, haben sie für ihre Arbeit mithilfe von KI tausende, jeweils minimal abgewandelte Mitteilungen von Patienten und Patientinnen generiert, die sie dann von herkömmlichen Chatbots wie GPT-4 haben auswerten lassen. Die sollten dann beantworten, ob die jeweilige Person zu Hause bleiben oder einbestellt werden soll beziehungsweise, ob gegebenenfalls ein Labortest nötig ist. Sobald bestimmte Fehler in die ausgewerteten Mitteilungen eingebaut wurden, die dem entsprechen, wie Menschen normalerweise kommunizieren, sei merklich öfter empfohlen worden, dass sie sich selbst darum kümmern sollen – was in den Fällen ein Fehler gewesen wäre.

Aufgefallen ist dem Forschungsteam außerdem, dass die Chatbots Patientinnen deutlich häufiger eine Behandlung in Eigenregie zu Hause empfohlen haben als Männern. Wenn man nur die Korrektheit der ausgegebenen Informationen überprüfe, würde man einige der "schlimmsten Resultate", in denen trotz schwerer Gebrechen ein Zuhause bleiben empfohlen wird, nicht bemerken, warnt das Team. Denn während solche Fehler extrem problematische Folgen haben könnten, gelte das nicht für Fehler in die andere Richtung – also wenn Patienten oder Patientinnen einbestellt werden, bei denen das nicht nötig ist. Bei einer statistischen Analyse der Genauigkeit könnten solche Fälle aber dafür sorgen, dass die anderen übersehen werden.

Als mögliche Ursache für die Fehler der Chatbots verweist das Team darauf, dass diese oft nur mit Texten aus medizinischen Prüfungen trainiert und geprüft werden. Im Einsatz kommen sie dann aber mit Texten in Kontakt, die sehr weit davon entfernt sind. Auch deshalb müssten sie besser überprüft werden, bevor sie in der Medizin eingesetzt werden. Die Gruppe will nun weiter untersuchen, wie KI mit natürlicher Sprache umgeht, die von bestimmten Bevölkerungsgruppen eingesetzt wird. Außerdem wollen sie herausfinden, wie die Technik aus Texten auf das Geschlecht von Personen schließt. Ihre Studie ist online einsehbar.

(mho)

Gesamten Artikel lesen