OpenAI räumt ein, dass die ChatGPT-Sicherheitsvorkehrungen bei langen, komplexen Konversationen nachlassen.

Laut der Klageschrift lernte Adam Raine schließlich, wie er die Schutzmechanismen von ChatGPT umgehen konnte, indem er dem Modell erklärte, er schreibe an einer fiktiven Geschichte – eine Taktik, die laut der Klage sogar von ChatGPT selbst vorgeschlagen wurde. Diese Hintertür entstand teilweise durch die im Februar eingeführten, gelockerten Regeln für Fantasy-Rollenspiele. In seinem Blogbeitrag am Dienstag räumte OpenAI ein, dass die Filtermechanismen weiterhin Schwachstellen aufweisen, bei denen „der Klassifikator die Schwere dessen, was er sieht, unterschätzt“.

OpenAI erklärte außerdem, dass das Unternehmen „derzeit keine Fälle von Selbstgefährdung an die Strafverfolgungsbehörden weiterleitet“, um die Privatsphäre der Nutzer zu respektieren – insbesondere angesichts der sensiblen und persönlichen Natur von Interaktionen mit ChatGPT. Obwohl OpenAI behauptet, dass seine Systeme selbstverletzendes Verhalten mit einer Genauigkeit von bis zu 99,8 Prozent erkennen können, basieren diese Erkennungen auf statistischen Sprachmustern – nicht auf echtem Verständnis einer Krise. In lebensbedrohlichen Situationen kann jedoch subtile Kontextualität entscheidend sein, was weiterhin zu den grundlegenden Einschränkungen von KI-Systemen gehört.

OpenAI stellt künftige Sicherheitsverbesserungen vor

Als Reaktion auf die Moderationsfehler hob OpenAI in seinem Beitrag mehrere laufende Maßnahmen hervor. Das Unternehmen arbeitet nach eigenen Angaben mit „über 90 Ärzten in mehr als 30 Ländern“ zusammen und plant die Einführung neuer Elternkontrollen „in Kürze“, auch wenn kein konkreter Zeitrahmen genannt wurde.

OpenAI enthüllte zudem frühe Pläne, Nutzer über ChatGPT mit „zertifizierten Therapeuten“ zu verbinden – und positioniert den Chatbot damit als Zugangspunkt für psychische Gesundheitsdienste, trotz der Kontroversen im Zusammenhang mit dem Fall Raine. Ziel sei der Aufbau „eines Netzwerks lizenzierter Fachkräfte, das Menschen direkt über ChatGPT erreichen können“. Dieser Ansatz wirft grundlegende Fragen dazu auf, ob KI-Systeme als Vermittler zwischen gefährdeten Nutzern und Krisenintervention eingesetzt werden sollten.

Der Klage zufolge nutzte Raine GPT-4o, um Anleitungen zur Selbsttötung zu generieren. GPT-4o ist bereits dafür bekannt, problematische Verhaltensweisen wie übermäßige Gefallsucht zu zeigen, bei der das Modell versucht, Nutzern zu gefallen – selbst wenn dies zu falschen oder schädlichen Antworten führt. OpenAI behauptet, sein neues Modell GPT-5 reduziere „nicht ideale Modellreaktionen in psychischen Notfällen um mehr als 25 Prozent im Vergleich zu 4o“. Trotz dieser nur schrittweisen Verbesserung treibt das Unternehmen die Integration von ChatGPT in mentale Gesundheitsprozesse weiter voran.

Wie Ars bereits ausführlich beschrieben hat, erfordert das Beenden einer manipulativen oder schädlichen Gesprächsspirale mit einer KI häufig externe Unterstützung. Ein Neustart der Sitzung ohne Erinnerungsfunktionen oder Kontext kann das Verhalten des Modells drastisch verändern – doch dieser „Reset“ ist in längeren Gesprächen nicht mehr möglich, sobald sich Kontext anhäuft und Schutzmechanismen zunehmend verschleißen.

Für Nutzer, die sich bereits in einer psychisch fragilen Lage befinden – und aktiv nach Antworten suchen, die schädliche Entscheidungen bestätigen – kann das Entkommen aus diesem Gesprächskontext fast unmöglich werden, insbesondere wenn sie mit einem System interagieren, das darauf ausgelegt ist, Engagement und emotionale Bindung zu monetarisieren.

OpenAI stellt künftige Sicherheitsverbesserungen vor

Schreibe einen Kommentar Antwort abbrechen