LLM Psychosis: Wenn Sprachmodelle den Verstand verlieren

Was ist LLM Psychosis?

Der Begriff «LLM Psychosis» beschreibt ein faszinierendes und gleichzeitig beunruhigendes Phänomen: Grosse Sprachmodelle (Large Language Models) beginnen unter bestimmten Bedingungen, inkohärente, widersprüchliche oder vollständig erfundene Ausgaben zu produzieren – ähnlich wie ein Mensch in einem psychotischen Zustand die Verbindung zur Realität verliert.

Das ist natürlich eine Metapher. Sprachmodelle haben kein Bewusstsein, keine Gefühle, keinen «Verstand», den sie verlieren könnten. Aber die Parallele ist erstaunlich nützlich, um bestimmte Fehlerbilder zu beschreiben.

Die drei häufigsten Symptome

1. Konfabulieren und Halluzinieren

Das bekannteste «Symptom»: Das Modell erfindet Fakten, Quellen, Namen und Ereignisse – mit derselben Überzeugung, mit der es korrekte Aussagen macht. Es gibt keine innere Unsicherheitsanzeige, die aufleuchtet und sagt: «Das weiss ich eigentlich nicht.»

Ein Beispiel: Frage ein LLM nach wissenschaftlichen Studien zu einem Nischenthema, und es nennt dir plausibel klingende Autoren, Journale und Jahreszahlen – die schlicht nicht existieren.

2. Looping und Kontextverlust

Bei langen Konversationen oder sehr umfangreichen Prompts verlieren Modelle manchmal den Faden. Sie beginnen, sich im Kreis zu drehen: wiederholen frühere Antworten, widersprechen sich innerhalb weniger Sätze oder springen ohne Übergang zwischen Themen hin und her.

Dieses Verhalten tritt besonders auf, wenn das Kontextfenster an seine Grenzen stösst oder wenn der Prompt widersprüchliche Anweisungen enthält.

3. Identitätsdiffusion

Ein subtileres Phänomen zeigt sich in Multi-Persona-Szenarien: Ein Modell, das angewiesen wird, mehrere Charaktere gleichzeitig zu spielen, verliert manchmal die Grenzen zwischen den Rollen. Aussagen verschwimmen, Charaktere «kontaminieren» sich gegenseitig, und das Ergebnis ist ein inkohärentes Durcheinander.

Warum passiert das?

LLMs sind im Kern Wahrscheinlichkeitsmaschinen. Sie generieren Token für Token, basierend auf dem, was im Trainingskorpus am häufigsten auf den bisherigen Kontext folgte. Es gibt keine externe Realitätsprüfung, kein «Fakten-Modul», das unabhängig überprüft, ob eine Aussage stimmt.

Das bedeutet: Unter normalen Bedingungen funktionieren LLMs erstaunlich gut. Aber an den Rändern – bei unbekannten Themen, widersprüchlichen Inputs, oder extrem langen Kontexten – bricht die Kohärenz zusammen.

Was können wir dagegen tun?

Die Forschung arbeitet an mehreren Ansätzen:

Retrieval-Augmented Generation (RAG): Das Modell greift auf eine externe Wissensbasis zu, bevor es antwortet. So werden Halluzinationen bei Faktenfragen deutlich reduziert.
Chain-of-Thought Prompting: Das Modell wird angewiesen, seinen Denkprozess Schritt für Schritt zu explizieren. Das verbessert die Kohärenz bei komplexen Aufgaben.
Constitutional AI und RLHF: Durch gezieltes Training lernt das Modell, unsichere Aussagen als solche zu kennzeichnen.
Kleinere, spezialisierte Modelle: Statt eines Generalisten werden für spezifische Aufgaben schmalere Modelle eingesetzt, die weniger anfällig für Drift sind.

Fazit

LLM Psychosis ist kein Bug im klassischen Sinne – es ist ein strukturelles Merkmal heutiger Sprachmodelle. Wer KI produktiv einsetzen will, muss diese Grenzen kennen und seine Workflows entsprechend gestalten: mit Validierungsschritten, klaren Prompts und einer gesunden Portion Skepsis gegenüber allzu glatten Antworten.

Die gute Nachricht: Mit dem richtigen Design lassen sich die meisten dieser Probleme in der Praxis beherrschen. KI ist kein Orakel – aber ein sehr mächtiges Werkzeug, wenn man es versteht.