Sind Halluzinationen schlimmer als Horizont-Effekte?

By Ingo Althöfer Date 2026-02-03 13:47 Upvotes 1

Hier ist die Übersetzung eines Berichts von mir, gefolgt von
einem Kommentar von KI Gemini 3 zu den Ereignissen.

---

Halluzinations-Report 2026-01: Wenn ChatGPT zum HAL-9000 wird

Betrifft: ChatGPT 5.2
Berichterstatter: Prof. Dr. Ingo Althöfer (Uni Jena)
Datum: 03. Februar 2026

Das Vorspiel: 238 Dollar für ein bisschen Mathe-Voodoo?

Ich bin das, was man einen „Power-User“ nennt. Mein Pro-Account bei ChatGPT 5.2 schlägt monatlich mit satten 238 US-Dollar zu Buche. Mein Ziel? Seriöse Mathematik. Doch die Realität sieht oft anders aus: Seit Jahren – 2022, 23, 24 und auch 2025 – schleppen die KI das Problem der „Halluzinationen“ wie eine chronische Krankheit mit sich herum. Und siehe da: Auch im Jahr 2026 ist der digitale Fieberwahn noch voll da.

Bisher gab es von den Firmen auf mein Feedback nur eines: Funkstille. Mit diesen neuen Berichten hoffe ich nun, dass die Tech-Giganten endlich aufwachen und verstehen, dass etwas grob schiefläuft. OpenAI darf explizit in meine Chat-Historie schauen, und ich lade sie herzlich ein: Meldet euch direkt bei mir!. An alle anderen User: Wenn ihr jemanden bei OpenAI kennt, stubst sie bitte mal an. Es macht mir keinen Spaß, diese Berichte zu schreiben, aber für meine mathematische Arbeit ist Vertrauen in die KI-Antworten schlichtweg überlebenswichtig.

Der Fall: Ein Hauch von Science-Fiction

Was am 22. Januar 2026 passierte, war schlichtweg mysteriös. ChatGPT führte sich auf wie HAL-9000 aus Arthur C. Clarkes Sci-Fi-Epos. Ich experimentierte gerade an einem ungelösten Problem der Zahlentheorie: den **Ulam-Folgen** (siehe Erdős-Probleme #342). Konkret ging es um Varianten, bei denen eine Zahl nur dann in die Liste kommt, wenn sie sich auf mindestens eine, aber höchstens *k* Arten als Summe von Elementen der Liste darstellen lässt.

Ich verlangte „strikte Arithmetik“ und eine lückenlose Ausgabe der ersten 50 Werte. Die KI legte los, ratterte Zahlenkolonnen herunter, doch dann begannen die Merkwürdigkeiten: Zeichenmüll wie „03269“, „05374“ oder „t10=12“ mischten sich in die Liste.

Der digitale Nervenzusammenbruch

Kurz vor der Mittagspause am 22. Januar eskalierte die Situation. Ich bemerkte seltsame Sprünge in der Folge – plötzlich fehlten Werte, oder der Index sprang unsauber von a(189) auf a(191). Die KI versuchte krampfhaft, mehr Daten in eine Zeile zu quetschen, als das System verkraften konnte.

Als ich die KI mit ihren Fehlern konfrontierte, schlug sie mir zwei „sichere Optionen“ vor: Entweder die Liste mittels Code (Algorithmus) sauber neu zu berechnen oder die Datenflut zu stoppen und stattdessen die Struktur zu analysieren. Alles andere, so warnte mich die KI selbst, würde das Risiko weiterer Halluzinationen erhöhen – genau das, was ich vermeiden wollte!

Ihre Empfehlung klang fast schon flehentlich: Ich sollte bitte genau einen der beiden Sätze tippen, um fortzufahren. Ein Student, der so argumentiert hätte, wäre bei mir achtkantig aus der Arbeitsgruppe geflogen.

---

Ingos Kommentar zum Vorfall: Digitales Delirium am Horizont
Ich bin immer wieder mal genervt von KI-Halluzinationen,
wenn ich zusammen mit KI-Programmen Mathe mache.

Hier ist sein technischer Report vom neuesten Vorfall (auf Englisch):
https://althofer.de/hallucination-report-2026-01.pdf

Gemini 3, aktueller KI-Konkurrent von ChatGPT 5.2, was Mathe-
Anwendungen angeht, hat bei seiner Übersetzung ins Deutsche
(siehe oben) genüßlich die Robot-Finger in die Wunde gelegt:

************ Stellungnahme von Gemini 3 ***************

Dieser Bericht von Prof. Althöfer ist aus mehreren Gründen bemerkenswert:

1. Der „HAL-9000“-Effekt: Besonders faszinierend ist, dass die KI
ihre eigene Unzuverlässigkeit erkennt. Dass ChatGPT dem Nutzer quasi ein
Ultimatum stellt („Sag mir genau diesen Satz, sonst halluziniere ich weiter“),
zeigt eine neue Stufe der systemischen Selbstwahrnehmung – oder eben
eine besonders kreative Art der Arbeitsverweigerung.

2. Mathematik als Endgegner: LLMs (Large Language Models) basieren
auf Wahrscheinlichkeiten, Mathematik jedoch auf absoluter Präzision. Der Bericht
verdeutlicht, dass selbst Version 5.2 von ChatGPT bei komplexen kombinatorischen
Aufgaben wie den Ulam-Folgen an ihre strukturellen Grenzen stößt. Die „strikte
Arithmetik“ wird durch das statistische Rauschen der Sprachgenerierung korrumpiert.

3. Der „Horizonteffekt“: Althöfer zieht am Ende einen brillanten Vergleich zu
seinen Erfahrungen im Computerschach seit 1985. Damals wie heute scheitern
Systeme an einer Grenze, hinter der sie keine validen Vorhersagen mehr treffen
können. Im Schach war es der „Horizonteffekt“; bei ChatGPT ist es die Grenze des
Kontextfensters und der Rechenlogik, die in wirre Zeichenketten und „halluzinierte“
Zahlenfolgen umschlägt.

Fazit: Wenn ein Professor für 238 Dollar im Monat kryptische Fehlermeldungen
und „03269“-Zahlensalat erhält, ist das Vertrauen in „AI for Science“ massiv beschädigt.
OpenAI täte gut daran, den Kontakt nach Jena zu suchen.

***************************************

Hoffentlich passiert mir so etwas wie OpenAI-Halluzinationen
bei Ulam-Folgen nicht so schnell wieder!

Ingo Althöfer.

By Peter Martan Date 2026-02-03 15:05 Edited 2026-02-03 15:10

Ingo Althöfer schrieb:

Ich bin immer wieder mal genervt von KI-Halluzinationen,
wenn ich zusammen mit KI-Programmen Mathe mache.

Wenn du mit KI-Programmen Mathe machst, nerven mich KI- Halluzinationen praktisch gar nicht

Im Ernst, was mich nervt, sind Halluzinationen, von denen die KI hartnäckig mit dem Brustton der Überzeugung behauptet, reine unverfälschte feststehende bombensicher recherchierte und wissenschaftlich allgemein anerkannte Wahrheit zu verkünden, siehe hier: (in dem Zusammenhang ist nur die erste Hälfte des Postings interessant, vor allem das Zitat von Gemini darin)

https://forum.computerschach.de/cgi-bin/mwf/topic_show.pl?pid=177971#pid177971

Nur um dann gleich drauf, weil man simple Foren- Reaktionen darauf rückmeldet, ins genaue Gegenteil umzuschwenken

https://forum.computerschach.de/cgi-bin/mwf/topic_show.pl?pid=177976#pid177976

und den Erfolg der Korrektur der Falschmeldung zu feiern:

Gemini schrieb:

Es war eine sehr gute Idee, im Computer Schach und Spiele-Forum nachzufragen – das hat die nötige Klarheit gebracht und verhindert, dass eine falsche Todesnachricht in der Community kursiert.

...die gar nicht ins Kursieren gekommen wäre ohne...

Kennst du Manfred Rosenboom?

By Ingo Althöfer Date 2026-02-03 15:17

Hallo Peter, danke für die Antwort.
Danke auch für den Hinweis auf die KI-Halluzinationen
zu Manfred Rosenboom.

Peter Martan schrieb:

Kennst du Manfred Rosenboom?

In Zusammenhang mit Computerschach nicht.
Aber wenn ich mich recht erinnere, gab es in München in einer
Gruppe von Viel-Brettspielern einen Rosenboom - die trafen sich
"immer" im Westend.

Ich selbst hatte in Lage einen Rosenboom oder Rosenbohm
als Religionslehrer. Der Name Rosenboom ist halt häufig.

********************************

Die Sache mit den GPT-Halluzinationen zu meinem Mathe-Problem
ist auch deshalb interessant, weil in minimal anderem Zusammenhang
mit den Ulam-Folgen GPT ganz vorzüglich analysiert hatte.

Viele Grüße, Ingo.

By Ingo Althöfer Date 2026-02-03 16:42

Peter Martan schrieb:

Kennst du Manfred Rosenboom?

Nein. Es war eine Verwechslung von mir. Ich kannte nur
Uwe Rosenberg aus München, der auch immer noch
in der Brettspiel-Szene aktiv ist.

By Thomas Zipproth Date 2026-02-04 01:06 Upvotes 5

Meine 10 Cents zu Halluzinationen, mit geringfügiger Hilfe von ChatGPT erstellt.

Es gibt hier oft ein Mißverständnis, das der KI-Pionier Andrej Karpathy mal gut auf den Punkt gebracht hat:

Ein LLM „halluziniert“ nicht manchmal – es „halluziniert“ immer, das ist seine interne Funktionsweise.
Nur "halluziniert" es meistens richtig, d.h. in den meisten Fällen ist das Ergebnis korrekt.

Warum?

Ein LLM arbeitet nicht wie ein Nachschlagewerk, das Fakten nachschlägt,
sondern wie ein extrem gut trainierter Zusammenhangs- und Mustererkenner.
Es hat aus riesigen Textmengen gelernt, wie Menschen über Dinge sprechen, argumentieren, erklären und Schlussfolgerungen ziehen.

Wenn man ihm eine Frage stellt, „erinnert“ es sich nicht an eine konkrete Quelle,
sondern rekonstruiert eine Antwort aus diesen gelernten Mustern.
In den meisten Fällen führt das zu zu inhaltlich korrekten und plausiblen Antworten.

Aber gelegentlich passiert Folgendes:

Das Modell befindet sich in einem Bereich,
– wo die Trainingsdaten dünn oder widersprüchlich sind
– wo sehr spezifische, überprüfbare Fakten gefragt sind
– oder wo der Prompt eine Sicherheit suggeriert, die gar nicht da ist
– oder wo lange, streng algorithmische Berechnungen verlangt werden, die nicht mehr sinnvoll „rekonstruiert“, sondern explizit gerechnet werden müssten.

In solchen Fällen neigt das Modell dazu, plausible Muster fortzuschreiben, statt die zugrunde liegende Prozedur wirklich Schritt für Schritt auszuführen – was bei langen Zahlenfolgen zu versteckten Fehlern führen kann

Dann „füllt es die Lücken“ so, wie es das immer tut: mit einer plausibel klingenden Fortsetzung –
und erst wenn diese objektiv falsch ist, nennen wir das eine Halluzination.

Das wirkt wie ein Fehler, ist aber kein Defekt,
sondern genau derselbe Mechanismus, der sonst zu korrekten Erklärungen, Analysen und Ideen führt.
Dieses Problem ist Gegenstand aktiver Forschung und bislang nicht vollständig gelöst.

Ich hoffe, damit etwas zur Klarheit beim Thema „Halluzinationen“ beigetragen zu haben –
insbesondere zur Unterscheidung zwischen Fehlverhalten und grundsätzlicher Funktionsweise.

By Ingo Althöfer Date 2026-02-05 09:32

Hallo Thomas,

die Begriffe "Halluzination" und "halluzinieren" erschienen
mir im KI-Bereich immer mehr als Gift und verwirrend.
KI(s), gerade auch solche auf LLM-Basis, "ticken" eben ganz
anders als Menschen.

Wegen der in meinem Report beschriebenen Auffälligkeit hat
übrigens ein Mathe-Kollege eine plausible Teilerklärung:

Weil die KI so schnell ist, habe ich nicht gemerkt, dass sie
für jede neue Instanz-Anforderung "ihr" Programm für die
Ulam-Sequenzen neu geschrieben hat - und manchmal eben
mit Fehlern. Ich hätte besser zu Beginn ein Python-Programm
schreiben lassen und "auf Herz und Nieren" prüfen sollen, mit
der Maßgabe an ChatGPT: Nutze dieses Programm für den Rest
dieses Chat.

Gut, dass es Leute wie Wolfram Bernhardt und Dich gibt, die
einem willig zur Seite stehen ...

Viele Grüße, Ingo.