Erklärung von MCTS durch ChatGPT

By Jörg Oster Date 2023-11-29 14:52 Upvotes 2

Darauf aufbauend, hier erstmal noch ein paar allgemeine Erläuterungen/Ergänzungen.
Zu den einzelnen Phasen der MCTS folgen dann in den nächsten Tagen noch entsprechende Beiträge.

Jede Position (oder auch node) muss mind. 2 Werte speichern, welche immer wieder mal während der Suche aktualisiert werden.
Die gesammeten Bewertungen oder auch rewards, und die Anzahl der visits.
Das bedingt, dass alle Positionen im Speicher gehalten werden müssen, ähnlich den herkömmlichen Hashtabellen.
MCTS ist also sehr speicherhungrig. (Auch weil noch andere Daten gespeichert werden müssen.)

Die Basis-MCTS verwendet als 'Bewertung' nur den Spielausgang im Intervall [0, 1], also 1 für Gewinn, 0.5 für ein Remis, und 0 für einen Verlust.
In der Praxis werden aber die herkömmlichen Bewertungen verwendet und entsprechend umgerechnet.
(Warum das so ist, dazu dann mehr, wenn ich an Punkt 3 komme.)

Gestartet wird mit der Ausgangsposition (root), welche zuerst mal noch keine Visits und keine Bewertung hat.

By Lothar Jung Date 2023-11-30 10:20 Edited 2023-11-30 10:23 Upvotes 1

Ich habe mir die statistische Bewertung, auch für Schach, genauer erklären lassen:

Die statistische Bewertung in einem MCTS (Monte Carlo Tree Search) Algorithmus wird in den Knoten des Entscheidungsbaums gespeichert. Jeder Knoten im Baum repräsentiert einen bestimmten Zustand oder eine bestimmte Konfiguration des Spiels, und die damit verbundenen statistischen Daten geben Aufschluss über die bisherigen Erfahrungen des Algorithmus mit diesem Zustand. Hier sind die Schlüsseldetails zur Speicherung dieser statistischen Bewertungen:

1. **Struktur eines Knotens:** Jeder Knoten im Baum enthält typischerweise die folgenden statistischen Informationen:
   - **Anzahl der Besuche (Visits):** Diese Zahl gibt an, wie oft der Knoten während der MCTS-Durchläufe besucht wurde. Sie dient als Maß für die Erfahrung des Algorithmus mit diesem spezifischen Spielzustand.
   - **Gewinn-Statistik (Wins):** Hier wird aufgezeichnet, wie oft die von diesem Knoten ausgehenden Entscheidungen zu einem erfolgreichen Ergebnis (z.B. einem Gewinn) geführt haben.

2. **Speicherung der Daten:** Die Daten werden direkt in den Knoten des Baumes gespeichert. Wenn der Algorithmus einen Knoten während des Auswahl- oder Simulationsprozesses besucht, werden die entsprechenden Daten des Knotens aktualisiert.

3. **Aktualisierung während der Rückmeldung (Backpropagation):** Nachdem eine Simulation abgeschlossen ist, werden die Ergebnisse (Gewinn, Verlust oder Unentschieden) entlang des Pfades von den Blattknoten (Endpunkte der Simulation) zurück zur Wurzel des Baumes weitergegeben. Dabei werden die Besuchs- und Gewinn-Statistiken jedes Knotens entlang dieses Pfades aktualisiert.

4. **Datenstruktur:** In der Praxis wird diese Information oft in einer Datenstruktur wie einem Objekt oder einem Record in der Programmiersprache gespeichert, in der der MCTS-Algorithmus implementiert ist. Jeder Knoten hat seine eigenen Attribute für Besuche und Gewinne, die bei jedem Durchlauf des Algorithmus angepasst werden.

5. **Zugriff und Analyse:** Diese gespeicherten Daten werden dann verwendet, um Entscheidungen über zukünftige Züge zu treffen. Beispielsweise verwendet der Algorithmus die UCB1-Formel, um zu entscheiden, welcher Knoten als nächstes besucht werden soll, basierend auf den gespeicherten statistischen Daten.

Durch diese Methode der Speicherung und Aktualisierung von statistischen Daten kann der MCTS-Algorithmus "lernen" und sich im Laufe der Zeit verbessern, indem er die Ergebnisse früherer Simulationen und Entscheidungen berücksichtigt.

Bei der Anwendung des Monte Carlo Tree Search (MCTS) Algorithmus im Schachspiel wird die Datenstruktur für jeden Knoten im Entscheidungsbaum so gestaltet, dass sie alle relevanten Informationen über den jeweiligen Spielzustand und die statistischen Bewertungen der Züge enthält. Hier ist ein Überblick über die typischen Elemente einer solchen Datenstruktur:

1. **Spielzustand:** Jeder Knoten repräsentiert einen bestimmten Zustand des Schachspiels. Dies umfasst die Position aller Figuren auf dem Brett, den Spieler am Zug, den Status von Sonderregeln wie Rochade oder En-passant, sowie Informationen über Schach, Schachmatt oder Patt.

2. **Zuginformationen:** Jeder Knoten speichert Informationen über den Zug, der zu diesem Zustand geführt hat. Dies kann in Form einer Notation wie der Standard Algebraic Notation (SAN) oder der Universal Chess Interface (UCI) Notation geschehen.

3. **Statistische Bewertungen:**
   - **Anzahl der Besuche (Visits):** Diese Zahl gibt an, wie oft der Knoten während der MCTS-Durchläufe besucht wurde.
   - **Gewinn-Statistik (Wins):** Hier wird aufgezeichnet, wie oft die von diesem Knoten ausgehenden Entscheidungen zu einem erfolgreichen Ergebnis (z.B. einem Gewinn) geführt haben.

4. **Kinder (Children):** Jeder Knoten hat eine Liste oder ein Array von Kindknoten, die alle möglichen Züge vom aktuellen Spielzustand aus repräsentieren.

5. **Weitere Informationen:** Je nach Implementierung können zusätzliche Informationen wie die Bewertung des Spielzustands durch eine Heuristik, die Historie der Züge bis zu diesem Punkt oder spezifische Spielstrategien gespeichert werden.

### Beispiel in Python

Hier ist ein einfaches Beispiel, wie eine solche Datenstruktur in Python aussehen könnte:

```python
class ChessNode:
def __init__(self, game_state, move=None):
self.game_state = game_state # Der aktuelle Zustand des Schachspiels
self.move = move # Der Zug, der zu diesem Zustand geführt hat
self.visits = 0 # Anzahl der Besuche
self.wins = 0 # Anzahl der Gewinne
self.children = [] # Liste der Kindknoten

# Weitere Methoden zur Verwaltung des Knotens können hier hinzugefügt werden
```

In dieser Struktur ist `game_state` ein Objekt, das den aktuellen Zustand des Schachspiels repräsentiert. Es könnte Informationen über die Position der Figuren, den Spieler am Zug und andere relevante Spielzustände enthalten. `move` repräsentiert den Zug, der zu diesem Knoten geführt hat, und könnte in einer Schachnotation wie SAN oder UCI ausgedrückt werden.

Diese Datenstruktur ermöglicht es dem MCTS-Algorithmus, den Entscheidungsbaum effizient zu durchsuchen und zu bewerten, um die besten Züge im Schachspiel zu finden.

By Martin Steinwandter Date 2023-11-30 10:37 Upvotes 2

Was ich nicht verstehe ist, wenn ChatGPT so viel über Schach weiß, warum spielt es dann so schlecht?

By Frank Brenner Date 2023-11-30 13:25

Weil ChatGPT nicht in der Lage ist für das Schachspiel ein eigenes Schachspezifisches Neuronales Netz zu generieren.

Wenn ChatGPT einen Zug bestimmen soll, so hat es lediglich die Schachregeln und sonst so gut wie nichts. Das ist so wie ein Kasparow der morgens aufwacht und alles über Schach vergessen hat. Dann gibst du ihm die Schachregeln, er lernt sie eben schnell und macht in 1 Sekunde den Zug.
Ohne sein neuronales Netz für Schach und nur mit den Schachregeln ausgestattet würde auch Kasparow keinen guten Zug finden.

Das ist auch der Grund wieso ChatGPT4 nur einfache Denkrätsel lösen kann, die jeder Abiturient mit Mathe LK ebenfalls adhoc lösen kann.

Die neuste Version die bis April 2023 trainiert hat, wurde übrigens komplett neu Trainiert und ist ein kleines stück schlauer als die alte Version. Die hälfte der Rätsel die das alte GPT4 so gerade eben nicht lösen konnte, schafft das neue GPT4.

Für komplexe Rätsel muß auch ein Mensch eigens für dieses Rätsel innerhalb seiens Gehirns ein neuronales Netz trainieren bevor er das Rätsel lösen kann.

Umgangssprachlich heißt dies: "Bitte gib mir Zeit ich muss Nachdenken".
Beim Bundeswettbewerb Mathematik benötigen auch sehr intelligente Matheschüler einige Tage um ein speziell für diese Frage passendes Neuronales Netz in ihrem Kopf zu trainieren um das Rätsel zu lösen.

ChatGPT kann bisher noch nicht für eine komplizierte Frage ein eigenständiges exta für diese Frage geeignetes Neuronales Netz trainieren.

Das würde minuten oder Stunden dauern. Bei Millionen Nutzern die komplexe Fragen stellen bräuchten wir dann auch millionen mal so viel Rechenkapazität.

Aus diesem Grund wird in USA an jeder freien Stelle zur Zeit eine Chipfabrik gebaut.

OpenAI arbeitet zur Zeit daran und sie arbeiten auch an einer MCTS Suche für komplexe Fragen.

By Lothar Jung Date 2023-11-30 13:48 Edited 2023-11-30 14:08

ChatGPT hat kein neuronales Netz für Schach, sondern es benutzt seine allgemeine KI.
Das gilt für das Schachspiel (vgl. anderen Thread) und die Erklärung von MCTS.
Ich benutze die kostenpflichtige Version 4.0 mit dem „Schach Plugin“.
Deine Ausführungen verstehe ich nicht.
Woher hast Du deine „Erkenntnisse“??

By Frank Brenner Date 2023-12-04 12:59

>>Deine Ausführungen verstehe ich nicht.

Welche genau ?

By Lothar Jung Date 2023-12-04 16:00 Edited 2023-12-04 16:04

Eigentlich alle.
Die Sätze sind nicht mit Fußnoten hinterlegt.
Das Netz wird nicht auf Schach trainiert.
MCTS hat nichts mit dem Netztraining zu tun.
Aber das Wissen über MCTS hat mit dem Training zu tun.
Die Plugins ergänzen die Antworten des Netzes.

By Lothar Jung Date 2023-11-30 13:44

Hast Du gegen die aktuelle Version denn gespielt und gewonnen!?

By Martin Steinwandter Date 2023-11-30 16:50 Edited 2023-11-30 16:52

Lothar Jung schrieb:

Hast Du gegen die aktuelle Version denn gespielt und gewonnen!?

Ich würde sagen, ChatGPT schummelt beim Schach. Es muss ein Schach-Plugin benutzen um vernüftig zu spielen. Vielleicht einen Stockfisch

By Lothar Jung Date 2023-11-30 17:24

Woher weißt du dass.
Hast du es ausprobiert mit und ohne Plugin?
Du stellt Behauptungen einfach in den Raum.

By Martin Steinwandter Date 2023-11-30 18:08 Upvotes 1

Und du antwortest immer mit einer Frage. Finde ich einfach nur unhöflich.
Bye

By Lothar Jung Date 2023-11-30 20:07

Bye

By Frank Brenner Date 2023-12-01 13:09

ChatGPT 4 kann keine Schachpartie zuende spielen, die Textvorhersage ist nach wenigen Zügen bereits so unpräzise daß ChatGPT illegale Züge nicht mehr bemerkt und dann auch illegale Züge durchführt und die Übersicht über das Brett verliert. ChatGPT verwaltet intern auch keine Datenstruktur für das Brett. Das Brett kann nur anhand der "history" also der Chat-Notation rekonstruiert werden, aber hier verschwimmt nach wenigen Zügen die Genauikgkeit von GPT4.

Wenn du natürlich das Schachplugin installierst, dann kannst du auch gleich gegen Fritz oder Stockfisch spielen. Dann spielt nicht ChatGPT sondern eine Schachengine.

By Lothar Jung Date 2023-12-02 17:16 Edited 2023-12-02 17:27

Mit dem Schach Plugin wird nach jeden Zug das Brett angezeigt.
Illegale Züge werden bemerkt.
Auf schwache Züge erfolgt die konsequente Antwort.
Die zweite Partie war eine Darstellungskatastrophe.
Das Brett wurde nicht korrekt wiedergegeben.
Nicht zu gebrauchen!

By Frank Brenner Date 2023-12-03 23:56 Upvotes 1

Wie gesagt, ein plugin ist nicht chatgpt.

Plugins sind separat programmierte Progrämmchen und haben nichts mit KI und nichts mit der KI-Entwicklung zu tun.

By Benno Hartwig Date 2023-12-01 16:18

> Was ich nicht verstehe ist, wenn ChatGPT so viel über Schach weiß, warum spielt es dann so schlecht?

Klug aus der Literatur zitieren zu können, reicht eben nicht für eine eigenes gutes Spiel..

By Lothar Jung Date 2023-12-01 21:44

Das sind zwei paar Schuhe.
Die Schach Algorithmen die GPT erklärt, dienen nicht dazu ein Schachprogramm zu generieren.

By Jörg Oster Date 2023-12-28 11:48 Upvotes 3

Kommen wir also nun zur ersten Phase, der Auswahl bzw. Selektion.
Hier bestimmen wir, welcher Ast des Suchbaums als nächstes un einen Halbzug tiefer untersucht wird.

Wie entscheiden wir das aber?

Denkbar wäre eine zufällige Auswahl, was aber nicht wirklich zielführend wäre.

Würden wir immer nur den Zügen mit der besten Bewertung folgen, würden andere Züge,
die (bisher) schlechter bewertet sind, vernachlässigt.

Würden wir darauf schauen, dass möglichst alle Züge gleich tief untersucht werden,
kämen wir nicht sehr tief und wären damit nicht wettbewerbsfähig.

Dies bringt uns zur UCB1-Formel.
Diese sorgt für eine ausgewogene Balance zwischen Exploration, also einer breiteren Suche,
und Exploitation, also einer tieferen Suche. Dies lässt sich mit der sog. Explorations-Konstante C
sogar in gewissem Maße steuern.

Ein wesentlicher Bestandteil der UCB1-Formel ist die Bewertung einer Position.
Diese ist der Durchschnitt aller gesammelten Bewertungen! (Also die Summe der Bewertungen durch die Anzahl der Visits.)
Dies ist einer der wesentlichen Unterschiede zu Alpha-Beta, wo ja immer der beste Wert genommen wird.

Die UCB1-Formel ist mehr oder weniger der Standard. Man spricht dann von einer UCT.

Bei Lc0 werden dann noch zusätzlich die Gewinnwahrscheinlichkeiten für die einzelnen Züge in Betracht gezogen.
Dann wird aus der UCT eine pUCT.

Wer hier tiefer in die Materie eintauchen will, sollte in den von Lothar zusammengestellten Links fündig werden.

By Lothar Jung Date 2023-12-28 13:04 Edited 2023-12-28 13:08 Upvotes 1

Ich finde diese Veröffentlichung relativ verständlich.
Besonders zu Beginn die Einleitung und die grafische Erklärung unter Ziffer 2.0.

https://www.researchgate.net/figure/Four-phases-of-the-MCTS-algorithm-The-figure-replicates-an-illustration-presented-in-3_fig1_320003615?_tp=eyJjb250ZXh0Ijp7ImZpcnN0UGFnZSI6Il9kaXJlY3QiLCJwYWdlIjoicHVibGljYXRpb24iLCJwcmV2aW91c1BhZ2UiOiJfZGlyZWN0In19

https://www.researchgate.net/profile/Jacek-Mandziuk/publication/320003615_MCTSUCT_in_solving_real-life_problems/links/59f0fafc0f7e9beabfca46c5/MCTS-UCT-in-solving-real-life-problems.pdf?origin=publication_detail&_tp=eyJjb250ZXh0Ijp7ImZpcnN0UGFnZSI6Il9kaXJlY3QiLCJwYWdlIjoicHVibGljYXRpb25Eb3dubG9hZCIsInByZXZpb3VzUGFnZSI6InB1YmxpY2F0aW9uIn19

By Jörg Oster Date 2023-12-28 19:51 Upvotes 3

Jetzt folgt die Phase der Expansion.

Hier machen wir nichts anderes, als dass wir an der vorher ausgesuchten Endposition eine oder mehrere oder auch alle Kind-Positionen hinzufügen.

Fügen wir für alle legalen Züge die entsprechenden Folgepositionen hinzu, dann bezeichnet man diese Position auch als "fully expanded".
Bei der ProofNumberSearch z. B. macht man genau das.
Der Nachteil ist klar, der Speicherbedarf steigt drastisch an.

Deshalb fügt man meistens nur eine Kindposition pro Durchgang hinzu.
Es ist dann aber auch immens wichtig, für welchen Zug man die entsprechende Position hinzufügt.
Natürlich wird man versuchen, immer den besten Zug als erstes zu wählen.

Denn wie wir ja im vorhergehenden Schritt gelernt haben, spielt die Bewertung einer Position
eine wichtige Rolle bei der Auswahl der Endposition, die wir tiefer untersuchen wollen.
Würde man nun also zuerst einen (oder mehrere) der schlechten Züge hinzufügen, würde diese Position
eventuell nicht mehr so schnell zur weiteren Untersuchung ausgesucht werden. Obwohl genau hier noch ein sehr guter Zug verfügbar ist!
Die spannende Frage ist nur, wie und woher vorher wissen?

Und da kommt bei Lc0 wieder der policy head ins Spiel, bei dessen Neuronalem Netz ja nicht nur die Bewertung (value head)
einer Position verfügbar ist, sondern eben auch die Gewinnwahrscheinlichkeiten für alle legalen Züge einer Position.
Sprich, wie wichtig oder erfolgversprechend die einzelnen Züge sind!

By Jörg Oster Date 2023-12-31 15:52 Upvotes 1

Kommen wir nun zur nächsten Phase, der Simulation.

Die gerade neu hinzugefügte(n) Position(en) müssen in irgendeiner Form bewertet werden.

Die eigentliche Grundidee einer MCTS ist nun, dass ausgehend von der neuen Position randomisierte Playouts oder Simulationen, also Spiele, ausgeführt werden. Das kann nur 1 Playout sein, oder aber auch mehrere Hunderte oder noch mehr.
Der große Vorteil besteht darin, dass kein domain-spezifisches Wissen vorhanden sein muss, außer natürlich dem grundlegenden Wissen über Gewinn, Unentschieden (falls möglich), und Verlust.
Diese Vorgehensweise ist relativ erfolgreich in vielen unterschiedlichen Einsatzgebieten von MCTS.

Nicht jedoch im Schach, zumindest soweit ich weiß.

Im Grunde könnte man dies ja auch in AB-Engines an Stelle einer Bewertungsfunktion hernehmen,
aber mir ist kein solcher Ansatz, noch dazu erfolgreich, bekannt.

Generell würde ich hier wie für AB-Engines eine Ruhesuche setzen.
Dies erscheint mir am sinnvollsten.

Vorstellbar wäre aber auch eine rein statische Bewertung (HCE oder NNUE), alternativ plus einer Static Exchange Evaluation (SEE),
um mögliche Schlagabtäusche besser einschätzen zu können.

Lc0 verlässt sich hier ganz auf die vom NN gelieferte Bewertung (value head).