Zu MCGS (Monte Carlo Graph Search) siehe folgende Veröffentlichung:
https://arxiv.org/pdf/2210.01426.pdfHier die (übersetzte) Zusammenfassung der Veröffentlichung:
Bei vielen komplexen Aufgaben der sequentiellen Entscheidungsfindung ist die Online-Planung entscheidend für eine hohe Leistung. Für eine effiziente Online-Planung verwendet die Monte-Carlo-Baumsuche (MCTS) einen prinzipiellen Mechanismus zum Abwägen zwischen Exploration und Exploitation. MCTS übertrifft Vergleichsmethoden in verschiedenen Bereichen der diskreten Entscheidungsfindung wie Go, Schach und Shogi. Nachfolgend wurden Erweiterungen von MCTS auf kontinuierliche Domänen vorgeschlagen. Der inhärente hohe Verzweigungsfaktor und die resultierende Explosion der Größe des Suchbaums schränken jedoch bestehende Verfahren ein. Um dieses Problem zu lösen, schlägt dieser Beitrag Continuous Monte Carlo Graph Search (CMCGS) vor, eine neuartige Erweiterung von MCTS zur Online-Planung in Umgebungen mit kontinuierlichen Zustands- und Aktionsräumen. CMCGS macht sich die Erkenntnis zunutze, dass während der Planung die gemeinsame Nutzung der gleichen Aktionsrichtlinie zwischen mehreren Zuständen eine hohe Leistung erbringen kann. Um diese Idee zu implementieren, bündelt CMCGS bei jedem Zeitschritt ähnliche Zustände in einer begrenzten Anzahl von stochastischen Action-Bandit-Knoten, die anstelle eines MCTS-Suchbaums einen geschichteten Graphen erzeugen. Die experimentelle Auswertung mit begrenzten Stichprobenbudgets zeigt, dass CMCGS Vergleichsmethoden übertrifft
in mehreren komplexen kontinuierlichen DeepMind Control Suite-Benchmarks und einer 2D-Navigationsaufgabe.
Monte Carlo Tree Search (MCTS) ist ein bekannter Online-Planungsalgorithmus zur Lösung der Entscheidungsfindung.