AlphaZero

By Silvio Zschako Date 2018-02-27 20:45 Upvotes 4

Um den Verschwörungstheoretikern mal etwas den Wind aus den Segeln zu nehmen, nachfolgend ein Auszug aus einem langen Artikel „Planet >Alpha Zero< oder Schach aus einer anderen Galaxie“, der in SCHACH 2/2018 vollständig nachgelesen werden kann. Johannes Zwanzger nimmt darin eine Einordnung des Matches zwischen AlphaZero und Stockfish 8 vor.

Zwanzger ist Computerweltmeister 2015, mit dem von ihm programmierten „Jonny“. Ist also geradezu prädestiniert, sich des Themas anzunehmen. Ausführlicher wird Zwanzger auch noch mal in den „Schach-Fragen“ im selben Heft vorgestellt.

Ich möchte hier nur das letzte Drittel des erwähnten Artikels zitieren. Es fehlen also der Anfang, sowie der Mittelteil mit ausführlich kommentierten Partien des Matches. Wer Interesse hat, kann sich das Heft noch im Handel erwerben, also die aktuelle Ausgabe von SCHACH.

" Die Matchbedingungen

Trotz aller Begeisterung wurden auch kritische Töne betreffs der Durchführung des Matches laut. Tord Romstad, einer der Gründungsväter des Stockfish-Projektes, verwies darauf, dass nicht die aktuellste Version (*12) zum Einsatz kam und eine absolut unübliche Zeitkontrolle (exakt 60 Sekunden pro Zug, ohne Möglichkeit zur freien Einteilung) Stockfish Spielstärke gekostet habe. Ferner sei das Programm nie ausführlich mit 64 parallel rechnenden Prozessorkernen getestet worden und die Größe der Hashtabellen von 1 GB hierfür viel zu klein.

Romstad ist nicht als schlechter Verlierer bekannt und seine Einwände sind durchaus fundiert. Allerdings kann man die genannten Faktoren auch leicht überbewerten, daher versuche ich mich mit einer Schätzung. Die größte Spielstärkesteigerung hätte vermutlich die Verwendung der neuesten Stockfish-Version bewirkt (ca. +50 Elo gegenüber Version 8). Der Einfluss der fixierten Zugzeit ist schwer zu quantifizieren, daher habe ich ein Experiment durchgeführt. Auf jeweils einem Prozessorkern gewann Stockfish 8 dabei mit zwei Minuten Startbedenkzeit und einem Inkrement von 60 sek/Zug mit 246 : 222 gegen ein auf fixe 60 sek/Zug eingestelltes Pedant (ca. +18 Elo). Der potentielle Elogewinn durch größere Hashtabellen ist selbst experimentell nur schwer auszumachen, er steigt (vermutlich) mit der Zahl der eingesetzten Prozessoren. Ein statistisch aussagefähiger Test dauert dann sehr lange, da immer weniger Partien gleichzeitig auf demselben Rechner gespielt werden können. Nach meinen bisherigen Erfahrungen und ein paar Tests halte ich es für relativ „großzügig“, eine Steigerung von +5 Elo pro Verdoppelung der Hashgröße anzusetzen. Bei sinnvoll erscheinenden 32 GB (fünf Verdoppelungen) käme man also auf +25 Elo.

Das Argument von zu wenig Testerfahrung auf derartiger Hardware kann ich nicht gänzlich nachvollziehen: In den späteren Runden bei TCEC spielen die Engines auch auf 44 Kernen, da ist es nicht mehr weit zu den 64 bei Google.

Ein weiterer – unter anderem von Hikaru Nakamura sowie Komodo-Mitentwickler Larry Kaufmann – geäußerter Kritikpunkt ist, dass beide Programme ohne Eröffnungsbuch angetreten sind. Stockfish sei auf die Verfügbarkeit eines solchen angelegt, während AlphaZero durch das eigenständige Lernen im Laufe der Zeit quasi selbst eine Art „Buch“ entwickelt habe. Vielleicht hätte Stockfish mit einer guten Eröffnungsbibliothek etwas besser abgeschnitten.(*13) Mir ist aber nicht klar, warum das Lernen von AlphaZero in der Trainingsphase (das höchstwahrscheinlich keine explizit nachschlagbare Bibliothek erzeugt, sondern nur ein allgemein besseres Spielverhalten in der Eröffnungsphase) etwas anderes sein soll als das in Form hunderter Patches in den Stockfishcode eingeflossene Tuning von Bewertungstermen, die sich auch (teilweise sogar explizit) auf die Eröffnungsbehandlung auswirken. Nebenbei: Bei TCEC kommen phasenweise ebenfalls nur ganz kleine Bücher zum Einsatz, was dort nach meinem Eindruck mehrheitlich akzeptiert ist. Ich sehe allenfalls ein Problem in der möglicherweise verminderten statistischen Aussagekraft des Matches aufgrund einer gewissen „Eröffnungsmonotonie“ (trotz des prinzipiellen Nichtdeterminismus wiederholt ein buchloser Stockfish noch mit hoher Wahrscheinlichkeit dieselben Varianten, und AlphaZero vermutlich auch).

Unter dem Strich würde ich sagen, dass ein aktueller Stockfish unter günstigeren Bedingungen knapp 100 Elo stärker und damit auf Augenhöhe mit AlphaZero hätte agieren können (das Matchergebnis legt eine Spielstärkedifferenz in genau dieser Größenordnung nahe).

Noch schwieriger wird es, wenn man die von beiden Programmen verwendete Hardware vergleichen will: Das 64-Prozessorsystem von Stockfish ist eindrucksvoll, die vier sog. Tensor Processing Units (TPUs), die AlphaZero während des Matches nutzte, sind jedoch in dieser Form wohl nicht einmal frei erhältlich. Da ich mich auf dem Gebiet selbst (noch) nicht wirklich auskenne, zitiere ich mit Remi Coulom einen Experten (und ehemaligen Computerschächer): Er schätzt, dass die Leistung einer solchen TPU ungefähr der einer „V100“ von Nvidia entspricht (Stückpreis ca. 10.000 EUR).(*14) Die Hardware von AlphaZero wäre also kein Schnäppchen, andererseits aber auch nichts, was sich Carlsen & Co. nicht leisten könnten.

Darüber hinaus hält Coulom es für möglich, dass das fertig trainierte AlphaZero Stockfish auch auf gewöhnlicher Hardware hätte schlagen können. Vielleicht ist ein Äquivalent für den Privatanwender also näher, als wir denken?

Aus technischer Sicht

Was macht AlphaZero anders als die etablierten Programme? Für eine Klärung dieser Frage muss man zunächst die unterschiedlichen Arbeitsweisen betrachten.

Stockfish & Co. suchen, ausgehend von der aktuellen Position, jeweils bis zu einer gewissen Tiefe in die einzelnen Variantenäste hinein (*15) und schätzen die am Ende entstehenden Stellungen mithilfe statischer Bewertungskriterien ab (Materialverhältnis, Königssicherheit, Freibauern, Figurenmobilität etc.). Genau eine solche Bewertung (die zur Hauptvariante) schafft es nach abwechselndem Maxi- und Minimieren über die Züge (je nachdem, wer am Zug ist) bis zur Wurzel zurück. Im Unterschied dazu verwendet der Algorithmus von AlphaZero – eine „Monte-Carlo Tree Search“ (MCTS) – gar keine Bewertung im obigen Sinne mehr. Eine Stellung wird vielmehr anhand der Resultate bei mehrfachem Ausspielen („Rollouts“) bewertet. Hierfür kommen in der Regel (im Vergleich mit einer tiefen Suche) einfach zu berechnende Heuristiken zum Einsatz. Im Extremfall wird jeweils mit reinen Zufallszügen zu Ende gespielt, was dem Algorithmus auch den Namen gab.(*16) Bei den Positionen nahe an der Ausgangsstellung wird die Suche zusätzlich durch die bis zu diesem Zeitpunkt vorliegenden Ausspielergebnisse geführt: Züge mit einem hohen Score werden im Mittel häufiger betrachtet. Diese Strategie wird als „Exploitation“ bezeichnet. Trotzdem wird auch immer wieder mal ein Zug angeschaut, der nicht so gut abgeschnitten hat, wenn er bislang nur sehr selten getestet wurde („Exploration“).

Ein sinnvolles Verhältnis zwischen Exploitation und Exploration ist der eigentliche Clou der MCTS.(*17) Deren Durchbruch kam, als damit vor rund einem Jahrzehnt im Computer-Go erstmals bessere Ergebnisse erzielt wurden als mit der zuvor üblichen Suchtechnik. Dennoch war bis vor wenigen Jahren noch nicht daran zu denken, dass die Menschheit bald auch im Go entthront werden würde. Und selbst dann glaubten die meisten Schachprogrammierer - inklusive Ihres Autors – nicht an einen größeren Erfolg dieser Ansätze im Schach, weil es als äußerst taktisches Spiel mit klaren „Etappenzielen“ (Materialgewinn, Schaffung von Bauernschwächen usw.) dem traditionellen Suchverfahren stark entgegen kommt. So kann man sich täuschen!

Das Ausspielen der Stellungen bis zum Ende dürfte AlphaZero vor allem in Positionen bevorteilen, die einer konkreten Analyse nur schwer zugänglich sind; solche, wo Menschen schreiben würden: „Die Praxis wird zeigen ...“ Als greifbaren Beleg für diese These sehe ich unter anderem die korrekte Einschätzung der Überlegenheit des Läuferpaares in Partie Nr. 1, den Übergang ins Endspiel mit ungleichfarbenen Läufern in Partie Nr. 2 sowie die extrem langfristigen Bauer- bzw. sogar Figurenopfer in einigen anderen Partien. Auch tiefe Zugzwänge, die Stockfish erst sehr spät erkennt, während AlphaZero damit (der Natur von MCTS gemäß) keine besonderen Probleme hat, gehen auf die unterschiedlichen Suchsysteme zurück – was vor allem am Versagen der von fast allen Engines eingesetzten „Nullzug-Heuristik“ liegt. Sie glauben, sie in Zugzwang bringende Züge durch ein nicht legales Aussetzen widerlegen zu können.

Eine weitere Neuerung des AlphaZeroschen Ansatzes ist (zumindest für ein Programm auf diesem Niveau), dass sog. „künstliche neurale Netze“ zum Einsatz kommen. Grob umschrieben dienen diese dem Zweck, vorteilhafte Methoden der Informationsverarbeitung, die sich bei der Entwicklung der Vernetzung von Nervenzellen im Gehirn beobachten lassen, abstrakt nachzubilden (eine echte 1:1-Simulation wird nicht zwingend angestrebt). Ein Computer kann damit anhand von Trainingstests, die Paare aus Inputmustern („Aufgaben“) und gewünschten Outputs („Musterlösungen“) enthalten, lernen, auch neuartige Inputs im Sinne der absolvierten Übungsbeispiele zu beantworten. Konkret wurde bei AlphaZero ein solches Netz offenbar vor allem darauf trainiert, zu einer beliebigen Brettstellung sinnvolle Ausspielwahrscheinlichkeiten für die einzelnen Züge zu generieren. Das Beste aber ist und bleibt: Für das Training wurden nicht etwa menschliche Partien zugrunde gelegt, sondern AlphaZero lernte, als blutiger Anfänger startend, allein durch das Spiel gegen sich selbst!(*18) Das ist für mich, Diskussionen um 100 Elopunkte mehr oder weniger der eigentliche „Schocker“. Heutige Technik kann innerhalb von Stunden selbstständig das Wissen aus Jahrhunderten von Schach- und einigen Jahrzehnten Computerschachforschung aufholen! Hält man sich diesen Fakt in Ruhe vor Augen, fragt man sich, was noch alles unserer harrt …

Ob AlphaZero aufgrund der MCTS oder der neuronalen Netze so stark spielt, vermag ich aktuell nicht zu sagen. Vermutlich ist es gerade die Kombination aus beidem. Jedenfalls sind meines Wissens alle bisherigen Versuche, die jeweils nur eines von beidem involvierten, nicht annähernd an das Level der Topengines herangekommen. Das mag aber auch an dem Trainingsaufwand liegen: Zwar spricht (die Marketingabteilung von) Google von vier Stunden,(*19) setzte in dieser Zeit aber stolze 5.000 TPU ein! Mit nur einer TPU bräuchte man also über zwei Jahre. Andererseits: Die Rechenzeit, die für die Tests im Stockfish-Framework aufgewendet wurde (aktuell über 900 CPU-Jahre), liegt auch nach der Umrechnung CPU-TPU (Faktor 50 zugunsten der TPU?) weit darüber.

Mit Zahlen muss man also vorsichtig sein. Das gilt auch für die 80.000 Stellungen pro Sekunde, die AlphaZero laut Paper untersuchte (gegenüber den 70 Millionen von Stockfish). Solange man nicht weiß, was sich hinter „eine Stellung untersuchen“ verbirgt – eine rein statistische Bewertung oder das komplette Ausspielen einer Partie? -, sollte man keine voreiligen Schlüsse ziehen.

Im Paper wird auch die Vermutung angestellt, dass die Spielstärke durch den Einbau einiger Techniken aus der klassischen Schachprogrammierung noch weiter gesteigert werden könnte. Das deckt sich mit meinem Eindruck, dass für DeepMind bei AlphaZero vor allem die generelle Anwendbarkeit auf verschiedene Spiele im Fokus stand (*20) und auf schachspezifische Optimierungen verzichtet wurde. Auch ein längeres Training hätte die Elokurve sicher weiter nach oben getrieben.

Fazit und Prognose

Was bedeutet dieser Durchbruch für die Zukunft unseres Spiels? An die Tatsache, dass die Engines in einer anderen Liga agieren, haben wir uns längst gewöhnt, und trotzdem wird weiter munter „Menschenschach“ gespielt. Daran würde auch ein für jeden erhältliches AlphaZero nichts ändern. Welche Engine mir den verpassten Figurengewinn zeigt, ist letztlich egal. Für Amateurspieler sehe ich daher abseits der Faszination keine größeren Auswirkungen.(*21)

Profis dagegen könnte durch den Zugriff auf ein AlphaZero-Äquivalent ein temporärer Vorteil bei der Eröffnungsvorbereitung winken. Einige von der Elite spontan geäußerte Meinungen sollte man nicht überbewerten, lesenswert ist auf jeden Fall, was Peter Swidler zu sagen hatte.(*22) Dass AlphaZero auch ohne Buch das Potential zu spannenden Eröffnungsneuerungen hat, ist jedenfalls mindestens anhand des Damenindisch-Komplexes deutlich geworden.

Wie hoch ist die Wahrscheinlichkeit, dass in absehbarer Zeit eine vergleichbare Engine auf unseren Rechnern läuft? Sehr hoch! Die Programmierer sind alarmiert, im Stockfish-Lager werden bereits die ersten MCTS-Experimente aufgesetzt. Auch die Rechenpower dieser Community für das eventuelle Trainieren eines neuralen Netzes sollte man nicht unterschätzen. Schach war für AlphaZero zudem nur eines von mehreren Spielen – nicht unwahrscheinlich also, dass sich mit spezifischen Optimierungen Ansätze finden lassen, die auch mit Standarthardware schon gut funktionieren. Da neuronale Netze jüngst auch auf anderen Gebieten (Bilderkennung, autonomes Fahren) spektakuläre Durchbrüche ermöglicht haben, rechne ich ohnehin damit, dass bald jeder eine TPU im Rechner stecken hat.

Eine letzte Beobachtung. Zwischen den Weiß- und Schwarzergebnissen von AlphaZero gibt es eine auffallend hohe Diskrepanz: +190 Elo gegenüber Stockfish mit Weiß, nur +20 mit Schwarz, also 170 Punkte Unterschied. Normalerweise sollte die Differenz um die 60 Zähler betragen. Sehen wir hier schon eine Art Sättigungseffekt, der AlphaZeros Überlegenheit infolge der hohen Remisbreite in den Schwarzpartien abschwächt? Das könnte umgekehrt bedeuten, dass Stockfish bereits heute gut genug ist, um mit Weiß (fast) nie zu verlieren, egal gegen wen …

*12
Stockfish 8 wird zwar auf stockfish.org immer noch prominent zum Download angeboten, unter „Development build“ finden sich jedoch bereits verbesserte Programmversionen. (Inzwischen gibt es brandaktuell auch Stockfish 9)

*13
Was direkte Eröffnungsfehler angeht, ist mir allerdings nur Partie 4 ins Auge gestochen, wo Stockfish als Schwarzer in einem Franzosen mit 9...c4? Zu früh das Zentrum abriegelte.

*14
http://talkchess.com/forum/viewtopic...741302&t=65909

*15
Die Tiefe ist aber heute längst nicht mehr für alle Varianten gleich (was man als sog. „Shannon-A-Strategie“ bezeichnen würde). Vielmehr kommen ausgefeilte Heuristiken zum Einsatz, um wichtige von unwichtigen Varianten zu unterscheiden und entsprechend tiefer oder flacher zu suchen. Jedes Programm, das so agiert, folgt der „Shannon-B-Strategie“. Daher ist die Aussage, AlphaZero habe sich Letzterer „angenähert“ (mit der Kasparow zitiert wird), so nicht richtig. AlphaZero setzte sie allenfalls noch stärker um als bisher üblich.

*16
Laut Wikipedia wurde der Begriff „Monte-Carlo-Simulation“ (für eine auf Zufallsergebnissen basierende Simulation) durch John von Neumann in Anlehnung an den Namen einer Spielbank in Monaco geprägt.

*17
Ein anschauliches Problem (vgl. https://en.wikipedia.org/wiki/Multi-armed_bandit), dessen Lösung sogar Einfluss auf MCTS hatte, ist folgendes: Stellen Sie sich vor, Sie bekommen einen festen Betrag und dürfen damit an einigen Spielautomaten mit unterschiedlichen, Ihnen unbekannten Gewinnwahrscheinlichkeiten zocken, Wie gehen Sie vor? Wählen Sie einfach einen Automaten und werfen all Ihr Geld hinein (0% Exploration, 100% Exploitation)? Oder füttern Sie die Automaten gleichmäßig, womit Sie im Laufe der Zeit immer bessere Statistiken zu Ihren Gewinnwahrscheinlichkeiten bekommen, aber natürlich auch immer wieder Geld in diejenigen stecken, die in dieser Hinsicht nicht sehr attraktiv erscheinen (100% Exploitation, 0% Exploitation)? Beides ist suboptimal.

*18
Obwohl DeepMind-Gründer Demis Hassabis – mit 13 Jahren weltweite Nr. 2 in der U14 hinter Judith Polgar – sicher bis zu einem gewissen Punkt hätte helfen können.

*19
Dass diese Zeit auch benötigt wurde, kann man einer Grafik des Papers entnehmen: Nach 100.000 Partien gegen sich selbst (statt der finalen 700.000) spielte AlphaZero erst auf Großmeister- statt auf 3500er-Niveau.

*20
„Nebenbei“ wurde mit den gleichen Methoden auch noch das beste Shogi-Programm und mit AlphaZero sogar ein hauseigener Vorläufer im Go geschlagen, der seinerseits AlphaGo mit 100 : 0 (!) besiegt hatte.

*21
Nicht ausschließen würde ich jedoch, dass sich bei Verbreitung von MCTS und neuronalen Netzen in Standardprogrammen neue Analyse- und Trainingsmöglichkeiten auftun könnten. Ein einfaches Beispiel wäre, die Ergebnisse der Rollouts zu nutzen, um die Remistendenz einer Eröffnungsvariante abzuschätzen oder – durch gezieltes Verschieben der Gewichtung von Remis und Sieg – die Engine bei den Kalkulationen von vornherein nur die Gewinnchance maximieren zu lassen.

*22
https://www.chess.com/blog/Spektrows...uss-alpha-zero "

Ende des Auszuges aus SCHACH 2/2018

By Benno Hartwig Date 2018-02-27 21:48

Thanx.
superinteressanter Text!
Benno

By Kurt Utzinger Date 2018-02-27 22:01

Silvio Zschako schrieb:

Super interessanter Artikel, vielen Dank dafür.
Mfg
Kurt Utzinger

By Ingo Althöfer Date 2018-03-01 00:19 Upvotes 2

Liebe Computerschach-Freunde,

Kurt Utzinger schrieb:

Super interessanter Artikel, vielen Dank dafür.

ich möchte nur daran erinnern, dass ich am 2. Februar hier im Forum auf
die Beiträge von Johannes Zwanzger in SCHACH hingewiesen habe, allerdings
ohne ein Drittel des einen Artikels zu zitieren.

Meine Empfehlung von damals, das SCHACH-Heft 2/2018 zu erwerben, gilt
nach wie vor.

Ingo Althöfer.

By Silvio Zschako Date 2018-03-03 11:21

Inzwischen (02.03.2018) ist die Märzausgabe erschienen. Ich werde auch gerne wieder aus dieser Zeitschrift zitieren. Insbesondere wenn es darum geht, etwas Licht in ein Dunkel zu bringen. Denn in der Regel erwerben ja nicht diejenigen diese Zeitschrift, die nur allzu gerne den Lichtschalter ausknipsen und auf ein diffuses Meinungsbild beharren, sondern diejenigen, die auf seriöse und hochklassige Informationen bestehen. In diesem Sinne halte ich es geradezu für eine Pflicht aus diesen Quellen zu zitieren. Auch dies ist eine Empfehlung dafür, diese Zeitschrift zu erwerben.

By Michael Scheidl Date 2018-03-03 13:31

Sehr gerne wenn es sie mal beim Kiosk ums Eck gibt.

By Silvio Zschako Date 2018-03-03 20:09

In Wien wird der Händler vom Kiosk um die Ecke vielleicht nur mit den Augen rollen und fragen, ob Schach die Marke eines neuen Dosenbieres ist.

Nö, ist die "Deutsche Schachzeitung", könnte man antworten. Sofern man als Österreicher nicht nur österreichische Zeitschriften bevorzugt. Ich jedenfalls esse als deutscher Bürger auch "Wiener Schnitzel" und es bekommt mir ganz gut.

PS: http://www.zeitschriftschach.de/

By Michael Scheidl Date 2018-03-03 20:19

Wobei das echte Wiener Schnitzel aus Kalbfleisch bestehen muß und nicht vom Schweinderl, aber das ist nur ein Detail

By Peter Martan Date 2018-03-03 11:58 Edited 2018-03-03 12:01

Ok, Herr Professor, der Artikel ist ja wirklich nicht schlecht.

Ob aber Schach an und für sich etwas mit Wissenschaft zu tun hat, sei dahingestellt, im Sinn von Nützlichkeit, die eine Forschung und Lehre natürlich auch haben sollte, ist Schach keine (Wissenschaft) und da also Kriterien, die man sonst an Publikationen stellt, einzufordern, ist einfach Unsinn, habe ich von mir aus ja auch nie getan.

Bei A0 ging's aber nicht nur um Schach, da ging's um AI allgemein und ein Schachprogramm als eine spezielle Anwendung davon, die Rede war nicht nur von einem ("sportlichen"?) Erfolg gegen ein anderes Schachprogramm, sondern von einem neuerlichen Beweis für einen weiteren Durchbruch in der Programmierung auf der Basis neuronaler Netze.

Und in Hinblick auf den wissenschaftlichen Anspruch, den Deep Mind in dieser Hinsicht mit dem "preprint" stellte, ist nach wie vor eine Endfassung einer Publikation, die nicht nur in Schachzeitschriften und Foren anerkannt wird, sondern in einem wissenschaftlich bekannten Journal veröffentlicht werden sollte, das sich mit AI, von mir auch mit IT, Mathematik oder sonst einer Grenzwissenschaft befasst, in Hinblick darauf ist man die Sensation, von der da immer noch in den Foren die Rede ist, schlicht und einfach als Dokumentation und Publikation schuldig geblieben, meiner Meinung nach.

Sehen Sie als Wissenschaftler das anders?

By Michael Scheidl Date 2018-03-03 13:39

Dont't beat a dead horse.

By Peter Martan Date 2018-03-03 14:24 Edited 2018-03-03 14:33

Dem toten Pferd tut's ja aber wenigstens nicht mehr weh.

Und wenn nun mal offenbar ja doch keine Ende ist mit dem Herumreiten auf den paar Partien, die man großzügig gespendet bekommen hat, kann ich halt immer noch nicht ganz davon lassen, eine Resthoffnung zu hegen und zu pflegen, man könnte den Datenriesen vielleicht auf irgendeine andere Art, als fürderhin nur noch das Hohelied des neuen Schachs anno 2017 zu singen, bei irgendeinem Stolz packen, der noch nicht völlig durch den ganz langsam verfliegenden Weihrauch abgegolten worden sein mag.

Sollte es das mit der Wissenschaft wirklich auch schon gewesen sein?

Und wenn ja, was erwarten wir uns dann schachlich noch an weiteren (Glanz)Leistungen von Google?

Dass es kein Leiberl zu gewinnen gibt, wenn eine hardwareseitig nicht ganz so benachteiligte Gratis- Software, vielleicht noch mit einem vernünftigen Buch ausgestattet, vermutlich noch weniger eindrucksvoll besiegt wird von der A0.01- Version, noch weniger herzeigbare Partien mit noch mehr zu verheimlichenden Remis erkauft werden müssten, machte das die "sportliche" oder gar die "wirtschaftliche" (wenigstens werbetechnische) Herausforderung ja wohl erst recht zunichte.

Dann wären am Ende die A0- Fans in den Computerschachforen auch noch enttäuscht, und das selbstfahrende Auto hätte noch einen Grund weniger, wieder ins Rollen zu kommen.

P.S.: Um nicht vollends in den Anruch zu kommen, nur noch negativ zu polemisieren in der Sache, wo ich doch Anfangs auch recht begeistert war:
Ich würde wirklich gern, nach einem weiteren A0- Match, einfach I stand corrected schreiben und mich mit ein paar weiteren schönen Partien zufrieden geben, käme da nur mal wieder irgendwas, mich enttäuscht einfach mehr und mehr, dass es das schon überhaupt gewesen sein soll.

In diesem Fall bliebe bei mir nämlich letztendlich einfach doch nicht viel mehr übrig als
So What
als Summary.

By Michael Scheidl Date 2018-03-03 17:18 Edited 2018-03-03 17:21

Allein der Gedanke daß die Spielsteine einen unterschiedlichen Wert haben, steht nicht in den Regeln. Daß die Wirkung auf mehr Felder wertvoll ist (á la Opfermann & Scharnagl) steht nicht in den Regeln. Die Behauptung daß zu Beginn nur die Spielregeln einprogrammiert wurden, ziehe ich bis zum Beweis des Gegenteils in Zweifel. Damit meine ich nicht daß eine KI erkennen kann daß eine Dame mehr Einfluß hat als ein Bauer usw. Das mag schon sein. Aber das Prinzip an sich, den Steinen unterschiedliche Werte zuzuordnen, ist von Menschen gemacht. Das kann keine KI aus dem Hut zaubern.

Ich weiß nicht wie AlphaZero funktioniert, aber sicherlich nicht nur mit irgendeinem Zufallszüge-Monte-Carlo-Zeugs. Schach funktioniert so nicht. Da ist mehr dahinter. Und damit meine ich, es ist mehr vorgegeben worden, argwöhne ich.

By Carsten Hillebrand Date 2018-03-03 20:38

Interessant, gerne gelesen, danke!

Carsten

By Benjamin Bahnsen Date 2018-03-07 12:38

Silvio Zschako schrieb:

Inwieweit nimmt man damit den sogenannten Verschwörungstheoretikern, zu denen man mich hier vermutlich einordnet, den Wind aus den Segeln? Der Artikel ist interessant und erklärt ein paar Hintergründe, aber Licht in ins Dunkel bringt er nicht. Er basiert weiterhin auf der Grundannahme, dass Google - mit der Behauptung man hätte ein stärkeres Schachprogramm als Stockfish - die Wahrheit sagt. Ich bezweifle das und meine Zweifel können nur durch Beweise beseitigt werden. Bis auf 10 mickrige Beispielpartien gibt es aber keine.

By Silvio Zschako Date 2018-03-07 21:37

Wer Beweise einfordert, sollte zunächst selbst erst einmal seine Verschwörungstheorien beweisen. Auch ich habe Zweifel: Ob Sie wohl Ihre Behauptungen, wie z.B. diese: "Ich schätze AlphaZero auf klar unter 3000 Elo ein - auf Consumer-Hardware dürften es nochmal deutlich weniger sein. Natürlich hat AlphaZero ein paar brilliante Züge gespielt - aber das macht jede 2800 Elo-Engine von Zeit zu Zeit." beweisen können. Ich nehme Ihre Theorien einfach als vorgezogenen Aprilscherz.

Vielleicht schaltet sich Google noch in die Diskussion ein, um auf einige Ihrer sicher berechtigten Fragen zu antworten. Aber auch hier habe ich Zweifel: Ob Google bereit ist, Ihre Theorien ernst zu nehmen.

By Benjamin Bahnsen Date 2018-03-08 21:45 Upvotes 1

Dann veröffentliche ich eine "wissenschaftliche Arbeit", in der ich ein paar hübsche Tabellen zusammenstelle, die zeigen, dass meine geniale Schachengine gegen Stockfish 100% holt. Dazu veröffentliche ich nicht 10, sondern sogar 11 Beispielpartien, in denen Stockfish grandios untergegangen ist. Nach Ihrer Logik gilt meine "wissenschaftliche Arbeit" als bewiesen bis mir jemand das Gegenteil beweist. Wer mir nicht glaubt, ist Verschwörungstheoretiker. Was für eine wunderbare Welt!

By Stefan Pohl Date 2018-03-09 11:30 Upvotes 1

Benjamin Bahnsen schrieb:

Sehr treffend. Das unterschreibe ich.

Stefan (SPCC)

By Silvio Zschako Date 2018-03-09 19:03

Willkommen im Klub!

By Guenter Stertenbrink Date 2018-03-09 21:58 Upvotes 1

es geht nicht nur um Berufsgeheimnisse.
Die Initiative der Veroeffentlichung und das Mitteilungsbeduerfnis waren ja da.
Also ist auch die geeignete Formulierung desselben, die Ausraeumung von
Misverstaendnissen, Klarstellung und Versesserung des Aufbaus,
Beantwortung von Fragen dazu .. im Sinne von Deepmind.

Was geheim bleiben soll und was nicht kann ja spezifiziert werden.
Ausser evtl. das blosse reden ueber die Geheimhaltung ist Google peinlich
und erzeugt bei denen, die es eh noch nicht wussten (Journalisten ?)
ein ungutes Gefuehl.

Ich denke, es wird noch was kommen , im Stil der anderen papers
und Veroeffentlichungen von Deepmind. Das isr ja ueblich dort,
die Einbindung in den uelichen Veroeffentlichungsprozess
mit papers, und die dort verwendeten Formulierungen, references,
Aufbau, Organisation. Das staerkt die Reputation (?)

Aber Deepminders muessen vorsichtig sein, z.B. keine Interviews.
Sie wissen ja selber nicht genau was gesagt werden darf und was nicht
und wer das dort ueberhaupt entscheidet und wann.

Ich kann nicht sehen, dass gezielt Ergebnisse verfaelscht oder manipuliert
oder beschoenigt werden.
Lediglich it dem Beweis und der genauen Schilderung wird geschludert

By Silvio Zschako Date 2018-03-10 01:05

Schönes Statement. Danke für die Informationen. Ich denke, daß sich der "Aufstand der Ungläubigen" irgendwann von selbst erledigen wird, unabhängig davon, ob da von Deepmind bzw. Google noch was nach kommt an Informationen. Wer heute noch nicht glauben kann oder will, daß das Zeitalter der künstlichen Intelligenz angebrochen ist, wird es morgen glauben müssen. Die Entwicklung geht weiter. AlphaGo, AlphaGoZero und AlphaZero sind da nur Stufen auf dieser Treppe.

By Peter Martan Date 2018-03-11 15:52 Edited 2018-03-11 15:55

Silvio Zschako schrieb:

Ich denke, daß sich der "Aufstand der Ungläubigen" irgendwann von selbst erledigen wird,

Sei mir nicht böse, Silvio, aber diese Art von Glaubenskrieg führst du jetzt auch schon eine ziemliche Weile ziemlich alleine.

Ich hab ja nichts gegen Fans als solche, sie sollten nur denen, die weniger leicht beeindruckt sind, das nicht ständig vorwerfen.

Natürlich wär's schön, wenn all das, was man sich nach dem bisschen, was es zu sehen gab, darunter vorstellen könnnte, wahr würde oder gar schon wahr wäre.
Nenn's aber halt nicht ständig (an religiöse Anforderungen grenzenden) Unglauben, was du denen vorwirfst, die da etwas skeptischer sind, sondern berechtigte Neugier nach mehr.

Ich hoffe ja auch, dass es noch Weiteres geben wird. Wäre aber das alles schon so eine "gmahte Wiesn", wie man's nach dem "Preprint" hätte glauben können, hätte Deep Mind längst die Eröffnungsbücher alle von A0 im Handumdrehen neu schreiben lassen können.

Nun kannst du natürlich auch glauben, ist eh schon passiert, man hält das nur noch geheim.
Kann ja auch wirklich so sein, weil damit noch gewartet wird , bis man's vielleicht echt und direkt vermarkten kann, dafür wird's aber dann erst recht etwas mehr Schach brauchen als 10 Computerpartien mit kurzer und unüblich eingeteilter TC gegen einen buchlosen SF.

Was ist bei dem "Peer Review" herausgekommen?

Wo bleibt das Paper, das einem Preprint normaler Weise folgt?

Wo bleiben die Analysen von in der Literatur umstrittenen Eröffnungssystemen oder wenigstens von irgendwelchen interessanten Schachstellungen, die A0 nicht selber aufs Brett gebracht hat?

Dass da jetzt schon eine ganze Weile gar nichts mehr kommt, heißt für mich, A0 gibt's in der Form, in der er "getestet" wurde, nicht mehr, jetzt kann's natürlich sein, er war für das, was man noch damit hätte machen können, einfach noch ein bisschen zu teuer und aufwändig und oder zu wenig effektiv für die Kosten.

Dann gibt's wieder zwei Möglichkeiten: man ist schon an der nächst besseren Version dran, die wirkliche Sensationen beweisend liefern soll, kann aber auch heißen, man hat die Sache zunächst mal hinter lohnendere Projekte zurückgereiht.

Ich sag ja nicht, dass Google und Deep Mind nichts leisten, das Schach da auch nur vor anderen Spielen wie z.B. Go Priorität hat, scheint mir im Moment eher nicht so.

Und verstehen kann ich das auch sehr gut, im Go konnte man zunächst noch die menschliche Bastion erobern, was einen gewissen Werbeeffekt hat, den's im Schach auch nicht mehr zu holen gibt, und dass man mit "Intelligenzspielen" überhaupt noch Werbung für AI als solche machen konnte, die Zeiten waren halt auch schon seit Jeopardy ziemlich vorbei.

By Silvio Zschako Date 2018-03-11 21:12 Upvotes 1

Zitat:

Ich schätze AlphaZero auf klar unter 3000 Elo ein - auf Consumer-Hardware dürften es nochmal deutlich weniger sein. Natürlich hat AlphaZero ein paar brilliante Züge gespielt - aber das macht jede 2800 Elo-Engine von Zeit zu Zeit."

Wenn Du, Peter, wie auch die anderen, solchen Unsinn nicht ebenfalls stillschweigend durchgewunken hättest, hätte ich mich hier nicht zu Wort melden brauchen. Jeder, der nur ein bisschen Schachverständnis hat und sich die vorliegenden Partien zwischen Stockfish 8 und AlphaZero anschaut, weiß, daß es keinesfalls um ein paar brillant gespielte Züge geht, die jede 2800-Elo-Engine von Zeit zu Zeit spielt. Wenn Leute schon keine Ahnung von Schach haben, sollten sie es wenigstens bleiben lassen, Unsinn von sich zu geben. Oder sich wenigstens vorher die kommentierten Partien dazu etwas gründlicher ansehen, um sich klar zu werden, was in diesen Partien eigentlich vor sich geht.

Und wer sich dafür mal etwas Zeit nimmt, ist keinesfalls nur "leicht beeindruckt" (wie Du es ausdrückst), sondern SCHWER beeindruckt. Nur liegst Du falsch in der Annahme, genauer, Du unterstellst mir, ein Fan von AlphaZero zu sein (das bin ich übrigens keinesfalls), nur um Dich selber ins Licht der stirnrundzelnden, kritischen, nach Aufklärung lechzenden besorgten Minderheit zu stellen, die Sorge hat, daß die Welt betrogen werden könnte oder der etwas vorenthalten wird.

Zitat:

Natürlich wär's schön, wenn all das, was man sich nach dem bisschen, was es zu sehen gab, darunter vorstellen könnnte, wahr würde oder gar schon wahr wäre.

Weniger ist manchmal mehr. Und "das bisschen", was es zu sehen gab, sollte man auch erst mal verstehen. Ich habe nicht den Eindruck, daß das geschehen ist (siehe Eingangszitat). "Das bisschen" ist nämlich eine ganze Menge. Und erst wer es gut verdaut hat, sollte nach mehr schreien. Solange das aber nicht der Fall ist, erübrigt sich die ganze Diskussion darum: "Runter mit den Klamotten, ich will alles sehen, das nackte Fleisch, dann das Eingeweide, dann das Skelett, dann die Bestandteile jedes einzelnen Knochen."

Wozu? Nur weil die Nimmersatte nie mit etwas zufrieden sind?! Und selbst wenn sie alles bekommen, ist da immer noch und immer wieder ein Rest, den sie noch nicht bekommen haben. Auch wenn gar nichts mehr da ist.

PS: Vielen und so manchem mit Rang und Namen hat es genügt, mit dem was vorlag und nach der Lektüre der DeepMind-Papers ( https://arxiv.org/pdf/1712.01815.pdf ). Unter anderem auch Peter Heine Nielsen: https://www.chess.com/de/news/view/google-s-alphazero-besiegt-stockfish-in-einem-100-partien-vergleich-3971 . Da fühlt sich keiner betrogen wegen vermeintlich vorenthaltener Informationen.

PPS: Wem etwas fehlt, der soll es sich holen und zwar dort, wo die Quelle ist: Also bei den DeepMinders bzw. bei Google. Und dort sollte man zunächst freundlich darum bitten.

By Peter Martan Date 2018-03-11 21:34 Edited 2018-03-11 21:56 Upvotes 1

Lassen wir's gut sein, Silvio, du nimmst mir das alles zu persönlich.

Nur so viel noch:

Silvio Zschako schrieb:

Nur weil die Nimmersatte nie mit etwas zufrieden sind?! Und selbst wenn sie alles bekommen, ist da immer noch und immer wieder ein Rest, den sie noch nicht bekommen haben. Auch wenn gar nichts mehr da ist.

Das ist ja eben genau meine Befürchtung, dass da sonst nichts mehr ist und auch nichts mehr kommt, und wenn du eh schon zufrieden bist, verzeih, wenn ich dir das verdorben haben sollte.
Mir aber vorzuwerfen, ich hätte dies und jenes, was noch so alles geschrieben wurde, nicht "durchwinken" sollen, das ist zu viel verlangt, würde ich gegen jeden Unsinn anschreiben, der mir hier und anderswo so begegnet, hätte ich wirklich viel zu tun.
Im Gegenteil habe ich mich selbst schon viel zu sehr geäußert zu alledem, offenbar nehme ich es auch zu persönlich.

By Silvio Zschako Date 2018-03-11 21:44

Du hast mich ja auch persönlich angesprochen, Peter.

By Peter Martan Date 2018-03-11 21:58 Edited 2018-03-11 22:17

Hab, während du geantwortet hast, doch noch ein paar Sätze im selben Posting oben, es editierend, abgesondert.

Um doch auch noch einmal kurz zuzugeben, dass die Sache halt auch für mich nicht egal ist, zumindest darin sind wir ja offenbar eh einig.

Und noch zum freundlich Bitten oder es sich Holen.

Ich hab ja gar nichts dagegen, dass es die einen auf die eine Art probieren, ich setze halt mehr auf meine. Es wird beides nichts nützen, aber wohl auch nichts schaden, am A...ufmerksamkeitsfenster von Google wird beides ziemlich weit vorbeigehen.

Legen die Leute von Deep Mind aber doch wirklich irgendwann noch einmal Wert auf qualifiziertere Gegnerschaft, oder nennen wir es selektivere Testbedingungen als die, die sich selbst schon mal für einen ersten Versuch allein ausgesucht haben, sollte es spätestens dann gut sein, dass die dann Gefragten vielleicht doch nicht alle nur am Bauch liegen vor Ehrfurcht, sondern wenigstens schachlich, möglichst auch computerschachlich ein bisschen Widerstand zu leisten bereit wären, und ihrem eigenen Schachverstand und -Wissen und dem Umgang mit den Engines, die wir haben, auch ein bisschen etwas zutrauten, und sie optimal einsetzten und nicht nur als Punktelieferanten.

Sonst ist es halt wie mit WOPR aus War Games, man kommt zum Schluss, der einzig gewinnbringende Zug ist, nicht zu spielen.

By Silvio Zschako Date 2018-03-12 20:07

Zitat:

Legen die Leute von Deep Mind aber doch wirklich irgendwann noch einmal Wert auf qualifiziertere Gegnerschaft, oder nennen wir es selektivere Testbedingungen als die, die sich selbst schon mal für einen ersten Versuch allein ausgesucht haben,

Damit schließt sich allmählich der Kreis. Auch ich war verärgert, daß die Matchbedingungen nicht optimal waren und Stockfish unter Wert geschlagen wurde. Oder wie es Zwanzger in seinem Artikel herausgearbeitet hatte:

Zitat:

Unter dem Strich würde ich sagen, dass ein aktueller Stockfish unter günstigeren Bedingungen knapp 100 Elo stärker und damit auf Augenhöhe mit AlphaZero hätte agieren können (das Matchergebnis legt eine Spielstärkedifferenz in genau dieser Größenordnung nahe).

Aber was nicht ist, kann ja noch werden.

By Carsten Müller Date 2018-03-12 09:55

Stimme voll und ganz zu

By Peter Martan Date 2018-03-11 16:33 Edited 2018-03-11 16:50

Guenter Stertenbrink schrieb:

Ich kann nicht sehen, dass gezielt Ergebnisse verfaelscht oder manipuliert
oder beschoenigt werden.
Lediglich it dem Beweis und der genauen Schilderung wird geschludert

Also beschönigt würde ich aber doch sagen, wenn's denn eben um Anforderungen ginge, die man normaler Weise an good scientific practice stellt.

Was sonst, wenn nicht das, kann der Grund sein, dass man vom "Peer Review" nie etwas erfahren hat.
Wäre der ein einfaches Durchwinken gewesen und hätte es keine Kritik an den Daten, der Art ihrer Gewinnung und Dokumentation gegeben, was hätte die definitive Publkation sonst aufhalten können?

Es geht mir nicht um Beweis und genaue Schilderung allein, ich verlange von Schachpartien als solchen ja auch sonst nicht, dass sie wissenschaftliche Kritierien erfüllen sollen, da würde es vor allem an Nützlichkeit der Erkenntnisse, die es zu gewinnen gibt, fehlen.

Wenn man sich aber mit Schach als AI- Anwendung von Seiten eines solchen Datenriesen beschäftigt, muss man sich auch ein bisschen mit dem befassen, was Schachspieler interessiert.
Es genügt höchstens etwas anspruchslosen spezialisierten Computerschachfans, Maschinen beim Spielen zuzuschauen, bei Waschmaschinen und beim Wäschewaschen unterhält das auch nur einen ganz begrenzten Zuschauerpool einen beschränkten Zeitraum lang.
Und dann auch noch nur 10 ausgesuchte von gerade mal 100 insgesamt herzeigen, ich beginne es positiv zu sehen, wahrscheinlich wollte man das P.T. Publikum nur nicht überfordern.

Ich würde mir zumindest ein paar seriöse Analysen von Eröffnungs- und anderen Schachstellungen wünschen, die nicht nur im Spiel gegen eine zumindest in dieser Art des Matches, wie es veranstaltet wurde, inferiore andere Maschine von A0 selbst aufs Brett gebracht wurden.

Ich weiß nicht, warum man auf einmal, nach allem, was man sich an Kritik am Blechschach sonst schon so alles im Lauf der Zeit kultiviert hat, seit die Dinger besser Schach spielen als alle Menschen over the board, jetzt plötzlich schlaganfallsartig an Kritiklosigkeit in schachlicher Hinsicht selbst auferlegt oder von A0-Fans auferlegt bekommt, im Urteil über so eine neue Maschine, nur weil sie soo neu ist.

Da war nichts in den 10 Partien, was man nicht mit den Blechis, die wir haben, mit nur einem ganz klein bisschen Forward- Backward auch bekommen konnte, wären das nämlich tatsächlich auch mit Engine- Unterstützung nicht nachvollziehbare Züge aus einer anderen Welt gewesen, hätten sie uns die großen Kommentatoren auch nicht so wiederholter und medienwirksamer Weise auf YouTube erklären können, sie haben sie auch zuerst von ihren eigenen Engines auf ihren eigenen Rechnern durchgerechnet bekommen.

Im Wesentlichen war es einfach nichts anderes als das schöne Ausnutzen von schönen (weil doch auf einem für menschliche Spieler gewissen Niveau passierten) Fehlern des gegnerischen Blechis, das für sein wirklich höchstes Niveau halt doch immer noch ordentliche Eröffnungen und mehr Bedenkzeit braucht und oft genug halt auch immer noch etwas Hashlernen, damit's flotter geht, aber das haben wir doch vorher auch schon gewusst.

Ich sag's noch einmal, kommen solche Wunderzüge, wie sie A0 gezeigt hat, im Fernschach auf heutigem hohen Niveau vor, sagt man, naja, da war halt nur auf der einen Seite ein Meister mit guter Hardware am Werk, mit vollen Hosen ist gut stinken und mit schönen Fehlern des Gegners gut schön spielen.
Allein schon die Eröffnung, das kann doch nicht einmal eine buchlos und allein spielende Engine mit vernünftiger Bedenkzeit gewesen sein...

War's ja auch nicht.

Also erstmal seriöse Schachanalysen zu Fragen, die seriöse Schachspieler interessieren (das erinnert mich ein bisschen an die Werbung auf der Rybka- hp, "for the serious chess player"

), und über die man schachlich diskutieren kann, dann vielleicht auch noch ein bisschen seriöse Publikationen, wenn man meint, dass da überhaupt ein wissenschaftliches Interesse besteht, das nicht nur von Deep Mind als solches definiert wird, und dann reden wir weiter.

Auf praktisch gar nichts gegründete Glaubenskriege als Ersatz für irgendwelche halbwegs interessante echte Neuigkeiten hatten wir im Computerschach auch schon oft genug, finde ich halt. Die haben mich noch nie sonderlich lang gut unterhalten.

Dennoch merke ich gerade, dass ich mich soeben wieder mal doch auch aktiv an so etwas beteilige, naja, selber schreiben macht halt immer mehr Spaß als nur mitfiebern.

By Guenter Stertenbrink Date 2018-03-12 02:48

ja, man will sich um diese Anforderungen druecken.
Aber vermutlich (IMO) nicht , um zu schummeln, um die
Spielstaerke hoeher erscheinen zu lassen als sie ist,
sondern einfach, weil es zu laestig ist, zuviel Arbeit
macht, vom wesentlichen ablenkt, oder auch weil es geheime Infos preisgibt.

Man interessiert sich nicht besonders fuer Schach,
damit laesst sich kein Geld verdienen,
das ist nur ein Beispiel fuer die Machbarkeit der Methode.
Ein anderes, (fuer Deepmind) wichtigeres Beispiel ist Go.
Aber eben auch nur ein Beispiel. Eins mit Publikumswirksamkeit.

Seht her, was wir koennen.

By Peter Martan Date 2018-03-12 06:50

Leider alles ganz richtig vermutlich, Günter.

By Michael Scheidl Date 2018-03-03 20:29

Zitat:

Erzählt ihr all Eure Berufsgeheimnisse?

Mit Rücksicht auf die Bevölkerung NEIN, da sonst Leute Gefahr laufen würden an Langeweile zu sterben.

By Guenter Stertenbrink Date 2018-04-05 07:10 Edited 2018-04-05 07:17

hier eine Bachelor - thesis von 2012 :ueber "Monte Carlo Chess" ,
37 Seiten .pdf in English

http://www.ke.tu-darmstadt.de/lehre/arbeiten/bachelor/2012/Arenz_Oleg.pdf

Code:


1 Introduction
2 Related Work
2.1 Minimax Search . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.1.1 Alpha-Beta Pruning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.1.2 Iterative Deepening . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.2 Monte-Carlo Tree Search . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.2.1 UCT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.2.2 AMAF / RAVE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.2.3 Progressive Bias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.2.4 Progressive Unpruning / Widening . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.2.5 Decisive Moves . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.2.6 Heavy Playouts . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.2.7 Monte-Carlo Solver . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.3 Chess Engine Programming . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
3 Prior Assessment of Monte-Carlo Tree Search for Chess
3.1 Benefits . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
3.2 Drawbacks . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
3.3 Assessments of modifications . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
3.4 Summary . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
4 MCC - A Monte-Carlo Chess Engine
4.1 Base implementation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
4.2 Modifications . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
4.2.1 Modifications to the simulation strategy . . . . . . . . . . . . . . . . . . . . . . 19
4.2.2 Further modifications . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
5 Evaluation
5.1 Base implementation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
5.1.1 Draws . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
5.1.2 Accuracy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
5.2 Modifications . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
5.2.1 Heavy Playouts . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
5.2.2 Endgame Tablebase . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
5.3 Comparison of the different modifications . . . . . . . . . . . . . . . . . . . . . . . . . 28
6 Conclusion
7 Appendix

6 Schlussfolgerung
Obwohl Monte-Carlo Tree Search - und vor allem UCT - große Erfolge
im Spiel von Go hat, wird der Algorithmus gemeinhin als aussichtslos
für das Schachspiel angesehen. Diese These wurde
um diese Annahme in Frage zu stellen. Zu diesem Zweck wurde das
Schachprogramm MCC erstellt und verwendet, um die Performance
des UCT-Algorithmus in seiner einfachsten Form zu testen.
Respekt vor Chess. Für den gleichen Zweck wurden mehrere mögliche
Erweiterungen des Algorithmus vorgenommen geprüft und getestet.
Frühe Einschätzungen ergaben, dass der Hauptvorteil von MCTS,
nämlich der beste erste Suchauftrag, mit dem Hauptnachteil:
Die Unfähigkeit, Suchfallen schnell zu erkennen. Diese Ärsche....
Die Ergebnisse zeigen auch, dass ohne eine Simulationsstrategie,
die genau genug ist, um zu einem asymmetrisches Baumwachstum
ist das Problem der Identifizierung von Suchfallen nicht aufgetreten.
Die Tests mit unverändertem MCC zeigen, dass eine zufällige
Simulationsstrategie in Chess nicht ausreicht.
Die Suche ist sehr genau, um die Best-Erst-Suche zu nutzen
oder das Problem der Suchfallen zu untersuchen.
In um die Gründe für die schlechte Genauigkeit der Zufallswiedergabe
besser zu verstehen, wurde demonstriert.
dass das Ergebnis des Playout vor allem von Positionsmerkmalen abhängt,
die für die Ergebnis eines Spiels, das zwischen vernünftigen Spielern gespielt wird.
Es wurde auch demonstriert, dass das zufällige Playout hat Schwierigkeiten,
einen Partner zu liefern und endet daher oft fälschlicherweise mit einem Unentschieden.
was tatsächlich zu einer schlechteren Genauigkeit führt. Daher wurde vorgeschlagen,
das Gewicht von Simulationen, die zu einem Unentschieden führten.
Mit dem Ziel, die Simulationsstrategie zu erhöhen,
gierige Heavy Playouts und entschlossene Züge
getestet und eine Modifikation mit Endgame Tablebases vorgeschlagen und getestet.
Ad-Progressive Bias wurde getestet und eine Modifikation des Monte-Carlo Solvers,
die in der Lage ist beweisen, dass die kürzeste Steckdistanz vorgeschlagen und erfolgreich
eingesetzt wurde.
Durch die Kombination all dieser Modifikationen wurde die Leistung von MCC um ca.
864 Elo-Punkte. Der größte Teil dieser Gewinne wurde durch die Modifikation von
Decisive Moves erreicht.

und durch eine gieriges Heavy Playout, das einen Static Exchange Evaluator
anstelle der Heuris verwendet hat. tic-Auswertungsfunktion. Obwohl bewiesen wurde,
dass Endgame Tablebases tatsächlich Erhöhung der Gesamtgenauigkeit der
Simulationsstrategie, die Verbesserungen durch diese Modifikation
waren schlank. Die signifikante Steigerung der Spielstärke, die
durch die Kombination aller im-noch nicht aus, um mit Alpha-Beta-basierten
Schachprogrammen zu konkurrieren oder zu untersuchen. die Einflüsse von Suchfallen.
Dies bedeutet jedoch nicht, dass die Kombination von MCTS und Chess eine Sackgasse ist.
Mehrere Möglichkeiten zur Verbesserung der MCC wurden angesprochen, z.B.
Transpositionstabellen oder schnellere Umzugsgenerierung.
Zusätzlich wurden die Verbesserungen der Simulationsstrategie, die auf MCC getestet wurden,
durch eine relativ einfache Natur. Ausgeklügeltere Methoden zur Erhöhung der
Simulationsgenauigkeit würden sich als vorteilhaft erweisen.
zu weiteren signifikanten Verbesserungen führen. Wenn eine hinreichend genaue Simulation
Strategie gefunden wird, kann das Problem der Suchfallen angegangen werden.
Die Schlussfolgerung, dass das Problem der schnellen Identifizierung von Suchfallen ist der
besten ersten Suche von MCTS nicht inhärent.
dass es nicht zu bewältigen ist. Die Alpha-Beta-Suche kann zu keinem Zeitpunkt
gute Ergebnisse liefern. aber durch die Kombination mit der Iterativen Vertiefungssuche ist er
derzeit der erfolgreichste Baum. Suchalgorithmus in Bezug auf Chess. Könnte ein ähnlicher
Ansatz für Monte-Carlo wirksam sein?
Auch Baumsuche

Übersetzt mit www.DeepL.com/Translator