Reinhold Stibi schrieb:
Mich würde mal interessieren welcher Statistiker im Computerschach die Errobar
erfunden hat, oder vielleicht besser gesagt entwickelt hat.
Die Frage dürfte auch sein, ob sie überhaupt stimmt.
Die Errorbar ist eine rein statistische Gesetzmäßigkeit über Schwankungsbreiten bei Meßdaten, die nicht nur speziell im Schach oder Computerschach zutrifft. Elozahlen und Errorbars kann man in jedem sog. "Nullsummenspiel" anwenden.
https://de.wikipedia.org/wiki/NullsummenspielReinhold Stibi schrieb:
Möchte ja die Autorität von Stefan Pohl nicht untergraben, aber manches darf man
doch kritisch hinterfragen, besonders wenn Ergebnisse auffällig sind.
Ich fühle mich ja geschmeichelt, aber das ist doch alles nicht auf meinem Mist gewachsen!
Und man darf immer alles kritisch hinterfragen. Das sollte man sogar!
Reinhold Stibi schrieb:
Bei dem Match mit den 500 Partien Stockfish 22.06.19 gegen Lc0 T8.610 (TCEC)
fällt die außerordentlich hohe Gewinnquote von 38 % auf. Das ist doch nicht normal
bei diesen Spitzenengines. Zu erwarten wären bei objektiven Testbedingungen 20 %.
Da könnte schon der Gedanke aufkommen, dass an den Testbedingungen etwas nicht
stimmt.
M.E. liegt es an der extremen kurzen Bedenkzeit von 58 Sek. pro Spiel + Aufschlag von
einer halben Sekunde pro Zug.
Remisqouten steigen mit mehr Bedenkzeit. Das ist so. Und fallen mit weniger Bedenkzeit. Der Denkfehler liegt schlicht im Begriff "objetive Testbedingungen". Das ist die falsche anthrophozentrische Denkweise. Es gibt keine "objektiv" guten oder schlechten Bedenkzeiten zum Testen. Solange die Bedenkzeit nicht so kurz ist, daß auf Windows/Hardwareebene verzerrende Effekte auftreten (das passiert nach meinen Erfahrungen so ca. unter 200ms pro Zug) sind alle Bedenkzeiten eben das was sie sind. Bedenkzeiten. Und je geringer diese Bedenkzeit ist, desto mehr Gewinnpartien und desto weniger Remisen.
Reinhold Stibi schrieb:
Werde nun selber einen Test mit 500 Partien mit Stockfish 22.06.19 gegen Lc0 TCEC
durchführen aber mit etwas längerer Bedenkzeit.
Wenn sich die großen Schwankungen je 100 Block, wie von Stefan Pohl festgestellt, bestätigen
sollten, dann mea culpa, mea maxima culpa an Stefan Pohl
Tja, und hier kommt nun noch eine echte Crux - Statistik ist leider voller Tücken. Aber um das zu erklären, muß ich zunächst noch mal erläutern, was das Prinzip der Errorbar aussagt: Es sagt, daß Ergebnisse mit 95%-Wahrscheinlichkeit innerhalb der Errorbar schwanken
können und mit 5%-Restwahrscheinlichkeit sogar außerhalb der Errorbar liegen
können.
Der Knackpunkt ist hier der Begriff "können". Eben
nicht müssen! Das ist ein wesentlicher Punkt. Warum?
Wenn man, wie in meinem hier angeführten Praxis-Beispiel mit den 5 100er-Blöcken der 500 Stockfish-lc0-Partien starke Schwankungen in den Ergebnisse aufgetreten sind, dann kann man daraus ableiten, daß solche Schwankungen möglich sind - logisch, sonst wäre es ja nicht dazu gekommen. Führt man nun aber solche Testreihen durch und es treten viel kleinere Schwankungen oder sogar gar keine Schwankungen auf, dann kann man eben daraus
nicht ableiten, daß größere Schwankungen nicht auftreten können!!! Sondern nur, daß es in dem konkreten Fall eben nicht passiert ist. Selbst wenn man 10 oder 50 oder 100 solcher Testreihen macht, in denen keine oder geringere Schwankungen auftreten, kann man daraus eben nicht folgern, daß größere Schwankungen nicht doch passieren können.
Ich hatte bei meinem Testrun das "Glück", daß große Schwankungen auftraten. Daher konnte ich das als instruktives Beispiel nutzen, um zu demonstrieren, daß solche Schwankungen möglich sind. Wäre mein Testrun "glatter" verlaufen, wäre das aber eben kein Argument gewesen, um zu sagen, die Errorbar und das zugrundeliegende Prinzip der Schwankungen/Ergebnisunsicherheit gelte gar nicht.
Ergo: Es ist nicht möglich, das Prinzip der Errorbar mit ein paar "glatteren" Testreihen zu widerlegen. Und es ist nicht möglich, mit ein paar glatteren Testreihen nachzuweisen, daß bei längeren Bedenkzeiten weniger starke Aussschläge in den Ergebnissen auftreten. Oder überhaupt so nachzuweisen, daß Änderungen in den Bedenkzeiten Einfluß auf die Schwankungsbreite haben.
Tut mir leid, aber so ist die Sachlage.
Wenn du also dein Experiment durchführst und es treten ähnlich große Schwankungen auf, wie bei meinem Durchlauf, dann ist gezeigt, daß diese Schwankungen auch mit mehr Bedenkzeit auftreten. Gut und schön. Aber, wenn nur weit geringere Schwankungen auftreten, dann ist damit leider nicht gezeigt, daß dies immer so ist und somit Schwankungen mit mehr Bedenkzeit geringer werden. Selbst dann nicht, wenn du das Experiment 10 mal oder 100 mal wiederholst.
Man müßte dieses Experiment einige tausend Male mit verschiedenen Bedenkzeitstufen durchführen und könnte sich dann das statistische Mittel ansehen. Aber wer will das schon machen? Ich sicher nicht.
Generell möchte ich noch mal das Thema Bedenkzeit aufgreifen. Denn auch hier schlägt ja das anthrophozentrische Denken wieder zu. Von Bedenkzeit zu sprechen, ist eigentlich eine (unzulässige) Vereinfachung. Letzlich hängt es ja auch an der Geschwindigkeit des Computers, auf dem getestet wird (auf einem nur 1/3 so schnellen Rechner müßte man 3x so viel Bedenkzeit geben - logisch). Es ist also immer eine
Kombination zu betrachten, aus dem Faktor Bedenkzeit und Hardwarespeed. Daher geht es letzlich um die Zahl der berechneten Knoten pro gespieltem Zug, denn diese allein beschreibt ja die Kombination aus Bedenkzeit und Hardwarespeed. Man muß bedenken, daß die Errorbar in den Teststatistiken ja nicht erst seit gestern benutzt wird. Sondern schon, solange es Computerschach gibt. Also schon zu Brettcomputerzeiten. Damals waren die Rechner aber (ich vereinfache das jetzt mal) ca. Faktor 10000 langsamer. Und auch dort hat man in der SSDF und anderen Testreihen die Errorbar genutzt. Aus gutem Grund.
Was heißt das nun aber für die aktuelle Diskussion um Bedenkzeiten? Nehmen wir die luxuriöse Bedenkzeit von 3 Minuten/Zug aus der SSDF: Auf heutige Hardwaregeschwindigkeiten umgerechnet, würde das bedeuten, damals wurde mit 180''/10000 = 0.018'' oder
18ms pro Zug getestet, hätten die Tests auf einem modernen PC stattgefunden. Also viel, viel, viel kürzer, als ich es heute mache - durchschnittliche Bedenkzeit bei mir: ca. 1''/Zug laut LittleBlitzerGUI: Ergo
teste ich mit gut 55 mal mehr "Bedenkzeit" als seinerzeit die Brettcomputer in der SSDF getestet wurden (!!!). Ergo müßten bei meinen Tests ja nur noch mikroskopisch kleine Schwankungen in den Ergebnissen auftreten, wenn damals schon die Errorbar galt und benutzt wurde (was der Fall war)...würde Reinholds Annahme stimmen, daß mehr Bedenkzeit die Schwankungsbreite der Ergebnisse nennenswert reduziert. Aber das ist eben nicht der Fall. Mein angeführtes Beispiel der 5 100er Partieblöcke von SF gegen lc0 hat ja gezeigt, daß auch heute noch solche großen Schwankungen auftreten
können (nicht müssen, siehe oben!!!).
QED
Damit schließe ich das Thema nun auch ab. Ich habe es schon zu Zeiten meiner Lightspeed-Rangliste durchgekaut. Und nun schon wieder. Weitere Informationen zu statistischen Gesetzmäßigkeiten möge man bitte der Fachliteratur entnehmen. Ich habe das Thema nun oft und lange genug durchgekaut.
https://de.wikipedia.org/wiki/Fehlerrechnunghttps://de.wikipedia.org/wiki/Varianz_(Stochastik)Das letzte Wort sollte passenderweise Ed Schröder haben (ich denke, wir sind uns einig, daß Ed sich mit Computerschach so halbwegs auskennt...), den ich ja auch in meinem Profil-Spruch zitiere: "Randomness is a monster and you beat it by volume." Und eben nicht "Randomness is a monster and you beat it by longer thinking-time"...