[quote="Stefan Schiffermueller"]
[quote="Stefan Pohl"]
Daß Stockfish schon auf dem Level von Komodo angekommen ist, würde ich aber aufgrund der LS-Daten doch bezweifeln. Lediglich Komodo 5.0 ist erreicht (bzw. knapp überholt), zu Komodo 5.1r2 fehlen noch 20 Elo und zu Komodo CCT noch 33 Elo...(im (völlig verzerrungsfreien) LS top10 tournament sogar 37 Elo bis Komodo CCT...).
[/quote]
Man sollte aber bedenken, das Stefan Zipproth die neuste Version vom 29.07 getestet hat und du die Version vom 27.07. Auffallend sind die stark verbesserten Einzelergebnisse gegen Houdini und Komodo.
Stockfish vom 27.07 (siehe ls-Rangliste)
gegen Houdini 3: 388 - 612
gegen Komodo CCT: 445 - 555
Stockfish vom 29.07
gegen Houdini 3: 419.5 - 581.5
gegen Komodo CCT: 506.5 - 493.5
Stefan
[/quote]
Eigentlich wollte ich dazu schon posten, daß die Versionen so dicht beienander liegen (zeitlich), daß sie sich kaum unterscheiden können (Elo). Aber dann dachte ich mir, sicher ist sicher, ich teste die Version auch für die LS-Rangliste, zumindest lasse ich mal einen Test anlaufen und würde den dann ggf. nach 2000-2500 Partien wieder abbrechen.
Der Test läuft mittlerweile, allerdings nur auf einem meiner 2 Rechner, weil ich auf dem anderen die 1000 Partien von Komodo 5.1r2 gegen Stockfish 3 spiele, damit Komodo wieder auf die Mindestzahl von 10000 Partien kommt und danach will ich PanChess 00.537 auf diesem Rechner testen, weil ich das Peter Pan versprochen hatte und er erstmal eine kleine Entwicklerpause machen will.
Nun aber das Wesentliche: Den Test habe ich nach 350 Partien abgebrochen, weil (und das ist mal was Neues) das Ergebnis zu gut war! Ergo dachte ich, ich boote lieber den Rechner noch mal frisch, checke nochmal alle Einstellungen der LittleBlitzerGUI und im Engines.LBE-File und habe nochmal neu begonnen. Nun läuft der 2.Versuch des Tests von Stockfish 130729 und das Ergebnis bisher ist wieder geradzu unglaublich gut - allerdings ist das noch ein sehr, sehr früher Zwischenstand und mit nur 3 Cores (wegen der zur erwartenden nächsten Hitzewelle am Wocheende) geht es auch nicht so schnell vorwärts. Aber wenn das Ergebnis auch nur annähernd so bleibt und selbst wenn der zu erwartende Stockfish-typische Sinkflug ab Partie 5000 noch einkalkuliert wird, dann wäre es immer noch ein Riesen-Elo-Sprung. Ich nenne jetzt absichtlich noch keine Zahl, dazu sind zuwenige Partien absolviert, aber so einen Testanfang habe ich bei Stocki noch nie gehabt, nicht mal annähernd!!!
Allerdings ist der letzte Patch ja sehr interessant (Änderungen beim pruning können drastische Folgen haben) und hat evt. Auswirkungen auf die - bei Stocki ja nicht so dolle - Spielstärke bei kurzer Bedenkzeit und re. langsamer Hardware (also unter LS-Bedingungen (Bullet-Tempo und nur ein Core). Anders kann ich mir diesen unfaßbaren Teststart nicht erklären. Oder es ist wirklich ein statistischer Unfall. Dann wird sich das alles im Zuge von 10000 Partien noch normalisieren. Dagegen spricht aber, daß der erste Anlauf des Tests, den ich ja deshalb abgebrochen hatte, auch schon so gut war.
Ich bin jedenfalls sehr gespannt, wie es weitergeht. Das Endergebnis wird leider eine Woche brauchen, weil nur 3 Cores genutzt werden, aber ich werde sicher mal einen Zwischenstand hier zum Besten geben.
Stefan
[quote="Stefan Pohl"]
Eigentlich wollte ich dazu schon posten, daß die Versionen so dicht beienander liegen (zeitlich), daß sie sich kaum unterscheiden können (Elo). Aber dann dachte ich mir, sicher ist sicher, ich teste die Version auch für die LS-Rangliste, zumindest lasse ich mal einen Test anlaufen und würde den dann ggf. nach 2000-2500 Partien wieder abbrechen.
Der Test läuft mittlerweile, allerdings nur auf einem meiner 2 Rechner, weil ich auf dem anderen die 1000 Partien von Komodo 5.1r2 gegen Stockfish 3 spiele, damit Komodo wieder auf die Mindestzahl von 10000 Partien kommt und danach will ich PanChess 00.537 auf diesem Rechner testen, weil ich das Peter Pan versprochen hatte und er erstmal eine kleine Entwicklerpause machen will.
Nun aber das Wesentliche: Den Test habe ich nach 350 Partien abgebrochen, weil (und das ist mal was Neues) das Ergebnis zu gut war! Ergo dachte ich, ich boote lieber den Rechner noch mal frisch, checke nochmal alle Einstellungen der LittleBlitzerGUI und im Engines.LBE-File und habe nochmal neu begonnen. Nun läuft der 2.Versuch des Tests von Stockfish 130729 und das Ergebnis bisher ist wieder geradzu unglaublich gut - allerdings ist das noch ein sehr, sehr früher Zwischenstand und mit nur 3 Cores (wegen der zur erwartenden nächsten Hitzewelle am Wocheende) geht es auch nicht so schnell vorwärts. Aber wenn das Ergebnis auch nur annähernd so bleibt und selbst wenn der zu erwartende Stockfish-typische Sinkflug ab Partie 5000 noch einkalkuliert wird, dann wäre es immer noch ein Riesen-Elo-Sprung. Ich nenne jetzt absichtlich noch keine Zahl, dazu sind zuwenige Partien absolviert, aber so einen Testanfang habe ich bei Stocki noch nie gehabt, nicht mal annähernd!!!
Allerdings ist der letzte Patch ja sehr interessant (Änderungen beim pruning können drastische Folgen haben) und hat evt. Auswirkungen auf die - bei Stocki ja nicht so dolle - Spielstärke bei kurzer Bedenkzeit und re. langsamer Hardware (also unter LS-Bedingungen (Bullet-Tempo und nur ein Core). Anders kann ich mir diesen unfaßbaren Teststart nicht erklären. Oder es ist wirklich ein statistischer Unfall. Dann wird sich das alles im Zuge von 10000 Partien noch normalisieren. Dagegen spricht aber, daß der erste Anlauf des Tests, den ich ja deshalb abgebrochen hatte, auch schon so gut war.
Ich bin jedenfalls sehr gespannt, wie es weitergeht. Das Endergebnis wird leider eine Woche brauchen, weil nur 3 Cores genutzt werden, aber ich werde sicher mal einen Zwischenstand hier zum Besten geben.
Stefan
[/quote]
Kleine Ergänzung: Also mit meinem Testrechner und den Einstellungen ist alles OK. Die Knotenzahlen, die Stocki und auch die Gegner anzeigen, sind völlig normal. Ebenso läuft laut TaskManager nix auf dem Rechner, was stören würde. Geht eigentlich auch nicht, da der Rechner praktisch "nackt" ist - bis auf Windoofs und der LittleBlitzerGUI ist eigentlich nichts drauf.
[quote="Stefan Pohl"]
Allerdings ist der letzte Patch ja sehr interessant (Änderungen beim pruning können drastische Folgen haben) und hat evt. Auswirkungen auf die - bei Stocki ja nicht so dolle - Spielstärke bei kurzer Bedenkzeit und re. langsamer Hardware (also unter LS-Bedingungen (Bullet-Tempo und nur ein Core). Anders kann ich mir diesen unfaßbaren Teststart nicht erklären. Oder es ist wirklich ein statistischer Unfall. Dann wird sich das alles im Zuge von 10000 Partien noch normalisieren. Dagegen spricht aber, daß der erste Anlauf des Tests, den ich ja deshalb abgebrochen hatte, auch schon so gut war.
[/quote]
Klingt ja verdammt spannend. Aber dass der 2.Test-Anlauf auch so gut war, könnte (leider) daran liegen, dass im 2. Anlauf die selben Eröffnungen aufs Brett kamen. Wenn sonst kein Zufall im Spiel ist, dürften die Partien identisch sein.
Stefan
By Stefan Pohl
Date 2013-07-31 11:35
Edited 2013-07-31 11:40
[quote="Stefan Schiffermüller"]
[quote="Stefan Pohl"]
Allerdings ist der letzte Patch ja sehr interessant (Änderungen beim pruning können drastische Folgen haben) und hat evt. Auswirkungen auf die - bei Stocki ja nicht so dolle - Spielstärke bei kurzer Bedenkzeit und re. langsamer Hardware (also unter LS-Bedingungen (Bullet-Tempo und nur ein Core). Anders kann ich mir diesen unfaßbaren Teststart nicht erklären. Oder es ist wirklich ein statistischer Unfall. Dann wird sich das alles im Zuge von 10000 Partien noch normalisieren. Dagegen spricht aber, daß der erste Anlauf des Tests, den ich ja deshalb abgebrochen hatte, auch schon so gut war.
[/quote]
Klingt ja verdammt spannend. Aber dass der 2.Test-Anlauf auch so gut war, könnte (leider) daran liegen, dass im 2. Anlauf die selben Eröffnungen aufs Brett kamen. Wenn sonst kein Zufall im Spiel ist, dürften die Partien identisch sein.
Stefan
[/quote]
Letzteres ist ein weit verbreiteter Irrglaube. Gerade bei meinen kurzen Bedenkzeiten können minimale Veränderungen (z.B. durch kurzfristiges Bremsen durch irgendeine Windowsfunktion) im System schon unterschiedliche Züge nach sich ziehen, und eine einzige Abweichung reicht ja schon für einen völlig anderen Partieverlauf.
Ich hatte schon mal den Fall, daß ich mal eine Engine getestet hatte und nach 30 Partien hatte sie nur 8 Punkte, was mir komisch vorkam. Da habe ich dann auch alles noch mal durchgecheckt und den Test mit völlig identischen Bedingungen neu gestartet und beim zweiten Versuch waren es dann 17 aus 30...
Beide Male war es derselbe, frisch gebootete Rechner, an dem zwischenzeitlich natürlich nichts verändert wurde.
Inzwischen ist das Stockfishergebnis mächtig im Sinkflug. Aber immer noch sehr gut. Man muß einfach abwarten. Ein paar Hundert Partien sind einfach zu wenig. Auch die Remisquote ist bisher Stockfish-untypisch hoch. Fast Ippo-mäßig.
Stefan
[quote="Stefan Pohl"]
Ich bin jedenfalls sehr gespannt, wie es weitergeht. Das Endergebnis wird leider eine Woche brauchen, weil nur 3 Cores genutzt werden, aber ich werde sicher mal einen Zwischenstand hier zum Besten geben.
[/quote]
Guten Morgen,
Der Testlauf von Stockfish 130729 (timestamp 1375053681) läuft weiterhin, wenn auch nur auf 3 Cores und daher sehr gemächlich. Aber der Verlauf seit dem Start gestern war dramatisch: Zunächst ging es unfaßbar gut los (hatte deswegen sogar noch mal von vorn begonnen), dann folgte ein ebenso dramatischer Einbruch (auf ca. +5 Elo zu Stockfish 130727 (was zwar im Prinzip für eine nur 2 Tage neuere Version auch noch ganz gut wäre, aber nach dem anfänglichen Höhenrausch in Regionen jenseits der +30 Elo war das schon eine heftige "Bruchlandung")). Über Nacht stieg die Erfolgsquote nun wieder an, und zwar auf ca. +15 Elo (allerdings erst knapp 1400 von 10000 Partien gespielt). Das wäre natürlich für eine Version, die sich nur durch einen einzigen Patch vom Vorgänger unterscheidet, schlicht sensationell, allerdings sind in früheren Testruns von Stockfish im weiteren Verlauf immer noch beträchtliche Einbußen des Erfolgsscores aufgetreten, sodaß man schlußendlich ein Plus von ca. +5 Elo erwarten müßte (was ja immer noch gut wäre (s.o.)). Allerdings verlief der Testrun bisher absolut atypisch im Vergleich den vielen anderen Stocki-Testruns, die ich schon gemacht hatte und der Patch modifiziert ja auch das Pruning, hat also direkte Auswirkungen auf das Suchverhalten. Daher wäre es denkbar, daß der Tesrun auch weiterhin atypisch verläuft, aber das muß man abwarten. Die Remsiquote, die ja bis gestern Abend sehr hoch war (weit über 50%), ist inzwischen auf das Stockfish-übliche Maß von ca. 47% gefallen. Auffallend auch das bisher sehr gute Abschneiden gegen Komodo CCT: Im Einzelvergleich sind bisher 137 Partien gespielt und Stocki liegt knapp über 50% (!). Auch gegen Critter 1.6a läuft es sehr gut (54%). Wie immer (also schlecht) läuft es gegen Houdini 3 (ein echtes Bullet-Biest).
Es bleibt auf jeden Fall spannend.
Der Testrun von PanChess 00.537 läuft auch seit kurzem auf meinem anderen Notebook. Wenn alles glatt geht, sollten beide Ergebnisse am kommenden Mittwoch online gehen (Zeitangaben wie immer ohne Gewähr). Heute habe ich schnell noch die 1000 Partien von Komodo 5.1r2 gegen Stockfish 3 in die LS-Rangliste reingerechnet - das war nötig geworden, da die alte Entwicklungsversion von Stockfish (130601), gegen die Komodo 5.1r2 ursprünglich seine 1000 Stockfish-Partien absolviert hatte, aus der Rangliste entfernt wurde (ich will nicht mehr als 3 Entwicklungsversionen einer Engine in der Liste haben, wegen möglicher Verzerrungen). Am Elorating von Komodo 5.1r2 hat sich nichts geändert: weiterhin 3080 LS-Elo.
Stefan