FCT1: Ponder on/off Vergleich, der Übeltäter ist ...

By Frank Quisinsky Date 2014-05-14 06:46

Hallo,

da es für Differenzen in den Listen immer eine Begründung gibt (selten sind es wirklich die Anzahl der Partien) ... habe ich den Übeltäter für die Differenzen gefunden.
Large Pages ...

Bei Ponder = on und 40 Züge in 5 Minuten stellte ich Large Pages noch auf "On"
Bei Ponder = off und 40 Züge in 10 Minuten stellte ich Large Pages auf "Off"

Betroffen im Grunde nur GullChess und Chiron!
Mal wieder um eine Erkenntnis reicher, denn es war nicht so wirklich klar ob "Large Pages" wirklich etwas ausmacht.
Da auch Houdini mit der Einstellung in der SWCR2 spielte steckte auch hier ein kleines Geheimnis im noch geringen Unterschied zu Stockfish ohne Large Pages (bevor ich Houdini schon aus der SWCR2 in die ewigen Jagdgründe verbannte).

Im Grunde haben wir hier bei ponder = off und einer Verdoppelung der Zeit einen Zeitvorteil von ca. 30-35%.
Das Ponder on/off kaum etwas ausmacht wissen wir, dass ein Zeitvorteil bei dieser Bedenkzeit von nur 30-35% ein Rating grob verändert ist ausgeschlossen und logisch.
Hier der Vergleich nach nunmehr 629 / 850 games ...

Code:

FCT1, ponder = off, 40 moves in 10 minutes on i7 4.3GHz
Elo average = 2.845

01. Stockfish 26.03.14 SSE42 x64  : 3065  23 23  629  79.5%  2830  35.0%  - 2
02. Komodo TCECr x64              : 3031  23 22  629  75.9%  2832  36.4%  - 6
03. GullChess 2.8 Beta BMI2 x64   : 2968  21 21  629  68.2%  2835  42.6%  -42! (and without LargePages = on)
04. Fire 3.0 AVX x64              : 2958  21 21  629  66.9%  2836  43.1%  - 7
05. Hannibal 1.4b x64             : 2881  20 20  629  55.9%  2840  45.3%  +13
06. Chiron 2.0 x64                : 2879  21 21  629  55.6%  2841  39.9%  -22! (and without LargePages = on)
07. Protector 1.5.0 JA x64        : 2858  20 20  629  52.3%  2842  46.7%  + 8
08. Senpai 1.0 SSE42 x64          : 2830  21 21  629  48.1%  2843  42.8%  + 2
09. Hiarcs 14 WCSC w32            : 2827  20 20  629  47.5%  2844  47.4%  + 2
10. Shredder 12 x64               : 2803  21 21  629  44.0%  2845  42.3%  + 3
11. Texel 1.03 x64                : 2793  21 21  629  42.4%  2846  41.3%  + 2
12. Junior 13.8.04 Yokohama x64   : 2790  21 21  629  42.1%  2846  40.5%  + 2
13. Spike 1.4 Leiden w32          : 2780  21 21  629  40.6%  2846  40.2%  + 4
14. Spark 1.0 x64                 : 2771  21 22  629  39.2%  2847  38.6%  +17
15. Quazar 0.4 x64                : 2768  21 21  629  38.9%  2847  39.9%  + 5
16. Zappa Mexico II x64           : 2760  21 21  629  37.6%  2848  41.5%  +10
17. Gaviota 1.0 AVX x64           : 2740  22 22  629  34.9%  2849  36.1%  +10
18. SmarThink 1.50 SSE3 x64       : 2707  23 23  629  30.4%  2851  35.1%  + 1

Games       : 5661 (finished), move average = 88
White Wins  : 2002 (35.4%)
Black Wins  : 1348 (23.8%)
Draws       : 2311 (40.8%)
Unfinished  :    0
White Perf. : 55.8%
Black Perf. : 44.2%
ECO A       : 1288 Games (22.8%)
ECO B       : 1229 Games (21.7%)
ECO C       : 1113 Games (20.0%)
ECO D       : 1216 Games (21.5%)
ECO E       :  795 Games (14.0%)

SWCR2, ponder = on, 40 moves in 5 minutes on i7 4.3GHz
Elo average = 2.845

Hint:
Different Stockfish versions only but Elo should be around the same.

01. Stockfish 08.02.14 SSE42 x64  : 3067  20 20  850  79.8%  2829  34.4%
02. Komodo TCECr x64              : 3037  21 20  850  76.6%  2831  32.6%
03. GullChess 2.8 Beta BMI2 x64   : 3010  20 19  850  73.6%  2832  35.9%
04. Fire 3.0 AVX x64              : 2965  19 19  850  67.9%  2835  37.1%
05. Chiron 2.0 x64                : 2901  18 18  850  58.8%  2839  40.7%
06. Hannibal 1.4b x64             : 2868  18 18  850  53.9%  2841  42.0%
07. Protector 1.5.0 JA x64        : 2850  18 18  850  51.2%  2842  42.7%
08. Senpai 1.0 SSE42 x64          : 2828  18 18  850  47.8%  2843  39.5%
09. Hiarcs 14 WCSC w32            : 2825  19 19  850  47.4%  2843  37.4%
10. Shredder 12 x64               : 2800  18 18  850  43.6%  2845  40.7%
11. Texel 1.03 x64                : 2791  18 18  850  42.3%  2845  40.4%
12. Junior 13.8.04 Yokohama x64   : 2788  19 19  850  41.8%  2845  34.1%
13. Spike 1.4 Leiden w32          : 2776  18 18  850  40.1%  2846  39.2%
14. Quazar 0.4 x64                : 2763  19 19  850  38.1%  2847  36.9%
15. Spark 1.0 x64                 : 2754  18 18  850  36.9%  2847  39.6%
16. Zappa Mexico II x64           : 2750  18 18  850  36.2%  2848  40.9%
17. Gaviota 1.0 AVX x64           : 2730  19 19  850  33.5%  2849  35.1%
18. SmarThink 1.50 SSE3 x64       : 2706  19 19  850  30.4%  2850  35.3%

Games       : 7650 (finished), move average = 88
White Wins  : 2715 (35.5%)
Black Wins  : 2026 (26.5%)
Draws       : 2909 (38.0%)
Unfinished  :    0
White Perf. : 54.5%
Black Perf. : 45.5%
ECO A       : 1653 Games (21.6%)
ECO B       : 1985 Games (25.9%)
ECO C       : 1382 Games (18.1%)
ECO D       : 1582 Games (20.7%)
ECO E       : 1010 Games (13.2%)

Wegen den Veränderungen im Buch sehe ich keine Unterschiede.
Wie gesagt, Bucheinflüsse bei Ratinglisten können wir bei gut ausgewählten ausgeglichenen Varianten vergessen.
Auch wenn der erste und letzte Platz in einer Liste zu weit auseinander klafft, dies dann eine Liste beeinflusst ist ein Märchen zu 99%.

Viele Grüße
Frank

By Frank Quisinsky Date 2014-05-14 07:44 Edited 2014-05-14 07:52

Hi,

tja, Large Pages ...
Jetzt weiß ich auch warum die Extra Seite von Houdart bei seiner ersten kommerziellen Version ... eine von seinen vielen kleinen Tricks um die ELO hoch zu treiben, denn im Grunde ist und bleibt die Engine ein Robbolito. Hinzu dann noch dieses extreme ich vermeide Remis um das Endspiel zu erreichen. Seine Endspielstärke rein (hier hat er dann offenbar nicht mit einem Trick gearbeitet sondern Wissen implementiert, insbesondere die Abtäusche bei Bewertung der verbleibenden Bauern auf dem Brett, Bauerstrukturen nach Abtäuschen die zum Endspiel führen sind optimal). Mit solchen Tricks kann eine Spielstärke nach oben getrieben werden ohne das nun viel neues in eine Engine einfließt.

Denke das sind alles Dinge die dann mit der Zeit auffallen und auch von anderen genutzt werden können. Große Geheimnissen sind das nicht. Im Computerschach ja ein generelles Problem das uns etwas vorgegaukelt wird, weil die Elos durch die Endspiele nach oben getrieben werden, weil hier nun mal die meisten Partien entschieden werden. Ratinglisten bei denen die Partien z. B. bei Zugnummer 60 enden (ohne Aufgabefaktor bei Abschätzung der Partielage) sehen deutlich anders aus, als die bekannten bis Partieende, z. B. wäre Spark 165 ELO stärker ... werde irgendwann die Statistik bringen aber sehr aufwendig und derzeit mache ich nur Stichproben.

Nun ja ...
Bleibe dabei, je mehr unterschiedliche Programme in einer Liste aktiv sind, desto genauer die Elo bei deutlich weniger Partien. Das geht aus sämtlichen Stats die ich immer wieder mache deutlich hervor. Und das ist auch das Geheimnis der CEGT, welche die Matches bei neuen Engines sorgfältig auswählt ... denn dort spielt natürlich nicht jeder gegen jeden immer wieder und die CEGT Ratings sind und waren immer sehr gut, zumindest wenn ich mit ausgeglichenen Listen vergleiche.

Gruß
Frank