Not logged inCSS-Forum
Forum CSS-Online Help Search Login
CSS-Shop Impressum Datenschutz
Up Topic Hauptforen / CSS-Forum / Ponder on/off Vergleich, SWCR2 und FCT1 nach 489/850
- - By Frank Quisinsky Date 2014-05-01 22:03
Hallo zusammen,

mal wieder eine nette Statistik zum laufenden FCT1 Turnier.

In Tabelle 1 die aktuellen Ergebnisse bei 40 Züge in 10 Minuten und Ponder = off nach 459 / 850 Partien.
In Tabelle 2 die Ergebnisse bei 40 Züge in 5 Minuten und Ponder = on nach 850 / 850 Partien.

Am Ende der Tabelle 1 dann die Differenzen zwischen den beiden Tabellen.
Bereits nach 459 Partien eine sehr hohe Übereinstimmung bei den Ratings.
Auffällig ist im Grunde GullChess. Die Engine tanzt bei Ponder = off mit -30 derzeit noch ein wenig aus der Reihe.

Interessant auch die Tabelle 3 am Ende vom Posting.
Das waren dann die Ergebnisse bei 40 Züge in 10 Minuten und Ponder = off nach 221 Partien.
Vergleichen wir die Tabelle 1 mit der Tabelle 3 und schauen auf die Abweichungen zu Tabelle 2 sehen wir sehr schön, dass sich die Differenzen weiter minimieren und jetzt nach 459 Partien ein außerordentlich ansprechendes Ergebnis zu diesem frühen Zeitpunkt schon vorliegt. Vergessen dürfen wir bei dem Vergleich nicht, dass hier nicht versucht wird zu vergleichen wie sich die Elo's entwickeln sondern wie sich die Elo's im Verhältnis ponder = on/off entwickeln. Das die Unterschiede bei den Statistiken zwischen ponder on/off nicht groß sind sollte mittlerweile bekannt sein. Dennoch immer wieder interessant sich das nochmal vor Augen zu führen.

Code:
FCT1, ponder = off, 40 moves in 10 minutes on i7 4.3GHz
Elo average = 2.845

01. Stockfish 26.03.14 SSE42 x64  : 3059  27 26  459  78.9%  2830  35.3%  - 8
02. Komodo TCECr x64              : 3030  27 26  459  75.8%  2832  35.7%  - 7
03. GullChess 2.8 Beta BMI2 x64   : 2980  24 24  459  69.8%  2835  42.9%  -30
04. Fire 3.0 AVX x64              : 2960  24 24  459  67.1%  2836  43.6%  - 5
05. Chiron 2.0 x64                : 2890  25 24  459  57.2%  2840  41.2%  + 5
06. Hannibal 1.4b x64             : 2882  24 24  459  56.0%  2840  43.6%  +14
07. Protector 1.5.0 JA x64        : 2858  23 23  459  52.3%  2842  45.8%  + 8
08. Senpai 1.0 SSE42 x64          : 2830  24 24  459  48.0%  2844  42.0%  + 2
09. Hiarcs 14 WCSC w32            : 2825  24 24  459  47.3%  2844  44.4%    0
10. Shredder 12 x64               : 2810  24 24  459  45.0%  2845  45.1%  +10
11. Texel 1.03 x64                : 2795  24 24  459  42.8%  2846  41.6%  + 4
12. Junior 13.8.04 Yokohama x64   : 2778  25 25  459  40.3%  2847  40.1%  -10
13. Quazar 0.4 x64                : 2778  25 25  459  40.2%  2847  39.0%  +15
14. Spike 1.4 Leiden w32          : 2772  25 25  459  39.3%  2847  39.4%  - 4
15. Spark 1.0 x64                 : 2765  25 26  459  38.3%  2847  37.0%  +11
16. Zappa Mexico II x64           : 2763  24 24  459  38.0%  2848  42.5%  +13
17. Gaviota 1.0 AVX x64           : 2731  26 26  459  33.7%  2849  34.6%  + 7
18. SmarThink 1.50 SSE3 x64       : 2703  27 27  459  30.0%  2851  33.8%  - 3

Games       : 4131 (finished), move average = 88
White Wins  : 1475 (35.7%)
Black Wins  :  986 (23.9%)
Draws       : 1670 (40.4%)
Unfinished  :    0
White Perf. : 55.9%
Black Perf. : 44.1%
ECO A       :  941 Games (22.8%)
ECO B       :  952 Games (23.0%)
ECO C       :  860 Games (20.8%)
ECO D       :  843 Games (20.4%)
ECO E       :  535 Games (13.0%)

----------------------------------------------------------------------------

SWCR2, ponder = on, 40 moves in 5 minutes on i7 4.3GHz
Elo average = 2.845

Hint:
Different Stockfish versions only but Elo should be around the same.

01. Stockfish 08.02.14 SSE42 x64  : 3067  20 20  850  79.8%  2829  34.4%
02. Komodo TCECr x64              : 3037  21 20  850  76.6%  2831  32.6%
03. GullChess 2.8 Beta BMI2 x64   : 3010  20 19  850  73.6%  2832  35.9%
04. Fire 3.0 AVX x64              : 2965  19 19  850  67.9%  2835  37.1%
05. Chiron 2.0 x64                : 2901  18 18  850  58.8%  2839  40.7%
06. Hannibal 1.4b x64             : 2868  18 18  850  53.9%  2841  42.0%
07. Protector 1.5.0 JA x64        : 2850  18 18  850  51.2%  2842  42.7%
08. Senpai 1.0 SSE42 x64          : 2828  18 18  850  47.8%  2843  39.5%
09. Hiarcs 14 WCSC w32            : 2825  19 19  850  47.4%  2843  37.4%
10. Shredder 12 x64               : 2800  18 18  850  43.6%  2845  40.7%
11. Texel 1.03 x64                : 2791  18 18  850  42.3%  2845  40.4%
12. Junior 13.8.04 Yokohama x64   : 2788  19 19  850  41.8%  2845  34.1%
13. Spike 1.4 Leiden w32          : 2776  18 18  850  40.1%  2846  39.2%
14. Quazar 0.4 x64                : 2763  19 19  850  38.1%  2847  36.9%
15. Spark 1.0 x64                 : 2754  18 18  850  36.9%  2847  39.6%
16. Zappa Mexico II x64           : 2750  18 18  850  36.2%  2848  40.9%
17. Gaviota 1.0 AVX x64           : 2730  19 19  850  33.5%  2849  35.1%
18. SmarThink 1.50 SSE3 x64       : 2706  19 19  850  30.4%  2850  35.3%

Games       : 7650 (finished), move average = 88
White Wins  : 2715 (35.5%)
Black Wins  : 2026 (26.5%)
Draws       : 2909 (38.0%)
Unfinished  :    0
White Perf. : 54.5%
Black Perf. : 45.5%
ECO A       : 1653 Games (21.6%)
ECO B       : 1985 Games (25.9%)
ECO C       : 1382 Games (18.1%)
ECO D       : 1582 Games (20.7%)
ECO E       : 1010 Games (13.2%)

-----------------------------------------------------------------------------

01. Stockfish 26.03.14 SSE42 x64  : 3047  38 36  221  77.6%  2831  38.5%  -20
02. Komodo TCECr x64              : 3014  38 37  221  74.0%  2833  38.5%  -23
03. GullChess 2.8 Beta BMI2 x64   : 2981  37 36  221  69.9%  2835  40.3%  -29
04. Fire 3.0 AVX x64              : 2971  35 34  221  68.6%  2835  43.9%  + 7
05. Chiron 2.0 x64                : 2885  35 35  221  56.3%  2841  42.1%  -16
06. Hannibal 1.4b x64             : 2882  35 34  221  55.9%  2841  43.9%  +14
07. Protector 1.5.0 JA x64        : 2861  33 33  221  52.7%  2842  47.5%  +11
08. Shredder 12 x64               : 2831  34 34  221  48.2%  2844  45.7%  +31
09. Senpai 1.0 SSE42 x64          : 2816  36 36  221  45.9%  2845  39.4%  -12
10. Hiarcs 14 WCSC w32            : 2815  35 35  221  45.7%  2845  43.4%  -10
11. Junior 13.8.04 Yokohama x64   : 2786  37 37  221  41.4%  2846  36.7%  - 2
12. Texel 1.03 x64                : 2781  36 36  221  40.7%  2847  38.9%  -10
13. Spike 1.4 Leiden w32          : 2777  37 37  221  40.0%  2847  36.7%  + 1
13. Spark 1.0 x64                 : 2777  36 36  221  40.0%  2847  38.5%  +23
15. Zappa Mexico II x64           : 2761  34 34  221  37.8%  2848  44.8%  +11
15. Quazar 0.4 x64                : 2761  36 36  221  37.8%  2848  39.4%  - 2
17. Gaviota 1.0 AVX x64           : 2750  37 37  221  36.2%  2848  38.0%  +20
18. SmarThink 1.50 SSE3 x64       : 2713  39 39  221  31.2%  2851  32.6%  + 7
Parent - - By Frank Quisinsky Date 2014-05-01 22:10 Edited 2014-05-01 22:12
Die Frage die sich stellt ist im Grunde nur eine ... Ergebnisse sind zu klar und bestätigen auch die sehr guten Bedingungen die bei der SWCR2 / FCT1 herrschen (es spielen 18 unterschiedliche Entwicklungen die direkt im Clone-Vergleich nicht vergleichbar sind).

Spielt GullChess nun wirklich bei Ponder = off schwächer als bei Ponder = on.
Aufgefallen ist mir das noch nie wenn ich mir andere Listen so anschaue.

Insofern mal abwarten ob GullChess noch durchstartet.
Immerhin sind noch 46% der Partien bis Marke 850 zu spielen.

Auffällig evtl. noch etwas anderes.
Engines die oben stehen sind im - Bereich beim Vergleich.
Engines die unten stehen sind im + Bereich beim Vergleich.
Nicht anders zu erwarten dann ab einer vernünftigen Partiezahl die schon jetzt mit über 400 vorliegt die Engines in der Mitte (sind ausgewogen).

Zwischen Platz 1 und 18 liegen ca. 350 - 375 Elo.

Die Annahme das dies zu viel ist und die Messungen nicht stimmen konnte ich nie wirklich bestätigen. Wenn dann glaube ich eher daran, dass durch die großen Elo Unterschiede die tatsächlichen Ergebnissen nur sehr minimal unterschiedlich sind und wenn dann auch nur wenn eine zu geringe Anzahl an Partien vorliegt.

Gruß
Frank
Parent - - By Frank Quisinsky Date 2014-05-01 22:45 Edited 2014-05-01 22:49
Hi,

ich bins wieder
Gibt noch einen interessanten Punkt ...

Das ist Quazar!
Quazar hat in meinen Listen (gespielt wird bis zum Matt) einen um 10 Züge höheren Partiedurchschnitt als die anderen.
Partiedurchschnitt liegt bei 100!!!!!!

Nun haben die Engines bei 40 in 10 und Ponder = off mehr Rechenzeit als im Vergleich zu 40 in 5 und Ponder = on.
Gibt durchschnittlich nur 30-35% Ponder Treffer (Eröffnungszüge nicht mitberechnet).

Engines die einen sehr hohen Zügedurchschnitt haben werden in der Regel spielstärker mit mehr Zeit weil die meisten Partien im Endspiel entschieden werden.
Quazar muss meines Erachtens bei 40 in 10 ohne Ponder auch besser abschneiden !!

---

Oder ... Shredder !
Eine Engine die sich zum eichen aufgrund der wirklich schwachen Taktik wenig eignet.
Shredder spielt ein gutes Endspiel aber im taktischen Bereich verliert die Engine deutlich mehr schnelle Partien als die anderen (in Abhängigkeit zur Spielstärke). Das nach über 200 Partien das Rating 30 ELO höher war, dass war eine statistischer Aussetzer ... mittlerweile sind es noch 10 Elo nach weit über 400 Partien. Eigentlich müsste die Elo niedriger werden als 2.800 denn der Zügedurchschnitt ist sehr gering mit nur ca. 84 Zügen. Diese Engine muss eigentlich schlechter als bei Ponder = on abschneiden.

Wenn wir uns das Spielverhalten, die Stärken und Schwächen der Engines vor Augen halten müssen wir das bei statischen Auswertungen immer berücksichtigen. Eine Statistik wird erst dann interessant wenn wir die Engines besser kennen, denn dann erklärt uns das auch sehr viel einfacher wenn es bei unterschiedlichen Listen zu unterschiedlichen Ergebnissen kommt. Die Statistik allein kann das natürlich nicht und hier müssen die Statistik Freaks auch mal ein wenig umdenken und sollten auch mal erkennen lernen, dass Statistik allein niemals alles erklären kann.

Shredder ist schwierig zu beurteilen weil das eine das andere aufhebt.
Die Engine ist taktisch schwach ... verliert sehr schnell zu viele Partien und ist dann wieder im Endspiel stark.
Das eine hebt das andere auf aber zum Eichen ist immer besser eine Engine zu wählen die ausgeglichen spielt und genau das macht Shredder nicht.

Gruß
Frank
Parent - By Frank Quisinsky Date 2014-05-01 22:52
That's Computer Chess!
Weiter machen ... was immer ihr gerade auch macht
Up Topic Hauptforen / CSS-Forum / Ponder on/off Vergleich, SWCR2 und FCT1 nach 489/850

Powered by mwForum 2.29.3 © 1999-2014 Markus Wichitill