SWCR-32: SF 1.8.0 Ergebnisse / Vergleich ... langer Beitrag!

By Frank Quisinsky Date 2010-07-06 01:29

Hallo zusammen,

wird ein längerer Beitrag!

Beginnen wir mit der aktuellen SWCR-32 Ratingliste:

Code:

01. Rybka 4                      2.892 22 21 800 77% 2.694 32%
02. Stockfish 1.8.0 JA           2.864 21 20 800 74% 2.695 37%
03. Naum 4.2                     2.835 20 20 800 70% 2.696 36%
04. Shredder 12                  2.800 20 20 800 65% 2.698 37%
05. Critter 0.70                 2.779 20 19 800 62% 2.699 40%
06. Deep Fritz 12                2.776 19 19 800 61% 2.699 43%
07. Komodo 1.2 JA                2.761 19 19 800 59% 2.700 41%
08. Hiarcs 13.1                  2.735 19 19 800 55% 2.701 42%
09. Thinker 5.4d Inert           2.718 19 19 800 52% 2.702 38%
10. Spark 0.5                    2.717 19 19 800 52% 2.702 41%
11. Junior 11.2                  2.688 20 20 800 48% 2.704 34%
12. Sjeng WC-2008                2.673 19 20 800 45% 2.704 36%
13. Protector 1.3.5 JA           2.670 19 19 800 45% 2.705 43%
14. Zappa Mexico II              2.663 19 19 800 44% 2.705 41%
15. Onno 1.2.70                  2.633 19 19 800 39% 2.707 41%
16. Loop 2007                    2.616 20 20 800 37% 2.707 37%
17. Fruit 05/11/03               2.614 19 20 800 36% 2.707 40%
18. Ktulu 9.03                   2.611 20 20 800 36% 2.708 31%
19. SmarThink 1.20               2.585 20 20 800 32% 2.709 37%
20. Twisted Logic 20100131x      2.575 20 21 800 32% 2.709 30%
21. Spike 1.2 Turin              2.559 21 21 800 29% 2.710 32%

Stockfish 1.8.1 JA gliedert sich demnach wie folgt in die Ratingliste aller SWCR Partien ein ...

Nach 27.320 Partien:

Code:

01. Rybka 4                      2.895 22 21  840 76% 2.703 32%
02. Stockfish 1.7.1 JA           2.875 18 18 1200 75% 2.691 31%
--. Stockfish 1.8.0 JA           2.865 21 21  800 74% 2.696 37% -10
--. Rybka 3                      2.861 16 16 1480 74% 2.691 31%
--. Stockfish 1.6.3 JA           2.828 19 18 1040 71% 2.682 36%
03. Naum 4.2                     2.826 16 16 1360 68% 2.700 36%
--. Naum 4.1                     2.814 20 20  880 68% 2.688 35%
--. Stockfish 1.6.0 JA           2.806 19 19  920 68% 2.689 39%
04. Shredder 12                  2.800 14 13 1880 64% 2.702 37%
--. Naum 4.0                     2.786 19 19  920 65% 2.684 38%
05. Deep Fritz 12                2.780 15 15 1440 61% 2.704 42%
06. Critter 0.70                 2.778 20 19  840 60% 2.709 40%
07. Komodo 1.2 JA                2.763 19 19  840 58% 2.710 41%
--. Fritz 12                     2.747 17 17 1120 59% 2.690 44%
08. Hiarcs 13.1                  2.737 19 19  840 54% 2.711 42%
--. Stockfish 1.5.1 JA           2.735 20 20  800 60% 2.672 42%
09. Spark 0.5                    2.715 19 19  840 50% 2.712 40%
--. Komodo 1.0 JA                2.714 17 16 1160 53% 2.697 40%
10. Thinker 5.4d Inert           2.713 13 13 1880 51% 2.704 42%
11. Junior 11.2                  2.690 20 20  840 47% 2.713 33%
--. Doch 1.3.4 JA                2.690 19 19  800 50% 2.688 44%
--. Critter 0.60                 2.689 18 18  920 50% 2.689 39%
--. Spark 0.4                    2.687 19 19  880 49% 2.693 43%
12. Protector 1.3.4 JA           2.680 18 19  920 48% 2.692 39%
--. Protector 1.3.2              2.679 17 17 1120 47% 2.697 41%
--. Protector 1.3.5 JA           2.671 19 19  840 44% 2.714 42%
--. Junior 2010                  2.671 16 16 1200 47% 2.693 37%
--. Hiarcs 12.1                  2.668 19 19  840 47% 2.691 41%
--. Doch 1.2 JA                  2.667 20 20  800 48% 2.680 41%
--. Protector 1.3.1b             2.666 19 19  800 46% 2.692 42%
--. Hiarcs 12.1 Sharpen PV       2.665 16 16 1240 45% 2.701 39%
13. Sjeng WC-2008                2.664 13 13 1880 44% 2.705 37%
14. Zappa Mexico II              2.663 13 13 1880 44% 2.705 43%
--. Spark 0.3a                   2.658 17 17 1080 44% 2.700 41%
--. Doch 09.980 JA               2.652 20 20  800 46% 2.677 41%
--. Junior 11.1a                 2.647 18 18  960 44% 2.693 36%
--. Spark 0.3                    2.643 19 19  840 43% 2.693 42%
15. Onno 1.2.70                  2.632 19 20  840 38% 2.716 40%
--. Onno 1.1.1                   2.632 15 15 1480 40% 2.697 41%
16. Loop 2007                    2.619 20 20  840 36% 2.716 36%
17. Fruit 05/11/03               2.618 13 13 1880 37% 2.706 41%
--. Loop 13.6                    2.617 15 15 1480 38% 2.698 39%
--. Critter 0.52b                2.615 18 18 1040 38% 2.700 37%
--. Glaurung 2.2 JA              2.612 18 18 1040 37% 2.702 36%
18. Ktulu 9.03                   2.610 16 16 1440 36% 2.709 30%
19. SmarThink 1.20               2.598 13 13 1880 34% 2.706 38%
20. Twisted Logic 20100131x      2.576 15 15 1600 32% 2.709 30%
21. Spike 1.2 Turin              2.574 16 16 1400 31% 2.708 34%

Erste Frage ...
Sind es nun wirklich -10 ...

Setzen wir in die SWCR-32 der TOP-21 einfach Stockfish 1.7.1 JA als Engine 22 hinzu:

Code:

   1 Rybka 4                  2895   21   21   840   76%  2702   32% 
   2 Stockfish 1.7.1 JA       2875   21   21   800   75%  2695   31%
   3 Stockfish 1.8.0 JA       2864   21   20   800   74%  2695   37% -11 
   4 Naum 4.2                 2834   20   20   840   68%  2705   36% 
   5 Shredder 12              2800   19   19   840   63%  2707   38% 
   6 Deep Fritz 12            2779   19   19   840   60%  2708   43% 
   7 Critter 0.70             2777   19   19   840   60%  2708   40% 
   8 Komodo 1.2 JA            2762   19   19   840   58%  2709   41% 
   9 Hiarcs 13.1              2736   19   19   840   54%  2710   42% 
  10 Thinker 5.4d Inert       2718   19   19   840   51%  2711   38% 
  11 Spark 0.5                2714   19   19   840   50%  2711   40% 
  12 Junior 11.2              2689   19   19   840   47%  2712   33% 
  13 Sjeng WC-2008            2674   19   19   840   44%  2713   35% 
  14 Protector 1.3.5 JA       2670   19   19   840   44%  2713   42% 
  15 Zappa Mexico II          2662   19   19   840   43%  2713   40% 
  16 Onno 1.2.70              2631   19   19   840   38%  2715   40% 
  17 Loop 2007                2618   19   20   840   36%  2715   36% 
  18 Fruit 05/11/03           2613   19   19   840   35%  2716   40% 
  19 Ktulu 9.03               2612   20   20   840   35%  2716   31% 
  20 SmarThink 1.20           2583   20   20   840   31%  2717   36% 
  21 Twisted Logic 20100131x  2577   20   20   840   31%  2717   30% 
  22 Spike 1.2 Turin          2558   20   21   840   28%  2718   31%

OK, das scheint klar zu sein ...

Schauen wir uns die Einzelergebnisse an:

Code:

2 Stockfish 1.7.1 JA        : 2879  800 (+472,=248,- 80), 74.5 %

Deep Fritz 12                 :  40 (+ 12,= 22,-  6), 57.5 %
Ktulu 9.03                    :  40 (+ 28,= 11,-  1), 83.8 %
SmarThink 1.20                :  40 (+ 33,=  7,-  0), 91.2 %
Shredder 12                   :  40 (+ 15,= 21,-  4), 63.7 %
Naum 4.2                      :  40 (+ 14,= 20,-  6), 60.0 %
Spike 1.2 Turin               :  40 (+ 34,=  6,-  0), 92.5 %
Critter 0.70                  :  40 (+ 21,= 15,-  4), 71.2 %
Junior 11.2                   :  40 (+ 24,= 10,-  6), 72.5 %
Hiarcs 13.1                   :  40 (+ 18,= 18,-  4), 67.5 %
Komodo 1.2 JA                 :  40 (+ 18,= 14,-  8), 62.5 %
Onno 1.2.70                   :  40 (+ 31,=  6,-  3), 85.0 %
Rybka 4                       :  40 (+  9,= 14,- 17), 40.0 %
Protector 1.3.5 JA            :  40 (+ 26,= 11,-  3), 78.8 %
Spark 0.5                     :  40 (+ 28,= 11,-  1), 83.8 %
Zappa Mexico II               :  40 (+ 29,=  5,-  6), 78.8 %
Loop 2007                     :  40 (+ 27,= 11,-  2), 81.2 %
Fruit 05/11/03                :  40 (+ 30,= 10,-  0), 87.5 %
Sjeng WC-2008                 :  40 (+ 26,=  9,-  5), 76.2 %
Thinker 5.4d Inert            :  40 (+ 22,= 15,-  3), 73.8 %
Twisted Logic 20100131x       :  40 (+ 27,= 12,-  1), 82.5 %

3 Stockfish 1.8.0 JA        : 2875  800 (+443,=298,- 59), 74.0 %

Deep Fritz 12                 :  40 (+ 22,= 14,-  4), 72.5 % deutlich besser
Ktulu 9.03                    :  40 (+ 26,= 13,-  1), 81.2 % minimal schlechter
SmarThink 1.20                :  40 (+ 29,= 10,-  1), 85.0 % deutlich schlechter
Shredder 12                   :  40 (+ 13,= 20,-  7), 57.5 % deutllich schlechter
Naum 4.2                      :  40 (+ 15,= 16,-  9), 57.5 % ca. gleich
Spike 1.2 Turin               :  40 (+ 37,=  3,-  0), 96.2 % ca. gleich
Critter 0.70                  :  40 (+ 18,= 19,-  3), 68.8 % ca. gleich
Junior 11.2                   :  40 (+ 21,= 16,-  3), 72.5 % identisch
Hiarcs 13.1                   :  40 (+ 19,= 18,-  3), 70.0 % ca. gleich
Komodo 1.2 JA                 :  40 (+ 15,= 20,-  5), 62.5 % identisch
Onno 1.2.70                   :  40 (+ 24,= 16,-  0), 80.0 % schlechter
Rybka 4                       :  40 (+  6,= 26,-  8), 47.5 % deutlich besser ... witzig ... dann wird es vielen gar nicht auffallen.
Protector 1.3.5 JA            :  40 (+ 26,= 13,-  1), 81.2 % minimal besser
Spark 0.5                     :  40 (+ 17,= 20,-  3), 67.5 % deutlich schlechter ... da derzeit Version 0.5 privat ... dann wird es auch wenigen auffallen!
Zappa Mexico II               :  40 (+ 20,= 16,-  4), 70.0 % deutlich schlechter ... interessant!
Loop 2007                     :  40 (+ 29,= 10,-  1), 85.0 % minimal besser
Fruit 05/11/03                :  40 (+ 29,= 10,-  1), 85.0 % ca. gleich
Sjeng WC-2008                 :  40 (+ 29,= 10,-  1), 85.0 % deutlich besser
Thinker 5.4d Inert            :  40 (+ 19,= 18,-  3), 70.0 % ca. gleich
Twisted Logic 20100131x       :  40 (+ 29,= 10,-  1), 85.0 % ca. gleich

Letzendlich können wir festhalten ...
Gegen stark schwächere Engines minimal schlechtere Ergebnisse
Gegen bessere unterschiedlich ... Rybka gut, Shredder schlecht ...

Gegen Taktiker im Grunde schlechtere Ergebnisse.
Bedeutet ... Verdacht ... SF übersieht das eine oder andere.

Nun sendete Marco eine Test Version:
Stockfish 1.8.0a JA ...

Marco Costalba:
"Stockfish 1.8a and is 100% similar to 1.8 but with the LMR rules reverted to 1.7.1"

Alles sehr schwierig bei diesem Niveau zu testen und meine Vermutungen bleiben Vermutungen.
Aber Grund genug die Sache zu testen.

Im Grunde verliert SF 1.8.0 JA deutlich weniger Partien als SF 1.7.1 JA. Dafür aber auch 6-7% mehr Remispartien.

SF 1.8.0 hat 32x unter 56 Zügen gewonnen und 4x unter 56 Zügen verloren.
SF 1.7.1 hat 37x unter 56 Zügen gewonnen und 2x unter 56 Zügen verloren.

Hier hatte sich noch einiges getan, nach den ersten Partien waren es deutlich weniger Partie die SF schnell gewonnen hat.
OK, SF spielt also nach wie vor aggressiv ... meine Vermutung (TalkChess) trifft nicht!

Fest steht es werden auch deutlich weniger Partien im Vergleich zur Version 1.7.1 gewonnen.
Aber warum werden weniger Partien gewonnen und wo werden weniger Partien gewonnen ... klare Antwort ... im Übergang zum Endspiel.

Folglich ... SF 1.7.1 scheint hier stärker zu sein!

Alles nicht so einfach ...

Bei einer Test-Suite passiert nun folgendes:

SF 1.8.0 (löst geringfügig mehr Aufgaben, sehr geringfügig mehr Aufgaben).
SF 1.8.0a (löst dafür 80% deutlich ... um durschnittlich 40-50% schneller).

Das könnte es sein!

Frage:
Wie wirkt sich das nun bei den Partien aus ...

Nun alles von vorne ... mit Stockfish 1.8.0a!

Gruß
Frank