Not logged inCSS-Forum
Forum CSS-Online Help Search Login
CSS-Shop Impressum Datenschutz
Up Topic Hauptforen / CSS-Forum / Turnier/Rangliste, Bedenkzeit: 15.00 Sek. + 0.05 Sek.
- - By Andreas Strangmüller Date 2013-05-30 07:34
Bedingungen:
je 1 Kern, 128 MB Hash, Buch: 8moves_GM.pgn,
ausgetragen mit dem Cutechess-Client

Hardware:
AMD FX-8350 @ 4,6 GHz, Turbo Core aus
Fritzmark: 30.41 / 14598

Engines:
Critter 1.6a 64-bit
Deep Rybka 4.1 SSE42 x64
Houdini 3 x64
Komodo CCT 64-bit
Stockfish 3 Ja 64bit

----------------------------------------------------------------+--------------------------------------------------------------
  Bedenkzeit: 15.00 Sek. + 0.05 Sek. pro Partie                 |  Bedenkzeit: 7.50 Sek + 0.05 Sek. pro Partie
  ---------------------------------------------                 |  -------------------------------------------
                                                                |
ELOstat Startwert: 3000                                         |
                                                                | 
    Program         Elo   +  -  Games   Score   Av.Op.  Draws   |    Program         Elo   +  -  Games   Score   Av.Op.  Draws
  ------------------------------------------------------------  |  ------------------------------------------------------------
  1 Houdini 3     : 3083  4  4  20000   64.5 %   2979   46.2 %  |  1 Houdini 3     : 3094  4  4  20000   66.4 %   2976   43.5 %
  2 Critter 1.6a  : 3013  3  3  20000   52.4 %   2996   52.1 %  |  2 Critter 1.6a  : 3020  3  3  20000   53.6 %   2995   49.8 %
  3 Komodo CCT    : 3012  3  3  20000   52.2 %   2997   47.4 %  |  3 Komodo CCT    : 3009  4  4  20000   51.6 %   2998   45.6 %
  4 Rybka 4.1     : 2959  4  4  20000   42.8 %   3010   46.5 %  |  4 Rybka 4.1     : 2962  4  4  20000   43.3 %   3009   43.5 %
  5 Stockfish 3   : 2932  4  4  20000   38.1 %   3017   44.2 %  |  5 Stockfish 3   : 2914  4  4  20000   35.1 %   3021   40.4 %
                                                                |
----------------------------------------------------------------+--------------------------------------------------------------

  Tournament

    Program              Score       %    Av.Op. Elo   +  -   Draws
  ------------------------------------------------------------------
  1 Houdini 3     : 12903.5/20000  64.5   2979   3083  4  4   46.2 %
  2 Critter 1.6a  : 10479.5/20000  52.4   2996   3013  3  3   52.1 %
  3 Komodo CCT    : 10445.5/20000  52.2   2997   3012  3  3   47.4 %
  4 Rybka 4.1     :  8552.0/20000  42.8   3010   2959  4  4   46.5 %
  5 Stockfish 3   :  7619.5/20000  38.1   3017   2932  4  4   44.2 %

--------------------------------------------------------------------

  Bayeselo

    Program       Elo  +  -  Games  Score  Oppo.  Draws
  -----------------------------------------------------
  1 Houdini 3     72   5  5  20000   65 %   -18    46 %
  2 Critter 1.6a  12   4  4  20000   52 %    -3    52 %
  3 Komodo CCT    11   5  5  20000   52 %    -3    47 %
  4 Rybka 4.1    -36   5  4  20000   43 %     9    47 %
  5 Stockfish 3  -60   4  4  20000   38 %    15    44 %

---------------------------------------------------------

Individual statistics:

1 Houdini 3     : 3083  20000 (+8280,=9247,-2473),  64.5 %

  Critter 1.6a  :        5000 (+1581,=2794,-625),   59.6 %
  Komodo CCT    :        5000 (+1838,=2361,-801),   60.4 %
  Rybka 4.1     :        5000 (+2280,=2160,-560),   67.2 %
  Stockfish 3   :        5000 (+2581,=1932,-487),   70.9 %

2 Critter 1.6a  : 3013  20000 (+5268,=10423,-4309), 52.4 %

  Houdini 3     :        5000 (+625,=2794,-1581),   40.4 %
  Komodo CCT    :        5000 (+1214,=2577,-1209),  50.0 %
  Rybka 4.1     :        5000 (+1608,=2602,-790),   58.2 %
  Stockfish 3   :        5000 (+1821,=2450,-729),   60.9 %

3 Komodo CCT    : 3012  20000 (+5704,=9483,-4813),  52.2 %

  Houdini 3     :        5000 (+801,=2361,-1838),   39.6 %
  Critter 1.6a  :        5000 (+1209,=2577,-1214),  50.0 %
  Rybka 4.1     :        5000 (+1765,=2311,-924),   58.4 %
  Stockfish 3   :        5000 (+1929,=2234,-837),   60.9 %

4 Rybka 4.1     : 2959  20000 (+3899,=9306,-6795),  42.8 %

  Houdini 3     :        5000 (+560,=2160,-2280),   32.8 %
  Critter 1.6a  :        5000 (+790,=2602,-1608),   41.8 %
  Komodo CCT    :        5000 (+924,=2311,-1765),   41.6 %
  Stockfish 3   :        5000 (+1625,=2233,-1142),  54.8 %

5 Stockfish 3   : 2932  20000 (+3195,=8849,-7956),  38.1 %

  Houdini 3     :        5000 (+487,=1932,-2581),   29.1 %
  Critter 1.6a  :        5000 (+729,=2450,-1821),   39.1 %
  Komodo CCT    :        5000 (+837,=2234,-1929),   39.1 %
  Rybka 4.1     :        5000 (+1142,=2233,-1625),  45.2 %

---------------------------------------------------------

Games        :  50000 (finished)

White Wins   :  15723 (31.4 %)
Black Wins   :  10623 (21.2 %)
Draws        :  23654 (47.3 %)

White Perf.  : 55.1 %
Black Perf.  : 44.9 %

ECO A =  20181 Games (40.4 %)
ECO B =  12140 Games (24.3 %)
ECO C =   6499 Games (13.0 %)
ECO D =   5320 Games (10.6 %)
ECO E =   5860 Games (11.7 %)
Parent - - By Ingo Bauer Date 2013-05-30 08:12
Moin

Diese genaue Auswertung parallel zum 7.5s Turnier wäre interessant.
Ansonsten ist 47% Remisquote sehr hoch wenn man bedenkt das die bei längeren Bedenkzeiten weiter ansteigen müßte. Gibts dafür Gründe?

Gruß
Ingo

[quote="Andreas Strangmüller"]
Bedingungen:
je 1 Kern, 128 MB Hash, Buch: 8moves_GM.pgn,
ausgetragen mit dem Cutechess-Client

Hardware:
AMD FX-8350 @ 4,6 GHz, Turbo Core aus
Fritzmark: 30.41 / 14598

Engines:
Critter 1.6a 64-bit
Deep Rybka 4.1 SSE42 x64
Houdini 3 x64
Komodo CCT 64-bit
Stockfish 3 Ja 64bit

----------------------------------------------------------------+--------------------------------------------------------------
  Bedenkzeit: 15.00 Sek. + 0.05 Sek. pro Partie                 |  Bedenkzeit: 7.50 Sek + 0.05 Sek. pro Partie
  ---------------------------------------------                 |  -------------------------------------------
                                                                |
ELOstat Startwert: 3000                                         |
                                                                | 
    Program         Elo   +  -  Games   Score   Av.Op.  Draws   |    Program         Elo   +  -  Games   Score   Av.Op.  Draws
  ------------------------------------------------------------  |  ------------------------------------------------------------
  1 Houdini 3     : 3083  4  4  20000   64.5 %   2979   46.2 %  |  1 Houdini 3     : 3094  4  4  20000   66.4 %   2976   43.5 %
  2 Critter 1.6a  : 3013  3  3  20000   52.4 %   2996   52.1 %  |  2 Critter 1.6a  : 3020  3  3  20000   53.6 %   2995   49.8 %
  3 Komodo CCT    : 3012  3  3  20000   52.2 %   2997   47.4 %  |  3 Komodo CCT    : 3009  4  4  20000   51.6 %   2998   45.6 %
  4 Rybka 4.1     : 2959  4  4  20000   42.8 %   3010   46.5 %  |  4 Rybka 4.1     : 2962  4  4  20000   43.3 %   3009   43.5 %
  5 Stockfish 3   : 2932  4  4  20000   38.1 %   3017   44.2 %  |  5 Stockfish 3   : 2914  4  4  20000   35.1 %   3021   40.4 %
                                                                |
----------------------------------------------------------------+--------------------------------------------------------------

  Tournament

    Program              Score       %    Av.Op. Elo   +  -   Draws
  ------------------------------------------------------------------
  1 Houdini 3     : 12903.5/20000  64.5   2979   3083  4  4   46.2 %
  2 Critter 1.6a  : 10479.5/20000  52.4   2996   3013  3  3   52.1 %
  3 Komodo CCT    : 10445.5/20000  52.2   2997   3012  3  3   47.4 %
  4 Rybka 4.1     :  8552.0/20000  42.8   3010   2959  4  4   46.5 %
  5 Stockfish 3   :  7619.5/20000  38.1   3017   2932  4  4   44.2 %

--------------------------------------------------------------------

  Bayeselo

    Program       Elo  +  -  Games  Score  Oppo.  Draws
  -----------------------------------------------------
  1 Houdini 3     72   5  5  20000   65 %   -18    46 %
  2 Critter 1.6a  12   4  4  20000   52 %    -3    52 %
  3 Komodo CCT    11   5  5  20000   52 %    -3    47 %
  4 Rybka 4.1    -36   5  4  20000   43 %     9    47 %
  5 Stockfish 3  -60   4  4  20000   38 %    15    44 %

---------------------------------------------------------

Individual statistics:

1 Houdini 3     : 3083  20000 (+8280,=9247,-2473),  64.5 %

  Critter 1.6a  :        5000 (+1581,=2794,-625),   59.6 %
  Komodo CCT    :        5000 (+1838,=2361,-801),   60.4 %
  Rybka 4.1     :        5000 (+2280,=2160,-560),   67.2 %
  Stockfish 3   :        5000 (+2581,=1932,-487),   70.9 %

2 Critter 1.6a  : 3013  20000 (+5268,=10423,-4309), 52.4 %

  Houdini 3     :        5000 (+625,=2794,-1581),   40.4 %
  Komodo CCT    :        5000 (+1214,=2577,-1209),  50.0 %
  Rybka 4.1     :        5000 (+1608,=2602,-790),   58.2 %
  Stockfish 3   :        5000 (+1821,=2450,-729),   60.9 %

3 Komodo CCT    : 3012  20000 (+5704,=9483,-4813),  52.2 %

  Houdini 3     :        5000 (+801,=2361,-1838),   39.6 %
  Critter 1.6a  :        5000 (+1209,=2577,-1214),  50.0 %
  Rybka 4.1     :        5000 (+1765,=2311,-924),   58.4 %
  Stockfish 3   :        5000 (+1929,=2234,-837),   60.9 %

4 Rybka 4.1     : 2959  20000 (+3899,=9306,-6795),  42.8 %

  Houdini 3     :        5000 (+560,=2160,-2280),   32.8 %
  Critter 1.6a  :        5000 (+790,=2602,-1608),   41.8 %
  Komodo CCT    :        5000 (+924,=2311,-1765),   41.6 %
  Stockfish 3   :        5000 (+1625,=2233,-1142),  54.8 %

5 Stockfish 3   : 2932  20000 (+3195,=8849,-7956),  38.1 %

  Houdini 3     :        5000 (+487,=1932,-2581),   29.1 %
  Critter 1.6a  :        5000 (+729,=2450,-1821),   39.1 %
  Komodo CCT    :        5000 (+837,=2234,-1929),   39.1 %
  Rybka 4.1     :        5000 (+1142,=2233,-1625),  45.2 %

---------------------------------------------------------

Games        :  50000 (finished)

White Wins   :  15723 (31.4 %)
Black Wins   :  10623 (21.2 %)
Draws        :  23654 (47.3 %)

White Perf.  : 55.1 %
Black Perf.  : 44.9 %

ECO A =  20181 Games (40.4 %)
ECO B =  12140 Games (24.3 %)
ECO C =   6499 Games (13.0 %)
ECO D =   5320 Games (10.6 %)
ECO E =   5860 Games (11.7 %)

[/quote]
Parent - - By Andreas Strangmüller Date 2013-05-30 08:53
Hallo Ingo,

hier die Gegenüberstellung:

30.00+0.05, 60.00+0.05 sowie 300.00 Sek. + 0.05 Sek. folgen.

Die höhere Remisquote kommt daher, da ich den Cutechess-Client, exakt wie im Stockfish Testing Framework, mit folgenden Parametern starte:
-draw movenumber=34 movecount=8 score=20

Gruß
Andreas


----------------------------------------------------------------+--------------------------------------------------------------
  Bedenkzeit: 15.00 Sek. + 0.05 Sek. pro Partie                 |  Bedenkzeit: 7.50 Sek + 0.05 Sek. pro Partie
  ---------------------------------------------                 |  -------------------------------------------
                                                                |
ELOstat Startwert: 3000                                         |
                                                                | 
    Program         Elo   +  -  Games   Score   Av.Op.  Draws   |    Program         Elo   +  -  Games   Score   Av.Op.  Draws
  ------------------------------------------------------------  |  ------------------------------------------------------------
  1 Houdini 3     : 3083  4  4  20000   64.5 %   2979   46.2 %  |  1 Houdini 3     : 3094  4  4  20000   66.4 %   2976   43.5 %
  2 Critter 1.6a  : 3013  3  3  20000   52.4 %   2996   52.1 %  |  2 Critter 1.6a  : 3020  3  3  20000   53.6 %   2995   49.8 %
  3 Komodo CCT    : 3012  3  3  20000   52.2 %   2997   47.4 %  |  3 Komodo CCT    : 3009  4  4  20000   51.6 %   2998   45.6 %
  4 Rybka 4.1     : 2959  4  4  20000   42.8 %   3010   46.5 %  |  4 Rybka 4.1     : 2962  4  4  20000   43.3 %   3009   43.5 %
  5 Stockfish 3   : 2932  4  4  20000   38.1 %   3017   44.2 %  |  5 Stockfish 3   : 2914  4  4  20000   35.1 %   3021   40.4 %
                                                                |
----------------------------------------------------------------+--------------------------------------------------------------
                                                                |
  Tournament                                                    |
                                                                |
    Program         Score      %    Av.Op. Elo   +  -   Draws   |    Program          Score    %    Av.Op.  Elo   +  -   Draws
  --------------------------------------------------------------+--------------------------------------------------------------
  1 Houdini 3     : 12903.5  64.5   2979   3083  4  4   46.2 %  |  1 Houdini 3     : 13273.0  66.4   2976   3094  4  4   43.5 %
  2 Critter 1.6a  : 10479.5  52.4   2996   3013  3  3   52.1 %  |  2 Critter 1.6a  : 10723.5  53.6   2995   3020  3  3   49.8 %
  3 Komodo CCT    : 10445.5  52.2   2997   3012  3  3   47.4 %  |  3 Komodo CCT    : 10322.5  51.6   2998   3009  4  4   45.6 %
  4 Rybka 4.1     :  8552.0  42.8   3010   2959  4  4   46.5 %  |  4 Rybka 4.1     :  8663.0  43.3   3009   2962  4  4   43.5 %
  5 Stockfish 3   :  7619.5  38.1   3017   2932  4  4   44.2 %  |  5 Stockfish 3   :  7018.0  35.1   3021   2914  4  4   40.4 %
                                                                |
----------------------------------------------------------------+-------------------------------------------------------------- 
                                                                |
  Bayeselo                                                      |
                                                                |
     Program       Elo  +  -  Games  Score  Oppo.  Draws        |    Program        Elo  +  -  Games  Score  Oppo. Draws
   -------------------------------------------------------------+--------------------------------------------------------------
   1 Houdini 3     72   5  5  20000   65 %   -18    46 %        |  1 Houdini 3       84  5  5  20000   66 %  -21    44 %
   2 Critter 1.6a  12   4  4  20000   52 %    -3    52 %        |  2 Critter 1.6a    19  4  4  20000   54 %   -5    50 %
   3 Komodo CCT    11   5  5  20000   52 %    -3    47 %        |  3 Komodo CCT       8  5  5  20000   52 %   -2    46 %
   4 Rybka 4.1    -36   5  4  20000   43 %     9    47 %        |  4 Rybka 4.1      -33  5  5  20000   43 %    8    44 %
   5 Stockfish 3  -60   4  4  20000   38 %    15    44 %        |  5 Stockfish 3    -77  5  5  20000   35 %   19    40 %
                                                                |
----------------------------------------------------------------+--------------------------------------------------------------
                                                                |
Individual statistics:                                          |
                                                                |
1 Houdini 3     : 3083  20000 (+8280,=9247,-2473),  64.5 %      |  1 Houdini 3     : 3094  20000 (+8923,=8700,-2377), 66.4 %
                                                                |
  Critter 1.6a  :        5000 (+1581,=2794,-625),   59.6 %      |    Critter 1.6a  :        5000 (+1656,=2784,-560),  61.0 %
  Komodo CCT    :        5000 (+1838,=2361,-801),   60.4 %      |    Komodo CCT    :        5000 (+1965,=2225,-810),  61.6 %
  Rybka 4.1     :        5000 (+2280,=2160,-560),   67.2 %      |    Rybka 4.1     :        5000 (+2432,=1976,-592),  68.4 %
  Stockfish 3   :        5000 (+2581,=1932,-487),   70.9 %      |    Stockfish 3   :        5000 (+2870,=1715,-415),  74.6 %
                                                                |
2 Critter 1.6a  : 3013  20000 (+5268,=10423,-4309), 52.4 %      |  2 Critter 1.6a  : 3020  20000 (+5741,=9965,-4294), 53.6 %
                                                                |
  Houdini 3     :        5000 (+625,=2794,-1581),   40.4 %      |    Houdini 3     :        5000 (+560,=2784,-1656),  39.0 %
  Komodo CCT    :        5000 (+1214,=2577,-1209),  50.0 %      |    Komodo CCT    :        5000 (+1349,=2508,-1143), 52.1 %
  Rybka 4.1     :        5000 (+1608,=2602,-790),   58.2 %      |    Rybka 4.1     :        5000 (+1701,=2438,-861),  58.4 %
  Stockfish 3   :        5000 (+1821,=2450,-729),   60.9 %      |    Stockfish 3   :        5000 (+2131,=2235,-634),  65.0 %
                                                                |
3 Komodo CCT    : 3012  20000 (+5704,=9483,-4813),  52.2 %      |  3 Komodo CCT    : 3009  20000 (+5762,=9121,-5117), 51.6 %
                                                                |
  Houdini 3     :        5000 (+801,=2361,-1838),   39.6 %      |    Houdini 3     :        5000 (+810,=2225,-1965),  38.5 %
  Critter 1.6a  :        5000 (+1209,=2577,-1214),  50.0 %      |    Critter 1.6a  :        5000 (+1143,=2508,-1349), 47.9 %
  Rybka 4.1     :        5000 (+1765,=2311,-924),   58.4 %      |    Rybka 4.1     :        5000 (+1705,=2275,-1020), 56.9 %
  Stockfish 3   :        5000 (+1929,=2234,-837),   60.9 %      |    Stockfish 3   :        5000 (+2104,=2113,-783),  63.2 %
                                                                |
4 Rybka 4.1     : 2959  20000 (+3899,=9306,-6795),  42.8 %      |  4 Rybka 4.1     : 2962  20000 (+4312,=8702,-6986), 43.3 %
                                                                |
  Houdini 3     :        5000 (+560,=2160,-2280),   32.8 %      |    Houdini 3     :        5000 (+592,=1976,-2432),  31.6 %
  Critter 1.6a  :        5000 (+790,=2602,-1608),   41.8 %      |    Critter 1.6a  :        5000 (+861,=2438,-1701),  41.6 %
  Komodo CCT    :        5000 (+924,=2311,-1765),   41.6 %      |    Komodo CCT    :        5000 (+1020,=2275,-1705), 43.1 %
  Stockfish 3   :        5000 (+1625,=2233,-1142),  54.8 %      |    Stockfish 3   :        5000 (+1839,=2013,-1148), 56.9 %
                                                                |
5 Stockfish 3   : 2932  20000 (+3195,=8849,-7956),  38.1 %      |  5 Stockfish 3   : 2914  20000 (+2980,=8076,-8944), 35.1 %
                                                                |
  Houdini 3     :        5000 (+487,=1932,-2581),   29.1 %      |    Houdini 3     :        5000 (+415,=1715,-2870),  25.4 %
  Critter 1.6a  :        5000 (+729,=2450,-1821),   39.1 %      |    Critter 1.6a  :        5000 (+634,=2235,-2131),  35.0 %
  Komodo CCT    :        5000 (+837,=2234,-1929),   39.1 %      |    Komodo CCT    :        5000 (+783,=2113,-2104),  36.8 %
  Rybka 4.1     :        5000 (+1142,=2233,-1625),  45.2 %      |    Rybka 4.1     :        5000 (+1148,=2013,-1839), 43.1 %
                                                                |
----------------------------------------------------------------+-----------------------------------------------------------
                                                                |
Games        :  50000 (finished)                                |  Games        :  50000 (finished)
                                                                |
White Wins   :  15723 (31.4 %)                                  |  White Wins   :  16164 (32.3 %)
Black Wins   :  10623 (21.2 %)                                  |  Black Wins   :  11554 (23.1 %)
Draws        :  23654 (47.3 %)                                  |  Draws        :  22282 (44.6 %)
                                                                |
White Perf.  : 55.1 %                                           |  White Perf.  : 54.6 %
Black Perf.  : 44.9 %                                           |  Black Perf.  : 45.4 %
                                                                |
ECO A =  20181 Games (40.4 %)                                   |  ECO A =  20138 Games (40.3 %)
ECO B =  12140 Games (24.3 %)                                   |  ECO B =  12026 Games (24.1 %)
ECO C =   6499 Games (13.0 %)                                   |  ECO C =   6636 Games (13.3 %)
ECO D =   5320 Games (10.6 %)                                   |  ECO D =   5208 Games (10.4 %)
ECO E =   5860 Games (11.7 %)                                   |  ECO E =   5992 Games (12.0 %)
----------------------------------------------------------------------------------------------------------------------------
Parent - - By Ingo Bauer Date 2013-05-30 12:27 Edited 2013-05-30 12:31
[quote="Andreas Strangmüller"]
...
Die höhere Remisquote kommt daher, da ich den Cutechess-Client, exakt wie im Stockfish Testing Framework, mit folgenden Parametern starte:
-draw movenumber=34 movecount=8 score=20
....
[/quote]

Ist das richtig so: Wenn nach dem 34 Zug 8 Züge (Ply?) lang ein Score von unter 0.2 liegt dann ist es ein Remis?

Ich bin nicht ganz sicher das das was ich verstehe wirklich so gemeint sein soll? Wenn ja, dann mag das für eine Engineentwicklung in dem 'Engine alt' gegen 'Engine neu' spielt gut sein, als Rangliste zw. verschiedenen Engines taugt das nicht wenn deshalb eine so hohe Remisquote erfolgt. Schau dir mal irgendeine Rangliste an, KEINE hat eine so hohe Remisquote ...
Nochmal, das habe ich bestimmt falsch verstanden - hoffe ich!

Gruß
Ingo
Parent - - By Ingo Bauer Date 2013-05-30 13:13 Edited 2013-05-30 13:22
[quote="Ingo Bauer"]
[quote="Andreas Strangmüller"]
...
Die höhere Remisquote kommt daher, da ich den Cutechess-Client, exakt wie im Stockfish Testing Framework, mit folgenden Parametern starte:
-draw movenumber=34 movecount=8 score=20
....
[/quote]

Ist das richtig so: Wenn nach dem 34 Zug 8 Züge (Ply?) lang ein Score von unter 0.2 liegt dann ist es ein Remis?

Ich bin nicht ganz sicher das das was ich verstehe wirklich so gemeint sein soll? Wenn ja, dann mag das für eine Engineentwicklung in dem 'Engine alt' gegen 'Engine neu' spielt gut sein, als Rangliste zw. verschiedenen Engines taugt das nicht wenn deshalb eine so hohe Remisquote erfolgt. Schau dir mal irgendeine Rangliste an, KEINE hat eine so hohe Remisquote ...
Nochmal, das habe ich bestimmt falsch verstanden - hoffe ich!

Gruß
Ingo
[/quote]

Von den 34 sind 8 auch noch aus dem Buch. Ich würde wirklich KEIN Buch verwenden sondern Startstellungen! Im ungünstigen Fall oben werden also nur 34-8(Buch)+8(Draw)=34 eigene Züge berechnet ehe die GUI ein Remis daraus macht.

Remisquote:

CEGT 40/4 = 30,9%
IPON = 36,1%
CEGT 40/20 = 36,8%
CEGT 40/20 PBON = 42,1%
VEGT 40/120 = 46,1%

Das ist sortiert nach Rechenzeit pro Engine. Deine Remisquote ist also höher als sie bei 40/120 zu erwarten wäre ...


Ansonsten wird es interessant zu sehen bei welcher Länge der Zeitkontrolle die Eloänderung flacher wird ... an diesem Punkt ist dann die Länge erreicht in dem Zeitkontrollen für Ranglisten Sinn machen, darunter ist es ok für Engineentwicklung, macht aber keinen Sinn für eine Rangliste.
Und nochmal, ich bin nicht sicher das dieses GUI Setting verantwortlich für die hohe Remisquote ist. Die Remisquote ist auf jedenfall SEHR hoch. Wie lang sind denn jeweils deine Partien im Schnitt?

Bei mir ist der Durchschnitt 68 Züge bei 239800 Partien - (wobei der Median interessanter wäre, den spuckt mir aber keine Software aus, ich sehe aber an der Kurve das der höher sein muß) - und die Classic macht ein Remis nach 3 Zügen BEIDER Engines mit EXAKT 0.00, was recht selten, und wenn dann im späten Endspiel wenn wirklich nichts mehr geht*, vorkommt!

Gruß
Ingo

*Und bei 45 oder mehr Zügen in der 50 Züge Regel. Dann bekommen die Engines etwas früher mit das das nichts mehr wird und bewerten mit 0.0. Ich habe recht wenige Spiele die wirklich alle 50 Züge ausgespielt haben!
Parent - - By Michael Scheidl Date 2013-05-30 14:13
Bei TCEC wurde diese Option in ChessGUI auf max. 5 cp. für 10 aufeinanderfolgende Plies (beider Engines natürlich) gesetzt, frühestes Remis bei Zug #41. Also wenn ich richtig verstehe, hat die Zählung ggfs. bei Zug #37 begonnen.

Eine Anforderung von glatt 0.00 wäre nicht ganz optimal, da ja einige Engines Materialvorteil in Tablebaseremisen mit +0.01 bewerten, was zwar Kosmetik aber eine m.E. sehr sinnvolle ist. 0.20 kommt auch mir spontan viel zu groß vor. Vielleicht haben die Stockfishleute festgestellt, daß bei ihren früheren Tests die allermeisten Gewinnpartien schon früh größere Bewertungen aufwiesen?

Oder sind das vielleicht 20 Tausendstel BE.? (Ich kenne Cutechess nur dem Namen nach.)
Parent - By Ingo Bauer Date 2013-05-30 19:28
[quote="Michael Scheidl"]
...
Eine Anforderung von glatt 0.00 wäre nicht ganz optimal, da ja einige Engines Materialvorteil in Tablebaseremisen mit +0.01 bewerten, was zwar Kosmetik aber eine m.E. sehr sinnvolle ist. ...
[/quote]

Na ja, 0.00 finde ich auch nicht optimal, es schadet aber auch nicht, die SPiele dauern halt länger. Ich bin aber immer noch an die Classic gebunden die als einzige Netzwerkturniere erlaubt. Alles andere ist mir zuviel Aufwand. Wenn das mal nicht mehr gehen sollte höre ich auf!

Gruß
Ingo
Parent - - By Andreas Strangmüller Date 2013-05-30 16:23 Edited 2013-05-30 16:30
Ingo Bauer schrieb:
Zitat:
Wie lang sind denn jeweils deine Partien im Schnitt?


Bei 7.50+0.05 sind es im Durchschnitt 60 Züge, bei 15.00+0.05, 59 Züge, bei 30.00+0.05 bisher 60 Züge, bei 60.00+0.05, 59 Züge und bei 300.00+0.05, 61 Züge. Alles in allem liegt der Durchschnitt also bei gut 60 Zügen.

Bei den 50000 Partien bei der Bedenkzeit 7.50+0.05 enden exakt 5043 Partien im 34. Zug mit Remis, dass sind immerhin 10 %.
Interessant, bei der Bendenkzeit 15.00+0.05 sind es ebenfalls genau 5043 Partien!

Viele Grüße,
Andreas
Parent - - By Ingo Bauer Date 2013-05-30 19:31
[quote="Andreas Strangmüller"]
Ingo Bauer schrieb:
Zitat:
Wie lang sind denn jeweils deine Partien im Schnitt?


Bei den 50000 Partien bei der Bedenkzeit 7.50+0.05 enden exakt 5043 Partien im 34. Zug mit Remis, dass sind immerhin 10 %.
Interessant, bei der Bendenkzeit 15.00+0.05 sind es ebenfalls genau 5043 Partien!

Viele Grüße,
Andreas


Hmm wie groß ist denn dieser Zufall das bei doppelter BEdenkzeit genau 2x5043 Partien gibt die im 34 Zug Remis gewertet wurden? Ich kann Zufall nicht ausschließen, aber ich bin da sehr skeptisch!

Gruß
Ingo
Parent - - By Andreas Strangmüller Date 2013-05-30 20:13
Gut das Du nochmal nachhakst. Hier die korrekten Zahlen, brauche jetzt glaub ich mal ne Pause

Remispartien nach exakt 34 Zügen:

07.50+0.05: 4645 aus 50000 = 9,3 %
15.00+0.05: 5043 aus 50000 = 10 %
30.00+0.05: 2607 aus 30000 = 8,7 %
60.00+0.05: 1906 aus 20000 = 9,5 %
300.00+0.05: 1845 aus 15000 = 12,3 %

Viele Grüße,
Andreas
Parent - By Frank Quisinsky Date 2013-05-30 21:18
Hi Andreas,

zwar ein anderes Thema aber jetzt mache mal diese Auswertung unter Berücksichtigung des ECO-Codes.
Daraufhin ist die SWCR Eröffnungsdatenbank mit den Vorgabestellung zuletzt optimiert wurden um bei den Vorgabestellung verhältnismäßig Remisträchtige Stellungen herauszufiltern.
Erhöht die Spannung bei Engine-Engine Vergleiche macht aber die Ergebnisse nicht besser, eher die Partien interessanter

Besser werden die Ergebnisse wenn die Remisquote hoher bleibt.
Kam immer zu diesen Ergebnissen!

Optimiert hatte ich nach Remispartien nach 28 Zügen nach den Vorgabestellungen (fast so wie bei Deiner Auswertung).

Viele Grüße
Frank
Parent - - By Andreas Strangmüller Date 2013-05-30 15:40
Hallo Ingo,

doch, dem ist exakt so!

Habe diese Pararmeter leider ohne gründliches Nachdenken aus dem Stockfish Testing Framework übernommen.
Jetzt sehe ich ein, dass diese Einstellungen wirklich nur für die Engineentwicklung "Enigne alt - Engine neu" brauchbar sind, um Testmatches etwas zu beschleunigen.
Es verfälscht jedoch das Ergebnis (ziemlich) zugunsten der schwächeren Enigine.

Die aktuelle Reihe werde ich noch bis 30.00 Sek. -0.05 Sek fortsetzen, danach wiederhole ich die Tests, jedoch ohne diese Remisparameter.
Zumindest habe ich daraus gelernt, dass die ganze Enginetesterei voller Tücken steckt und die Bedingungen wohl überlegt sein wollen.

Danke für den Hinweis zu der hohen Remisquote. Da sieht man einfach das Auge eines erfahrenen Testers!

Viele Grüße,
Andreas
Parent - By Ingo Bauer Date 2013-05-30 19:25
[quote="Andreas Strangmüller"]
...
Zumindest habe ich daraus gelernt, dass die ganze Enginetesterei voller Tücken steckt und die Bedingungen wohl überlegt sein wollen.
[/quote]

Yup, es ist nicht ganz so einfach wie manche tun (Es ist aber auch kein Hexenwerk)!

[quote="Andreas Strangmüller"]
Danke für den Hinweis zu der hohen Remisquote. Da sieht man einfach das Auge eines erfahrenen Testers!
[/quote]

Ich habe auch mehrere Jaahre Engines getestet ohne eine Liste zu machen UND mich sehr eingehend mit den bestehenden Listen beschäftigt an denen ich irgendwann aber immer etwas auszusetzen hatte/habe*. Aus dieser Erfahrungen enstand dann erst eine interne Liste und dann die IPON.

Gruß
Ingo

* und habe inzwischen gelernt das trotz vieler Unzulänglichkeiten doch nicht groß was anderes herrauskommt ... bin da relaxter inzwischen und benutze die anderen (Hauptsächlich CEGT 40/20!) um meine Liste gegenzutesten. Wenn ich irgendwann mal etwas ganz anderes als die anderen rausbekomme werde ich nicht die Schuld auf ALLE anderen schieben sondern erstmal bei mir suchen.
Parent - - By Ingo Bauer Date 2013-05-30 20:38
[quote="Andreas Strangmüller"]
... danach wiederhole ich die Tests, jedoch ohne diese Remisparameter. ...
[/quote]

Na dann überdenke gleich alles!

Buch/Eröffnungsstellungen
Zeitkontrollen (Müssen das 5 sein, könnten es nicht auch 3 sein, dafür die letzte länger, muß das verdoppelt sein, geht vielleicht auch verdreifachen ...)
Increment (So gering und/oder Anteilig gleichbleibend? Immer sehr klein macht auch SInn ist nur ein relevanter Anteil an deiner kurzen Zeitkontrolle und später nicht mehr! ist die Superkurze wirklich Sinnvoll ... Nur mal drüber Nachdenken!)
Anzahl an Engines (Wobei man das später erhöhen kann)
...

Da gibt es viele Räder an denen man drehen könnte. Als erstes sollte man sich überlegen was man beabsichtigt und DARAN die Bedinungen festmachen ...

Gruß
Ingo
Parent - - By Andreas Strangmüller Date 2013-05-30 23:06
Hallo Ingo,

vorstellen könnte ich mir jeweils eine Rangliste für folgende drei Bedenkzeiten:

15.00+0.05 / 60.00+0.20 / 240.00+0.80 also jeweils eine Vervierfachung.

Das Buch "8moves_GM.pgn" finde ich eigentlich ganz gut, da es insgesamt 48491 Eröffnungsstellungen aus Großmeisterpartien beinhaltet, die alle nach dem 8. Zug enden. Gibt es eine vergleichbare EPD mit z. B. 1500 oder 2500 Startstellungen?
Als Partienanzahl würde ich statt 5000 nun eher 3000 wählen. Bei meinem FX-8350 mit sieben Partien gleichzeitig wären das bei einem Schnitt von 68 Zügen bei 15.00+0.05 etwa 4 Stunden und 25 Minuten, bei 60.00+0.20 etwa 17,5 Stunden und bei 240.00+0.80 dann etwa 2 Tage und 22 Stunden für einen Zweikampf.

Ich werde mir die Bedingungen mal durch den Kopf gehen lassen.
Danke für Deine Ideen!

Viele Grüße,
Andreas
Parent - By Stefan Pohl Date 2013-05-31 04:25 Edited 2013-05-31 04:32
[quote="Andreas Strangmüller"]
Hallo Ingo,

vorstellen könnte ich mir jeweils eine Rangliste für folgende drei Bedenkzeiten:

15.00+0.05 / 60.00+0.20 / 240.00+0.80 also jeweils eine Vervierfachung.

Das Buch "8moves_GM.pgn" finde ich eigentlich ganz gut, da es insgesamt 48491 Eröffnungsstellungen aus Großmeisterpartien beinhaltet, die alle nach dem 8. Zug enden. Gibt es eine vergleichbare EPD mit z. B. 1500 oder 2500 Startstellungen?
Als Partienanzahl würde ich statt 5000 nun eher 3000 wählen. Bei meinem FX-8350 mit sieben Partien gleichzeitig wären das bei einem Schnitt von 68 Zügen bei 15.00+0.05 etwa 4 Stunden und 25 Minuten, bei 60.00+0.20 etwa 17,5 Stunden und bei 240.00+0.80 dann etwa 2 Tage und 22 Stunden für einen Zweikampf.

Ich werde mir die Bedingungen mal durch den Kopf gehen lassen.
Danke für Deine Ideen!

Viele Grüße,
Andreas
[/quote]

Hallo Andreas,

ich habe bekanntermaßen einige Erfahrung mit dem Enginetesten bei kurzen Bedenkzeiten, daher hier meine Empfehlungen:

1. Das Verhältnis zwischen Fischerbonus und Basiszeit muß immer gleich bleiben, wenn du verschiedene Bedenkzeiten miteinander vergleichen willst (so wie du es jetzt ja auch gepostet hast), sonst kann der Zeiteinteilungsalgorithmus der Engines das Ergebnis verzerren (besonders bei Stockfish, der im Mittelspiel signifikant mehr Zeit verbraucht als andere Engines!)

2. Die von dir angedachte kürzeste Zeit ist zu kurz. 0.05s (=50ms) Inkrement ist gut geeignet, um verschiedene Versionen einer Engine gegeneinander spielen zu lassen, aber nicht verschiedene Engines, da Engines unterschiedlich lange Initialisierungsprozesse durchführen, bevor die eigentliche Suche (das Knoten-Crunching) anfängt, was bei so ultrakurzen Zeiten ebenfalls zu Verzerrungen führen kann. Absolute Untergrenze ist nach meiner Erfahrung 150ms !!!

3. Um stattdessen Zeit zu sparen (s. Punkt 2) kann das Verhältnis zwischen Fischerbonus und Basiszeit verkleinert werden. Du hast hier einen Faktor von 300 angedacht, das ist unnötig viel. Ich nehme für die LS-Rangliste Faktor 90 (IPON=100), das reicht völlig, auch 75 wäre noch OK (signifikant weniger weniger sollte es aber nicht sein). Daher würde ich folgende Zeiten vorschlagen: 10s+150ms, 40s+600ms und 160s+2400ms.

4. Warum überhaupt von der GUI Remis geben lassen bzw. aufgeben? Viel Zeit spart das nicht und verzerrt nur die Ergebnisse. Ich spiele immer bis zum Ende, also Matt oder Remis per Schachregel.

5. Keine Bücher, sondern Vorgabestellungen. Schick mir eine email-Adresse per PM oder per Kontakt über meine LS-Website, dann maile ich dir die ausgezeichnete SWCR-Datenbank (PGN-File) von Frank Q, diese enthält 3395 Stellungen (die sind übrigens auch alle genau 8 Vollzüge tief!). Oder ich habe auch noch eine von mir auf 2500 Stellungen reduzierte Version, wo ich einige ungewöhnliche Stellungen rausgenommen habe (1.d4 f5 etc.).

Gruß - Stefan
Parent - By Ingo Bauer Date 2013-05-31 06:11
Moin,

Ich überlass das alles gerne dir, kann aber nichts völlig schlechtes finden.

Zwei Anmerkungen habe ich aber doch.

1. Warum increments um ein 100stel des Gesamtspielzeit liegen sollen erschließt sich mir nicht. Es gibt nur 2 Regeln nach denen man die aussuchen sollte.
a) Um Lag auszugleichen (dann kurz und gleichbleibend (dann sollte der Fisherbonus aber auch bei kürzesten Bedenkzeit einen kleinen Einfluß haben (1/300 ist OK)) oder
b) Um immer einen signifikannte Anteil der Rechenzeit pro Zug zu behalten (dann eher länger)

Lass dich nicht von irgendetwas beeinflussen was eine Engine kann oder nicht. Willst du eine Liste schaffen die eine Engine bevorzugt mit Bedinungen die dieser Engine liegen? Nein! Also entwirf deine Bedinungen und ALLE Engines müssen damit Leben. Wenn also eine nicht mit dem kurzen Increment klar kommt ist das das Problem der Engine, nicht deins*! (Ich hatte jetzt schon mehrere Engines die nicht richtig Pondern konnten weil keine andere Liste das testete. ALLE diese Programmierer haben sich danach bemüht das ordentlich hinzubekommen. Wenn eine Engine Probleme mit deinen Bedinungen hat, teile das den Programmierern mit und gut ist!)

2. Ob dir das Buch gefällt ist irrelevant. Soll das was du testest so weit wie möglich für alle Listen gelten? Wenn ja kommst du nicht um 1500 Startstellungen herum. ABER: Ob das statistisch relevant ist ... ist eine Frage die du immer wieder gestellt bekommst wenn du mit einem Buch spielst

Bye
Ingo

*Wobei du schon Bedinungen brauchst die die meisten Engines können, sonst bleibt dir nichts zum testen

[quote="Andreas Strangmüller"]
Hallo Ingo,

vorstellen könnte ich mir jeweils eine Rangliste für folgende drei Bedenkzeiten:

15.00+0.05 / 60.00+0.20 / 240.00+0.80 also jeweils eine Vervierfachung.

Das Buch "8moves_GM.pgn" finde ich eigentlich ganz gut, da es insgesamt 48491 Eröffnungsstellungen aus Großmeisterpartien beinhaltet, die alle nach dem 8. Zug enden. Gibt es eine vergleichbare EPD mit z. B. 1500 oder 2500 Startstellungen?
Als Partienanzahl würde ich statt 5000 nun eher 3000 wählen. Bei meinem FX-8350 mit sieben Partien gleichzeitig wären das bei einem Schnitt von 68 Zügen bei 15.00+0.05 etwa 4 Stunden und 25 Minuten, bei 60.00+0.20 etwa 17,5 Stunden und bei 240.00+0.80 dann etwa 2 Tage und 22 Stunden für einen Zweikampf.

Ich werde mir die Bedingungen mal durch den Kopf gehen lassen.
Danke für Deine Ideen!

Viele Grüße,
Andreas
[/quote]
Parent - - By Frank Quisinsky Date 2013-05-30 09:12
Hallo Andreas,

das ist ein wirklich sinnvoller und schöner Vergleich. Vielleicht der Beste den ich bislang gesehen habe weil diverse und viel diskutierte Thesen untermauert werden.
Thema: Spielstärke mit unterschiedlichen Bedenkzeiten.

Es gibt nur wenige Engines die auffallen bzw. deren Vermutung Nahe liegt das die Spielstärke um mehr als 30 ELO variiert.
Seinerzeit vermute ich Komodo, nicht zuletzt aufgrund einiger Aussagen der Programmierer. Verdacht lag Nahe weil Komodo nicht zu den Taktikern gehört hat und positionell mehr Stärken hat. Taktiker fallen (nie bestätigt) und Positionell starke Programme steigen (vermutet).

Ein Programm was ins Auge fällt ist Junior. Eigentlich eher taktische Stärken aber das Programm wird besser mit längeren Bedenkzeiten. Das wird schon auffällig wenn die Analyse beobachtet wird, findet oftmals bessere Züge mit deutlich mehr Zeit. Junior der Klassiker hinsichtlich ... "Wahrscheinlich" stärker mit mehr Zeit und "Wahrscheinlich" wirklich um mehr als 30 ELO.

Letztendlich geht es jetzt aber um Deine Arbeit.
Die finde ich richtig gut und übersichtlich dargestellt.
Animiert mich selbst wieder ein wenig wobei an mir so viele engine-engine Matches vorbei liefen, dass ohne mich die Stromwerke in Trier schon längst pleite wären

Viele Grüße
Frank
Parent - - By Andreas Strangmüller Date 2013-05-30 19:22
Hallo Frank,

das Thema "Spielstärke bei unterschiedlichen Bedenkzeiten" finde ich wirklich interessant. Leider hab ich mit meinen unüberlegten Remisparametern des Cutechess-Clients die Anzahl der Remispartien erhöht, aber ich denke auch so ist der Test aussagekräftig.
Ich vermute, dass neben Junior auch Stockfish mehr als andere Engines von längeren Bedenkzeiten profitieren und zwar bereits im Bereich zwischen 7.50 Sek + 0.05 Sek. und 60.00 Sek. + 0.05 Sek um mehr als 30 ELO.
Mal sehen, ob meine Tests das bestätigen.

Parallel interessiert mich derzeit auch die Auswirkung der Hashtabellengröße auf die Spielstärke. Das teste ich z. Zt. mit Stockfish bei den Hashgrößen 16 MB -> 128 MB -> 1024 MB bei den Bedenkzeiten 60.00+0.05 Sek. sowie 300.00+0.05 Sek.

Viele Grüße,
Andreas
Parent - By Frank Quisinsky Date 2013-05-30 20:38
Hi Andreas,

wenn das mit Stockfish stimmt (schaut ja gar ein wenig danach aus) stellt sich die Frage warum ist das so?
Die Sourcen liegen offen.

Das wäre der Ansatzpunkt für weitere programmiertechnische Entwicklungen überhaupt bzw. würde das wahrscheinlich größte Geheimnis des Computerschachs (welches vielleicht noch besteht) gelüftet werden. Das mit den Remisparametern finde ich eher vorteilhafter für Deinen Test und stärkt das Ergebnis eher als das es einen Schatten drauf wirft.

Bei den Hash Größen ist eher das Endspiel betroffen. Da heute hier eh die Spiele überwiegend entschieden werden könnte das einen Einfluss haben wenn nicht der Tatbestand im Raum stehen würde, dass eh die TOPs dort schon sehr stark sind. Aufgrund dessen vermute ich eher, dass dies wenig ausmacht. Ich hatte mal Engine Tests durchgeführt und für jede Engine mit Teststellungen die optimale Hash-Größe für Endspiele ermittelt. Das war bei einem Arena Entwicklungstest. Allerdings war es damals nicht möglich viele Partien zu erzeugen. Konnte kaum etwas feststellen im Vergleich zu ... alle Engines mit gleicher Hash-Größe (das war der Vergleich).

Glaube nicht, dass der Einfluss bei den TOPs größer als 10 ELO ist. Es sei denn es sind Programme, die mit purer Rechengewalt wirklich jeden guten Zug errechnen und mit 0 Wissen in Endspiele gehen. Maximal diese Gruppe von Engines dürfte etwas mehr als 10 ELO profitieren. Aber wer weiß das schon genau. Auch ein Feld welches zumindest zum experimentieren einlädt.

Viele Grüße
Frank
Parent - - By Ingo Althöfer Date 2013-05-30 20:48
Hallo Herr Strangmüller,

eine sehr spannende Sache.
Danke für das Experiment und das Berichten.

[quote="Andreas Strangmüller"]
Bedingungen:
je 1 Kern, 128 MB Hash, Buch: 8moves_GM.pgn,
ausgetragen mit dem Cutechess-Client

Hardware:
AMD FX-8350 @ 4,6 GHz, Turbo Core aus
Fritzmark: 30.41 / 14598

Engines:
Critter 1.6a 64-bit
Deep Rybka 4.1 SSE42 x64
Houdini 3 x64
Komodo CCT 64-bit
Stockfish 3 Ja 64bit
...
[/quote]

Liefern die Engines mit oder ohne Pondern?

Für mein folgendes Gedanken-Experiment wäre es schöner, wenn es ohne Pondern war.
Bezeichne H Houdini3 bei 15 Sek/+0.05, gesprochen "grosser Houdini".
Analog sei h Houdini3 bei 7.5 Sek/+0.05, gesprochen "kleiner Houdini".
Im gleichen Sinn seien "grosser Stockfish" S und "kleiner Stockfish" s erklärt.

Aus Ihren Experimenten (je 5000 Partien) wissen wir, dass
H gegen S 70,9 % holt 
und 
h gegen s 74,6 %.
Interessieren täten mich jetzt die Quoten vom grossen Houdini gegen den kleinen Stockfish
und vom kleinen Houdini gegen den grossen Stockfish.

Spekulativ glaube ich, dass bei der Paarbildung
H-s und h-S
das Stockfish-Team (S,s) besser punktet als bei
H-S und h-s.

Viele Grüsse,
Ingo Althöfer.
Parent - By Frank Quisinsky Date 2013-05-30 21:01 Edited 2013-05-30 21:06
Hallo Ingo,

wobei auch hier immer berücksichtigt werden sollte ...
Houdini ist im Mittelspiel nicht stärker als Stockfish, zumindest war es so bis zu den Vorversionen der genannten Engines.
Houdini spielt nach wirklich jeder Auswertung, die aus den SWCR Partien möglich war bzw. welche ich so durchgeführt hatte die Stärken im Endspiel aus.
Taktisch im Mittelspiel zwar auch stark aber nicht stärker als Stockfish.

Insofern zwar interessant was Du schreibst aber um wirklich Rückschlüsse zu schließen, sollte der Test eher beginnen mit ausgewogenen späten Mittelspielstellungen und nicht mit dem ganzen Eröffnungs-Tamm-Tamm bzw. mit anderen Beeinflussungsfaktoren, die zwar alle gering aber zusammen gerechnet hoch sind und Ergebnisse verfälschen, egal wie viele Partien vorliegen.

Pondern sollte dann in der Tat auf Off stehen, sehe ich auch so.

Müsste mit einer Datenbank aus Engine Vergleiche zunächst mal eine Vorgabedatenbank von vielleicht 10.000 späten "ausgeglichenen" Mittelspielstellungen erzeugen. Das wäre eine Aufgabe für Norm Pollack. Da Stockfish im Vergleich zu Houdini im Endspiel abfällt (obwohl auch Stockfish ziemlich gut im Endspiel ist) vielleicht eher den Test mit Houdini - Komodo erzeugen. Komodo hält hier die Spielstärke von Houdini ansatzweise, nicht im Mittelspiel (zumindest bei den Vorversionen so die ich noch getestet hatte).

Erfahrene Tester, die auch ein wenig Schachverstand mitbringen sollte sich darüber mal austauschen und zusammen einen Test kreieren.
So interessant mitunter Einzelauswertungen, wie jetzt hier von Andreas, auch sind.

Das wäre so ein wenig vergleichbar mit ...
Auch die Tester nutzen die guten Sourcen Anderer die sich bemühen.
Und wie das so ist ... zusammen sind wir stärker ... der seinerzeitige Arena Aufhänger Nummer 1 !!!

Viele Grüße
Frank
Parent - - By Andreas Strangmüller Date 2013-05-30 22:14
Hallo Herr Althöfer,

die Tests werden ohne Pondern durchgeführt.

Aus dem Bauch heraus würde ich bei Ihrem Gedanken-Experiment auch eher zu H-s / h-S tendieren, da Stockfish bei höheren Bedenkzeiten besser abschneidet.

H= 70,9 %
h= 74,6 %
S= 29,1%
s= 25,4 %

Rein rechnerisch somit H*s+h*S = 3971,72 und H*S+h*s= 3958,03

Vielleicht kann man das aber auch gar nicht so einfach berechnen!?

Viele Grüße,
Andreas Strangmüller
Parent - - By Ingo Althöfer Date 2013-05-31 09:06
Lieber Herr Strangmüller,

[quote="Andreas Strangmüller"]
die Tests werden ohne Pondern durchgeführt.

Aus dem Bauch heraus würde ich bei Ihrem Gedanken-Experiment auch eher zu H-s / h-S tendieren, da Stockfish bei höheren Bedenkzeiten besser abschneidet.

H= 70,9 %
h= 74,6 %
S= 29,1%
s= 25,4 %

Rein rechnerisch somit H*s+h*S = 3971,72 und H*S+h*s= 3958,03


Da verstehe ich nicht, wie genau Sie gerechnet haben.
Sollen die 3900er-Werte erwartete Scores sein?
Bitte einmal Zwischenschritte einfügen, damit ich die Rechnung nachvollziehen kann.

Zitat:

Vielleicht kann man das aber auch gar nicht so einfach berechnen!?


Es ist in der Tat problematisch.
Das Elo-System funktioniert gut, wenn man (ganz) viele Spieler hat,
wobei jede einzelne Paarung nur wenige Male gespielt wird.

Im Extremfall mit wenigen Spielern darf man es aber nicht anwenden.
Beispiel: Man stelle sich drei Spieler A, B, C vor.
Man macht ein ganz langes Match zwischen A und B,
und ein zweites ganz langes Match zwischen B und C.
Setzt man Elo(B)=1000, kann man durch stures Anwenden der Elo-Formeln
die Elo-Ratings von A und C bestimmen. Aus diesen könnte man vorhersagen,
wie A gegen C abschneidet (in langen Serien).
Und jetzt der Hammer: Typischerweise schneidet A gegen C anders ab, als es
die aus den B-Partien errechneten Elo-Werte erwarten lassen.

******************************
Hintergrund-Info: Vor einigen Wochen hatte ich hier geschrieben, dass ich
für einfachere Spiele als Schach auf meinem PC schon mal 1 Million Testspiele
pro Tag oder auch deutlich mehr mache. Das kam von solchen Testserien
A-vs-B und B-vs-C, um anschliessend bei A-vs-C zu sehen, ob die Elo-Vorhersagen
passen.
Wenn A, B, C im Prinzip identische Agenten sind, aber mit verschiedenen Bedenkzeit-
Parametern, wobei A der schnellste und C der langsamste ist, ergibt sich
Elo(A) < Elo(B) < Elo(C). Jetzt kann man Spiele danach klassifizieren, ob die
Elo-Ratings aus A-vs-B und B-vs-C das Score von A gegen C
über- oder unterschätzen. (Für beide Fälle habe ich Spiele-Klassen gefunden.)
******************************************

Mein Wunsch: Können Sie für mich die beiden 5000-Partien-Serien zu
H-s und h-S durchführen?

Ingo Althöfer.
Parent - By Andreas Strangmüller Date 2013-05-31 10:52
Hallo Herr Althöfer,

bei meiner Berechnung habe ich die Prozentwerte einfach in Zahlen umgewandelt, die beiden Paare multipliziert und abschließend summiert.

H= 70,9
h= 74,6
S= 29,1
s= 25,4

Ergenbis A: (H mal s) = 1800,86 + (h mal S) = 2170,86 macht zusammen 3971,72
Ergebnis B: (H mal S) = 2063,19 + (h mal s) = 1894,84 macht zusammen 3958,03

Da Ergebnis A größer ist, müsste somit hier Stockfish besser abschneiden.

Wahrscheinlich stellen sich gerade jedem Mathematiker die Harre zu Berge und die Berechnung entbehrt jeglicher Logik, aber vielleicht kann man die Gleichung einfach so lösen, zumindest theoretisch?

Die beiden Zweikämpfe mit unterschiedlichen Zeitkontrollen je Engine kann ich gerne durchführen.
Da der Rechner aktuell noch mit Enginezweikämpfen belegt ist kann es allerdings ein paar Tage dauern.

Viele Grüße,
Andreas Strangmüller
Parent - - By Andreas Strangmüller Date 2013-06-01 08:10
Hallo Herr Althöfer,

hier die Ergebnisse der gewünschten Paarungen:

   H3 = Houdini 3   - 15.00 Sek. + 0.05 Sek.
  sf3 = Stockfish 3 -  7.50 Sek. + 0.05 Sek.

1 H3   +3307/-210/=1483 80.97%  4048.5/5000
2 sf3  +210/-3307/=1483 19.03%   951.5/5000

-------------------------------------------

   h3 = Houdini 3   -  7.50 Sek. + 0.05 Sek.
  SF3 = Stockfish 3 - 15.00 Sek. + 0.05 Sek.

1 h3   +2077/-827/=2096 62.50%  3125.0/5000
2 SF3  +827/-2077/=2096 37.50%  1875.0/5000

Stockfish schneidet in diesem Vergleich somit um 2,02 % (19,03 + 37,50 = 56,53) besser ab als in den beiden Zweikämpfen mit gleicher Zeitkontrolle (25,45 + 29,06 = 54,51).

Viele Grüße,
Andreas Strangmüller
Parent - By Ingo Althöfer Date 2013-06-02 18:14
Lieber Herr Strangmüller,

danke für die beiden zusätzlich durchgeführten Langwettkämpfe.

Drei interessante Einsichten:

(i) Der kleine Houdini hat den großen Stockfish deutlich abgezockt,
mit 62,5 % erreichter Punkte.

(ii) Für einen Team-Wettkampf von (S,s) gegen (H,h) sollte Stockfish in der
Tat "mit Strohmann" spielen, also in der Zuordnung
s-H und S-h. (Der kleine Stockfish ist der Strohmann und muss gegen den großen
Houdini antreten. Der große Stockfish rutscht ein Brett nach hinten und hat den
kleinen Houdini als Gegner.)

[quote="Andreas Strangmüller"]
1 H3   +3307/-210/=1483 80.97%  4048.5/5000
2 sf3  +210/-3307/=1483 19.03%   951.5/5000
-------------------------------------------
   h3 = Houdini 3   -  7.50 Sek. + 0.05 Sek.
  SF3 = Stockfish 3 - 15.00 Sek. + 0.05 Sek.

1 h3   +2077/-827/=2096 62.50%  3125.0/5000
2 SF3  +827/-2077/=2096 37.50%  1875.0/5000

Stockfish schneidet in diesem Vergleich somit um 2,02 % (19,03 + 37,50 = 56,53)
besser ab als in den beiden Zweikämpfen mit gleicher Zeitkontrolle (25,45 + 29,06 = 54,51).
[/quote]

(iii) Für die vier "Spieler" H, h, S, s ergibt das Elo-System in sich schlüssige Werte:
Aus den drei Paarungen H-S, S-h, h-s kann man Elozahlen herleiten, und die sagen
für die Paarung "H gegen s" 81.1 % für Houdini voraus. Und H holt in den wirklich gespielten
5.000 Partien 81,0 %. Die Abweichung von 0,1 % liegt bei 5.000 Partien im
Bereich des typischen Rauschens.

Nochmals Dank für die Langserien und auch Ihr Experiment insgesamt!
Ingo Althöfer.
Up Topic Hauptforen / CSS-Forum / Turnier/Rangliste, Bedenkzeit: 15.00 Sek. + 0.05 Sek.

Powered by mwForum 2.29.3 © 1999-2014 Markus Wichitill