SF 18Sep2016 BMI2 x64 Contempt=10 ... Experiment läuft!

By Benno Hartwig Date 2016-10-08 07:19 Edited 2016-10-08 08:17

Thanx, und

# Player : Elo Games Score% won draw lost Points Draw% Error OppAvg OppE OppD 1 SF 18Sep2016 BMI2 x64 : 3199.92 2450 86.7 1808 630 12 2123.0 25.7 15.06 2837.97 10.57 49.0

ist dann wohl das Maß der Dinge für diesen Test.
Die Anzahl der bislang aufgetretenen Remisen kann der normale Beobachter aber nicht irgendwo sehen, richtig?
Es wäre nett, wenn du dazu von Zeit zu Zeit eine Meldung machst.

Benno

By Frank Quisinsky Date 2016-10-08 10:29 Upvotes 1

Hallo Benno,

versuche 3-4 Zwischenstände zu bringen.

Aber im Grunde kann das anhand der Punktzahl geschätzt werden.
12x verloren von der "Non-Contempt-Standard", also jede vierte Runde eine Partie.

So schaut es auch derzeit aus.
Nach fast 4 Runden gab es 1 Niederlage gegen Booot.

Bin mal gespannt ob 303 schnelle Gewinnpartien unter 60 Zügen wiederholt werden.
Ob der Zügedurchschnitt ca. um die erwarteten 5 Züge hoch geht, wahrscheinlich eher 4.

Und auf die Auswertung TOP-25 mit und TOP-26-50 mit Stockfish.
Die "Non-Contempt-Standard" Version spielte gegen die TOP-26-50 sage und schreibe 50 Elo schlechter.
Auch das deutet auf ca. 15-20 Elo mehr hin.

Also ...
Ist im vollen Gange!

Gruß
Frank

PS: Ja, die gepostete Statistik ist das Maß aller Dinge.
Also, 630 Remis Partien ... am Ende werden es ca. 40-50 weniger sein!

Gruß
Frank

By Tom Paul Date 2016-10-08 11:30

Irgendwann werden die Entwickler herausfinden in welchen Figurenkonstellationen, Bauernstrukturen, Raumvorteil, Königsflügel, Damenflügel, Zentrum, ab welcher Tiefe, in welcher Spielphase und bei welcher Bewertung sich die Abtauschvermeidung lohnt.

Wie kommt es eigentlich dazu das Stockfish Partien gegen deutlich schwächere Engines bei dir verliert?
Und gibt es eine Möglichkeit sich nur diese verlorenen Partien anzuschauen?

By Frank Quisinsky Date 2016-10-08 19:14

Hallo Tom,

klar verliert eine Engine auch mit 400 Elo mehr mal gegen eine schwächere Engines. Passiert natürlich extrem selten.

Kannst Dir ja mal die 12 Verlustpartien von SF ohne Contempt ansehen, oder die vielen unnötigen Remispartien.
Nur 12 von 2450 ist natürlich eine gigantisch gute Statistik.
Wie gesagt, ich gehe davon aus, dass es bei der Contempt = 10 Version zu deutlich weniger Remispartien gegen Schwächere Engines kommt.
Im TalkChess Thread siehst Du ja warum ... habe die Stats nach dem "Fight For Place 1" dort gepostet, war mir zu viel Arbeit das hier auch noch zu tun.

Auf meiner Webseite "Download games by Players" kannst Du gesondert die "Weiß" und "Schwarz" Partien für jede getestete Engine herunterladen.

Gruß
Frank

PS:
Nach einem Test-Lauf wird diese Rubrik ja immer upgedatet, so kannst Du dann auch die Partien der Contempt = 10 Version in ca. 4-5 Tagen herunterladen.

By Tom Paul Date 2016-10-08 19:30

Die Verlustpartien müssen viel Wert sein für die Stockfish Entwickler.

By Frank Quisinsky Date 2016-10-08 19:49 Edited 2016-10-08 19:54

Glaube kaum das bei der Art wie bei Stockfish entwickelt wird auf Verlustpartien geachtet wird bzw. diese dann analysiert werden um Fehler zu finden.
Und die Art und Weise wie bei Stockfish entwickelt wird ist ja gut, sonst würde die Engine nicht so weit oben stehen.

Schade ist nur das Contempt = 10, wahrscheinlich reicht auch 7 oder 8 (hatte ich auch mal getestet auf Q9550 Hardware, waren 18 Elo mehr bei der April Version), nicht als Standard definiert wird. Gegen die Stärken wird dieses Setting kaum Auswirkungen haben aber gegen die deutlich schwächeren extreme Auswirkungen! Klar wenn schnelles Remis vermieden wird ... je länger die Partie dauert desto weniger Chancen haben die Schwächeren. Dafür muss man nur in die Züge-Stats schauen ... Unterschied der TOP-50 untereinander zwischen Zugnummer 60 - 80 sind ca. 800 ELO !!! Da werden bei den extrem starken Engines die Partien entschieden und wenn SF schon vorher Remis gibt ist klar das die Elo fällt.

Ganz unabhängig das es keine stärkeren Engines als Stockfish gibt, insofern macht Contempt = 0 überhaupt keinen Sinn. Bzw. nur einen Sinn ... der Zügedurchschnitt wird mit 6 geringer gehalten (anstatt 82 dann 76). Können durch einen geringen Durchschnitt mehr Partien spielen lassen ... aber das ist auch schon der einzige Vorteil.

Gruß
Frank

By Benno Hartwig Date 2016-10-08 20:43

> Klar wenn schnelles Remis vermieden wird...

Ich bin gespannt, ob dein aktueller Test diese Erwartung wirklich zählbar bestätigt.
Benno

By Frank Quisinsky Date 2016-10-08 21:55

Hallo,

hoffe aber das niemand mit ErrorBar Märchen um die Ecke kommt.
Wird immer gerne angewendet wenn etwas nicht erklärt werden will oder kann oder möchte.

Nach dem Test ... auch wenn vielleicht nur 12-15 Elo wird es sehr deutlich wenn wir vergleichen:

1. Stockfish gegen die TOP-25
2. Stockfish gegen den Platz 26-50

Genau dann sehen wir im Detail folgendes ...

Stockfish spielt mit Contempt = 0 wahrscheinlich unwesentlich besser als ohne.
Stockfish spielt mit Contempt = 10 wahrscheinlich deutlich besser als ohne!

Und Bingo ... Contempt = 0 macht keinen Sinn!
Zumal Stockfish die Nummer 1 ist und es aus der Sicht von Stockfish nur schlechtere Gegner gibt.

Schrieb es gerade in TalkChess.
Contempt eignet sich eher dafür die Spielstärke zu reduzieren.

Sehr einfach ...
Wenn Contempt = 0 gegen schlechtere Gegner für 40-50 Minus sorgt bei einem Level von 2.800 - 2.600 wird Contempt -20 bei einem GM Level von 2.500 - 2.600 ca. 100 Elo ausmachen, weil die besten Menschen der Welt einfach mehr Remis Chancen vor dem späten Mittelspiel haben.

Letztendlich führt Contempt = 0 zur Reduzierung der Spielstärke im Standard Setting von Stockfish. Bleibe bei meiner Meinung und hoffe das es anhand von diesem Test etwas deutlicher wird. Das Komodo hat hier seine Fleißaufgabe schon lange erledigt und spielt nicht ohne Grund im Standard Setting mit Contempt = 10. Da Stockfish noch aggressiver als Komodo ist würde bei Stockfish im Grunde auch Contempt = 7-8 ausreichen ... muss nicht 10 sein.

Gruß
Frank

By Horst Sikorsky Date 2016-10-08 19:21

"Wie kommt es eigentlich dazu das Stockfish Partien gegen deutlich schwächere Engines bei dir verliert?"
weil nur Contempt=10 und nicht 35 genommen wird
Horst

By Frank Quisinsky Date 2016-10-08 19:45

Hallo Horst,

je höher der Contempt desto höher der Zügedurchschnitt einer Engine auf diesem Level.
Houdini hat einen Zügedurchschnitt von fast 100 Zügen ... spielt mit einem solchen extrem Contempt.

Macht aber keinen Sinn bei taktisch so starken Engines wie Stockfish und Komodo.
Stockfish gewinnt also 3.5x mehr so viele Partien unter 60 Zügen wie Houdini.

Houdini 3 war hier klar besser!
Houdini 4 ist taktisch für die hohe Spielstärke eher typisch IPP unauffällig. Fire gewinnt gar 2x so oft mehr unter 60 Zügen als Houdini.

Also, Houdini schiebt durch extrem Contempt alles ins Endspiel wo dann die eigentliche Stärke liegt ... kaum eine Engine gewinnt hier so viele Partien wie Houdini.
Ein kleiner Trick ... Engine heißt ja auch Houdini.

Gruß
Frank

By Frank Quisinsky Date 2016-10-08 19:10

Hallo Benno,

so, die Datenbank gerade mal geprüft nach 356 Partien. Sind überdeutlich weniger schnelle Remispartien drin.
Der Zügedurchschnitt geht wie erwartet von 76 hoch auf 82. 82 war auch der von Komodo 10.1 / 10.0.

11 Partien endeten mit Remis unter 60 Zügen. Nur 4 unter 40 Zügen ... das ist das was ich sehen will.
Keine verschenkte Punkte.

OK, ein Punkt wurde verschenkt.
1x Remis nach 20 Zügen gegen Spark und 1x nach 28 Zügen gegen Laser. Aber das ist OK, hält sich alles in normalen Grenzen (in Anbetracht der extrem hohen Spielstärke).

Ca. 1% mehr bedeutet bei einer so hohen Prozentzahl von 86.7% ca. 14-15 Elo.
Erwarte also ca. 88% am Ende vom Testlauf.

Im Grunde dann der Anhaltspunkt für die, die verfolgen möchten ... 88%!!

Gruß
Frank

By Frank Quisinsky Date 2016-10-08 21:21 Edited 2016-10-08 21:25

Nach 16% ...
Die erwarteten 15-20 Elo.
Wie gesagt, hatte das mal bei der April Version, welche ich in meiner Liste habe auf meinen Q9550 Systemen getestet.
Da waren es auch 18 Elo. Aber mal schauen wie es weiter geht ...

Ach ja ...
94 x Remis x 100 : 16% = 587.5 Partien werden nach Hochrechnung Remis enden.
Das sind dann ca. 40-50 weniger die ich angesprochen hatte und Bingo wird auch SF gegen die Schwächeren nicht mehr 40-50 Elo schwächer spielen (die Statistik die ich in TalkChess postete).

Alles läuft wie erwartet ...
Keine Überraschung nach den Stats.
Bin auch froh wenn der Test-Lauf durch ist, verschwende einfach Zeit weil das Ergebnis klar ist.

Gruß
Frank

Code:

  FCP Rating List (during a LIVE Test-Run)
  ----------------------------------------

  Date           : October 08th, 2016 (21:00)
  Games          : 59.192
  Version        : 4.36 Beta 1
  Conditions     : http://www.amateurschach.de/main/_conditions.htm

  Generated with : Ordo 1.2.6 x64 (Ratings for chess and other games)
  https://sites.google.com/site/gaviotachessengine/ordo
  by Miguel A. Ballicora (Argentina)
  
      
  ***********************************************
  Still running after round  8/50  =  16%
  SF 18Sep2016 BMI2 x64 C10        =  + 18.51 Elo

   # Player                           :      Elo  Games  Score%   won  draw  lost  Points  Draw%  Error   OppAvg   OppE   OppD
  ----------------------------------------------------------------------------------------------------------------------------
   1 SF 18Sep2016 BMI2 x64 C10        :  3218.43    392    87.8   297    94     1   344.0   24.0  38.01  2837.63  10.61   49.0
   1 SF 18Sep2016 BMI2 x64            :  3199.92   2450    86.7  1808   630    12  2123.0   25.7  15.06  2837.97  10.57   49.0
  ****************************************************************************************************************************

   # Player                           :      Elo  Games  Score%   won  draw  lost  Points  Draw%  Error   OppAvg   OppE   OppD
  ----------------------------------------------------------------------------------------------------------------------------
   1 SF 18Sep2016 BMI2 x64 C10        :  3218.43    392    87.8   297    94     1   344.0   24.0  38.01  2837.63  10.61   49.0
   2 Komodo 10 x64                    :  3201.86   2408    87.4  1822   566    20  2105.0   23.5  15.70  2831.33  10.60   48.5
   3 Houdini 4 STD B x64              :  3090.32   2408    79.0  1529   748   131  1903.0   31.1  12.19  2833.65  10.67   48.5
   4 Fire 4 x64                       :  3035.62   2408    73.8  1323   909   176  1777.5   37.7  11.19  2834.78  10.69   48.5
   5 GullChess 3.0 BMI2 x64           :  3029.74   2408    73.2  1296   934   178  1763.0   38.8  11.15  2834.90  10.69   48.5
   6 Andscacs 0.872 BMI2 x64          :  2999.68   2408    70.0  1187   998   223  1686.0   41.4  11.27  2835.53  10.69   48.5
   7 Equinox 3.30 x64                 :  2995.53   2408    69.6  1142  1066   200  1675.0   44.3  10.70  2835.61  10.70   48.5
   8 Fizbo 1.8 BMI2 x64               :  2990.29   2408    69.0  1156  1010   242  1661.0   41.9  11.03  2835.72  10.69   48.5
   9 Critter 1.6a x64                 :  2978.47   2408    67.6  1112  1034   262  1629.0   42.9  10.31  2835.97  10.71   48.5
  10 Fritz 15 x64                     :  2976.49   2408    67.4  1104  1039   265  1623.5   43.1  10.83  2836.01  10.70   48.5
  11 Nirvanachess 2.3 POP x64         :  2957.33   2408    65.2   994  1152   262  1570.0   47.8  10.49  2836.41  10.71   48.5
  12 Hannibal 1.7 x64                 :  2954.16   2408    64.8  1022  1078   308  1561.0   44.8  11.03  2836.47  10.69   48.5
  13 Chiron 3 x64                     :  2945.95   2408    63.8   990  1095   323  1537.5   45.5  11.09  2836.64  10.69   48.5
  14 Protector 1.9.0 x64              :  2933.37   2408    62.3   948  1106   354  1501.0   45.9  10.61  2836.90  10.70   48.5
  15 Texel 1.06 x64                   :  2929.44   2408    61.9   960  1059   389  1489.5   44.0  10.35  2836.99  10.71   48.5
  16 iCE 3.0 v658 POP x64             :  2919.79   2408    60.7   941  1040   427  1461.0   43.2  10.09  2837.19  10.71   48.5
  17 Booot 6.0.2 POP x64              :  2901.61   2408    58.4   826  1161   421  1406.5   48.2  10.22  2837.56  10.71   48.5
  18 Naum 4.6 x64                     :  2885.00   2408    56.3   796  1120   492  1356.0   46.5   9.99  2837.91  10.72   48.5
  19 SmarThink 1.96 SSE4 x64          :  2879.13   2408    55.6   849   978   581  1338.0   40.6  10.25  2838.03  10.71   48.5
  20 Hakkapeliitta TCEC v2 x64        :  2876.04   2408    55.2   812  1033   563  1328.5   42.9  10.22  2838.09  10.71   48.5
  21 Vajolet2 2.2 POP x64             :  2833.18   2408    49.6   656  1079   673  1195.5   44.8   9.94  2838.98  10.72   48.5
  22 Senpai 1.0 SSE42 x64             :  2832.53   2408    49.6   656  1075   677  1193.5   44.6   9.99  2839.00  10.72   48.5
  23 Hiarcs 14 WCSC w32               :  2821.31   2408    48.1   630  1057   721  1158.5   43.9  10.09  2839.23  10.71   48.5
  24 Pedone 1.4.1 BMI2 x64            :  2812.81   2408    47.0   539  1186   683  1132.0   49.3   9.65  2839.41  10.72   48.5
  25 Cheng 4.39 x64                   :  2801.72   2408    45.6   562  1071   775  1097.5   44.5  10.18  2839.64  10.71   48.5
  ----------------------------------------------------------------------------------------------------------------------------
  26 Sjeng c't 2010 w32               :  2800.76   2408    45.5   588  1013   807  1094.5   42.1  10.37  2839.66  10.71   48.5
  27 Shredder 12 x64                  :  2797.38   2408    45.0   539  1090   779  1084.0   45.3  10.23  2839.73  10.71   48.5
  28 Arasan 19.1 POP x64              :  2794.31   2408    44.6   546  1057   805  1074.5   43.9  10.47  2839.79  10.71   48.5
  29 Junior 13.3.00 x64               :  2791.73   2408    44.3   558  1017   833  1066.5   42.2  10.06  2839.85  10.71   48.5
  30 Wasp 1.25 BMI2 x64               :  2784.61   2408    43.4   499  1091   818  1044.5   45.3   9.88  2839.99  10.72   48.5
  31 Spike 1.4 Leiden w32             :  2782.53   2408    43.1   519  1038   851  1038.0   43.1   9.89  2840.04  10.72   48.5
  32 Quazar 0.4 x64                   :  2773.56   2408    42.0   492  1037   879  1010.5   43.1  10.43  2840.22  10.71   48.5
  33 DiscoCheck 5.2.1 x64             :  2771.27   2408    41.7   523   961   924  1003.5   39.9  10.26  2840.27  10.71   48.5
  34 Bobcat 7.6 x64                   :  2766.20   2408    41.0   451  1074   883   988.0   44.6  10.20  2840.38  10.71   48.5
  35 Deuterium 14.3.34.130 POP x64    :  2757.32   2408    39.9   424  1074   910   961.0   44.6  10.35  2840.56  10.71   48.5
  36 Zappa Mexico II x64              :  2752.19   2408    39.3   403  1085   920   945.5   45.1  10.45  2840.67  10.71   48.5
  37 Spark 1.0 x64                    :  2751.20   2408    39.1   433  1019   956   942.5   42.3   9.79  2840.69  10.72   48.5
  38 TogaII 280513 Intel w32          :  2736.49   2408    37.3   420   957  1031   898.5   39.7  10.30  2840.99  10.71   48.5
  39 Gaviota 1.0 AVX x64              :  2731.09   2408    36.6   423   919  1066   882.5   38.2  10.56  2841.10  10.70   48.5
  40 Crafty 25.0.1 JA POP x64         :  2725.48   2408    36.0   384   964  1060   866.0   40.0  10.60  2841.22  10.70   48.5
  41 Dirty 03NOV2015 POP x64          :  2725.17   2408    35.9   376   978  1054   865.0   40.6   9.97  2841.23  10.72   48.5
  42 EXchess 7.92b x64                :  2723.26   2408    35.7   337  1045  1026   859.5   43.4  10.49  2841.27  10.71   48.5
  43 Rodent II 0.9.33 x64             :  2716.39   2408    34.9   358   963  1087   839.5   40.0  10.71  2841.41  10.70   48.5
  44 Atlas 3.80 x64                   :  2714.83   2408    34.7   354   962  1092   835.0   40.0  10.23  2841.44  10.71   48.5
  45 Murka 3 x64                      :  2710.85   2408    34.2   317  1013  1078   823.5   42.1  10.78  2841.52  10.70   48.5
  46 DisasterArea 1.65 POP x64        :  2710.15   2408    34.1   307  1029  1072   821.5   42.7  10.80  2841.54  10.70   48.5
  47 Nemo 1.01 Beta POP x64           :  2702.42   2408    33.2   323   953  1132   799.5   39.6  10.82  2841.70  10.70   48.5
  48 Rhetoric 1.4.3 POP x64           :  2659.99   2408    28.4   261   844  1303   683.0   35.0  10.89  2842.58  10.70   48.5
  49 Octochess r7533 DC x64           :  2659.23   2408    28.3   237   888  1283   681.0   36.9  11.41  2842.60  10.69   48.5
  50 Laser 1.1 POP x64                :  2623.97   2408    24.6   188   807  1413   591.5   33.5  11.47  2843.33  10.68   48.5
  ----------------------------------------------------------------------------------------------------------------------------

  White advantage = 33.04 +/- 1.11
  Draw rate (equal opponents) = 51.63 % +/- 0.24

By Frank Quisinsky Date 2016-10-09 09:30

Code:

  *********************************************** 
   Still running after round  13/50 =  26% 
   SF 18Sep2016 BMI2 x64 C10        =  + 14.36 Elo 

   # Player                           :      Elo  Games  Score%   won  draw  lost  Points  Draw%  Error   OppAvg   OppE   OppD 
   ---------------------------------------------------------------------------------------------------------------------------- 
    1 SF 18Sep2016 BMI2 x64 C10        :  3214.28    637    87.5   479   157     1   557.5   24.6  30.07  2837.68  10.66   49.0 
    1 SF 18Sep2016 BMI2 x64            :  3199.92   2450    86.7  1808   630    12  2123.0   25.7  15.06  2837.97  10.57   49.0 
   ****************************************************************************************************************************

Nachdem zwischenzeitlich mal 88.2% erreicht wurden ging es in der Nacht zurück.
Dennoch, die meisten der vielen dazugekommenen Remis Partien gegen die Garde der stärkeren Gegner.
Insofern ... alles wird gut!
Eher wahrscheinlich, dass die Elo wieder ansteigt ...

By Frank Quisinsky Date 2016-10-10 00:17 Edited 2016-10-10 00:26

Code:

  ***********************************************
  Still running after round  19/50 =  38%
  SF 18Sep2016 BMI2 x64 C10        =  + 17.13 Elo

   # Player                           :      Elo  Games  Score%   won  draw  lost  Points  Draw%  Error   OppAvg   OppE   OppD
  ----------------------------------------------------------------------------------------------------------------------------
   1 SF 18Sep2016 BMI2 x64 C10        :  3217.05    931    87.7   704   225     2   816.5   24.2  24.78  2837.27  10.63   49.0
   1 SF 18Sep2016 BMI2 x64            :  3199.92   2450    86.7  1808   630    12  2123.0   25.7  15.06  2837.97  10.57   49.0
  ****************************************************************************************************************************

Wie zu erwarten war ...
Eigentlich müsste es noch viel höher gehen ...

Ergo ... wenn SF gegen Platz 26-50 ohne Contempt 50 Elo verliert, nicht alle der unnötigen Remispartien durch Contempt = 10 werden später mit Gewinn enden aber sicherlich mehr als 80% dieser unnötigen Remis Partien, sollte bei Halbierung der 50 ELO also nicht ca. 25 sondern vielleicht ca. 22 Elo rauskommen. Da meine Liste sehr genau misst (durch die vielen Gegner könnte ich eigentlich schon rein theoretisch einen Round-Robin nach 1.500 Partien beenden) müsste eigentlich mehr als die 15-20, die ich erwarte, rauskommen. Nun gut, es sind derzeit 17 und bei meinem Test auf Q9550 waren es 18 Elo. Da aber Stockfish deutlich zugelegt hat müsste der Wert wirklich höher als 18 liegen.

Daher ... nach wie vor, erwarte 88% und da fehlt noch etwas.
Alles andere ist unlogisch, OK per Zufall könnte auch 87,8 - 88,2% herauskommen!

Mal schauen!
Interessant wird später eh nur sein ...
Wird Stockfish gegen die TOP-25 durch Contempt = 10 abnehmen. Aber auch hier, eher auch etwas zulegen, weil es keine stärkeren Gegner gibt. Also, je stärker Stockfish je mehr macht sich Contempt bemerkbar. War es bei der Stockfish Version vor ca. einem Jahr noch ca. 10 ... sind es nunmehr an die 20 Elo.

Gruß
Frank

Lassen wir die Contempt Geschichte mal weg und schauen auf die Round-Robin Tabelle ...
Ein Debakel für die komplette Konkurrenz!
Das ist echt Irre was Stockfish nun abzieht!

Nur 2 Verlustpartien nach fast 1.000 Partien ... gegen Booot und Equinox.
Zügedurchschnitt ging runter auf 81! Für Contempt = 10 super gut!

Nach fast 1.000 Partien nur ca. 12 unnötige schnelle Remispartien, die sich aber natürlich nicht komplett vermeiden lassen.
Alles wird gut ... einfach irre!

By Benno Hartwig Date 2016-10-10 06:09

Thanx, schönes Experiment.

> durch die vielen Gegner könnte ich eigentlich schon rein theoretisch einen Round-Robin nach 1.500 Partien beenden...

Ich befürchte, in diesem Punkt hast du eine völlig falsche Sicht auf deinen Ansatz.
Zufall bleibt zufällig, und bei nur 1500 Partien schlägt der mit recht großer Wahrscheinlichkeit noch recht deutlich zu.
Egal, wie du die Gegner mischt.

Aber ist egal, dein Experiment ist trotzdem toll!

Benno

By Frank Quisinsky Date 2016-10-10 10:39 Edited 2016-10-10 10:54

Hi Benno,

ich simuliere das mit meinen Daten.
Nehme Gegner raus, füge andere Gegner aus den Testläufen dazu.

Beispiel: Nehme 25 Gegner und mixe die aus dem Pool von 50 Gegner. Dafür ist ein Programm geschrieben wurden, welches nichts anders macht als mit einer zufälligen Auswahl von Gegner die Tabelle neu berechnen zu lassen. Muss nur die Anzahl der Partien bis 50 eingeben und die Anzahl der gewünschten Gegner. Damit läuft hier ein Rechner schon eine Weile durch. Nette Spielerei aber dafür lasse ich "Jeder gegen Jeden" spielen.

Bei 24 Gegnern x 50 Partien und einem wilden Mix kommt das Programm in 3.4% der Fälle auf eine Abweichung von +-5 Elo.
Bei 30 Gegnern x 40 Partien und einem wilden Mix kommt das Programm in 3.1% der Fälle auf eine Abweichung von +-5 Elo.

Weiter bin ich noch nicht aber schon x-tausend Kombinationen wurden durchgerechnet.

Ja, Zufälle bleiben Zufälle aber dieses Progamm bestätigt meine jahrelange Vermutung ... mehr Gegner, weniger Partien sind notwendig um den statistischen Zufall gering zu halten.

Glaube es oder glaube es nicht ... bei 1.500 Partien und 49 Gegnern ... da müssen schon viele Testläufe durch das Land ziehen um von Zufällen sprechen zu können.

Aber mal ganz weg davon ... viel interessanter aus meiner Sicht ist was völlig anderes!
Welche Gegner sorgen für die meisten Differenzen!

Ganz klar ... Fizbo, Quazar und Junior!

Gruß
Frank

Also, ich glaube noch gar nicht alles was mathematisch zweifelhaft ist und glaube mir, damit stehe ich nicht allein, sonst hätte ich dieses schöne Programm nicht, gar mit einer geilen GUI. Vielleicht wird es freigegeben aber ich denke derjenige hat ganz andere Dinge vor, ist noch nicht mal Schachspieler!!

Für was sich alles eine gut sortierte Datenbasis eignet ... so weiß ich dass wenn ich aufhöre die Daten, frei für jeden für solche Experimente, nicht umsonst erstellt wurden.
Ganz unabhängig was sonst noch alles damit getrieben werden kann (Bucherstellung etc..).

Kann sogar die Frage stellen ...
Gegen welche 20 Gegner hätte Wasp die höchste Elo und gegen Welche 20 oder x beliebig die niedrigste.
Sehe für Angstgegner für die TOP-50 ...

Das Probleme bei meinen Daten ist folgendes:
Besser wäre ich hätte genau das aber mit ... genau gesagt ca. 360 Partien pro Match.
Auch das ist schon errechnet wurden.

Habe ich aber nicht!
Egal, kann dennoch sehr viel gesehen werden aber der Zufallsanteil ist gering.

Oder anders ...
In meiner aktuellen Ratingliste jeder gegen jeden gibt es 1 Programm welches derzeit 11 Elo zu hoch steht und 1 Programm welches derzeit 7 Elo zu niedrig steht, mit einer Wahrscheinlichkeit von 72% beio 11 Elo zu hoch oder mit einer Wahrscheinlichkeit von 84% mit 7 Elo zu niedrig.
Nach Simulation ... wenn das Teil fehlerfrei läuft!

Musste daher Naum auf 2.885 setzen ...
Alles hat einen Grund!

By Frank Quisinsky Date 2016-10-10 11:11 Edited 2016-10-10 11:15

Wichtig bei der ganzen Geschichte ist nur ...
Die noch vorhandenen nicht ausgeglichenen Eröffnungsstellungen herauszubekommen. Schwierig, weil viele sich hinter selten ausgespielten ECO Codes verstecken.

Ich schätze mal ich habe noch ca. 1.500 drin ... von den 86.000 wurden ja schon ca. 7.000 herausgeholt.
Auch innerhalb des Matches, also der 50 Partien, sollten nicht mehr als 2x der gleiche ECO Code vorhanden sein.

Arbeite ja daran seit eh und je.

Und bei Stockfish ist schon allein bei der Erstellung der Statistiken aufgefallen das alles verwischt wurde. Musste für die beschriebenen Berechnungen Stockfish ohne Contempt gar herausholen, weil keine andere Engine klafft so auseinander ....50 ELO Differenz im Feld der TOP-25 zu Top-26-50 wie Stockfish ohne Contempt. OK, Andascac zwar auch aber nicht so krass. Aber nach dem Round Robin stimmt alles wieder mit der Datenbasis.

Auch ein Grund warum ich aufhören will.
Der Trieb etwas zur Perfektion zu treiben hört ab einer gewissen Schallmauer auf.
Dann reizt es nicht mehr ... Elo Berechnung ist langweilig geworden ... ausgeleiert, gleiches bei den Spielstilen ... und gleiches bei dem Buch. Was ich hier mache ist Detailarbeit auf höherem Niveau. Das ist mit meiner Vorhersage bei Stockfish fast auf den Punkt genau treffe macht die Sache nicht gerade interessanter ... anders ausgedrückt.

By Frank Quisinsky Date 2016-10-10 12:57 Edited 2016-10-10 13:37

Code:

  ***********************************************
  Still running after round  24/50 =  48%
  SF 18Sep2016 BMI2 x64 C10        =  + 20.40 Elo

   # Player                           :      Elo  Games  Score%   won  draw  lost  Points  Draw%  Error   OppAvg   OppE   OppD
  ----------------------------------------------------------------------------------------------------------------------------
   1 SF 18Sep2016 BMI2 x64 C10        :  3220.32   1176    87.9   894   279     3  1033.5   23.7  22.35  2837.30  10.64   49.0
   1 SF 18Sep2016 BMI2 x64            :  3199.92   2450    86.7  1808   630    12  2123.0   25.7  15.06  2837.97  10.57   49.0
  ****************************************************************************************************************************

Nun fast bei 88.0% angekommen.
Auch wenn schon zeitweise mal bei 88.2% und öfters mal über 88.0%. Glaube in Runde 12 gab es auch mal eine ganze Serie an Remisen und zeitweise gefallen bis 87,20%
In Runde 25 gab es wieder einige Remise, so dass wieder leicht gefallen, aber auch hier ... gegen die Stärkeren, so dass es wieder steigen wird.

Die dritte Verlustpartie gab es gegen, muss schauen ...
Critter ... also gegen Equinox , Booot und Critter je eine!

Das es weniger Remispartien werden ist klar aber nur 3 Verlustpartien bislang?!
Sollte eigentlich ca. gleich sein zu der Non Contempt Standard Version (das ist dann sicherlich Zufall).

Na ja, sind ja noch 26 Runden ... und die meisten Gewinne hat von den 12 Komodo eingefahren und derzeit hat Komodo noch nicht eine gewinnen können!

Mal schauen ...
Wenn 48% 279 Remis Partien verursachten werden 100% = 581 verursachen (Hochrechnung).
Das wären dann 49 weniger ... also ca. die erwarteten 40-50!
Und insofern alles läuft wie erwartet.

Also beim Standard Setting hat Stockfish in 2% aller Fälle keine Lust Schach zu spielen und gibt zu schnell Remis.
Sind genau gesagt, 1.67% der Fälle wenn ich auf die Remispartien schaue.

Ohne Contempt legt Stockfish also ca. bei jeder 50zigsten Partien eine kleine Verschnaufpause ein!
Mit Contempt zieht die Engine durch die Welten der 500 ECO Codes gnadenlos durch ...

Gruß
Frank

Breche an dieser Stelle hier mal die Berichterstattung ab.
Ergebnis ist klar.
Wer weiter verfolgen möchte kann ja die Endergebnisse später herunterladen.

By Jörg Oster Date 2016-10-10 16:15

Frank Quisinsky schrieb:

Code:

  ***********************************************
  Still running after round  24/50 =  48%
  SF 18Sep2016 BMI2 x64 C10        =  + 20.40 Elo

   # Player                           :      Elo  Games  Score%   won  draw  lost  Points  Draw%  Error   OppAvg   OppE   OppD
  ----------------------------------------------------------------------------------------------------------------------------
   1 SF 18Sep2016 BMI2 x64 C10        :  3220.32   1176    87.9   894   279     3  1033.5   23.7  22.35  2837.30  10.64   49.0
   1 SF 18Sep2016 BMI2 x64            :  3199.92   2450    86.7  1808   630    12  2123.0   25.7  15.06  2837.97  10.57   49.0
  ****************************************************************************************************************************

Hallo Frank,

wie es aussieht, behältst du recht und ich lag falsch.
Mehr dann von mir, wenn das Endergebnis vorliegt.

By Frank Quisinsky Date 2016-10-10 23:03

Hallo Jörg,

stelle dann später die Ergebnisse der beiden gleichen Stockfish Versionen gegen die TOP-25 und zwischen TOP-26-50 untereinander zum Vergleich.

Recht oder nicht ...
Kannte das Ergebnis, hatte ich vorher schon auf anderer Hardware getestet , eigentlich schon 2x ... vor ca. 2 Jahren mal. Und da ich meine Stats natürlich sehr gut kenne bin ich im Vorteil.

Alles gut, ich lag schon so oft falsch und musste mich korrigieren.
Wenn Du die Stärke zeigst, wie jetzt mit diesem Worten, gehörst Du zu denen die sich dadurch Respekt verdienen.

Gerade mal geschaut ... sind jetzt weit über 1.400 Partien und genau 88.0%.
Da passiert nichts mehr, muss aber noch die letzten 200 Partien prüfen auf schlechte Buchvarianten, doppelte ECO Codes innerhalb der einzelnen 50-Partien Matches.

Viele Grüße
Frank

By Frank Quisinsky Date 2016-10-11 00:13

SF ist einfach unglaublich.
Gerade die letzten 200 Partien geprüft.

Startet mit -2.5 in einer schlechten Buchvariante (seltene C36 Variante, natürlich wiederholt und raus aus dem Buch) und spielt dennoch Remis gegen 3.000 Elo). Das ist das was immer wieder bei meinem System schlecht ist, Das läuft nun schon drei Jahre und immer wieder finde ich solche Varianten in selten ausgespielten Eröffnungen, weil vorher einfach noch nicht auf dem Brett gewesen. 88.000 Varianten optimieren nur mit den Partien ... selbst wenn ich fast 300.000 Partien habe ... ich müsste 5.000.000 haben um das perfekte Buch mit meinem Ansatz zu kreieren. Dennoch ist es gut und zu ca. 98% sind die ausgespielten Eröffnungen per Test-Run OK. Und was nicht gut ist fliegt raus aus dem Buch und wird wiederholt. Nur weil eine von den größeren GM Datenbanken bis Zugtiefe 8 in Urzeiten vom Buch mal nicht so genau überprüft wurde.

Na ja, werde bald neue Bücher erstellen mit dem Wissen was ich mir in den letzten drei Jahren hart erarbeitet habe und dann schaut die Sache besser aus. Das was aber in der Datenbank einfließt ist Partien für Partie überprüft und insofern richtig gutes Material für Buchersteller, zumal in jeder Partie auch noch die Stellungsbewertungen zu finden sind.

Gruß
Frank

By Guenter Stertenbrink Date 2016-10-11 15:50

1.67% unnoetige Remisen waeren 0.84% weniger Performance oder 6 Elo ?!

By Guenter Stertenbrink Date 2016-10-11 17:48 Edited 2016-10-11 18:12

ich hab mal SF-contempt=10 und SF-contempt=0 Prozentpunkte verglichen nach Gegnern aufgeteilt in
Klassen zu je 8, sortiert nach ELO

CT=0 , Elo , CT=10, Elo
74.75,3010,76.51,3011
81.12,2904,83.33,2928
89.62,2817,91.25,2832
91.00,2771,92.14,2783
93.50,2737,93.04,2737
93.87,2703,93.75,2687

also contempt=10 erhoeht gerade die Performance gegen starke Gegner und nicht gegen solche
die >250 Elo schwaecher sind !

---edit---- Elozahlen eigefuegt

--------edit------------------
allerdings sind das 2 verschiedene Stockfisch versionen, wie ich nun sehe

28.Sep.2016 und 24.Apr.2016

By Frank Quisinsky Date 2016-10-12 00:58 Edited 2016-10-12 01:01

Hallo Günther,

Die Version vom 24Apr2016 spielte auch mit Contempt = 10.
Die Version vom 24Apr2016 mit Contempt = 10 zu vergleichen vom 18Sep2016 mit Contempt = 10 macht zwar Sinn aber nur wie hoch der Zuwachs in dieser Zeit war.

In der aktuellen Liste jeder gegen jeden ist derzeit die Version vom 18Sep2016 ohne Contempt.
Im Moment läuft die Version vom 18Sep2016 mit Contempt = 10.
Also, die identischen Versionen, genau das muss verglichen werden.

Also:
Version vom 16Sep2016 ohne Contempt:

Ergebnis Jeder gegen Jeden, 50 Partien, nach 61.250 Partien:

Code:


   # Player                           :      Elo  Games  Score%   won  draw  lost  Points  Draw%  Error   OppAvg   OppE   OppD
  ----------------------------------------------------------------------------------------------------------------------------
   1 SF 18Sep2016 BMI2 x64            :  3199.92   2450    86.7  1808   630    12  2123.0   25.7  15.06  2837.97  10.57   49.0
  18 Naum 4.6 x64                     :  2885.00   2450    55.6   796  1130   524  1361.0   46.1  10.13  2844.40  10.67   49.0
  36 Zappa Mexico II x64              :  2751.90   2450    38.6   403  1087   960   946.5   44.4  10.05  2847.12  10.67   49.0

Nun das Ergebnis der TOP-25 untereinander, Jeder gegen Jeden
geeicht auf Naum 4.6 x64 mit 2.885 Elo!

Code:


   # Player                       :      Elo  Games  Score%  won  draw  lost  Points  Draw%  Error   OppAvg   OppE   OppD
   1 SF 18Sep2016 BMI2 x64        :  3212.21   1200    81.0  755   434    11   972.0   36.2  16.64  2941.96  13.63   24.0
   2 Komodo 10 x64                :  3198.91   1200    79.8  746   423    31   957.5   35.3  16.52  2942.51  13.64   24.0
   3 Houdini 4 STD B x64          :  3078.58   1200    66.8  536   531   133   801.5   44.3  13.94  2947.52  13.75   24.0
   4 Fire 4 x64                   :  3034.32   1200    61.2  437   595   168   734.5   49.6  13.78  2949.37  13.75   24.0
   5 GullChess 3.0 BMI2 x64       :  3031.44   1200    60.8  426   608   166   730.0   50.7  14.15  2949.49  13.74   24.0
   6 Fizbo 1.8 BMI2 x64           :  3005.23   1200    57.4  386   605   209   688.5   50.4  13.23  2950.58  13.78   24.0
   7 Equinox 3.30 x64             :  3003.04   1200    57.1  366   638   196   685.0   53.2  13.14  2950.67  13.78   24.0
   8 Andscacs 0.872 BMI2 x64      :  2994.34   1200    55.9  362   618   220   671.0   51.5  13.06  2951.03  13.78   24.0
   9 Critter 1.6a x64             :  2979.22   1200    53.9  332   629   239   646.5   52.4  13.17  2951.66  13.78   24.0
  10 Fritz 15 x64                 :  2974.00   1200    53.2  322   632   246   638.0   52.7  12.91  2951.88  13.79   24.0
  11 Hannibal 1.7 x64             :  2961.76   1200    51.5  305   626   269   618.0   52.2  13.22  2952.39  13.78   24.0
  12 Nirvanachess 2.3 POP x64     :  2959.93   1200    51.3  273   684   243   615.0   57.0  13.30  2952.47  13.77   24.0
  13 Chiron 3 x64                 :  2949.24   1200    49.8  285   625   290   597.5   52.1  13.17  2952.91  13.78   24.0
  14 Texel 1.06 x64               :  2936.12   1200    48.0  271   610   319   576.0   50.8  13.32  2953.46  13.77   24.0
  15 Protector 1.9.0 x64          :  2929.71   1200    47.1  237   657   306   565.5   54.8  13.52  2953.73  13.76   24.0
  16 iCE 3.0 v658 POP x64         :  2920.83   1200    45.9  255   592   353   551.0   49.3  13.73  2954.10  13.76   24.0
  17 Booot 6.0.2 POP x64          :  2902.39   1200    43.4  208   626   366   521.0   52.2  13.08  2954.87  13.78   24.0
  18 Hakkapeliitta TCEC v2 x64    :  2891.86   1200    42.0  243   522   435   504.0   43.5  13.65  2955.30  13.76   24.0
  19 Naum 4.6 x64                 :  2885.00   1200    41.1  194   598   408   493.0   49.8  13.21  2955.59  13.78   24.0
  20 SmarThink 1.96 SSE4 x64      :  2876.54   1200    40.0  217   525   458   479.5   43.8  13.19  2955.94  13.78   24.0
  21 Vajolet2 2.2 POP x64         :  2830.39   1200    34.0  149   518   533   408.0   43.2  14.12  2957.87  13.74   24.0
  22 Senpai 1.0 SSE42 x64         :  2826.39   1200    33.5  147   510   543   402.0   42.5  13.67  2958.03  13.76   24.0
  23 Pedone 1.4.1 BMI2 x64        :  2821.02   1200    32.8  113   562   525   394.0   46.8  14.10  2958.26  13.74   24.0
  24 Hiarcs 14 WCSC w32           :  2815.94   1200    32.2  132   509   559   386.5   42.4  14.06  2958.47  13.74   24.0
  25 Cheng 4.39 x64               :  2800.77   1200    30.4  116   497   587   364.5   41.4  14.00  2959.10  13.74   24.0

White advantage = 33.47 +/- 2.12
Draw rate (equal opponents) = 56.80 % +/- 0.47

Nun das Ergebnis Stockfish gegen Platz 26-50.
Geeicht auf Zappa Mexico II x64 mit 2.752 Elo ...

Code:


   1 SF 18Sep2016 BMI2 x64            :  3176.54   1250    92.1  1053   196     1  1151.0   15.7  25.30  2739.55  13.92   25.0
   2 Sjeng c't 2010 w32               :  2811.21   1250    58.3   465   527   258   728.5   42.2  14.36  2754.16  14.35   25.0
   3 Shredder 12 x64                  :  2797.51   1250    56.4   424   562   264   705.0   45.0  13.55  2754.71  14.39   25.0
   4 Arasan 19.1 POP x64              :  2797.22   1250    56.4   421   567   262   704.5   45.4  14.17  2754.72  14.36   25.0
   5 Junior 13.3.00 x64               :  2791.14   1250    55.5   421   546   283   694.0   43.7  14.04  2754.97  14.37   25.0
   6 Wasp 1.25 BMI2 x64               :  2785.38   1250    54.7   390   588   272   684.0   47.0  13.44  2755.20  14.39   25.0
   7 Spike 1.4 Leiden w32             :  2785.10   1250    54.7   407   553   290   683.5   44.2  14.49  2755.21  14.35   25.0
   8 Quazar 0.4 x64                   :  2778.50   1250    53.8   387   570   293   672.0   45.6  13.98  2755.47  14.37   25.0
   9 DiscoCheck 5.2.1 x64             :  2775.06   1250    53.3   408   516   326   666.0   41.3  13.97  2755.61  14.37   25.0
  10 Bobcat 7.6 x64                   :  2766.79   1250    52.1   352   599   299   651.5   47.9  13.06  2755.94  14.41   25.0
  11 Deuterium 14.3.34.130 POP x64    :  2758.53   1250    51.0   336   602   312   637.0   48.2  14.15  2756.27  14.36   25.0
  12 Spark 1.0 x64                    :  2757.68   1250    50.8   350   571   329   635.5   45.7  13.81  2756.30  14.38   25.0
  13 Zappa Mexico II x64              :  2752.00   1250    50.0   330   591   329   625.5   47.3  13.94  2756.53  14.37   25.0
  14 TogaII 280513 Intel w32          :  2739.79   1250    48.3   334   540   376   604.0   43.2  13.80  2757.02  14.38   25.0
  15 Gaviota 1.0 AVX x64              :  2731.84   1250    47.2   328   524   398   590.0   41.9  13.87  2757.34  14.37   25.0
  16 Crafty 25.0.1 JA POP x64         :  2730.42   1250    47.0   301   573   376   587.5   45.8  13.58  2757.39  14.38   25.0
  17 Dirty 03NOV2015 POP x64          :  2722.79   1250    45.9   292   564   394   574.0   45.1  14.02  2757.70  14.37   25.0
  18 Rodent II 0.9.33 x64             :  2722.45   1250    45.9   288   571   391   573.5   45.7  13.52  2757.71  14.39   25.0
  19 Atlas 3.80 x64                   :  2719.32   1250    45.4   281   574   395   568.0   45.9  14.05  2757.84  14.37   25.0
  20 EXchess 7.92b x64                :  2713.90   1250    44.7   258   601   391   558.5   48.1  14.08  2758.06  14.36   25.0
  21 Murka 3 x64                      :  2709.03   1250    44.0   261   578   411   550.0   46.2  14.19  2758.25  14.36   25.0
  22 DisasterArea 1.65 POP x64        :  2700.99   1250    42.9   246   580   424   536.0   46.4  13.96  2758.57  14.37   25.0
  23 Nemo 1.01 Beta POP x64           :  2695.76   1250    42.2   246   562   442   527.0   45.0  13.68  2758.78  14.38   25.0
  24 Octochess r7533 DC x64           :  2663.60   1250    37.8   200   544   506   472.0   43.5  13.93  2760.07  14.37   25.0
  25 Rhetoric 1.4.3 POP x64           :  2663.00   1250    37.7   218   506   526   471.0   40.5  14.07  2760.09  14.37   25.0
  26 Laser 1.1 POP x64                :  2619.72   1250    32.0   148   505   597   400.5   40.4  14.19  2761.82  14.36   25.0

White advantage = 28.95 +/- 2.13
Draw rate (equal opponents) = 48.07 % +/- 0.42

Das heißt ...

1. Ergebnis gegen die Stärkeren = 3212,21 Elo
2. Ergebnis gegen die Schwächeren = 3176,54 Elo

Differenz = 35,67 Elo

Bei einer Performance von 92.1% gegen die Schwächeren fällt so etwas natürlich auf den ersten Blick nicht auf.
Wenn Du Dir aber die Partien anschaust wirst Du feststellen das viel zu viele Partien zu schnell nach 3facher Stellungswiederholung Remis werden.
Durch Contempt = 10 werden die 3fachen Stellungswiederholungen gerade in der Eröffnungsphase vermieden.
Die Partien laufen also länger und Stockfish ist im Mittelspiel natürlich deutlich überlegen und erspielt sich die Vorteile von Partien die ohne Contempt schon vorher mit Remis enden.

Das wird deutlich aus der Züge-Statistik auf meinen Webseiten
Platz 1-50 liegen bei Partien die ohne Aufgabefaktor spätestens bei Zug 59 enden: 463.45 Elo auseinander
Platz 1-50 liegen bei Partien die ohne Aufgabefaktor spätestens bei Zug 60-79 enden: 808.55 Elo auseinander
Platz 1-50 liegen bei Partien die ohne Aufgabefaktor spätestens bei Zug 80-99 enden: 799.24 Elo auseiannder
Platz 1-50 liegen bei Partien die ohne Aufgabefaktor spätestens bei Zug 100-299 enden: 284.53 Elo auseinander

Das heißt wenn Stockfish nicht die Partien gegen die Schwächeren nach der Eröffnungsphase bis zu der ersten Partiephase bis ca. Zug Nummer 59 Remis durch dreifache gibt erhält Stockfish in der entscheidenden Spielphase ca. einen 350 Elo Booster im Vergleich zu den Schwächeren oben drauf. Die Wahrscheinlichkeit das ausgeglichene Stellungen dann doch noch zum Gewinn führen ist Recht hoch.

Das heißt Stockfish wird mit Contempt = 10 auf jedenfall besser punkten.
Denke das wird niemand wirklich in Frage stellen.

Was in Frage gestellt werden kann ist ... ob sich Contempt = 10 dann negativ im Spiel gegen die besseren Engines auswirkt. Allgemein wurde gedacht dass durch Contempt ja ausgeglichene Stellungen im Spiel gegen die besseren verschenkt werden können und dadurch die Gefahr einer Niederlage größer wird.

Das ist eigentlich die Frage die Fragen!
Wenn im Spiel gegen die Stärkeren Contempt = 10 keine negativen Auswirkungen hat aber im Spiel gegen die Schwächeren positive Auswirkungen hat macht die Standardeinstellung Contempt = 0 keinen Sinn. Weil durch Contempt = 0 Leistung verschenkt wird.

Also, die Leistung von Stockfish im Spiel gegen die Schwächeren ist augenscheinlich mit einer Performance von 92.1% recht hoch aber in Anbetracht des Unterschiedes in Elo viel zu niedrig.

Wir können das erst richtig vergleichen wenn der aktuelle Test-Lauf durch ist.

Meine Vermutung ist seit vielen Jahren, dass die Grundeinstellung von Stockfish mit Contempt falsch ist. Das durch Contempt die Leistung gegen die Stärkeren nicht abfällt. Das war immer schwierig nachzuweisen weil ca. 15 Elo schwierig zu messen sind. Wir können das im Grunde nur korrekt beobachten wenn wir mittels der Statistiken uns die unnötigen Remispartien gegen die Schwächeren näher ansehen. Ferner wird Stockfish immer dominanter und je dominanter die Engine im Vergleich zu den anderen wird desto wichtiger wird Contempt. Die Aussage das durch Contempt mehr Partien gegen die Stärkeren verloren werden zog vielleicht noch in Zeiten als Stockfish mit Komodo und Houdini ca. auf einem Level war im direkten Vergleich zu diesen beiden Engines aber zieht heute nicht mehr.

Ich denke das nach dem Test-Lauf deutlich wird, dass Stockfish gegen die Schwächeren deutlich weniger Partien Remis spielt und gegen die Stärkeren nicht wirklich zählbar schwächer ist.

Contempt ist auch interessant hinsichtlich der Frage des Beeinflussungsfaktors auf Ratinglisten. Für welche Engine macht Contempt Sinn und für welche Engine macht Contempt keinen Sinn. Die super starken Engines profitieren von einen positiven Contempt in einer Ratingliste, die Schwächeren hingegen durch einen negativen Contempt. Contempt verschiebt ferner die Partien in späteren Partiephasen, der Zügedurchschnitt nimmt zu, weil die schnellen Remispartien abnehmen. z. B. hat DiscoCheck mit einem Extrem Contempt von 25 den höchsten Zügedurchschnitt in meiner Liste zusammen mit Quazar und Houdini.

Bei Houdini macht eine extrem positiver Contempt Sinn weil die Engine im Endspiel sehr stark ist. Daher verschiebt Houdini nach hinten ... Stockfish hingegen ist sehr stark in der Taktik und gewinnt sehr schnell sehr viele Partien. Ein zu hoher Contempt macht dann wieder keinen Sinn weil der Partiedurchschnitt unnötig nach hinten verschoben wird auch wenn Stockfish im Endspiel natürlich auch sehr stark ist. Ein zu hoher Contempt beeinflusst dann eher negativ das schöne taktische Verhalten von Stockfish.

Nun hat Komodo z. B. Contempt = 10.
Bei Stockfish würde eigentlich 7 ausreichen, also 0.06 auf Stellungsbewertung oben drauf.

Egal, teste das jetzt mit 10 aus.

Also, warten wir die Ergebnisse ab und dann vergleichen wir die mit den beiden hier dargestellten Resultaten.
Denke das wird dann deutlich oder auch nicht.

Wie gesagt, sehr schwierig zu messen und da die anderen Listenbetreiber nicht die Anzahl der Gegner haben, nicht Jeder gegen Jeden kontinuierlich spielen lassen opfere ich mich mit meinen Daten.

Gruß
Frank

196 Remispartien gegen die Schwächeren ... ich bin der Meinung 40-50 weniger könnten es sein bei ca. gleicher Elo im Spiel gegen die Stärkeren.

By Frank Quisinsky Date 2016-10-12 01:19 Edited 2016-10-12 01:22

Ach so ...

halbieren wir die Differenz von den hier dargestellten ...

1. Ergebnis gegen die Stärkeren = 3212,21 Elo
2. Ergebnis gegen die Schwächeren = 3176,54 Elo

Differenz = 35,67 Elo

Kommen 17.5 Elo heraus. Da aber natürlich nicht alle schnellen Remise gegen die schwächeren Engines dann mit Gewinn durch Contempt enden müssen wir das von der Gesamtperformance abziehen. Hinzuziehen müssen wir das was im Spiel gegen den unteren Teil der TOP-25 noch erzielt wird. Insofern ist die Schätzung es macht 15-20 Elo in einer Ratingliste aus, wenn denn in dieser Ratingliste gegen die Schwächeren getestet wird. Und das ist realistischer als genau das nicht zu tun. Sonst hätte Kasparow ja in Hochzeiten nur 2 Gegner gehabt und niemals wäre festgesellt wurden das der Angstgegner Gurevich war.

Nein, aber ich hatte das mit zwei Stockfish Versionen für mich schon mal auf Q9550 getestet, 1x kam ich auf 18 Elo Zuwachs und 1x vor ca. 2 Jahren auf 8 Elo Zuwachs. Klar vor ca. 2 Jahren war Stockfish noch nicht so dominant wie heute und wie gesagt, je stärker im Feld zu den Verfolgern desto mehr macht das aus.

Gesprochen hatte ich hier von 50 Elo weil ich hochgerechnet habe wie es sich auswirken wird wenn die Tabelle gegen die Schwächeren noch weiter runter geht.

Wenn Stockfish z. B. gegen die heutigen GMs mit ca. 2.500 - 2.600 antreten würde ... die wissen wie Remis nach dreifacher noch schneller erreicht werden könnte ... macht ein Spiel ohne Contempt schon fast 75-100 Elo aus. So unglaubllich das klingt aber im Grunde ist es gar nicht so wichtig ob ein Spieler mit 1.000 Elo gegen Stockfish spielt wenn er weiß wie muss ich auf dreifache Stellungwiederholung spielen. Selbst ein Schachcomputer aus Uhrzeiten mit vielleicht 1.400 Elo wird gegen Stockfish remisieren wenn das Buch gut ist ... schnell remisieren wenn die Partie nicht länger als 30-35 Züge läuft und wie gesagt das Buch gut ist.

Und genau das geht gar nicht, eine Engine wie Stockfish ... MUSS ... Remis in der Eröffnungsphase vermeiden um diese unnötigen dreifachen Stellungwiederholungen zu vermeiden ... weil ... das sieht einfach urkomisch aus ... so typisch Computerschach mäßig im Jahre 2016.

Gruß
Frank

By Frank Quisinsky Date 2016-10-12 02:46

Code:

  *********************************************** 
   Still running after round  39/50 =  78% 
   SF 18Sep2016 BMI2 x64 C10        =  + 18.91 Elo 

    # Player                           :      Elo  Games  Score%   won  draw  lost  Points  Draw%  Error   OppAvg   OppE   OppD 
   ---------------------------------------------------------------------------------------------------------------------------- 
    1 SF 18Sep2016 BMI2 x64 C10        :  3218.83   1911    87.8  1451   455     5  1678.5   23.8  16.77  2836.78  10.58   49.0 
    1 SF 18Sep2016 BMI2 x64            :  3199.92   2450    86.7  1808   630    12  2123.0   25.7  15.06  2837.97  10.57   49.0 
   ****************************************************************************************************************************

Geht der Thread doch weiter ...

Hier noch ein Zwischenstand nach Runde 39 von 50 und nunmehr 1.911 von 2.450 Partien.
Regt sich wie erwartet kaum etwas. Geht mal auf 87.6% runter, wieder auf 88.1% hoch.
Schwankungen werden aber immer geringer ... pendelt sich so langsam auf 87.8 ein.

Nach wie vor, eigentlich müsste es auf über 88,0% gehen ...
Mal schauen!

Gruß
Frank

By Frank Quisinsky Date 2016-10-12 03:11 Edited 2016-10-12 03:50

Code:

   # Player                       :      Elo  Games  Score%  won  draw  lost  Points  Draw%  Error   OppAvg   OppE   OppD
   1 SF 18Sep2016 BMI2 x64 C10    :  3233.82    936    82.9  621   310     5   776.0   33.1  19.93  2939.68  13.71   24.0
   2 Komodo 10 x64                :  3195.49   1189    79.9  741   417    31   949.5   35.1  16.61  2938.57  13.79   24.0
   3 Houdini 4 STD B x64          :  3074.73   1189    66.8  535   519   135   794.5   43.7  14.59  2943.65  13.87   24.0
   4 Fire 4 x64                   :  3033.41   1189    61.6  437   591   161   732.5   49.7  13.58  2945.39  13.91   24.0
   5 GullChess 3.0 BMI2 x64       :  3030.12   1189    61.2  426   603   160   727.5   50.7  13.05  2945.53  13.94   24.0
   6 Fizbo 1.8 BMI2 x64           :  3004.31   1189    57.8  386   602   201   687.0   50.6  13.00  2946.61  13.94   24.0
   7 Equinox 3.30 x64             :  3004.27   1189    57.8  366   642   181   687.0   54.0  13.81  2946.61  13.91   24.0
   8 Andscacs 0.872 BMI2 x64      :  2993.00   1189    56.3  362   614   213   669.0   51.6  13.32  2947.09  13.93   24.0
   9 Critter 1.6a x64             :  2976.47   1189    54.0  333   619   237   642.5   52.1  13.30  2947.78  13.93   24.0
  10 Fritz 15 x64                 :  2971.86   1189    53.4  322   626   241   635.0   52.6  13.38  2947.98  13.92   24.0
  11 Nirvanachess 2.3 POP x64     :  2960.10   1189    51.8  273   686   230   616.0   57.7  13.51  2948.47  13.92   24.0
  12 Hannibal 1.7 x64             :  2958.90   1189    51.6  305   618   266   614.0   52.0  12.92  2948.52  13.94   24.0
  13 Chiron 3 x64                 :  2946.86   1189    50.0  285   619   285   594.5   52.1  12.76  2949.03  13.95   24.0
  14 Texel 1.06 x64               :  2932.41   1189    48.0  271   600   318   571.0   50.5  13.11  2949.64  13.93   24.0
  15 Protector 1.9.0 x64          :  2927.21   1189    47.3  237   651   301   562.5   54.8  13.55  2949.85  13.92   24.0
  16 iCE 3.0 v658 POP x64         :  2919.50   1189    46.3  255   590   344   550.0   49.6  12.98  2950.18  13.94   24.0
  17 Booot 6.0.2 POP x64          :  2900.59   1189    43.7  209   621   359   519.5   52.2  13.72  2950.97  13.91   24.0
  18 Hakkapeliitta TCEC v2 x64    :  2886.57   1189    41.8  242   510   437   497.0   42.9  13.73  2951.56  13.91   24.0
  19 Naum 4.6 x64                 :  2885.00   1189    41.6  194   601   394   494.5   50.5  13.92  2951.63  13.90   24.0
  20 SmarThink 1.96 SSE4 x64      :  2872.04   1189    39.9  216   516   457   474.0   43.4  13.62  2952.17  13.91   24.0
  21 Vajolet2 2.2 POP x64         :  2829.16   1189    34.3  149   518   522   408.0   43.6  13.29  2953.98  13.93   24.0
  22 Senpai 1.0 SSE42 x64         :  2825.16   1189    33.8  147   510   532   402.0   42.9  14.16  2954.15  13.89   24.0
  23 Pedone 1.4.1 BMI2 x64        :  2816.71   1189    32.8  113   553   523   389.5   46.5  14.32  2954.50  13.88   24.0
  24 Hiarcs 14 WCSC w32           :  2812.59   1189    32.3  132   503   554   383.5   42.3  14.40  2954.67  13.88   24.0
  25 Cheng 4.39 x64               :  2795.91   1189    30.2  116   487   586   359.5   41.0  14.28  2955.38  13.89   24.0

White advantage = 33.25 +/- 2.13
Draw rate (equal opponents) = 56.70 % +/- 0.49

Code:


   # Player                           :      Elo  Games  Score%  won  draw  lost  Points  Draw%  Error   OppAvg   OppE   OppD
   1 SF 18Sep2016 BMI2 x64 C10        :  3187.13    975    92.6  830   145     0   902.5   14.9  29.38  2738.07  13.95   25.0
   2 Sjeng c't 2010 w32               :  2811.51   1239    58.9  465   530   244   730.0   42.8  14.08  2749.24  14.43   25.0
   3 Arasan 19.1 POP x64              :  2795.98   1239    56.8  421   565   253   703.5   45.6  13.93  2749.87  14.43   25.0
   4 Shredder 12 x64                  :  2793.93   1239    56.5  424   552   263   700.0   44.6  13.97  2749.95  14.43   25.0
   5 Junior 13.3.00 x64               :  2788.71   1239    55.8  421   540   278   691.0   43.6  14.29  2750.16  14.42   25.0
   6 Wasp 1.25 BMI2 x64               :  2784.67   1239    55.2  390   588   261   684.0   47.5  13.44  2750.32  14.45   25.0
   7 Spike 1.4 Leiden w32             :  2782.64   1239    54.9  407   547   285   680.5   44.1  13.71  2750.40  14.44   25.0
   8 Quazar 0.4 x64                   :  2777.47   1239    54.2  387   569   283   671.5   45.9  13.50  2750.61  14.45   25.0
   9 DiscoCheck 5.2.1 x64             :  2772.00   1239    53.4  408   508   323   662.0   41.0  13.58  2750.83  14.45   25.0
  10 Bobcat 7.6 x64                   :  2766.29   1239    52.6  352   600   287   652.0   48.4  13.52  2751.06  14.45   25.0
  11 Deuterium 14.3.34.130 POP x64    :  2757.70   1239    51.4  336   602   301   637.0   48.6  14.46  2751.41  14.41   25.0
  12 Spark 1.0 x64                    :  2755.15   1239    51.0  349   567   323   632.5   45.8  14.26  2751.51  14.42   25.0
  13 Zappa Mexico II x64              :  2752.00   1239    50.6  330   594   315   627.0   47.9  13.68  2751.64  14.44   25.0
  14 TogaII 280513 Intel w32          :  2737.77   1239    48.6  334   536   369   602.0   43.3  13.81  2752.21  14.44   25.0
  15 Gaviota 1.0 AVX x64              :  2731.78   1239    47.7  328   527   384   591.5   42.5  14.06  2752.46  14.43   25.0
  16 Crafty 25.0.1 JA POP x64         :  2728.94   1239    47.3  301   571   367   586.5   46.1  14.28  2752.57  14.42   25.0
  17 Rodent II 0.9.33 x64             :  2721.79   1239    46.3  288   572   379   574.0   46.2  13.86  2752.86  14.43   25.0
  18 Dirty 03NOV2015 POP x64          :  2721.27   1239    46.2  292   562   385   573.0   45.4  13.59  2752.88  14.45   25.0
  19 Atlas 3.80 x64                   :  2716.95   1239    45.6  281   569   389   565.5   45.9  13.96  2753.06  14.43   25.0
  20 EXchess 7.92b x64                :  2712.36   1239    45.0  258   599   382   557.5   48.3  13.95  2753.24  14.43   25.0
  21 Murka 3 x64                      :  2708.91   1239    44.5  261   581   397   551.5   46.9  14.16  2753.38  14.42   25.0
  22 DisasterArea 1.65 POP x64        :  2699.71   1239    43.2  246   579   414   535.5   46.7  13.51  2753.75  14.45   25.0
  23 Nemo 1.01 Beta POP x64           :  2693.59   1239    42.4  246   558   435   525.0   45.0  13.59  2754.00  14.45   25.0
  24 Octochess r7533 DC x64           :  2662.52   1239    38.1  200   544   495   472.0   43.9  14.25  2755.25  14.42   25.0
  25 Rhetoric 1.4.3 POP x64           :  2660.43   1239    37.8  218   501   520   468.5   40.4  14.41  2755.34  14.41   25.0
  26 Laser 1.1 POP x64                :  2617.62   1239    32.2  148   502   589   399.0   40.5  14.78  2757.06  14.40   25.0

White advantage = 29.22 +/- 2.12
Draw rate (equal opponents) = 48.06 % +/- 0.40

So, nach 39 Runden mal ein Contempt Zwischenvergleich:

Code:


   Gegen Platz 1-25
   1 SF 18Sep2016 BMI2 x64 C10        :  3233.82    936    82.9   621   310     5   776.0   33.1  19.93  2939.68  13.71   24.0
   1 SF 18Sep2016 BMI2 x64            :  3212.21   1200    81.0   755   434    11   972.0   36.2  16.64  2941.96  13.63   24.0
   
   Gegen Platz 26-50
   1 SF 18Sep2016 BMI2 x64 C10        :  3187.13    975    92.6   830   145     0   902.5   14.9  29.38  2738.07  13.95   25.0
   1 SF 18Sep2016 BMI2 x64            :  3176.54   1250    92.1  1053   196     1  1151.0   15.7  25.30  2739.55  13.92   25.0
   
   Hochrechnung
   Wenn nach 39 Runden 145x Remis wie oft nach 50 Runden = 185x Remis gegen die Schwächeren anstatt 196x
   
   Hochrechnung
   Wenn nach 39 Runden insgesamt 455x Remis wie oft nach 50 Runden = 583x Remis
   Die Contempt = 10 Version spielt also 630 - 583 = 47x weniger Remis

Könnten wir folgendes Fazit ziehen:

1. Gegen die Stärkeren Engines hat Contempt = 10 gar positive Auswirkungen. Auf Elo schauen macht keinen Sinn (wird nicht so deutlich) eher auf wie oft weniger Remis!! Denn die Non-Contempt Version verlor öfters. Nun sind in den TOP-25 natürlich auch deutlich schwächere Engines drin, so dass ...

2. Die Aussage, dass Stockfish mit Contempt = 10 gegen die Schwächeren (also Engines in der unteren Hälfte von Platz 26-50) besser punktet so halb falsch und so halb richtig ist. Weil wie gesagt die Schwächeren schon in der Riege der Engines von Platz 1-25 enthalten sind. Wir müssen also eher das Gesamtergebnis betrachten also innerhalb des Gesamtergebnisses zu unterscheiden ... wobei die Beobachtung von Günter schon gut war.

Die Unterscheidung die ich eigentlich bringen wollte ... Aufteilung von Platz 1-25 und 26-50 ist vielmehr ungünstig. Dachte ich könnte das so noch deutlicher machen!
Aber wie das so ist mit den Stats ... müssen wir tiefer schauen, anders betrachten!!

Letztendlich werden offenbar wieder die 18 Elo mehr rauskommen bedingt durch nach 2.450 Partien ca. 40-50 unnötige Remispartien. Das bedeutet Stockfish spielt 2% unnötige Remispartien mit Contempt = 0 oder anders gesagt die Engine verliert in der Grundeinstellung ca. 18 Elo. Dieser Wert ist messbar, bestätigt mein erstes nicht offiziell durchgeführtes Experiment. Ferner ist die Aussage, dass Stockfish mit Contempt gegen die Stärkeren an Leistung verliert eher verdreht und falsch. Stockfish verliert weder mehr Partien noch verliert Stockfish an Leistung.

Soweit nach 78% vom Test-Run und zum Endergebnis nach 100% wird sich ganz sicher hier nichts mehr tun, es sein denn es geht mit dem Test-Teufel zu.

Aber vielleicht sind meine Rückschlüsse auch falsch ...
Wer berichtigen möchte, nur zu!

Dabei bitte berücksichtigen!!

Viel interessanter als diese ganzen Elo-Zahlen um Unterschiede darzustellen sind aber die Partien selbst. Was passiert bei Contempt nun wirklich!
Zügedurchschnitt ist von 76 bei Contempt = 0 hochgegangen auf 82 bei Contempt = 10. Klar Remis wird vermieden!

Und nun zieht eigentlich nur eine ganz entscheidende Aussage ...
Stockfish gibt deutlich weniger Partien Remis mit Contempt = 10 ... verschiebt diese frühen remislichen nicht zu gebrauchenden Partien in die nächste Partiephase und punktet hier, holt die 18 Elo raus.

Schauen wir uns das noch an ...

Contempt = 10 Version
29x Remis unter 40 Zügen nach 39 Runden, sind hochgerechnet auf 50 Runden = 37x Remis!

Contempt = 0 Version
94x Remis unter 40 Zügen nach 50 Runden

Also, im Grunde klar was passiert und genau hieran wird es sehr deutlich, die Auswirkungen wären dann ... 18 Elo mehr durch das verschieben in die nächste Partiephase bei vermeiden von Remis!

Wir können das noch weiter spinnen ...
94 - 37 = 57 Partien ... ca. 15% der Partien bleiben in der Regel Remis ... hatte ich auch schon mal errechnet bzw. durchgespielt.
Ziehen wir von den 57 Partien ca. 15% ab verbleiben .... 46 Partien!

Und Bingo die Aussage ...
Ca. 40-50 weniger Remispartien durch Contempt = 10

Können wir drehen und wenden wie wir wollen.
Stockfish braucht Contempt kann nur die einzig richtige Aussage sein und das unabhängig von der Hardware denn ob nun 100x schnellere Hardware oder nicht ... wir sprechen von vermeiden von Remis in der Eröffnungsphase und da entstehen recht selten Best-Moves die vielleicht eine schnellere Hardware findet. Diese Aussage ist Hardware übergreifend! Und noch besser ist der Umkehrschluss auf andere Engines. Ein Andscacs wird mit Contempt auch eine deutlich bessere Performance erreichen. Wir brauchen ja im Grunde nur auf die Anzahl der schnellen Remise zu schauen um dann die hellseherischen Kenntnisse anzuwenden. Und insofern könnten wir mit Contempt Spielerei die Ergebnisse einer Liste beeinflussen ... also ein Beeinfussungsfaktor für Ratinglisten ... was ich ca. mal vor 2 Jahren geschrieben habe der gar größer ist als ... ich verwende Tablebases oder nicht, denn die machen gerade mal 5- in Einzelfällen 10 Elo aus ... warum ... Posting bevor ... der Elo-Unterschied zwischen Platz 1-50 in Ratinglisten bei effektiv ca. 600 Elo Differenz ist im Endspiel gerade mal ca. 275 Elo.

Also, Contempt ist ein größerer Beeinflussungsfaktor für Ratinglisten als z. b. Tablebases!
Nur mal so dahingestellt ... denn ein Beeinflussungsfaktor von bis zu 20 Elo ist enorm. Es gibt ja noch andere davon wie Tablebases etc., Anzahl der Gegner, Anzahl der Partien, Ponder ... Zeit, Aufgabefaktor, Prozessoroptimierungen etc. und insofern ist der Blick auf eine Ratingliste nicht wirklich eine ultimative Aussage hinsichtlich der ermittelten Spielstärke.

Denn ...
Langweilige Elo-Zahlen können nicht das Ziel sein.
Eher etwas herausfinden und Elo für das benutzen für was es zu gebrauchen ist ... vergewaltigen für irgendwelche Darstellungen.
Viel interessanter ist dann das was herausgefunden wird ... Spielstile zu den Partiephasen, Stärken und Schwächen, Auswirkungen von Einstellungen. Und genau dafür die Datenbasis und genau dafür dann solche Stats, weil wir das sonst einfach nicht erkennen können und noch in hundert Jahren denken ... Contempt = 0 ist besser. Die Statistik hilft bei den enormen Spielstärken was wir sonst niemals erkennen würden.

Dennoch ... ist schon geil wie stark die beiden Listen sind ... jeder gegen jeden bei 25 Engines und nur 1.200 Partien.
Die Reihenfolgen stimmen und selbst die Zahlen sind 1a im Vergleich zu der Liste aller Partien.

Die ganze Kraft der Ratingliste und des verwendeten Test-Systems lässt grüßen und sagt ...
Hier bin ich und wenn ihr wollt könnt Ihre 100 Bücher aus mir lesen, müsst nur nicht auf die Elo allein schauen sondern einfach mal ein paar Stats mit mir machen. Könnt alles herausfinden, was immer ihr wissen wollt und müsst nur ein wenig Geduld aufbringen.

By Frank Quisinsky Date 2016-10-12 04:12 Edited 2016-10-12 04:18

Einer noch ...

Die Ratingliste mit Stockfish und Shredder ... so hätte eine Ratingliste vor 7 Jahren ausgesehen, als Shredder herauskam.
Das war ca. der Zeitpunkt als die Riege der Großmeister nicht mehr so gern offiziell sich den Wettkämpfen gegen Computerprogramme gestellt hat.

In 7 Jahren 400 Elo programmiertechnisch herausgezaubert.
Und vor 7 Jahren bewunderten wir Shredder und deren Leistung ... unangefochten an 1.
Die stärksten Spieler der Welt konnten nicht halten gegen Shredder und machten meist weniger als 40%.

400 Elo ... hätte nur irgend jemand einen Stockfish vor 7 Jahren gehabt!
Der wäre ja direkt Fernschachweltmeister geworden und wäre ca. 100 Elo besser als die damalige Nummer 1 (auch hochgerechnet).
2009 waren Fernschachspieler immer noch ca. 300 Elo überlegen ... persönliche Schätzung.
Also auch im Fernschach ... die Computerprogramme liegen hier auch mittlerweile drüber und auch bei der Eröffnungstheorie ...
Ein Buch zu optimieren mit Computerzügen macht mehr Sinn als Großmeisterpartien zu sammeln bzw. eigentlich sind die Großmeister hier noch in Front mit ihren Analysen aber lange wird es nicht mehr dauern und auf Hochleistungs-Systeme ist wahrscheinlich schon Gleichstand eingetreten.

Finde das unglaublich!
Kein Wunder das im Fernschachbereich so viele Remispartien ...
Das gab es vor 7 Jahren nicht ... so vieles ist ablesbar!

Herr Dein Tierreich ...

By Guenter Stertenbrink Date 2016-10-12 08:02

brauch ich also noch die Liste, mit den 49 Prozent-Zahlen,
wieviel % "SF 18Sep2016 BMI2 x64 CT 0" gegen die einzelnen
engines geholt hat. afaiu beide Turniere sind derzeit
offen : CT0 und CT10 gegen Rest. (und der Rest untereinander,
aufgeteilt in 2 Gruppen - evtl. werden da die alten
bereits vorhandenen Partien genommen)

das alles ist ja nur wichtig fuer die Elos, wenn man
Partien spielt. Benutzt man SF zur Analyse, z.B. im Fernschach,
oder fuer Eroeffnungsbuecher, so nimmt man contempt=0

Es waere nutzlich, wenn da noch ein Zusatzparameter
waer fuer die Komplexitaet der Stellung, wie stark die eval
schwankt von Tiefe zu Tiefe.

Nehmen wir an, SF spielt in einer Stellung n Partien gegen sich selbst
mit fester Rechentiefe, 10 Zuege Weiss und Schwarz, jeweils mit
Zufallsgenerator, abschaetzend die Wahrscheinlichkeit, dass
ein Zufallsprogram bestimmter Staerke den entsprechenden Zug machen wuerde.
Dann bekommen wir n evals 10 Zuege im Voraus und koennen Erwartungswert
und Varianz berechnen.Dieses kann benutzt werden , um z.B. Zuege mit hoher
eval-Varianz zu bevorzugen.

By Frank Quisinsky Date 2016-10-12 10:48 Edited 2016-10-12 11:46

Hi Günther,

warum Contempt = 0 für Fernschach oder Bücher, damit hier mehr Varianten durch dreifache eingeleitet werden?
Diese Schlussfolgerung verstehe ich nicht!

Contempt = 0 macht in jedem Fall keinen Sinn!

Aber wie gesagt, jeder soll das nutzen was er möchte, möchte niemanden daran hindern!

Übrigens teste gerade ein anderes Stockfish Setting auf Q9550 aus.
Im Step 1 dann auch 12 Elo mehr herausgefunden

Und derzeit dann in Kombination mit Contempt im Step 2 sind es beim weiteren Test schon 31 Elo zu Standard. Sollte eigentlich eher 25 sein, aber offenbar ist das zusätzliche was herauskommt Contempt unabhängig.

Werde vielleicht darüber auch berichten.
Es sieht zunächst mal danach aus, dass die Standard - Settings bei Stockfish alles andere als optimal sind aber es durchaus sinnvoll ist die Veränderungsmöglichkeiten zu haben.

Aber sich damit zu beschäftigen ... zumal ja jeden Tag wieder was geändert wird macht nicht wirklich Sinn.
Deswegen, eigentlich Zeitverschwendung, zumal ich nicht weiß ob bei anderen Gegnern (habe hier 30 Gegner im Test) was anderes dabei herauskommt.
Wie gesagt, die ganzen Beeinflussungsfaktoren greifen immer ineinander über und mixen mir teils unterschiedliche Ergebnisse.

Insofern wird auch nur aufgezeigt wie sinnlos es ist auf die Jagd nach einer ELO Aussage zu gehen wenn direkt feststeht das dies nicht erfolgversprechend sein kann. Und je mehr Beeinflussungsfaktoren in einer Liste desto unnötiger ist diese. Selbst bei meiner Liste mangelt es an Genauigkeit bei gar 49 permanenten Gegnern, auch wenn der Beeinflussungsfaktor "Anzahl der Gegner" gering gehalten wird, so gibt es ja wie gesagt noch eine Vielzahl von anderen Faktoren die Ergebnisse beeinflussen. Mehr oder weniger eine nette Arbeits- und Beschaffungsmaßnahme für die Ersteller und unnötige Fleißaufgabe für die "Ergebnis-studierenden".

Zu sagen ich teste nur mit Standard ... ist genauso irrsinnig weil Standard auch nur ein Setting ist.

Contempt ist aber eine nette Geschichte.
Noch einfacher ist es herauszufinden, wie viele Partien die länger durch Contempt = 10 auf 0.09 standen werden gedreht. Das kann anhand der Datenbank bei 2.450 Partien in einer Fleißaufgabe geprüft werden. Dem müssen nur die Wahrscheinlichkeitsberechnungen zu dreifacher, aufgeteilt zu den jeweiligen Partiephasen gegenüber gestellt werden und Bingo. Ich weiß was dabei herauskommt ... ca. 40-50!

Es gibt bekanntlich mehrere Wege um nach Rom zu kommen, auch z. B. über Shanghai gibt es Wege.

und von daher, was Dir die Stellungsbewertung ausgibt um nach Shanghai bei der Buchoptimierung zu kommen ist Popes auf höherem Niveau zu ca. 20% wenn denn anhand von völlig anderen Spielstilen nicht aufgezeigt wird das sich 0,09 in einen Sieg drehen lässt. Und daher für die Bucherstellung ist der Ansatz nicht gut aber die unterschiedlichen Spielstile sind gut. Ein Grund warum ich das Buch nach diesem Muster optimiere und Engines wie Fizbo brauche.

Und glaube mir, es gibt GM Popes Experten die Dir genau diese 20% auseinandernehmen und aufzeigen wie denn locker nach den Eröffnungszügen nicht verstandenes ausgenutzt werden kann. Die Theorie wird also leben und bleibt wichtiger Bestandteil beim Schach. Nicht ohne Grund werden hier so viele Bücher geschrieben. Und weil jeder wissen will wie er aus den 20% Optimierungen profitieren kann werden die Bücher auch am häufigsten gekauft.

Gruß
Frank

By Guenter Stertenbrink Date 2016-10-12 12:17

im Fernschach entscheide ich selber, ob ich Zugwiederholung will. Das haengt ab vom
Turnierstand, Gegnereinschaetzung,Stellungstyp, verfuegbare Zeit etc. ,
Sachen die der Computer nicht weiss.
Im Buch gibst du die generelle Bewertung an, nicht die, welche abhaengt vom contempt
= Verachtung der moeglichen Spieler.

Testen nur mit Standard macht dann Sinn, wenn contempt keine wesentliche Veraenderung
bringt. Z.B., wenn die engines eh alle versuchen auf Gewinn zu spielen, oder gleichstark sind.

Was ich gar nicht schaetze, ist dieses "shuffling" : hin-und-herziehen ohne Fortschritte,
das wird vermutlich durch contempt gefoerdert ?!

By Frank Quisinsky Date 2016-10-12 12:24 Edited 2016-10-12 12:29

Auf Fehler warten, zieht den Zügedurchschnitt nach oben ... ja!

Hatte gerade eine solche Partien hier live verfolgt.
Gegner war Gaviota.

Glaube aus Runde 42 oder 43 ... kann ja später mal nachgespielt werden wer will.
Das waren gut und gerne 30 oder mehr Züge bei dem SF bei 0.09 stand.
Dachte die Partie wird Remis und schaute dann eine Zeit nicht mehr zu.

Blick auf den Bildschirm ... plötzlich geht die Kurve der Bewertung rasant nach oben.
Der Fehler und gewonnen!

Genau das passiert im GM Schach heute gegen ein so starkes Programm wie Stockfish.
Egal welche Stärken Stockfish hat oder nicht ... jeder noch so kleine Fehler bei so viel Elo mehr wird direkt bestraft.

Es ist richtig wenn durch Contempt verschoben wird, abgewartet wird weil ein Computerschachprogramm spielt.
Warum sollte das Programm menschlich reagieren und früh in eigentlich klaren Remisstellungen auch Remis geben wenn doch klar ist das in der Partiephase dahinter der Elo Unterschied nach oben explodiert.

So ganz nach dem Motto ...
Unsere Geduld hat Grenzen, die Geduld von Stockfish hat keine ... ich habe Zeit, mach doch was Du willst denn irgendwann kommt der Fehler und wenn nicht ... nun gut, Glückwunsch zum Remis.

Und wie gesagt, Stockfish hat einen gigantisch geringen Zügedurchschnitt im Vergleich zu den anderen.
Auch 82 bis zum Ende der Partie mit Contempt = 10 ist definitiv gigantisch gut ... also der Fehler kommt aus der Sicht von Stockfish eigentlich sehr schnell beim Gegner.

Positiv ist, das andere Programmierer schneller die Fehler in Ihren Programmen sehen.

By Guenter Stertenbrink Date 2016-10-12 12:56

dass solche shuffling Partien gewonnen werden haengt aber m.E. meistens damit zusammen
dass beide engines gewinnen wollen - man sucht gemainsam nach Wegen raus aus
der Untaetigkeit ...
Ein Mensch wuerde wohl eher auf stur schalten, nach dem Motto, "wat willste denn, aeih ?"

Das kostet Zeit, und ist langweilig beim live-chat. Und auch irgendwie kein richtiges Schach.
Man gibt indirekt zu, dass nix geht - spielt aber trotzdem weiter

der geringe Zuegedurchschnitt von Stockfish liegt nicht vielleicht daran,
dass er besser spielt, die eval schneller steigt als bei anderen ?
Und mehr offene Spiele, weniger geschlossene Stellungen

By Frank Quisinsky Date 2016-10-12 12:18

Hier noch die für mich maßgebliche Statistik:

Contempt 10 = 225 von 2.100 Partien enden mit Gewinn unter 60 Zügen = 10.714%
Contempt 0 = 296 von 2.450 Partien enden mit Gewinn unter 60 Zügen = 12.082%

Das heißt das der Mix zu Krass ist und die Non Contempt Version hinsichtlich aggressives Schach interessanter spielt.
Allerdings auch erfolgloser wie wir mit ca. 18 Elo festgestellt haben.

Daher schrieb ich:
Komodo ist gut justiert mit Contempt = 10 weil die Engine nicht so aggressive wie Stockfish ist.
Bei Stockfish reicht im Grunde ein kleinerer Contempt aus, wahrscheinlich 7, also 0,06 bei der Stellungbewertung oder vielleicht gar 6, also 0,05 bei der Stellungsbewertung.

Glaube nicht das die Statistik Zufall íst, weil alle Eröffnungsstellungen durch die 500 ECO durch die einfließen ausgeglichen sind.

Dennoch, das ist jetzt ein Teil der Contempt Frage den ich nicht richtig bewerten mag.
Weil es unlogisch für mich ist, dass weniger Partien schneller gewonnen werden wenn Contempt höher steht.
Sehe den direkten Einfluss nicht.

Gruß
Frank

By Frank Quisinsky Date 2016-10-13 13:32

Code:


  **************************************************
  Final results after round  50/50    =  100%
  SF 18Sep2016 BMI2 x64 C10           =  + 20.00 Elo

   # Player                           :      Elo  Games  Score%   won  draw  lost  Points  Draw%  Error   OppAvg   OppE   OppD
  ----------------------------------------------------------------------------------------------------------------------------
   1 SF 18Sep2016 BMI2 x64 C10        :  3219.92   2450    87.9  1863   580     7  2153.0   23.7  14.42  2837.08  10.59   49.0
   1 SF 18Sep2016 BMI2 x64            :  3199.92   2450    86.7  1808   630    12  2123.0   25.7  15.06  2837.97  10.57   49.0
  ****************************************************************************************************************************

Muss die Statistiken später machen, habe keine Zeit mehr dafür.
Irgendwann wenn es Nacht wird ...

Gruß
Frank

By Frank Quisinsky Date 2016-10-14 02:06

Die abschließenden Statistiken finden sich hier:
http://talkchess.com/forum/viewtopic.php?topic_view=threads&p=689370&t=61642

So muss ich nicht alles hier auch noch ... zu spät.

By Guenter Stertenbrink Date 2016-10-15 16:15 Edited 2016-10-15 16:17

760,560,619,559 0,24,26,1,17, 7,2,40, 8,4,14, 7,3187,"Komodo 10 x64"
860,700,659,739 0,14,36,1,15, 9,2,26,22,1,11,13,3080,"Houdini 4 STD B x64"
820,720,759,779 0,18,32,0,12,13,0,28,22,0,11,14,3036,"Fire 4 x64"
740,700,779,679 0,26,24,0,11,14,0,30,20,0,16, 9,3032,"GullChess 3.0 BMI2 x64"
860,740,799,819 0,14,36,0,10,15,0,26,24,0, 9,16,2994,"Andscacs 0.872 BMI2 x64"
700,740,819,679 2,26,22,1, 7,17,0,26,24,0,16, 9,2989,"Fizbo 1.8 BMI2 x64"
820,660,859,779 0,18,32,1, 5,19,2,30,18,0,11,14,2985,"Equinox 3.30 x64"
920,760,839,779 0, 8,42,0, 8,17,0,24,26,0,11,14,2979,"Fritz 15 x64"
800,780,839,679 0,20,30,0, 8,17,2,18,30,0,16, 9,2974,"Critter 1.6a x64"
820,740,919,759 0,18,32,0, 4,21,0,26,24,0,12,13,2955,"Nirvanachess 2.3 POP x64"
920,780,899,739 0, 8,42,0, 5,20,2,18,30,0,13,12,2950,"Hannibal 1.7 x64"
840,820,919,739 0,16,34,0, 4,21,0,18,32,0,13,12,2945,"Chiron 3 x64"
960,740,899,739 0, 4,46,0, 5,20,0,26,24,0,13,12,2938,"Protector 1.9.0 x64"
860,840,839,739 0,14,36,0, 8,17,0,16,34,0,13,12,2926,"Texel 1.06 x64"
880,780,859,799 0,12,38,0, 7,18,0,22,28,0,10,15,2912,"iCE 3.0 v658 POP x64"
900,860,899,819 0,10,40,0, 5,20,2,10,38,0, 9,16,2895,"Booot 6.0.2 POP x64"
880,760,879,839 0,12,38,0, 6,19,0,24,26,0, 8,17,2885,"Naum 4.6 x64"
940,900,899,779 0, 6,44,0, 5,20,0,10,40,1, 9,15,2875,"SmarThink 1.96 SSE4 x64"
980,880,859,779 0, 2,48,0, 7,18,0,12,38,1, 9,15,2874,"Hakkapeliitta TCEC v2 x64"
860,860,959,839 0,14,36,0, 2,23,0,14,36,0, 8,17,2830,"Senpai 1.0 SSE42 x64"
940,820,959,819 0, 6,44,0, 2,23,0,18,32,0, 9,16,2830,"Vajolet2 2.2 POP x64"
980,880,939,819 0, 2,48,0, 3,22,0,12,38,0, 9,16,2824,"Hiarcs 14 WCSC w32"
999,920,919,839 0, 0,50,0, 4,21,0, 8,42,0, 8,17,2812,"Pedone 1.4.1 BMI2 x64"
960,760,979,859 0, 4,46,0, 1,24,0,24,26,0, 7,18,2799,"Sjeng c't 2010 w32"
940,920,899,779 0, 6,44,0, 5,20,0, 8,42,0,11,14,2797,"Cheng 4.39 x64"
960,880,859,879 0, 4,46,0, 7,18,0,12,38,0, 6,19,2795,"Shredder 12 x64"
960,800,919,859 0, 4,46,0, 4,21,0,20,30,0, 7,18,2794,"Arasan 19.1 POP x64"
960,880,919,819 0, 4,46,0, 4,21,0,12,38,0, 9,16,2784,"Junior 13.3.00 x64"
960,900,959,839 0, 4,46,0, 2,23,0,10,40,0, 8,17,2782,"Spike 1.4 Leiden w32"
940,900,939,939 0, 6,44,0, 3,22,0,10,40,0, 3,22,2781,"Wasp 1.25 BMI2 x64"
980,960,919,899 0, 2,48,0, 4,21,0, 4,46,0, 5,20,2766,"DiscoCheck 5.2.1 x64"
940,880,939,919 0, 6,44,0, 3,22,0,12,38,0, 4,21,2764,"Quazar 0.4 x64"
900,840,859,899 0,10,40,0, 7,18,0,16,34,0, 5,20,2762,"Bobcat 7.6 x64"
960,880,899,959 0, 4,46,0, 5,20,0,12,38,0, 2,23,2755,"Deuterium 14.3.34.130 POP x64"
980,880,919,859 0, 2,48,0, 4,21,0,12,38,1, 5,19,2755,"Spark 1.0 x64"
920,880,979,919 0, 8,42,0, 1,24,0,12,38,0, 4,21,2743,"Zappa Mexico II x64"
999,940,939,919 0, 0,50,0, 3,22,0, 6,44,0, 4,21,2724,"TogaII 280513 Intel w32"
900,940,979,939 0,10,40,0, 1,24,0, 6,44,0, 3,22,2724,"Gaviota 1.0 AVX x64"
920,920,899,939 0, 8,42,0, 5,20,0, 8,42,0, 3,22,2722,"Dirty 03NOV2015 POP x64"
960,940,959,919 0, 4,46,0, 2,23,0, 6,44,0, 4,21,2722,"Crafty 25.0.1 JA POP x64"
920,900,959,859 0, 8,42,0, 2,23,0,10,40,0, 7,18,2720,"EXchess 7.92b x64"
980,940,939,899 0, 2,48,0, 3,22,0, 6,44,0, 5,20,2719,"Atlas 3.80 x64"
880,920,939,939 0,12,38,0, 3,22,0, 8,42,0, 3,22,2712,"Rodent II 0.9.33 x64"
980,880,939,919 0, 2,48,0, 3,22,0,12,38,0, 4,21,2705,"DisasterArea 1.65 POP x64"
980,880,999,839 0, 2,48,0, 0,25,0,12,38,0, 8,17,2699,"Nemo 1.01 Beta POP x64"
940,880,959,919 0, 6,44,0, 2,23,0,12,38,0, 4,21,2698,"Murka 3 x64"
999,920,979,939 0, 0,50,0, 1,24,0, 8,42,0, 3,22,2657,"Octochess r5506 DC x64"
999,980,939,939 0, 0,50,0, 3,22,0, 2,48,0, 3,22,2651,"Rhetoric 1.4.3 POP x64"
960,960,959,899 0, 4,46,0, 2,23,0, 4,46,0, 5,20,2627,"Laser 1.1 POP x64"
000,000,919,899 0, 0, 0,0, 4,21,0, 0, 0,0, 5,20,2734,"Wasp 1.01 BMI2 x64"
000,000,610,540 0, 0, 0,1,37,12,0, 0, 0,6,34,10,3176,"Komodo 10.1 x64"

--------------------------------------------------------------------------------
w10 b10 w00 b00    w10    w00 b10    b00   Elo   name
   promille lost,draw,won

SF 18Sep2016 BMI2 x64

10: contempt=10 3217
00: contempt=0   3199
w:weiss
b:schwarz

in 7er-Gruppen der Elo-liste:

794,688 , 756,719 , 3043   01-07    +0.3%   +3.8% -3.1%
874,780 , 879,739 , 2952   08-14    +1.8%   -0.5% +4.1%
911,837 , 901,810 , 2871   15-21    +1.8%   +0.9% +2.6%
965,862 , 919,836 , 2800   22-28    +3.6%   +4.6% +2.6%
951,891 , 919,901 , 2766   29-35    +1.1%   +3.2% -1.1%
942,922 , 950,913 , 2724   36-42    +0.0%   -0.8% +0.9%
962,917 , 959,913 , 2678   43-49    +0.3%   +0.3% +0.3%
--------------------------------------------------------
w10,b10 , w00,b00 , Elo Elo-Rang +1.3%   w+1.6% b+0.9%

1.3% waeren 9 Elo , C10 gegen Komodo10 mit weiss 76% !

By Benno Hartwig Date 2016-10-15 21:33

Dass der c10-SF weniger Remisen spielte (580 statt 630) ist sicher dass was gerade erhofft oder auch erwartet wurde.
Was sollen wir aber denken, dass auch (etwas) weniger verloren wurde (7 statt 12)?
Zufall?
Eigentlich hätte ich bei diesem SF eher gedacht, er würde in leicht nachteiligen Stellungen vermehrt mutig weiterspielen und dann doch eher noch mal eine Partie verlieren (und hoffentlich ein paar mehr gewinnen und weniger remisieren).
Nur Zufall?

Benno

By Frank Quisinsky Date 2016-10-16 04:52 Edited 2016-10-16 05:04

Hallo Benno,

die C10 Version hat ja nur eine gegen Komodo verloren. Die C00 verlor deutlich mehr Partien. Ansonsten waren ja die Anzahl der Verlustpartien ca. gleich. Das nun die C10 Version weniger Partien verlor ist eigentlich auch klar wenn ich auf die Move-Stats schaue. Komodo hat derzeit noch einen kleinen Vorteil im Endspiel und in den Partiephasen davor ist auch Stockfish schon deutlicher überlegen. Wird also auch gegen Komodo Remis vermieden werden mehr Gewinne eingefahren. Schaust Du in die 50 Partien selbst (sind ja alle mit Eval in der Datenbank), dann wird auch das wieder bestätigt.

Natürlich könnte es sich immer um einen kleinen Moment Zufall bei 49 Gegner handeln aber ich habe mir schon längst abgewöhnt bei allem was nicht erklärbar ist von Zufall zu sprechen, denn wenn ich tiefer schaue konnte ich noch keine Zufallstheorie mir selbst bestätigen. Doch 1x während der ganzen Test-Runs gab es eine Situation bei den einige Stats nach 1400 Partien noch gekippt sind um ca. 15 Elo. Allerdings war das dann auch wieder eine Engine die mit einer deutlichen Stärke spielt. Meist sind es dann genau diese Programme die ein wenig "wellig" sich verhalten.

Müssen uns immer vor Augen halten wie viel 2.450 Partien eigentlich sind.

Die Theorie das durch Contempt es zu mehr Verlustpartien gegen ca. gleich starke Gegner kommt ... klingt zunächst mal logisch wenn wir uns vorstellen dass unter Umständen der beste Zug wegen Remisvermeidung nicht ausgespielt wird. Nur gibt es keine schwächeren Gegner für Stockfish. Im Grunde können wir vielmehr festhalten, dass Contempt im Grunde für alle Programme vorteilhaft ist, die schnell viele Partien gewinnen und dabei auffällig oft Remis durch 3fache geben, in der Partiephase im späten Mittelspiel nicht deutlich in dieser Stärke mit den schnellen Gewinnen abfallen. Genau diese Programme gewinnen durch Contempt.

Im Umkehrschluss gewinnen natürlich auch Programme mit extremen Endspielstärken wie Houdini wenn denn nicht auffällig ist das schnell viele Partien verloren werden. Allerdings werden dann die meisten Partien zum Langweiler wenn wie bei Houdini der Zügedurchschnitt um ca. 20 Züge im Durchschnitt höher liegt. Houdini ist zum Beispiel im Endspiel extrem stark und dreht so mache Partie.

Ansonsten würde ich das Contempt Thema nun auch nicht so sehr zum Aufhänger machen. Komodo, Stockfish und Andscacs sind es ... bei Fizbo bin ich mir nicht sicher. Die Engine spielt eh schon ziemlich verrückt und hat wahrscheinlich etwas vergleichbares wie Contempt fest in den Sourcen (schauen wir auf die Stellungsbewertungen). Bei Fire könnte ein sehr kleiner Contempt noch etwas bringen, vielleicht auch bei Hakkapeliitta. Und das war es dann. Bei Hakkapeliitta bin ich mir unschlüssig weil die Engine deutlicher im Endspiel abfällt. Die TCEC Version ist zwar 60 Elo stärker als die letzte offizielle aber die letzte offizielle hatte deutlich mehr schnelle Gewinne und spielte atemberaubend im Mittelspiel, dafür im Endspiel deutlich schwächer. Wie ich finde ... +60 Elo kann auch ein Rückschritt sein wenn plötzlich eine Engine aus der Gruppe der bevorzugten Analyseengines für eine Spielphase wegfällt. Aber die 2er Version ist ja nicht verloren, setze ich also für die Mittelspielanalysen natürlich immer noch ein während ich die TCEC Version im Grunde bei meinen Analysen für keine einzige Partiephase nutze.

Sage ja immer ... Elo allein sagt nicht wirklich ultimativ etwas aus. Mit einer reinen Elo-Liste kann ich heute einfach gar nichts mehr anfangen. Brauche besseres Material um Engines einzuschätzen und von daher ... selbst ist der Mann.

Gruß
Frank