Not logged inCSS-Forum
Forum CSS-Online Help Search Login
CSS-Shop Impressum Datenschutz
Up Topic Hauptforen / CSS-Forum / SF-Spielstärkesteigerung bei Tablebase-Nutzung
- - By Benno Hartwig Date 2018-09-26 19:09 Upvotes 1
Um mal eine Vorstellung zu bekommen, wieviel Tablebases ggf. tatsächlich bringen, habe ich mal
SF ohne TB gegen SF mit TB spielen lassen.
S17 bedeutet dabei, dass hier sie Standardwerte gesetzt waren.
- ProbeDepth=1
- ProbeLimit=7
Eingesetzt hatte ich nur die 3-4-5-Version, installiert auf einer SSD.

Durchgeführt auf meinem 2,4GHz-i5, ein Thread bei forschen 1min +0,5 sec.

Heraus kam:

Stockfish_18091012_x64_modern     - Stockfish_18091012_x64_modern S17 : 489,0/1000  118-140-742
Stockfish_18091012_x64_modern S17 - Stockfish_18091012_x64_modern     : 511,0/1000  140-118-742


Vorn lag die die Tablebase-Version, aber eigentlich nur knapp.
Und ich befürchte, dass das nicht wirklich ein signifikanter Vorsprung ist.

Benno
Parent - By Heiko Krauß Date 2018-09-26 19:38
interessanter Test
als nächstes müsste man herausfinden wie hoch der Nutzen bei mehr Zeit ist.
Als Fernschachspieler habe ich mich auch schon oft gefragt was die syzigy -TB wirklich bringen
Wenn die syzygy-TB mir anzeigen würden (Gewinn in 43 Zügen)könnte ich damit was anfangen
So habe ich z.B eine Meldung tb = 41.258.147 und eine Bewertung +=4,80
Ist das nun wirklich eine Gewinnstellung , oder kann der Gegner vielleicht mit Festungsbau ein Remis halten ?
Parent - - By Thomas Plaschke Date 2018-09-27 14:49
Über Nacht bei 3min+3s mit 1 Thread und 512 MB für Hashtabellen. Stockfish180901 mit TBs bis 6-Steinern auf SSD.
Code:
Score of Stockfish180901 vs Stockfish180901 [ohne TB]: 161 - 137 - 702 [0.512]
Elo difference: 8.34 +/- 11.74

1000 of 1000 games finished.
8 Punkte Unterschied hat man fast schon je nach verwendetem Compile    Andererseits ist die Fehlerschranke noch relativ hoch.
Vielleicht spielt Stockfish im Endspiel schon zu gut. Ein anderer Versuchsaufbau könnte sein, ein etwas schwächeres Programm (bspw. Fire o. Shredder) gegen 5 Gegner zu testen: sich selbst ohne TBs, ein deutlich schwächeres Programm und ein deutlich stärkeres Programm. Die letzten beiden jeweils mit TBs und ohne TBs. Ob der relative Abstände von Stockfish mit TBs zu Stockfish ohne TBs bestätigt würde?

Viele Grüße
Th. Plaschke
Parent - - By Michael Scheidl Date 2018-09-27 16:02
Wenn es darum geht was Tablebases potentiell bringen können, empfehle ich das Beispiel Ethereal heranzuziehen. Der Programmierer hat mir im Chat gesagt, er habe kein (spätes?) Endspielwissen hardcoded eingebaut.
Parent - - By Benno Hartwig Date 2018-09-28 05:57
Gute Idee.
Ich habe solch einen Lauf mal gestartet.
Ethereal-11 mit und ohne die 3-4-5-Syzygy-Tablebases.
Kurze 1min+0.5sec (damit eine Partienzahl hinbekomme, die wenigstens statistisch etwas hergeben kann)
auf meinem i5-2,4GHz-Notebook...
Parent - - By Benno Hartwig Date 2018-09-28 20:29
Nach 300 Partien hat Ethereal 11:
ohne Syzygy          144,0 : 156,0          mit Syzygy
mal weitergucken...
Parent - - By Benno Hartwig Date 2018-09-29 06:04
und nach im Moment 500 Partien ein doch sehr bescheidener Vorsprung:
ohne Syzygy          154,5 : 245,5          mit Syzygy
Parent - - By Roland Riener Date 2018-09-29 09:54
Es sollte wohl heißen:

mit Syzygy           254,5    :   245,5     ohne Syzygy      (?)
Parent - - By Benno Hartwig Date 2018-09-29 11:27 Edited 2018-09-29 11:30
Manno, klar! Danke.
Da schreibe ich mal gerade 2 Zeilen, und enthalten ist eine einzige Information.
Und das mache ich dann doppelt falsch!

Sorry!

PS:
im Moment habe ich:
mit Syzygy        314,0 : 294,0          ohne Syzygy
Parent - By Michael Scheidl Date 2018-09-29 12:28
Interessant; das sind also bei diesem Direktvergleich nur rund 12 Elo. Unter Einbeziehung dreier anderer Engines kommen bei Thomas Plaschkes Test, je nach Auswertung soweit ich verstehe, 34...43 Elo raus. Letzteres jedoch zudem mit 6ern statt 5ern.

Es gibt keine Konstante, was ich auch nicht erwartet habe. Danke jedenfalls Euch beiden für die Untersuchungen.
Parent - - By Benno Hartwig Date 2018-09-29 18:51
Morgen werden wohl die 1000 Partien voll sein. Im Moment habe ich immerhin:
mit Syzygy        394,0 : 364,0          ohne Syzygy
Parent - - By Benno Hartwig Date 2018-09-30 07:05
Jetzt sind die 1000 voll:
mit Syzygy        518,5 : 481,5          ohne Syzygy
Das wäre dann wohl ein Vorsprung von +13 Elo
Und ich befürchte, 1000 Partien sind lausig wenig, wenn man so kleine Differenzen beschreiben will, wenn man also eine Genauigkeit auf wenige Elo anstrebt.

Warum mich diese Frage interessierte:
So manches Mal schrieb ich, dass man gern die Engines mit kleinen Büchern und ohne Tablebases in Vergleichstests schicken sollte, damit sie ihr Geschick in Eröffnungs- und Endspielsituationen offenbaren müssen.
Und mich interessierte einfach, wie sehr die Tablebase-Nutzung hier einfach bei den Ergebnissen hineinspielen mag.

Dass es andere Fragestellungen sind, bei denen die Tablebase-Nutzung so richtig Spaß macht, will ich natürlich gern glauben.

Benno
Parent - By Peter Martan Date 2018-09-30 07:37 Edited 2018-09-30 07:39
Benno Hartwig schrieb:

Dass es andere Fragestellungen sind, bei denen die Tablebase-Nutzung so richtig Spaß macht, will ich natürlich gern glauben.

Oder andere Engines.
Außerdem sind 13 Elo ja auch nicht gerade nix, manch ein Entwickler wäre froh, wenn er das mal locker einfach so draufpacken könnte auf seine Maschine.
Danke auch dir, Benno, ebenso wie Thomas Plaschke.
Parent - By Thomas Plaschke Date 2018-09-28 19:03 Upvotes 1
Ethereal 11.06 gegen Programme in seiner Preisklasse (3min+1sec, 512 MB Hashtabellen und Syzygy-TBs bis 6-Steiner; Schredder, wenn ohne TBs auch ohne Shredderbases):
Code:
Rank Name                          Elo     +/-   Games   Score   Draws
   0 Ethereal-11.06                 19      12    1750   52.8%   47.0%
   1 Fire 7.1                       57      31     250   58.2%   47.6%
   2 Fire 7.1 [ohne TB]             29      30     250   54.2%   51.6%
   3 Ethereal-11.06 [ohne TB]      -24      26     250   46.6%   62.8%
   4 Fizbo 2                       -42      35     250   44.0%   34.4%
   5 Fizbo2 [ohne TB]              -43      35     250   43.8%   36.4%
   6 Shredder 13                   -52      31     250   42.6%   49.2%
   7 Shredder 13 [ohne TB]         -63      32     250   41.0%   46.8%

1750 of 1750 games finished.
Oder in der Darstellung von Elostat:
Code:
    Program                          Elo    +   -   Games   Score   Av.Op.  Draws

  1 Fire 7.1                       : 3067   31  31   250    58.2 %   3010   47.6 %
  2 Fire 7.1 [ohne TB]             : 3039   30  30   250    54.2 %   3010   51.6 %
  3 Ethereal-11.06                 : 3010   12  12  1750    52.8 %   2990   47.0 %
  4 Ethereal-11.06 [ohne TB]       : 2986   26  26   250    46.6 %   3010   62.8 %
  5 Fizbo 2                        : 2968   35  35   250    44.0 %   3010   34.4 %
  6 Fizbo2 [ohne TB]               : 2967   35  35   250    43.8 %   3010   36.4 %
  7 Shredder 13                    : 2958   31  31   250    42.6 %   3010   49.2 %
  8 Shredder 13 [ohne TB]          : 2947   31  32   250    41.0 %   3010   46.8 %
Alle diese Programme scheinen (bei aller Vorsicht wegen der großen Fehlerschranke - insbesondere bei Fizbo2) mit TBs gegen Ethereal (mit TBs) stärker zu spielen.

Der Abstand der beiden Ethereal-Versionen (Quote von 53,4 % für die mit TBs) scheint die Vermutung zu bestätigen, dass TBs für dieses Programm eine Stärkung bedeuten. Mal abwarten, welche Quote Benno für TBs mit 5-Steinern ermittelt. Wie sehr spielt das Programm mit 5-Steinern schwächer? Wir das hatten hier im Forum schon früher mal getestet.

Viele Grüße
Th. Plaschke
Parent - - By Thomas Plaschke Date 2018-09-29 17:35
So, als "Nachtest" ein Gauntlet von Ethereal ohne TBs gegen Fizbo2, weil dessen Varianten so nah bei einander punkteten.
Hier die Elostat-Auswertungen:
Code:
    Program                          Elo    +   -   Games   Score   Av.Op.  Draws

  1 Ethereal-11.06                 : 3027   16  16   500    52.6 %   3009   71.2 %
  2 Ethereal-11.06 [ohne TB]       : 3009   12  12  1500    52.7 %   2991   49.9 %
  3 Fizbo 2                        : 2978   24  24   500    45.5 %   3009   38.6 %
  4 Fizbo2 [ohne TB]               : 2967   24  24   500    43.9 %   3009   39.8 %

Die Einzel-Auswertung hinten dran:
Code:
Individual statistics:

1 Ethereal-11.06            : 3027  500 (+ 85,=356,- 59), 52.6 %
Ethereal-11.06 [ohne TB]      : 500 (+ 85,=356,- 59), 52.6 %

2 Ethereal-11.06 [ohne TB]  : 3009  1500 (+416,=748,-336), 52.7 %
Ethereal-11.06                : 500 (+ 59,=356,- 85), 47.4 %
Fizbo 2                       : 500 (+176,=193,-131), 54.5 %
Fizbo2 [ohne TB]              : 500 (+181,=199,-120), 56.1 %

3 Fizbo 2                   : 2978  500 (+131,=193,-176), 45.5 %
Ethereal-11.06 [ohne TB]      : 500 (+131,=193,-176), 45.5 %

4 Fizbo2 [ohne TB]          : 2967  500 (+120,=199,-181), 43.9 %
Ethereal-11.06 [ohne TB]      : 500 (+120,=199,-181), 43.9 %

Jetzt hat anscheinend alles seine Ordnung. Die TBs-Versionen liegen mehr oder weniger deutlich von den "ohne TBs"-Versionen.
Das wird im kombinierten Ergebnis deutlich.
Code:
    Program                          Elo    +   -   Games   Score   Av.Op.  Draws

  1 Fire 7.1                       : 3074   31  31   250    58.2 %   3017   47.6 %
  2 Fire 7.1 [ohne TB]             : 3046   30  30   250    54.2 %   3017   51.6 %
  3 Ethereal-11.06                 : 3017   10  10  2250    52.8 %   2997   52.4 %
  4 Ethereal-11.06 [ohne TB]       : 3001   11  11  1750    51.8 %   2989   51.7 %
  5 Fizbo 2                        : 2971   20  20   750    45.0 %   3006   37.2 %
  6 Shredder 13                    : 2965   31  31   250    42.6 %   3017   49.2 %
  7 Fizbo2 [ohne TB]               : 2963   20  20   750    43.9 %   3006   38.7 %
  8 Shredder 13 [ohne TB]          : 2953   31  32   250    41.0 %   3017   46.8 %

Mir stellt sich dazu die Frage, ob in diesem Test große Elo-Differenzen der Programmversionen auf geringere Endspielfähigkeiten bzw. umgekehrt kleine Differenzen auf größere Endspielfähigkeiten schließen lassen?

Viele Grüße
Th. Plaschke
Parent - By Michael Scheidl Date 2018-09-29 17:59
Zitat:
Mir stellt sich dazu die Frage, ob in diesem Test große Elo-Differenzen der Programmversionen auf geringere Endspielfähigkeiten bzw. umgekehrt kleine Differenzen auf größere Endspielfähigkeiten schließen lassen?

Damit hat Du Dir die Antwort selbst gegeben. - Danke für Deine Tests.
Parent - By Wolfgang Battig Date 2018-09-27 15:54
Benno Hartwig schrieb:

.....Vorn lag die die Tablebase-Version, aber eigentlich nur knapp.
Und ich befürchte, dass das nicht wirklich ein signifikanter Vorsprung ist.

Benno


Du befürchtest richtig, 51,1% = 8 ELO = zu vernachlässigen. Und wer weiß wie das Match mit 500 anderen Vorgaben bzw. anderen Büchern ausgeht...
Parent - By Frank Quisinsky Date 2018-09-29 10:32 Edited 2018-09-29 10:35
Hallo Benno,

hatte das 1998 mit einem Crafty und Nalimov 4-Steiner getestet.
Seinerzeit waren es 1.000 Partien und +14 Elo

dann 2004 mit einem Crafty und schnellerer Hardware mit Nalimov 4-Steiner.
Da waren es auch nach 1.000 Partien +8 Elo

2007 zuletzt mit Crafty und 4-Steiner und 2.000 Partien und es waren 8 Elo.
Hatte das glaube ich auch in der SSDF Ratingliste.

Gar Crafty mit Ponder und ohne Ponder, mit 4-Steiner und ohne.

Nun sind es die 5-Steiner.
Als die 5-Steiner Nalimov herauskamen schrieb ich ein Review für Gambit-Soft und testete das mit Fritz unter ChessBase.
Da waren es bei der seinerzeitigen auch gerade erst neuen Fritz Software und den 5-Steinern 16 Elo.
Allerdings hatte ich da nicht ausreichend Partien, waren glaube ich so um die 400.

In Anbetracht das die Software auch deutlich besser wurde und Stockfish eh schon sehr stark im Endspiel ist unterschreibe
ich das Ergebnis blind. Hätte gar mit weniger gerechnet.

Gruß
Frank

PS: Überprüfungen halte ich auch immer für ganz wichtig aber neue Erkenntnisse im Testbereich von Engines sind heute kaum noch zu erzielen. Alles bekannt und x 1000x ausdiskutiert. Zum Engine testen halte ich ja bekanntlich 1-Core für ausreichend und bei den TBs 4-Steiner. Nicht um die Leistung zu steigern, sondern um Endspielschleifen bei Aufgabefaktor "aus" zu vermeiden.
Parent - - By Torsten Schoop Date 2018-09-29 17:35
Hallo Benno,

wenn man den Einfluss von Tablebases testen möchte, dann sollte man das Endspiel testen. Bei der Implementierung der syzygy in ein Programm haben wir dafür die 100 Endspielstellungen von Walter Eigenmann genommen und mit Farbwechsel gegen 40 verschiedene Programme spielen lassen. Hier das Ergebnis nach der finalen Implementierung mit 6-Steinern:

Program             Elo  + - Games
Programm mit TBs:   3025 5 5 8000
Programm ohne TBs:  2972 6 6 8000


Also ein Plus von ca. 50 ELO.

Im praktischen Spiel ist der Effekt natürlich kleiner, denn sonst müssten alle Parteien erst im Endspiel entschieden werden. In praktischen Partien könnte man theoretisch sogar einen Effekt von Null ELO messen, nämlich dann, wenn das Programm die anderen Programme bereits immer im Mittelspiel zusammenschiebt oder wenn es selber bereits im Mittelspiel immer völlig pleite steht oder wenn das Programm immer in Remis-Stellungen aus dem Mittelspiel kommt. Bei SF gegen SF sollte der Großteil der Partien remislich aus dem Mittelspiel kommen und deswegen sollte der gemessene Effekt auch sehr klein.

Gruß
Torsten
Parent - By Peter Martan Date 2018-09-29 19:44
Hi!
Torsten Schoop schrieb:

wenn man den Einfluss von Tablebases testen möchte, dann sollte man das Endspiel testen.

Das ist natürlich schon auch mal ein guter Vorschlag!
- - By Benno Hartwig Date 2018-09-29 16:44
Einen Vorteil kann die Nutzung von Tablebases ja bringen
1.) wenn durch sie nicht ein Remis-Zug oder gar Verlustzug genommen wird, sondern ein Gewinn-Zug
2.) wenn durch sie ein Verlustzug nicht genommen wird, und stattdessen ein Remis-Zug
Und beides erst, wenn die Suche zumindest schon hinreicht zu solch ziemlich leergeputzten Stellungen!

Welche dieser beiden Möglichkeiten mag in praktischen Partien eigentlich häufiger eine Rolle sielen?

Benno
Parent - - By Peter Martan Date 2018-09-29 17:03 Edited 2018-09-29 17:06
Die tbs braucht man hauptsächlich bei der Analyse, langem Standrechnen, aber vor allem für langzügiges Forward- Backward, um Endspiele, die entstehen könnten, aus dem Mittelspiel heraus früher besser miteinander vergleichen zu können, fürs eng-eng sind sie ziemlich nutzlos, was sie am Ende hin und wieder bringen, kosten sie davor eventuell auch wieder Rechenleistung.
Es kommt auf die Engines an, die Eröffnungen und die Hardware- TC, man müsste halt wie gesagt Elo mit ihnen und Elo ohne sie ausspielen, wenn man die Elo in einem bestimmten Pool ermitteln will.
Und dann kommt Leela zum Pool dazu und bringt wieder alles durcheinander.

Also am besten einen Pool mit Leela und mit tbs, einen mit Leela und ohne tbs, einen ohne Leela und mit tbs und einen ohne alles, ohne Leela und ohne tbs.
Parent - - By Michael Scheidl Date 2018-09-29 17:42 Edited 2018-09-29 17:46
Zitat:
fürs eng-eng sind sie ziemlich nutzlos, was sie am Ende hin und wieder bringen, kosten sie davor eventuell auch wieder Rechenleistung.

Ich bin vorläufig böse auf Dich

P.S. Gerade hier im Thread: http://forum.computerschach.de/cgi-bin/mwf/topic_show.pl?pid=115491
Parent - - By Peter Martan Date 2018-09-29 18:02 Edited 2018-09-29 18:12
Michael Scheidl schrieb:

Ich bin vorläufig böse auf Dich

P.S. Gerade hier im Thread: http://forum.computerschach.de/cgi-bin/mwf/topic_show.pl?pid=115491

Sei wieder gut!

Gerade hier im Thread aus dem Posting vom Link:

Zitat:

Alle diese Programme scheinen (bei aller Vorsicht wegen der großen Fehlerschranke - insbesondere bei Fizbo2) mit TBs gegen Ethereal (mit TBs) stärker zu spielen.

Der Abstand der beiden Ethereal-Versionen (Quote von 53,4 % für die mit TBs) scheint die Vermutung zu bestätigen, dass TBs für dieses Programm eine Stärkung bedeuten. Mal abwarten, welche Quote Benno für TBs mit 5-Steinern ermittelt. Wie sehr spielt das Programm mit 5-Steinern schwächer? Wir das hatten hier im Forum schon früher mal getestet.


Ich wiederhole doch nur mal wieder gebetsmühlenartig, dass es auf die Engine ankommt, aber nicht nur auf eine, sondern auf alle, die im jeweiligen Test mitspielen.
Und ob du 4 oder 5 oder 6Steiner verwendest, ist natürlich auch nicht egal, aber dann kommt's je nach der Zahl der Endspielfiguren wieder umso mehr auf die TC an, usw., usf.
Die Spielstärkesteigerung von Leela mit oder ohne tbs ist vielleicht besonders interessant, aber wahrscheinlich erst recht wieder besonders schwer zu messen und besonders von den übrigen Hardware- TC- Buch- Teilnehmerfeld- Kautelen abhängig. (Beachte: Kautelen, etwas, was sonst nur Omi Nöse beachtet )

Und dass es mehr Unterschied machen mag, ob in einem Pool Leela mitspielt oder nicht, als ob tbs verwendet werden oder nicht, hab ich halt auch erst vor Kurzem hier bestätigt gefunden:

http://talkchess.com/forum3/viewtopic.php?p=774971#p774971

Hier zitierte ich den Link zuletzt:

http://forum.computerschach.de/cgi-bin/mwf/topic_show.pl?pid=115482#pid115482
Parent - - By Michael Scheidl Date 2018-09-29 18:23
Natürlich kommt es (auch) auf die Engine an. Je mehr sie selber weiß, desto weniger liefern die Tables zusätzlich.

Ich bin derzeit zu müde um das im Detail zu beurteilen. Du wirst schon recht haben...
Parent - - By Peter Martan Date 2018-09-29 18:30 Edited 2018-09-29 18:32
Michael Scheidl schrieb:

Ich bin derzeit zu müde um das im Detail zu beurteilen. Du wirst schon recht haben...

Hah, und wieder habe ich einen müdegequatscht!

Wir sind ja meiner Meinung nach gar nicht wirklich auseinander, es hat halt jeder immer wieder seine eigene Sicht der hinlänglich bekannten Themen und seine eigenen Themen in den verschiedensten Threads.
Meine drehen sich überzufällig häufig um Elo, und was sie im Computerschach so alles bedeuten.
Parent - - By Michael Scheidl Date 2018-09-29 21:03
Ja, ich bin ganz meiner Meinung aber worum es hier ging war ja, wieviel die Tables bringen.

Ist nicht so wichtig...
Parent - - By Peter Martan Date 2018-09-29 23:19 Edited 2018-09-29 23:24
Michael Scheidl schrieb:

aber worum es hier ging war ja, wieviel die Tables bringen.

In Elo?

Thomas Plaschke hat das für die Umgebung, in der er's getestet hat, ganz schön gezeigt, mir hat die Methode von Thorsten Schoop allerdings noch besser gefallen.
Du verstehst, worauf ich hinaus will?

Du kannst es genau nur stellungsabhängig testen, (auch verschiedene frühe Eröffnungsstellungen machen einen Unterschied, von Endspielstellungen ausspielen lassen, ist natürlich viel selektiver, wirklich genau vergleichbare Ergebnisse bekommst du überhaupt nur, wenn nur eine einzelne Endspielstellung zum Testen verwendet wird) engineabhängig (von der einzelnen Engine abhängig und von den anderen, die mitspielen), bedenkzeit- und hardwareabhängig.
Seit neuestem nicht nur von einer Art von Hardware, sondern auch von einer anderen, die beiden kann man auch nur bedingt miteinander vergleichen.

Und dann kommt's natürlich noch drauf an, auf welchem Speichermedium du welche tbs zur Verfügung stellst.
Parent - By Thomas Plaschke Date 2018-10-02 19:29 Upvotes 1
Da bin ich wieder!

Ich habe die Teilnehmer zum Abschluss in einem Turnier jeder gegen jeden getestet:
Code:
Rank Name                          Elo     +/-   Games   Score   Draws
   1 Fire 7.1                       75      12    1750   60.6%   47.4%
   2 Fire 7.1 [ohne TB]             64      12    1750   59.2%   48.6%
   3 Ethereal-11.06                 32      12    1750   54.7%   47.8%
   4 Ethereal-11.06 [ohne TB]        9      12    1750   51.2%   49.2%
   5 Fizbo 2                       -35      13    1750   45.0%   39.4%
   6 Shredder 13                   -37      12    1750   44.6%   48.6%
   7 Fizbo2 [ohne TB]              -39      13    1750   44.4%   38.1%
   8 Shredder 13 [ohne TB]         -68      12    1750   40.4%   43.8%

7000 of 7000 games finished.
Auch hier nur eine geringe Differenz für die beiden Fizbos. Aber viel besser ist natürlich die Idee von Torsten Schoop, nur Endspiele zu testen.

Ich habe aber einen anderen Ansatz gewählt. Mein Ansatz ist unverdächtig, durch die Auswahl der Stellungen Einfluss auf das Ergebnis zu nehmen. Dazu habe ich alle Testparteien der 3 Durchgänge von Chessbase kategorisieren lassen.
Chessbase meldete, dass 7142 Partien ein Endspiel "haben". Hier die Elo-Auswertung für diese Partien:

Zunächst die (Gesamt-)Auswertung für alle Durchgänge (10250 Partien - keine Dubletten - die Auswertung oben war nur der 3. und letzte Durchgang)
Code:
    Program                          Elo    +   -   Games   Score   Av.Op.  Draws

  1 Fire 7.1                       : 3066   11  11  2000    60.3 %   2993   47.5 %
  2 Fire 7.1 [ohne TB]             : 3055   11  11  2000    58.6 %   2995   49.0 %
  3 Ethereal-11.06                 : 3022    8   8  4000    53.6 %   2997   50.4 %
  4 Ethereal-11.06 [ohne TB]       : 3005    8   8  3500    51.5 %   2994   50.5 %
  5 Fizbo 2                        : 2970   11  11  2500    45.0 %   3005   38.8 %
  6 Shredder 13                    : 2966   11  11  2000    44.4 %   3006   48.6 %
  7 Fizbo2 [ohne TB]               : 2965   11  11  2500    44.2 %   3006   38.2 %
  8 Shredder 13 [ohne TB]          : 2942   11  11  2000    40.5 %   3009   44.2 %

und zum Vergleich nur die Partien mit Übergang ins Endspiel
Code:
    Program                          Elo    +   -   Games   Score   Av.Op.  Draws

  1 Fire 7.1                       : 3036   13  13  1408    55.8 %   2996   50.7 %
  2 Fire 7.1 [ohne TB]             : 3027   13  13  1449    54.2 %   2997   50.8 %
  3 Ethereal-11.06                 : 3023    9   9  2838    54.3 %   2993   53.2 %
  4 Fizbo 2                        : 3013   12  12  1611    52.3 %   2998   46.4 %
  5 Fizbo2 [ohne TB]               : 2996   13  13  1619    49.4 %   3000   43.9 %
  6 Ethereal-11.06 [ohne TB]       : 2992    9   9  2410    48.1 %   3005   54.0 %
  7 Shredder 13                    : 2965   12  12  1481    44.2 %   3006   51.2 %
  8 Shredder 13 [ohne TB]          : 2932   13  13  1468    39.0 %   3010   47.4 %

Außer bei Fire liegen die Elo-Werte nun weiter auseinander. Das Plus, das Torsten Schoop ermittlen konnte, war so aber nicht zu erkennen.

Viele Grüße
Th. Plaschke
Up Topic Hauptforen / CSS-Forum / SF-Spielstärkesteigerung bei Tablebase-Nutzung

Powered by mwForum 2.29.3 © 1999-2014 Markus Wichitill