*SBRL / Test mit Engine #9 beendet

By Gerhard Sonnabend Date 2010-01-14 10:07

Stand nach Engine #10, Fruit 090705 x64 1CPU.

Gespielt 2700 Games (Jeder gegen Jeden):

Code:


   Program                         Elo    +   -  Games    Score   Av.Op.  Draws
01 RobboLito 0.085e4 x64 1CPU     2875   27  26    540    75.6 %   2678   29.8 %
02 Rybka 3.0 x64 1CPU             2854   26  25    540    73.1 %   2681   32.4 %
03 Stockfish 1.6 x64 1CPU         2752   24  23    540    58.5 %   2692   36.7 %
04 Deep Shredder 12 x64 1CPU      2711   23  23    540    52.0 %   2696   37.8 %
05 Naum 4.0 x64 1CPU              2672   23  23    540    45.9 %   2701   38.9 %
06 Fritz 12                       2667   23  23    540    45.0 %   2701   38.5 %
07 Doch 1.2 x64 1CPU              2636   24  24    540    40.3 %   2705   34.3 %
08 Fruit 090705 x64 1CPU          2625   24  25    540    38.6 %   2706   32.0 %
09 Hiarcs 12.1 1CPU               2621   24  24    540    37.9 %   2707   36.1 %
10 Zappa Mexico II x64 1CPU       2588   24  24    540    33.1 %   2710   36.1 %

Vergleich zur CEGT-Blitz-Ratingliste (auf Rybka 3 x64 normiert):

Code:


                     SBRL       CEGT     Differenz
Rybka 3              2854       2854
Stockfish 1.6        2752       2774        -22
Shredder 12          2711       2737        -26
Naum 4               2672       2718        -46
Fritz 12             2667       2682        -15
Doch 1.2             2636       2640        - 4
Fruit 090705         2625       2637        -12
Hiarcs 12.1          2621       2624        - 3
Zappa MX II          2588       2618        -30

Nach 9 Engines stimmt die Reihenfolge untereinander nach wie vor zu 100% überein,
selbst beim "Paket" Doch, Fruit und Hiarcs ist das der Fall.

Neuigkeiten wie immer unter: http://www.pcschach.de/Punkt2.htm

Viele Grüsse,
G.S.

By Frank Quisinsky Date 2010-01-14 14:21

Hi Gerhard,

mal mit SWCR Vergleichen.

Heben wir alles um 79 ELO an (Shredder auf 2.800) ...
Gehen wir davon aus das x64 bei Shredder maximal 10 ELO bringt.

Rybka 3 = - 50 (x64) + 79 = 2.893, 2858 in SWCR = Differenz von 25 ELO ...
Das ist klar, je mehr bei Dir dazukommen desto mehr geht die ELO des führenden im Verhältnis zu den anderen nach unten. Dann berechnest Du glaube ich auch noch mit ELOstat, selbst mit Bayesian.

Stockfish = -35 (x64) + 79 = 2806, 2790 in SWCR = Differenz von 6 ELO
Naum 4 = +-0 (x64) + 79 = 2.761, 2775 in SWCR = Differenz von 4 ELO
Fritz 12 = 2667 + 79 = 2.756, 2737 in SWCR = Differenz von 9 ELO
Doch 1.2 = 2635 -55 (x64) + 79 = 2659, 2659 in SWCR = Differenz von 0 ELO
Fruit ... habe ich nicht, nach Deinen Ergebnissen ist die Version aber schwächer als Cyclone oder Protector.
Hiarcs 12.1 = 2.621 + 79 = 2.700, 2.660 in SWCR
Interessant, bekannt ist das Hiarcs im Blitz ca. 30-35 ELO zulegt. Weiß jetzt nicht mit welcher Zeit Du spielst ...
Schaue mal kurz ...Blitz ... OK, dann ist alles klar !!
Zappa Mexiko II ) 2.588 - 65 (x64) + 79 = 2.602 ELO, SWCR = 2.637 ...
Ist auch klar, Zappa ist derzeit letzter, würdest Du mit Bayesian berechnen würde Zappa ca. 15 ELO mehr haben, durch den letzten Platz (bei ELOstat stimmen die Werte des ersten und des letzten meines Erachtens nicht) ist das auch erklärbar. Ferner blitzt Zappa nicht gut ... ELO Unterschied ist erklärbar.

Also, ich sehe keine neuen Erkenntnisse bei dieser Blitz Liste.
Alle Ergebnisse sind normal.

Gruß
Frank

By Frank Quisinsky Date 2010-01-14 16:15

Hi,

doch eine Erkenntnis: Doch

Angeblich blitzt das Programm nicht so gut. In meiner Blitzranglist sind es in der Tat 20 ELO weniger als im Vergleich zu längeren Bedenkzeiten.
Bei Dir ist aufgrund der völlig anderen Bedingungen auch nur mit Vorsicht zu vergleichen ...

Die Frage bleibt noch offen.
Bei x64 scheint es keine Unterschiede zu geben.
Denke das Doch wahrscheinlich nur bei w32 im Blitz minimal schwächer spielt als im Vergleich zu längeren Bedenkzeiten.
Insofern würde die Aussage vom Programmierer ja stimmen.

Gruß
Frank

By Gerhard Sonnabend Date 2010-01-14 19:29

Hi Frank !

[quote="Frank Quisinsky"]
[...snip...]
Rybka 3 = - 50 (x64) + 79 = 2.893, 2858 in SWCR = Differenz von 25 ELO ...
Das ist klar, je mehr bei Dir dazukommen desto mehr geht die ELO des führenden im Verhältnis zu den anderen nach unten.
[/quote]

Nein, falsch, absolut falsch !!
Siehe Historie etwas weiter unten in meiner Liste, alles stabil !
Ich halte jede Zwischenliste fest, deshalb kann man da gut vergleichen.
Lediglich die Zahl aller Teilnehmer steigt ein wenig, jedoch gleichmässig.

[quote="Frank Quisinsky"]
Dann berechnest Du glaube ich auch noch mit ELOstat, selbst mit Bayesian.
[/quote]

Was heisst hier noch ?
ELO-Stat ist deutlich besser als Bayesian in Bezug auf Anfang-Ende einer Liste !

Viele Grüsse,
G.S.

By Frank Quisinsky Date 2010-01-14 19:52 Edited 2010-01-14 19:57

Hi Gerhard,

also ich konnte das bei dem Aufbau der SWCR schön beobachten, hebe ja auch alle Zwischenergebnisse auf.
Schaue mir Deine gleich mal an, interessant.

Bayesian / ELOstat:
Da muss ich Dir leider widersprechen.
Es ist umkehrt so das Bayesian die besseren Ergebnisse bringt.

Kannst Du auch einfach feststellen.

Nehmen wir an Du hast eine Ratingliste mit 20 Engines und die Letzte (Engine A) liegt bei ELOstat bei 2.500 ELO.
Jetzt nehme 19 Engines die schwächer sind als Engine A und generiere eine neue Liste.

So hast Du dann zwei Listen mit je 20 Engines.
In Liste A ist Engine A auf Platz 20
In Liste B ist Engine A auf Platz 1

Jetzt nehme noch 4 Vergleichsengines, zu beiden Listen hinzu.

Benenne Engine A (Platz 20 in Liste 1) um in Engine X
Benenne Engine A (Platz 1 in Liste 2) um in Engine Y

Erstelle eine ELO-Liste mit ELOstat in der Engine X und Engine Y steht (aus beiden Ratinglisten)
Ergebnis ist +-5 zwischen Engine X und Engine Y

Erstelle nun eine gesonderte Ratingliste zu Liste 1
Erstelle nun eine gesonderte Ratingliste zu Liste 2

Abweichung bei Bayesian fast 0 (Engine A zu Liste 1 im Vergleich Engine B zu Liste 2)
Abweichung bei ELOstat ca. 10-12

Habe ich mit 1-Minute Partien im Oktober getestet.
Christian Koch sendete mir ein Script zur Bayesian Berechnung und danach habe ich direkt 3 Rechner drauf angesetzt.
Vorher auch alles mit ELOstat gemacht.

Dann noch ein paar Experimente mit meinen 20.000 ATL-4 Partien folgen lassen, da lagen bei einem ähnlichen Experiment die Abweichungen gar bei 16 ELO, wobei Bayes um 4-5 geschwankt hat.

EloStat setze ich nicht mehr ein, Bayesian ist meines Erachtens genauer!

Gruß
Frank

By Frank Quisinsky Date 2010-01-14 20:13

Wie gesagt, wenn alle Betreiber sich mal ein wenig bewegen würden und zusammen einen Standard einführen dann könnten wir uns die vielen Diskussionen um die ganzen Listen ersparen denn die Ergebnisse wären dann einheitlicher und besser vergleichbar.

Habe mit diesem Thema jetzt auch wieder abgeschlossen.
Ist irgendwie nicht mehr interessant für mich, denn wenn ich genauer hinsehe weiß ich warum es in Liste A oder Liste B zu Abweichungen einer anderen Liste kommt.
Es gib nur ganz wenige Fälle die nicht erklärbar sind, zur Zeit fällt mir noch nicht mal einer ein.

Frank

By Ernest Bonnem Date 2010-01-14 21:11

[quote="Gerhard Sonnabend"]Stand nach Engine #10, Fruit 090705 x64 1CPU.[/quote]
Hallo GS,

Schade nur, daß dieser Fruit nur für "happy few" verfügbar ist...

By Frank Quisinsky Date 2010-01-14 21:21

Hi Ernest,

teste mal Cyclone xTreme Wrath (Storm Pack).
Die Engine macht richtig Spaß und ist denke ich auch der beste Clone von Fruit.

Siehe SWCR
http://www.schach-welt.de/index.php?option=com_content&view=article&id=87&Itemid=90

Gruß
Frank