IPON: Spark 0.4 added

By Günther Höhne Date 2010-06-03 19:52

Danke Ingo!

Dann sieht es so aus, dass auch der Herr Siemelink ein gutes Testverfahren hat, +40 Elo von 0.3 auf 0.4 hatte er angekündigt.

Gruß
Günther

By Ingo Bauer Date 2010-06-03 23:03

Hi all

I made a little list where just the games of the TOP 19 Engines vs each other are used (for statistical reasons):

   1 Deep Rybka 4              2945   15   15  1800   81%  2707   27% 
   2 Stockfish 1.7.1 JA        2880   14   14  1800   73%  2711   35% 
   3 Naum 4.2                  2811   13   13  1800   64%  2715   39% 
   4 Deep Shredder 12 UCI 32b  2800   13   13  1800   62%  2716   36% 
   5 Komodo 1.2 JA             2797   13   13  1800   62%  2716   39% 
   6 Deep Fritz 12 32b         2787   13   13  1800   60%  2716   36% 
   7 Critter 0.70              2786   13   13  1800   60%  2716   37% 
   8 HIARCS 13.1 MP 32b        2731   13   13  1800   52%  2719   38% 
   9 spark-0.4                 2712   13   13  1800   49%  2720   40% 
  10 Protector 1.3.2 JA        2707   13   13  1800   48%  2721   37% 
  11 Zappa Mexico II           2697   13   13  1800   47%  2721   37% 
  12 Deep Onno 1-2-70          2681   13   13  1800   44%  2722   40% 
  13 Deep Sjeng WC2008         2677   13   13  1800   44%  2722   36% 
  14 Toga II 1.4 beta5c BB     2672   13   13  1800   42%  2723   39% 
  15 Deep Junior 11.2          2667   13   13  1800   42%  2723   32% 
  16 Loop 13.6/2007            2610   13   14  1800   33%  2726   36% 
  17 Twisted Logic 20100131x   2593   14   14  1800   32%  2727   28% 
  18 Spike 1.2 Turin 32b       2580   14   14  1800   30%  2728   31% 
  19 Crafty 23.1 JA            2547   14   15  1800   26%  2730   28%

And these are the same engines in my full list:

   1 Deep Rybka 4              2949   15   15  1900   80%  2713   27% 
   2 Stockfish 1.7.1 JA        2883   11   11  3400   71%  2729   35% 
   3 Naum 4.2                  2817   11   10  3200   63%  2725   40% 
   4 Deep Shredder 12 UCI 32b  2800    9   10  4000   62%  2720   38% 
     Komodo 1.2 JA             2800   12   12  2200   61%  2726   39% 
   6 Critter 0.70              2790   13   13  1900   60%  2722   37% 
   7 Deep Fritz 12 32b         2785   10   10  3500   58%  2729   38% 
   8 HIARCS 13.1 MP 32b        2732   12   12  2200   51%  2729   39% 
   9 Spark-0.4                 2713   14   14  1800   49%  2722   40% 
  10 Zappa Mexico II           2710    8    8  6400   48%  2725   38% 
  11 Protector 1.3.2 JA        2701    9    9  4000   46%  2731   39% 
  12 Deep Onno 1-2-70          2681   12   12  2300   43%  2727   40% 
  13 Deep Sjeng WC2008         2673    8    8  5700   41%  2734   36% 
  14 Toga II 1.4 beta5c BB     2667    8    8  6100   41%  2728   39% 
     Deep Junior 11.2          2667   13   13  2200   41%  2732   31% 
  16 Loop 13.6/2007            2611    9    9  4200   36%  2711   37% 
  17 Twisted Logic 20100131x   2600   11   11  3400   34%  2719   31% 
  18 Spike 1.2 Turin 32b       2581    8    8  5900   32%  2706   34% 
  19 Crafty 23.1 JA            2546   11   11  3600   27%  2718   28%

The most interesting finding is Zappa Mexico II as it is out or at least at the border of its 95% ...

Bye
Ingo

By Thomas Mayer (Quark) Date 2010-06-03 23:27

Hallo Ingo,

[quote="Ingo Bauer"]
The most interesting finding is Zappa Mexico II as it is out or at least at the border of its 95% ...
[/quote]

passt doch gut - 95% heißt ja nichts anderes, wie daß ca. jede 20. Engine außerhalb dieses Horizonts liegt. Also eine von 19 ist doch eigentlich perfekt, oder ?

Gruß, Thomas

By Ingo Bauer Date 2010-06-04 08:18

Moin Thomas

[quote="Thomas Mayer (Quark)"]

passt doch gut - 95% heißt ja nichts anderes, wie daß ca. jede 20. Engine außerhalb dieses Horizonts liegt. Also eine von 19 ist doch eigentlich perfekt, oder ?

[/quote]

Na ja, Zappa ist ja nicht mal draussen, sondern nur am Rand. Den einzigen Schluß den man vielleicht ziehen könnte ist, das Zappa in meiner großen Liste im Moment am oberen Rand seiner Möglichkeiten opperiert. Andererseits hat er 6400 Spiele, da passiert auch nicht mehr viel.

Kurz: Ich mache mir darüber nicht zu viele Gedanken, finde es nur bemerkenswert.

Gruß
Ingo

By Frank Quisinsky Date 2010-06-03 23:29 Edited 2010-06-03 23:32

Hi Ingo,

diese Ratingliste ist interessanter als die aller Partien (so ganz nach meinem SWCR Geschmack)

Die Abstände kommen nicht zu Stande weil mehr Partien vorliegen, sondern weil die Engines die diese Abstände aufweisen verhältnismäßig mehr oder weniger gegen Angstgegner in unterschiedlichen Versionen gespielt haben. Bei Zappa geht es sogar über die ErrBar was aber auch nicht verwunderlich ist, denn die These der ErrBar wird oftmals nicht richtig verstanden.

Ganz ehrlich, ich denke diese Ratingliste mit der Anzahl der Partien unter der verwendeten Zeitkontrolle ist die Beste und zuverlässigste die ich bislang gesehen habe. Viel aussagekräftiger als die andere mit x Tausend Partien mehr, die eher verwischen und das Ergebnis nicht wie gewollt positiv sondern negativ beeinflussen. Also dessen bin ich mir nach meinen Experimenten schon bewusst.

Auch ist die Liste nach meiner Hochrechnung im Durchschnitt pro Engine um ganz genau 4 ELO genauer als meine bei 21 Engines und 800 Partien pro Engine. Je mehr Engine desto besser und je weniger Partien werden notwendig.

Lange Rede ...
Ich denke, Du solltest diese Ratingliste mehr powern als die aller Partien und dann jetzt anstatt die nächsten x tausend Partien für die Engines hinzuzufügen eher eine zweite Ratingliste gestalten, z. B. eine nur mit 2 Core Versionen oder eine mit 32-Bit oder eine mit Deinen gleichen Bedinungen aber einer anderen Zeiteinstellung. Würde das viel interessanter finden.

Weiter so ...
Ganz nach meinen Geschmack

Viele Grüße
Frank

By Ingo Bauer Date 2010-06-04 08:26

Hallo Frank

Diese 1800 Spiele 'One on One' sind keine Rangliste, das ist eine Turnierliste. Qualitativ ist die große Liste deutlich besser. Die Fide Rangliste hat z.B ja auch nicht die Top 100 Spiele jeder gegen jeden. Diese Turnierliste ist eine nette Dreingabe, mehr nicht.

Interessant übrigens das sich eine Engine von 1800 zu 6400 Spielen um 13 Elo bewegen kann, ganz zu schweigen was passieren kann kann zw. 700 und 1800 ...

Gruß
Ingo

By Frank Quisinsky Date 2010-06-04 09:09 Edited 2010-06-04 09:15

Hallo Ingo,

schön, dasss Du Dich mit dem Thema auch mal beschäftigst bzw. vor Dir aus eine solche Turnierliste "als Experiment" erstellt hat.
Dieses Thema ist eigentlich hinsichtlich der Erstellung von Listen das was mich reizt weil der Begriff "statistische Auswertung" hier seine ganze Kraft entfaltet.

Was zwischen 700 und 1800 passiert kannst Du hochrechnen wenn Du weist was zwischen 1 und 700 passiert.
Siehe 32bit Contra 64bit bzw. die 5 Auswertungen.

Anhand dieser 5 Auswertungen für 16 Engines, also der 80 ELO Werte kannst Du alles beliebige hochrechnen. Auf solche Wahrscheinlichkeitsberechnung beruht fast jede Statistik bzw. auch die der Auswertungsprogramme.

Viele Grüße
Frank

By Frank Quisinsky Date 2010-06-04 09:28

Übringens, kleines Geheimnis:
Das ist ein Thema an dem ich gerade arbeite.

Ein Beispiel:

14 Gegner = 1.200 Partien notwendig für +-10 / immer bei einen Ausreißer von 50 Fällen
15 Gegner = 1.020 Partien notwendig für +-10 ... 180 ELO liegen dazwischen

16 Gegner = 155 ELO liegen dazwischen
...

23 Gegner - 30 Gegner = fast egal bzw. niedrigster Punkt oder besser ... Punkt erreicht das weitere Gegner kaum noch weitere Auswirkungen haben.

Eine Aussage wäre:
Bei einer Liste mit 23 Gegner wäre das Optimum der minimalen Anforderung erreicht.

Ein weiteres Thema für mich ist ...
Der Ausreißer von 50 Fällen.

Interessant ist wo vie Schwelle liegt. Hier bin ich derzeit total überrascht denn:
bei +-10 muss die Anzahl der Partien enorm nach oben geschoben werden um aus 1 von 50 vielleicht ein 1 von 60 zu konstruieren.

In Deinem Fall bei Zappa:

A:
Kann ein 1 von 52 Fall sein.

B:
Die Wahrscheinlichkeit das es mit der unterschiedlichen Anzahl von Partien zu tun hat ist aber ca. 30x größer.

Vielleicht veröffentliche ist das mal.

Viele Grüße
Frank