Hi,
bei den vielen Statistiken der CEGT / CCRL nach tausenden von Partien fällt mir bislang auf (wenn ich mit meiner Ratingliste und meiner ehemaligen ATL-Ratingliste) vergleiche:
Die Engines die deutlich in den Listen oben stehen (Rybka, Shredder, Naum, Stockfish) sind im Vergleich zu Engines die 10-20 Plätze weiter unten stehen trotz tausender von Partien deutlich zu niedrig bewertet.
Und das alles in vielen Fällen um runde 50 ELO.
Beispiel:
In CCRL kann Bright 0.4a gut als Maßstab genommen werden.
Rybka 3 1Core 32Bit spielt mit 3.096 ELO, Bright 0.4a 1Core 32Bit spielt mit 2.876 ELO
Das wäre eine Differenz von 220 ELO.
Mal schauen wie es in CEGT ausschaut:
Rybka 3 1Core 32Bit spielt mit 3.055 ELO, Bright 0.4a 1Core 32Bit spielt mit 2.815 ELO
Das wäre eine Differenz von 240 ELO.
Mal wieder die 20 bei Rybka
Nach so vielen Partien in den beiden Listen fällt auf das es Unterschiede von mehr als 20 ELO gibt (wenn ich die Zahlen in ein Verhältnis setze).
Soviel zum Thema Error Bar von ELOstat
Zurück ...
Wird nun eine Ratingliste erspielt in welcher von jedem Programm nur eine Version spielt liegt der Unterschied von Rybka 3 zu Bright 0.4a bei runde 275 ELO im Durchschnitt. Habe das anhand der eigenen und zwei weiteren Listen überprüft und einen Durchschnitt gebildet.
Nun haben wir:
CCRL 220 ELO, CEGT 240 ELO, andere Liste wo nur eine Engine pro Programm spielt 270 ELO.
Und das alles nach vielen vielen Partien wo es doch lt. ELOstat keine so großen Abweichungen mehr geben dürfte.
Also im Vergleich der Listen zu anderen Listen kann natürlich auch ELOstat angewendet werden
Kein Kritikpunkt an CCRL oder CEGT aber es stellt sich die Frage warum passiert das !!
Suche derzeit ein wenig nach Erklärungen denn Sinn ist es ja eine genaue Einschätzung einer Engine zu erhalten und nicht Wunschkonzert zu spielen. Meine, mir die Listen beständig anzusehen die mir am Besten gefallen denn die Abweichungen sind sehr groß.
Der ganze Unterbau nach den 4 TOP Engines (Rybka, Shredder, Naum und Stockfish) wird ja total verzerrt dargestellt.
Warum:
Nach den 4 TOP Programmen kommen Thinker und Fritz. Die Bewertungen von denen sind sehr gut.
Aber dann kommen 10 Programme die ca. 50-70 ELO auseinander liegen. Es gibt keine so großen Sprünge wie von Nummer 1 Rybka zu Nummer 2-3 Shredder / Naum oder von Nummer 4 Stockfish zu Nummer 5/6 Thinker und Fritz.
Und genau hier liegt meines Erachtens das "Statistik-Problem" !!
Denn ...
1. Schaue ich auf die Rangfolge der Engines sehe ich folgendes:
In CCRL und CEGT und nach ca. 200 Partien einer neue Ratingliste stimmt das schon.
1. Rybka, 2. Shredder, 3. Naum, 4, Stockfish und selbst die Abstufungen nach Tabelleplatz der 10 Engines die nur 50-75 ELO auseinander liegen stimme schon nach ca. 200 Partien. Aber die Zahlen der TOP 4 sind im Vergleich zu den Engines darunter zu niedrig.
Wahrscheinlich ist es so, dass im oberen Bereich die Gegner fehlen. Ratinglisten wie CEGT und CCRL gleichen das aus indem dann Rybka 3 mit 1, 2, 4, 64Bit mit 1, 2, 4 CPUs etc. spielen. Dadurch sind mehr Engines mit gleicher Spielstärke vorhanden.
Die Frage ist nun:
Was ist interessanter zu wissen:
1. Eine genaue ELO-Zahl im Vergleich der Engines untereinander.
2. Eine genaue ELO-Zahl der verschiedenen Möglichkeiten die Engines bieten (wie gesagt, 1, 2, 4 Cores).
Ich tendiere selbst zu Punkt 1 !!
Das können die Listen aber nicht bieten.
Stellt sich dann wieder die Frage ...
Wann wären die großen Listen wie CEGT und CCRL noch aussagekräftiger ...
Anhand von diesen Aussagen sehr einfach festzustellen !!
1. Wenn genauer verglichen wird !!
Ratingliste mit 32Bit und 1 Core
Ratingliste mit 32Bit und 2 Cores
Ratingliste mit 32Bit und 4 Cores
Ratingliste mit 64Bit und 1 Core
Ratinglsite mit 64Bit und 2 Cores
Ratingliste mit 64Bit und 4 Cores
das gleiche dann mit Ponder On / Off
Gibt also 12 Ratinglisten Konstellationen !!
Würden wir diese 12 haben könnten wir das in ein Verhältnis setzen.
Wie weit weicht Rybka 64Bit und 2 Cores von Shredder 64Bit und 2 Cores ab im Verhältnis zu wie weit weicht Rybka 64Bit 1 Core von Shredder 64bit 1 Core ab.
Dann würden sicherlich sämtliche Ratingliste besser vergleichbar sein.
Aber derzeit darf der Betrachter Wunschkonzert spielen.
Weil alles wild gemischt wird und daher die Listen von einander abweichen.
Und das im Einzelfall von über 50 ELO obwohl schon tausende von Partien gespielt sind.
Alles was ich schreiben wollte ist doch nur ...
Wenn mir ein Ratinglistenersteller erzählt, dass 1000 Partien notwendig sind um eine genaue ELO zu haben muss ich immer lachen.
Das geht nach 350 Partien schon gut.
Wenn wild gemixt wird ... wie es ja in CCRL und CEGT der Fall ist können selbst 5000 Partien zu abweichenden Ergebnisse führen wenn ich die Listen miteinander vergleiche und das hat auch nichts mehr mit den Bedenkzeiten zu tun. Denn die CCRL spielt mit größeren Bedenkzeiten.
40 in 20 in CEGT bedeutet ca. 40 / 10 auf einen schnellen Intel Dual Core mit 3 GHz
40 in 40 in CCRL bedeutet ca. 40 / 25 auf einen schnellen Intel Dual Core mit 3 GHz
Bei diesem Unterschied dürfen dann im Vergleich die Engines nicht so stark abweichen.
Auch ist es besser eine gleiche Anzahl von Partien der Eng-Eng Wettkämpfe untereinander zu haben.
Dann passieren so Sachen wie in CCRL auch nicht, das Stockfish um 40 ELO nach 700 Partien fällt (vorher ca. 400 Partien).
Das ist weit über die ErrorBar von ELOstat und liegt einfach daran das Stockfish plötzlich verstärkt gegen die Rybkas gespielt hat.
Also halte ich fest:
1. Die Abstufung der Engines untereinander (wer ist erster, zweiter etc.) stimmt in beiden Listen. Das ist aber auch einfach schon zu 90% nach 200 Partien feststellbar.
2. Die ELO-Zahlen trotz tausender von Partien unterscheiden sich in vielen vielen stark voneinander. Ob wie gesagt nun 1000 oder 5000 Partien gespielt wurden spielt bei einem Mix der 12 Ratinglistenmöglichkeiten kaum eine Rolle.
Optimal wäre auch folgendes:
Selbst spiele ich mit 40 in 10, Ponder = on und 32Bit.
Die großen Listen spielen mit Ponder = off.
Haben wir die 12 Ratinglisten auf 12 unterschiedlichen Seiten bin ich mal gespannt wie viele Zugriffe auf die HTML Seiten erfolgen.
Ich kann mir nicht vorstellen das die meisten Zugriffe auf Ponder = off Listen erfolgen.
Insofern ...
Das ist ein echter Kritikpunkt bei den großen Ratinglisten denn es geht nur noch darum viele Partien möglich schnell zu spielen (was wie gesagt gar nicht notwendig ist denn 350 reichen pro Engine und Konstellation schon aus). Es wird festgehalten an alten Ergebnissen und den tausenden von Partien. Anstatt mal aufgrund der Erkenntnisse der vielen Jahre aufzuräumen und sich ein neues Konzept auszudenken. Ich meine es sind doch viele Personen aktiv an den Listen beteiligt und wenn diese aufgeräumter gestaltet werden haben sicherlich auch noch andere Personen ein Interesse mitzumachen.
Soweit so gut ...
Wollte ja noch berichten wenn mir etwas auffällt.
Wobei das hier ja nicht nur als Kritik ausarten sollte denn ich erkenne ja zumindest ...
Die Reihenfolge der gelisteten Engines stimmt und mehr will ich als Anwender auch nicht wissen.
Aber der Vorsatz der Ersteller ... möglich genaue Zahlen durch tausende von Partien zu erzeugen ... wackelt aufgrund der Erkenntnisse und Möglichkeiten die wir heute nunmal vorliegen haben.
Gruß
Frank