CCRL, CEGT Ratinglisten ... was auffällt ... langer Beitrag!

By Frank Quisinsky Date 2009-11-13 09:59

Hi,

bei den vielen Statistiken der CEGT / CCRL nach tausenden von Partien fällt mir bislang auf (wenn ich mit meiner Ratingliste und meiner ehemaligen ATL-Ratingliste) vergleiche:

Die Engines die deutlich in den Listen oben stehen (Rybka, Shredder, Naum, Stockfish) sind im Vergleich zu Engines die 10-20 Plätze weiter unten stehen trotz tausender von Partien deutlich zu niedrig bewertet.
Und das alles in vielen Fällen um runde 50 ELO.

Beispiel:
In CCRL kann Bright 0.4a gut als Maßstab genommen werden.
Rybka 3 1Core 32Bit spielt mit 3.096 ELO, Bright 0.4a 1Core 32Bit spielt mit 2.876 ELO
Das wäre eine Differenz von 220 ELO.

Mal schauen wie es in CEGT ausschaut:
Rybka 3 1Core 32Bit spielt mit 3.055 ELO, Bright 0.4a 1Core 32Bit spielt mit 2.815 ELO
Das wäre eine Differenz von 240 ELO.

Mal wieder die 20 bei Rybka

Nach so vielen Partien in den beiden Listen fällt auf das es Unterschiede von mehr als 20 ELO gibt (wenn ich die Zahlen in ein Verhältnis setze).
Soviel zum Thema Error Bar von ELOstat

Zurück ...
Wird nun eine Ratingliste erspielt in welcher von jedem Programm nur eine Version spielt liegt der Unterschied von Rybka 3 zu Bright 0.4a bei runde 275 ELO im Durchschnitt. Habe das anhand der eigenen und zwei weiteren Listen überprüft und einen Durchschnitt gebildet.

Nun haben wir:
CCRL 220 ELO, CEGT 240 ELO, andere Liste wo nur eine Engine pro Programm spielt 270 ELO.
Und das alles nach vielen vielen Partien wo es doch lt. ELOstat keine so großen Abweichungen mehr geben dürfte.
Also im Vergleich der Listen zu anderen Listen kann natürlich auch ELOstat angewendet werden

Kein Kritikpunkt an CCRL oder CEGT aber es stellt sich die Frage warum passiert das !!

Suche derzeit ein wenig nach Erklärungen denn Sinn ist es ja eine genaue Einschätzung einer Engine zu erhalten und nicht Wunschkonzert zu spielen. Meine, mir die Listen beständig anzusehen die mir am Besten gefallen denn die Abweichungen sind sehr groß.

Der ganze Unterbau nach den 4 TOP Engines (Rybka, Shredder, Naum und Stockfish) wird ja total verzerrt dargestellt.

Warum:
Nach den 4 TOP Programmen kommen Thinker und Fritz. Die Bewertungen von denen sind sehr gut.
Aber dann kommen 10 Programme die ca. 50-70 ELO auseinander liegen. Es gibt keine so großen Sprünge wie von Nummer 1 Rybka zu Nummer 2-3 Shredder / Naum oder von Nummer 4 Stockfish zu Nummer 5/6 Thinker und Fritz.

Und genau hier liegt meines Erachtens das "Statistik-Problem" !!

Denn ...

1. Schaue ich auf die Rangfolge der Engines sehe ich folgendes:
In CCRL und CEGT und nach ca. 200 Partien einer neue Ratingliste stimmt das schon.
1. Rybka, 2. Shredder, 3. Naum, 4, Stockfish und selbst die Abstufungen nach Tabelleplatz der 10 Engines die nur 50-75 ELO auseinander liegen stimme schon nach ca. 200 Partien. Aber die Zahlen der TOP 4 sind im Vergleich zu den Engines darunter zu niedrig.

Wahrscheinlich ist es so, dass im oberen Bereich die Gegner fehlen. Ratinglisten wie CEGT und CCRL gleichen das aus indem dann Rybka 3 mit 1, 2, 4, 64Bit mit 1, 2, 4 CPUs etc. spielen. Dadurch sind mehr Engines mit gleicher Spielstärke vorhanden.

Die Frage ist nun:

Was ist interessanter zu wissen:

1. Eine genaue ELO-Zahl im Vergleich der Engines untereinander.
2. Eine genaue ELO-Zahl der verschiedenen Möglichkeiten die Engines bieten (wie gesagt, 1, 2, 4 Cores).

Ich tendiere selbst zu Punkt 1 !!
Das können die Listen aber nicht bieten.

Stellt sich dann wieder die Frage ...
Wann wären die großen Listen wie CEGT und CCRL noch aussagekräftiger ...

Anhand von diesen Aussagen sehr einfach festzustellen !!

1. Wenn genauer verglichen wird !!

Ratingliste mit 32Bit und 1 Core
Ratingliste mit 32Bit und 2 Cores
Ratingliste mit 32Bit und 4 Cores
Ratingliste mit 64Bit und 1 Core
Ratinglsite mit 64Bit und 2 Cores
Ratingliste mit 64Bit und 4 Cores

das gleiche dann mit Ponder On / Off

Gibt also 12 Ratinglisten Konstellationen !!

Würden wir diese 12 haben könnten wir das in ein Verhältnis setzen.
Wie weit weicht Rybka 64Bit und 2 Cores von Shredder 64Bit und 2 Cores ab im Verhältnis zu wie weit weicht Rybka 64Bit 1 Core von Shredder 64bit 1 Core ab.

Dann würden sicherlich sämtliche Ratingliste besser vergleichbar sein.
Aber derzeit darf der Betrachter Wunschkonzert spielen.
Weil alles wild gemischt wird und daher die Listen von einander abweichen.
Und das im Einzelfall von über 50 ELO obwohl schon tausende von Partien gespielt sind.

Alles was ich schreiben wollte ist doch nur ...

Wenn mir ein Ratinglistenersteller erzählt, dass 1000 Partien notwendig sind um eine genaue ELO zu haben muss ich immer lachen.
Das geht nach 350 Partien schon gut.

Wenn wild gemixt wird ... wie es ja in CCRL und CEGT der Fall ist können selbst 5000 Partien zu abweichenden Ergebnisse führen wenn ich die Listen miteinander vergleiche und das hat auch nichts mehr mit den Bedenkzeiten zu tun. Denn die CCRL spielt mit größeren Bedenkzeiten.

40 in 20 in CEGT bedeutet ca. 40 / 10 auf einen schnellen Intel Dual Core mit 3 GHz
40 in 40 in CCRL bedeutet ca. 40 / 25 auf einen schnellen Intel Dual Core mit 3 GHz

Bei diesem Unterschied dürfen dann im Vergleich die Engines nicht so stark abweichen.

Auch ist es besser eine gleiche Anzahl von Partien der Eng-Eng Wettkämpfe untereinander zu haben.

Dann passieren so Sachen wie in CCRL auch nicht, das Stockfish um 40 ELO nach 700 Partien fällt (vorher ca. 400 Partien).
Das ist weit über die ErrorBar von ELOstat und liegt einfach daran das Stockfish plötzlich verstärkt gegen die Rybkas gespielt hat.

Also halte ich fest:

1. Die Abstufung der Engines untereinander (wer ist erster, zweiter etc.) stimmt in beiden Listen. Das ist aber auch einfach schon zu 90% nach 200 Partien feststellbar.
2. Die ELO-Zahlen trotz tausender von Partien unterscheiden sich in vielen vielen stark voneinander. Ob wie gesagt nun 1000 oder 5000 Partien gespielt wurden spielt bei einem Mix der 12 Ratinglistenmöglichkeiten kaum eine Rolle.

Optimal wäre auch folgendes:

Selbst spiele ich mit 40 in 10, Ponder = on und 32Bit.
Die großen Listen spielen mit Ponder = off.

Haben wir die 12 Ratinglisten auf 12 unterschiedlichen Seiten bin ich mal gespannt wie viele Zugriffe auf die HTML Seiten erfolgen.
Ich kann mir nicht vorstellen das die meisten Zugriffe auf Ponder = off Listen erfolgen.

Insofern ...

Das ist ein echter Kritikpunkt bei den großen Ratinglisten denn es geht nur noch darum viele Partien möglich schnell zu spielen (was wie gesagt gar nicht notwendig ist denn 350 reichen pro Engine und Konstellation schon aus). Es wird festgehalten an alten Ergebnissen und den tausenden von Partien. Anstatt mal aufgrund der Erkenntnisse der vielen Jahre aufzuräumen und sich ein neues Konzept auszudenken. Ich meine es sind doch viele Personen aktiv an den Listen beteiligt und wenn diese aufgeräumter gestaltet werden haben sicherlich auch noch andere Personen ein Interesse mitzumachen.

Soweit so gut ...
Wollte ja noch berichten wenn mir etwas auffällt.
Wobei das hier ja nicht nur als Kritik ausarten sollte denn ich erkenne ja zumindest ...

Die Reihenfolge der gelisteten Engines stimmt und mehr will ich als Anwender auch nicht wissen.
Aber der Vorsatz der Ersteller ... möglich genaue Zahlen durch tausende von Partien zu erzeugen ... wackelt aufgrund der Erkenntnisse und Möglichkeiten die wir heute nunmal vorliegen haben.

Gruß
Frank

By Frank Quisinsky Date 2009-11-13 10:11 Edited 2009-11-13 10:16

Hi,

übrigens, ich möche EloStat nicht angreifen

ELOstat wurde entwickelt aufgrund meiner ersten WinBoard Ratingliste, weil ich viele Engines in der Liste hatte.

Nach heutigen Erkenntnisse aber nicht genug Partien mit ca. 350 pro Engine und mithin konnte Frank sein Programm auch selbst gar nicht anders eichen.
Auch wenn in meiner Liste die Engines untereinander jeder gegen jeden die gleiche Anzahl von Partien spielte (was gut war) hätte ich dann wirklich 2.000 Partien pro Engine haben müsste damit bei diesem Statistikprogramm die ErrBar Berechnung genauer wäre.

Seinerzeit waren die Ratinglisten unter CBGUis nicht gut genug. Es gab zu viele Abweichungen (Winboard Adapter, zu viele ChessBase Native Engines gleicher Programme etc..) daher bediente sich Frank einer WB Ratingliste.

Wollte das mal in den Raum stellen !!
ELOstat ist sehr gut (bin selbst froh das dieses Programm verfügbar ist) aber keinesfalls perfekt ... kann es gar nicht sein !!

Gruß
Frank

PS:
Insofern ...
Auch wenn ein Klaus Wlotzka unter CB GUIs gespielt hat, 4 und teilweise 5-Steiner einsetze, Ergebnisse von Adapter Engines von Listen wo Adapter unter anderen GUIs nicht eingesetzt wurden abwichen ...
Hoffe CEGT und CCRL sind mir nicht böse ... die Liste selbst auf nur einen Rechner erspielt ... war dennoch besser

Weil ... die Masse ist nicht unbedingt Klasse aber zumindest auch gut !!

By Wolfgang Battig Date 2009-11-13 11:04 Edited 2009-11-13 11:09

Hi Frank,

nutzt CCRL ELO-Stat überhaupt? M.W. nach nicht, mag mich aber auch täuschen (schaue nicht so häufig in die CCRL-Listen).

Viele Grüße
Wolfgang

By Frank Quisinsky Date 2009-11-13 11:30

Hi,

stimmt, die berechnen mittels Bayes ELO.
Habe mich mit diesem Programm selbst noch nicht ausführlich beschäftigt.

Sollte ich dann mal machen.

Gruß
Frank

By Frank Quisinsky Date 2009-11-13 15:53

Hi Wolfgang,

habe jetzt Bayes ELO im Einsatz. Christian Koch war so nett und hat mir die Bedienung erklärt.
So konnte ich das Programm direkt einsetzen.

Witzig ...
In meiner Ratingliste verliert der erste 16 ELO und alle anderen bleiben in etwas gleich.
Oder der erste bleibt gleich und alle anderen gewinnen hinzu.

Damit wären 33% der Abweichungen zwischen den großen Listen CEGT und CCRL erklärt

Gruß
Frank

By Gerhard Sonnabend Date 2009-11-13 10:28

[quote="Frank Quisinsky"]
[...snip...]
Wahrscheinlich ist es so, dass im oberen Bereich die Gegner fehlen. Ratinglisten wie CEGT und CCRL gleichen das
aus indem dann Rybka 3 mit 1, 2, 4, 64Bit mit 1, 2, 4 CPUs etc. spielen. Dadurch sind mehr Engines mit gleicher
Spielstärke vorhanden.
[...snip...]
[/quote]

Hi Frank !

Für die CEGT-Blitz-Ratingliste stimmt diese Behauptung nicht.
Wir spielen kein "Ryb vs Ryb" oder "Naum vs Naum" etc. etc.
Oder wolltest Du etwas anderes damit ausdrücken ?

Viele Grüsse,
G.S.

By Frank Quisinsky Date 2009-11-13 10:42

Hallo Gerhard,

nein, die Blitzrangliste war auch nicht gemeint.
Übrigens, die finde ich richtig gut !!!

Nein, meinte die Ratinglisten 40/40 von CCRL und 40/20 CEGT.

Allerdings fallen beim Blitz dann wieder andere Sachen auf.
Smarthink 1.20 ca. 60 ELO schwächer als bei längeren Bedenkzeiten etc.. aber das liegt ja in der Natur der Sache und hat nichts mit der Ratingliste als solches zu tun

Gruß
Frank

By Gerhard Sonnabend Date 2009-11-13 11:06

[quote="Frank Quisinsky"]
[...snip...]
Allerdings fallen beim Blitz dann wieder andere Sachen auf.
Smarthink 1.20 ca. 60 ELO schwächer als bei längeren Bedenkzeiten etc.. aber das liegt ja in
der Natur der Sache und hat nichts mit der Ratingliste als solches zu tun

By Wolfgang Battig Date 2009-11-13 11:17

[quote="Gerhard Sonnabend"]
[quote="Frank Quisinsky"]
[...snip...]
Allerdings fallen beim Blitz dann wieder andere Sachen auf.
Smarthink 1.20 ca. 60 ELO schwächer als bei längeren Bedenkzeiten etc.. aber das liegt ja in
der Natur der Sache und hat nichts mit der Ratingliste als solches zu tun

[/quote]

Eben !
Das ist nämlich keine "Sache" (gemeint war wohl eher Schwäche ?) sondern einfach Fakt.
Es gab schon immer und es gibt auch heute noch Engines, welche im Blitz stärker/schwächer
sind als bei anderen Bedenkzeiten.

Zur anderen Sache:
ich denke, dass auch bei der CEGT 40/20 Liste keine Spiele zwischen Autorengleichen Engines
durchgeführt werden. 100%ig sicher bin ich mir jetzt aber nicht.

Vielen Grüsse,
G.S.
[/quote]

bei 40/20 gab es ganz vereinzelte Matches, z.B. Rybka 3 x64 2CPU vs. Rybka 2.3.2a x64 2CPU (50 Partien).
Dass solch ein Vergleich irgendeinen - egal ob positiven oder negativen - Einfluss hat, wage ich - bei über 2600 Partien die Rybka 3 gespielt hat -
allerdings zu bezweifeln...

By Frank Quisinsky Date 2009-11-13 11:32

Hi Wolfgang,

das ist ja der Punkt.
Die Anzahl der Partien ist nicht wichtig.

Vergleiche CCRL und CEGT ELOs selbst anch 2.600 Partien und stelle die Unterschiede fest.
Wenn der Anspruch gehegt wird eine ganz genaue ELO zu ermitteln ist das für den Betrachter der Listen eher ein Wunschkonzert ... was gefällt mir besser !!

Es muss also Gründe geben warum die Engines in beiden Listen trotz so vieler Partien voneinander abweichen.
Das ist ja der Aufhänger des Beitrages !!

Gruß
Frank

By Frank Quisinsky Date 2009-11-13 11:56

Hi,

genau !!

Und ... was meines Erachtens überhaupt 0 Sinn macht ist dieses Mischen noch zu verstärken.

Rybka 3 64Bit 4 Cores spielt gegen Shredder 11 32Bit 2 Cores

Was soll das ?
Will ich Äpfel mit Birnen vergleichen oder eine genaue Ratingliste erstellen.

x64 mit einem Core gegeneinander
x64 mit von mir aus 2 Cores gegeneinander
32bit mit 1 Core gegeneinander
32Bit mit 4 Cores gegeneinander

Wenn so wild gemixt wird kann ich direkt auch noch die Blitzergebnisse mit in den Topf werfen.
Denn bei Blitz habe ich nur weniger Zeit.

Weniger Zeit habe ich auch wenn ich einen Core mit 4 Cores vergleiche.

Das ist völlig paradox !!!

Gruß
Frank

By Gerhard Sonnabend Date 2009-11-13 12:57

[quote="Frank Quisinsky"]
Hi,

genau !!

Und ... was meines Erachtens überhaupt 0 Sinn macht ist dieses Mischen noch zu verstärken.

Rybka 3 64Bit 4 Cores spielt gegen Shredder 11 32Bit 2 Cores

Was soll das ?
Will ich Äpfel mit Birnen vergleichen oder eine genaue Ratingliste erstellen.

x64 mit einem Core gegeneinander
x64 mit von mir aus 2 Cores gegeneinander
32bit mit 1 Core gegeneinander
32Bit mit 4 Cores gegeneinander

Wenn so wild gemixt wird kann ich direkt auch noch die Blitzergebnisse mit in den Topf werfen.
Denn bei Blitz habe ich nur weniger Zeit.

Weniger Zeit habe ich auch wenn ich einen Core mit 4 Cores vergleiche.

Das ist völlig paradox !!!

Gruß
Frank
[/quote]

Hi Frank !

So hatte ich das nicht gemeint.

Das eine Engine als 1-, 2- oder 4-CPU gegen eine andere Engine mit 1-4 CPU spielt
ist überhaupt nichts "Schlimmes" im Sinne von Messungen durchführen.
Mach einfach die Augen zu und stelle Dir folgendes vor:
die eine Engine hat 2850 Punkte, die andere 2900 Punkte und die spielen mit einer gewissen
Bedenkzeit gegeneinander. Es ist vollkommen egal ob die Eine nun diese Zahl als "2-CPU-Variante",
die Andere die Zahl als Single-Variante erzielt hat.
Wichtig für die Messung ist lediglich was zum Schluss heraus kommt.

Ich z.B. habe viele Spiele (800) mit Rybka 1.2f x64 1CPU gegen Gegner mit 4CPU laufen lassen.
Der dabei erzielte Score entspricht fast zu 100% demjenigen, welchen Rybka 1.2f x64 1CPU gegen
Single-Engine erreichte. Und das ist nur ein Beispiel von sehr vielen ! Bei Rybka 3.0 x64 1CPU sind
es sogar 1500 gewesen, auch hier war der Score vergleichbar mit dem gegen Single-Engines.

Viele Grüsse,
G.S.