SWCR: BobCat 2.75 x64 / Umko 1.2 x64 im LIVE mode

By Frank Quisinsky Date 2011-07-22 06:42 Edited 2011-07-22 06:51

Hallo zusammen,

sehr interessant ist die ELO-Entwicklung von BobCat 2.75 x64 denn überhaupt fällt immer mehr auf, dass Programme die sehr weit vorne landen meist stark starten und dann im Laufe der ersten 1.200 Partien meist deutlicher Punkte verlieren. Programme die sehr weit unten in der SWCR stehen starten schlechter und verbessern sich kontinuierlich. Programme die ca. in der Mitte der SWCR landen erspielen recht schnell ein stabiles Rating.

Gestern habe ich genau diese Aussage anhand der Plätze:

01-10
11-20
21-30
31-41

überprüft (nur die aktuellen Versionen).
Das Ergebnis ist witziger Weise ...

01-10 ... nach 300 Partien (verliert durchschnittlich 16 ELO)
11-20 ... nach 300 Partien (verliert durchschnittlich 7 ELO)
21-30 ... nach 300 Partien (gewinnt durchschnittlich 8 ELO)
31-40 ... nach 300 Partien (gewinnt durchschnittlich 22 ELO)

gewinnt oder verliert durchschnittlich auf 1.000 Partien, also von 300 auf 1.000!

Andere Aussage wäre demnach:
In ca. 84% der Fälle kann davon ausgegangen werden, das eine Engine im oberen Drittel nach 300 auf 1.000 Partien ca. 15 ELO verliert. In 88% aller Fälle kann davon ausgegangen werden, dass eine Engine von 300 auf 1.000 Partien, die im unteren Drittel steht bis zu 20 ELO gewinnt. Ein Rating einer Engine, welches in der Mitte der SWCR steht ist erstaunlicher Weise schon nach nur 260 Partien auf +-10 in 91% aller Fälle aussagekräftig. Wirft einiges über den Haufen zu den Thesen über die Anzahl der notwendigen Partien aus dieser Warte der Sichtweise, erst Recht wenn ich davon ausgehe, dass durch noch mehr Engines und noch mehr verschiedene Gegner die Streuung weiter verliert. Wollte mal wieder einen Mux von mir geben

Gruß
Frank

PS: Sehr gespannt bin ich auf den folgenden Test mit Rybka Exp. 42 / 61.
Die beiden Settings lasse ich weitere Partien gegen andere die oben stehen spielen.
Ich bin mir sicher, dass das Rating für beide Settings fallen wird, nicht zuletzt auch aufgrund der Tatsache das die niedrige Remisquote deutlich steigen wird.
Dieser Test wird auch aufzeigen wie schwach eigentlich die derzeitigen Auswertungsprogramme sind.

By Frank Quisinsky Date 2011-07-28 08:07

Ach so ja ...

Umko 1.2 x64 zur Vorgängerversion 1.1 x64 = +41
BobCat 2.75 x64 (erstmals in der SWCR getestet) erzielte direkt fast 2.560 und liegt ca. auf ChessTiger 2007 Level.

Wie ich beschrieben habe nicht selten, dass eine Engine aus dem unteren Drittel eher schlecht startet und dann mit mehr Partien immer höher rutscht. Engine die oben stehen, starten meist gut und verlieren Punkte. Interessante Geschichte, müsste mal im Detail untersucht werden, leider hat der Tag aber nur 24 Stunden und insofern hoffe ich immer auf ein paar Mitstreiter die ein interessante Analysen mit öffentlichen Datenbanken veranstalten.

By Werner Mueller Date 2011-07-28 15:32

[quote="Frank Quisinsky"]
Ach so ja ...

Umko 1.2 x64 zur Vorgängerversion 1.1 x64 = +41
BobCat 2.75 x64 (erstmals in der SWCR getestet) erzielte direkt fast 2.560 und liegt ca. auf ChessTiger 2007 Level.

Wie ich beschrieben habe nicht selten, dass eine Engine aus dem unteren Drittel eher schlecht startet und dann mit mehr Partien immer höher rutscht. Engine die oben stehen, starten meist gut und verlieren Punkte. Interessante Geschichte, müsste mal im Detail untersucht werden, leider hat der Tag aber nur 24 Stunden und insofern hoffe ich immer auf ein paar Mitstreiter die ein interessante Analysen mit öffentlichen Datenbanken veranstalten.
[/quote]
Wenn man z.B. eine 'stärkere' (Gewinnerwartung 0,9) gegen eine 'schwächere' (dann Gewinnerwartung: 0,1) in sagen wir 10 Partien antreten lässt, wird die schwächere Engine mit großer Wahrscheinlichkeit die ersten paar Spiele lang unterbewertet sein, die stärkere entsprechend überbewertet.
Das gilt natürlich genauso, wenn Du die Reihenfolge der Spiele sozusagen d.h. gedanklich umdrehst und gilt überhaupt für jede ausgewürfelte 'zeitliche' Reihenfolge.

Daran sieht man: diese 'interessante Geschichte zu untersuchen' hat keinen sittlichen Nährwert, soll heißen: bringt nichts. Wäre ja auch seltsam, wenn man aus einem 'zeitlosen' Modell zeitliche Phänomene herauskitzeln könnte.