Hallo zusammen,
sehr interessant ist die ELO-Entwicklung von BobCat 2.75 x64 denn überhaupt fällt immer mehr auf, dass Programme die sehr weit vorne landen meist stark starten und dann im Laufe der ersten 1.200 Partien meist deutlicher Punkte verlieren. Programme die sehr weit unten in der SWCR stehen starten schlechter und verbessern sich kontinuierlich. Programme die ca. in der Mitte der SWCR landen erspielen recht schnell ein stabiles Rating.
Gestern habe ich genau diese Aussage anhand der Plätze:
01-10
11-20
21-30
31-41
überprüft (nur die aktuellen Versionen).
Das Ergebnis ist witziger Weise ...
01-10 ... nach 300 Partien (verliert durchschnittlich 16 ELO)
11-20 ... nach 300 Partien (verliert durchschnittlich 7 ELO)
21-30 ... nach 300 Partien (gewinnt durchschnittlich 8 ELO)
31-40 ... nach 300 Partien (gewinnt durchschnittlich 22 ELO)
gewinnt oder verliert durchschnittlich auf 1.000 Partien, also von 300 auf 1.000!
Andere Aussage wäre demnach:
In ca. 84% der Fälle kann davon ausgegangen werden, das eine Engine im oberen Drittel nach 300 auf 1.000 Partien ca. 15 ELO verliert. In 88% aller Fälle kann davon ausgegangen werden, dass eine Engine von 300 auf 1.000 Partien, die im unteren Drittel steht bis zu 20 ELO gewinnt. Ein Rating einer Engine, welches in der Mitte der SWCR steht ist erstaunlicher Weise schon nach nur 260 Partien auf +-10 in 91% aller Fälle aussagekräftig. Wirft einiges über den Haufen zu den Thesen über die Anzahl der notwendigen Partien aus dieser Warte der Sichtweise, erst Recht wenn ich davon ausgehe, dass durch noch mehr Engines und noch mehr verschiedene Gegner die Streuung weiter verliert. Wollte mal wieder einen Mux von mir geben
Gruß
Frank
PS: Sehr gespannt bin ich auf den folgenden Test mit Rybka Exp. 42 / 61.
Die beiden Settings lasse ich weitere Partien gegen andere die oben stehen spielen.
Ich bin mir sicher, dass das Rating für beide Settings fallen wird, nicht zuletzt auch aufgrund der Tatsache das die niedrige Remisquote deutlich steigen wird.
Dieser Test wird auch aufzeigen wie schwach eigentlich die derzeitigen Auswertungsprogramme sind.