LS-Rangliste: Komodo 6

By Tom Paul Date 2013-10-09 06:25

Und jetzt?
Author: Uri Blass
Date: Tue Oct 8 21:24:21 2013 +0200
Timestamp: 1381260261

Increase slowmover and reduce instability

These two changes go in opposite directions and it
seems that the combination is stronger than original.

Here are the positive tests at various TC:

15+0.05
LLR: 2.96 (-2.94,2.94) [-1.50,4.50]
Total: 24561 W: 4946 L: 4772 D: 14843

60+0.05
LLR: 2.96 (-2.94,2.94) [0.00,6.00]
Total: 15259 W: 2598 L: 2423 D: 10238

40/30
LLR: 2.96 (-2.94,2.94) [-3.00,3.00]
Total: 2570 W: 527 L: 422 D: 1621

Unfortunately there is also a bad result
with one sec time increment that needs
to be further investigated:

12+1
LLR: -2.97 (-2.94,2.94) [-3.00,3.00]
Total: 2694 W: 438 L: 543 D: 1713

bench: 8340585

By Stefan Pohl Date 2013-10-09 06:50

[quote="Tom Paul"]
Und jetzt?
Author: Uri Blass
Date: Tue Oct 8 21:24:21 2013 +0200
Timestamp: 1381260261

Increase slowmover and reduce instability

These two changes go in opposite directions and it
seems that the combination is stronger than original.

Here are the positive tests at various TC:

15+0.05
LLR: 2.96 (-2.94,2.94) [-1.50,4.50]
Total: 24561 W: 4946 L: 4772 D: 14843

60+0.05
LLR: 2.96 (-2.94,2.94) [0.00,6.00]
Total: 15259 W: 2598 L: 2423 D: 10238

40/30
LLR: 2.96 (-2.94,2.94) [-3.00,3.00]
Total: 2570 W: 527 L: 422 D: 1621

Unfortunately there is also a bad result
with one sec time increment that needs
to be further investigated:

12+1
LLR: -2.97 (-2.94,2.94) [-3.00,3.00]
Total: 2694 W: 438 L: 543 D: 1713

bench: 8340585
[/quote]

Diese Version test ich gerade seit einer Stunde. Warum auch nicht. In 3 der 4 Tests, die dort angeführt sind, war diese Version sehr gut, nur in einem nicht und der hatte nur rel. wenige Partien. Stockfish schwankt in Tests sowieso sehr viel stärker als andere Engines, daher hat ein schwaches Ergebnis nach weniger als 3000 Partien keine große Bedeutung, zumal die 3 positiven Tests insgesamt mehr als 40000 Partien umfasssen.
Und der Start meines Testlaufs hat sehr gut begonnen. Aber auch das heißt (gerade bei Stockfish) noch gar nix.

Stefan

By Stefan Pohl Date 2013-10-09 06:57

[quote="Stefan Pohl"]
The result of Komodo 6 is now online.

http://ls-ratinglist.beepworld.de

Stefan

(Perhaps you have to clear your browsercache or reload the website)
[/quote]

Der Komodo 6 Testlauf war wirklich kurios. Ich rechne ja immer während des Test per Taschenrechner Zwischenergebnisse aus (da die LittleBlitzerGUI ja im Gegensatz zu cutechess-cli dankenswerterweise Ergebnisse anzeigt) und da war das Ergebnis nach 2000 Partien bei ca. +15 Elo im Vergleich zu Komodo CCT (also genau so, wie jetzt das Endergebnis), aber zwischendurch ging es erheblich bergab auf +8 Elo, dann wieder rauf auf +10 (ca. Partie 6000). Dann blieb der Score sehr stabil bis 8000 (gestern Abend), so daß ich dachte, da passiert nun nix mehr. Und über Nacht zog der Score dann noch mal um 5 Elo auf +15 Elo an bis zum Testschluß.
So ein unsteter Verlauf jenseits der 5000er Halbzeitmarke ist wirklich selten und kommt sonst eigentlich nur bei Stockfish vor.
Das sind dann so Momente, wo man sich fragt, ob selbst 10000 Partien nicht noch zuwenig sind, um wirklich gesicherte Ergebnisse zu haben. Aber mehr ist einfach zeitlich bei meiner Hardwareausstattung nicht drin.

Stefan

By Hauke Lutz Date 2013-10-09 18:46

Ich denke gerade diese Schwankungen belegen wie wichtig es ist so viele Stellungen vorzugeben und gegen viele Engine zu testen.
Würdest du nur 100 Stellungen und evtl. nur 5 Engine nutzen, dann wäre dir das nichtmal aufgefallen...

Also mach weiter so, deine Rangliste ist eine wahre Bereicherung

By Stefan Pohl Date 2013-10-10 11:09 Edited 2013-10-10 11:15

[quote="Hauke Lutz"]
Ich denke gerade diese Schwankungen belegen wie wichtig es ist so viele Stellungen vorzugeben und gegen viele Engine zu testen.
Würdest du nur 100 Stellungen und evtl. nur 5 Engine nutzen, dann wäre dir das nichtmal aufgefallen...

Also mach weiter so, deine Rangliste ist eine wahre Bereicherung

[/quote]

Danke für die Blumen! Freut mich immer!

Hier ein Zwischenstand von Stockfish 131008 nach 4000 von 10000 Partien: ca. +12 Elo zu Stockfish 130910. Ein sehr schönes Plus. Mal sehen ob es so bleibt.

Und noch ein bemerkenswertes Zwischenergebnis, was (mal wieder) zeigt, wie wichtig viele Partien sind: Der Test von Stockfish 131008 läuft (wie praktisch alle meine Tests) auf 2 absolut identischen Notebooks (gleiche Hardware, gleiche Firma, gleiche Typnummer, gleiches Windows (7 64bit HomePremium)) und die LittleBlitzerGUI zeigt auch identische Knotenzahlen der Engines und ebenso identische Rechentiefen. Und auf Notebook 1 hat Stockfish nach 2035 Partien ein Zwischenergebnis von +19 Elo und auf dem anderen (auch nach 2035 Partien) von +6 Elo (und der Durchschnittswert ist dann eben +12). Und diese Abweichungsgröße ist durchaus nichts Ungewöhnliches. Zum Ende des Testlaufs (also pro Notebook 5000 Partien) laufen die Ergebnisse dann aber praktisch immer in einem ca. 5 Elo-Intervall zusammen.

Soviel zur These, daß 2000 Partien dicke reichen für ein seriöses Ranking. Würde ich nach 2000 Partien den Test beenden, hätte ich - je nachdem welchen dieser 2 Testläufe ich jetzt als Endergebnis nehmen würde - entweder ein Ergebnis von +6 oder von +19 Elo...

Es ist mir ja schon beinahe etwas peinlich, immer wieder auf solche Daten und Fakten hinzuweisen, weil ich ja auch weiß, daß andere Tester sich dadurch auf den Schlips getreten fühlen, aber so sind nun mal die Fakten. Die kann und will ich nicht ignorieren. Und ich wünschte, andere würden es mir gleichtun. Aber leider bin ich wohl der sprichwörtlich einsame Rufer in der Wüste. Oder Don Quichotte beim Kampf gegen Windmühlen.

Stefan