ELOStat Auswertung Turnier mit unterschiedl. Zeitkontrollen

By Kurt Utzinger Date 2013-05-26 07:33

Was ist das für eine Zeiteinteilung
Tournament 7.50+0.05 Sek., 15000 Partien

- 7.5 Sek/Partie oder pro Zug?

Mfg
Kurt

By Andreas Strangmüller Date 2013-05-26 08:40

Hallo Kurt,

die Bedenkzeiten beziehen sich auf die gesamte Partie. Pro Zweikampf werden 5000 Partien gespielt damit das ganze an Aussagekraft gewinnt.

Mich interessiert, wie sich die Spielstärke verschiedener Engines bei Verdoppelung der Bedenkzeit verhält.
Bedenkzeit 7.50 -> 15.00 -> 30.00 -> 60.00 Sekunden

Zum Abschluß gebe ich jeder Engine 300.00 Sekunden/Partie.

Houdini ist bei sehr kurzen Bedenkzeiten die mit Abstand beste Engine, Komodo CCT ist bei allen Bedenkzeiten sehr ausgeglichen, während Stockfish mit zunehmender Bedenkzeit außerordentlich gut zulegt.

Viele Grüße,
Andreas

By Thomas Schoenegger Date 2013-05-26 10:24

Hallo Andreas, zwei Fragen: benutzt du die Cutechess-cli und werden bei der 7.50 +0.05 keine Time losses produziert? Stockfish und Komodo kann damit umgehen, aber Houdini?
Ich denke auch das Stockfish Team könnte wohl von deinen hier gezeigten Tests profitieren, da diese auf Grund des hohen Testaufwandes keine Tests gegen andere Gegner durchführen. Schön zu sehen was seit längerem bekannt ist, dass bei zunehmender BZ Stockfish am meisten profitiert und nicht Komodo.
Danke für deine Mühen
Thomas Schönegger

By Andreas Strangmueller Date 2013-05-26 11:21

Hallo Thomas,

für meine Tests benutze ich ausschließlich den Cutechess-Client, da man damit auf einem Mehrkern-Rechner parallel mehrere Partien austragen kann. Auf einem AMD FX-8350, 8-Kern sind das immerhin sieben! Das verringert die Testdauer ungemein. Einen Kern sollte man immer für Betriebssystem-Aktivitäten reservieren.
Alle bisher getesteten Engines können mit solch geringen Bedenkzeiten wie 7.50+0.05 Sek. umgehen. Das ist sehr wichtig. Auch Rybka, dieser Test läuft aktuell. Werde jedoch die bisher gespielten 75000 Partien nochmal auf "Time losses" überprüfen.

Die bisherigen Testergebnisse mit Stockfish, Houdini und Komodo habe ich ebenfalls im Stockfish Testing Forum gepostet.
https://groups.google.com/forum/m/?fromgroups#!forum/fishcooking

Viele Grüße,
Andreas

By Thomas Schoenegger Date 2013-05-26 13:45

Danke dir für die Aufklärung. Mich haben diese, im Besonderen die 7.50 und 15 halt verwundert, da Stefan Pohl ja erst kürzlich davon sprach mit nochmals verkürzter BZ und cutechess-cli zu testen. Hat sich aber wenn ich mich recht erinnere erledigt, da er von vermehrten timelosses berichtete. Wäre dem so würde das Bild deiner Betrachtung "Welche Engine profitiert von mehr BZ?" bei entsprechend vielen Zeitverluste verzerren.
Aber timelosses werden ja vom Cutechess Client protokuliert.
Thomas

By Stefan Pohl Date 2013-05-26 17:12

[quote="Thomas Schoenegger"]
Danke dir für die Aufklärung. Mich haben diese, im Besonderen die 7.50 und 15 halt verwundert, da Stefan Pohl ja erst kürzlich davon sprach mit nochmals verkürzter BZ und cutechess-cli zu testen. Hat sich aber wenn ich mich recht erinnere erledigt, da er von vermehrten timelosses berichtete. Wäre dem so würde das Bild deiner Betrachtung "Welche Engine profitiert von mehr BZ?" bei entsprechend vielen Zeitverluste verzerren.
Aber timelosses werden ja vom Cutechess Client protokuliert.
Thomas
[/quote]

Wenn man einen Kern für Windows freihält, klappts halbwegs mit extrem kurzen Zeiten, auch mit Houdini. Da ich nur 4 Kerne habe, macht das für mich aber wenig Sinn. Zudem bin ich bei den ultrakurzen Bedenkzeiten mittlerweile etwas skeptisch, zumindest wenn verschiedene Engines gegeneinander spielen (verschiedene Versionen einer Engine sind unproblematisch). Denn eventuelle Initialisierungsprozesse einer Engine bevor das eigentliche Knoten-Crunching losgeht, können bei so extrem kurzen Bedenkzeiten eine Engine unverhältnismäßig benachteiligen.
Daher ist für mich die sinnvolle Untergrenze mein LS-Tempo von 45''+500ms. Das ist schnell, aber nicht ultraschnell. Im Mittelspiel 2-3 Sekunden pro Zug und auch bei langem Endspielgeschiebe nie weniger als 500ms pro Zug. Und man schafft gute 500 Partien pro Core und Tag.
Kann ich daher bedenkenlos empfehlen - und schnell ist auch dieses Testempo noch

Stefan

By Andreas Strangmüller Date 2013-05-26 17:28

Hallo Thomas,

ich habe die PGN's besonders der kurzen Bedenkzeiten überprüft und keine einzige Partie mit Verlust durch Zeitüberschreitung gefunden.
Zumindest die bisher gestesteten Engines Houdini, Komodo, Stockfish und Rybka können mit diesen extrem kurzen Bedenkzeiten umgehen.

Denke die Entwickler legen darauf auch großen Wert, da Veränderungen am Code zuerst mit sehr vielen Partien bei ultrakurzen Bedenkzeiten gestestet werden.

Viele Grüße,
Andreas

By Thomas Schoenegger Date 2013-05-27 05:12

Ich danke dir für die Infos
Thomas

By Stefan Pohl Date 2013-05-26 17:18

[quote="Andreas Strangmueller"]
für meine Tests benutze ich ausschließlich den Cutechess-Client, da man damit auf einem Mehrkern-Rechner parallel mehrere Partien austragen kann.
[/quote]

Das kann man mit der LittleBlitzerGUI auch und sie ist erheblich komfortabler und zeigt auch Zwischenergebnisse an. Und sie ist absolut stabil. Ich habe schon über eine Million Partien damit spielen lassen und keinen einzigen GUI Hänger oder Absturz gehabt. Weitere von mir verfaßte Anwender-Tipps zur Nutzung kann man auf meiner LS-Website downloaden...Die LittleBlitzerGUI kann ich jedem Tester nur wärmstens empfehlen.

Stefan

By Andreas Strangmüller Date 2013-05-26 17:42

Hallo Stefan,

danke für den Tip, werde mir die LittleBlitzerGUI mal näher ansehen!

Viele Grüße,
Andreas

By Stefan Pohl Date 2013-05-26 18:57 Edited 2013-05-26 19:02

[quote="Andreas Strangmüller"]
Hallo Stefan,

danke für den Tip, werde mir die LittleBlitzerGUI mal näher ansehen!

Viele Grüße,
Andreas
[/quote]

Mach das. Allerdings sind weniger als 150ms Fischerbonus nicht empfehlenswert. Aber dafür kannst du guten Gewissens alle Kerne nutzen und mußt keinen für Windows frei lassen.
Sollte es noch Fragen geben, die nicht in meiner kleinen Hilfe-Datei auf meiner LS-Website (Rubrik:Settings und Links) beantwortet werden, kannst du mich gerne hier ausfragen. Habe zwar im Moment aus privaten Gründen nicht so viel Zeit, aber auf Arbeit kann ich schon mal zu meinem iPad greifen, so wie jetzt im Moment.

Stefan

By Michael Scheidl Date 2013-05-26 13:52

Zitat:

Schön zu sehen was seit längerem bekannt ist, dass bei zunehmender BZ Stockfish am meisten profitiert und nicht Komodo.

Tatsächlich interessant... Vergleicht man die Resultate der kürzesten mit denen der längsten Bedenkeit, sieht man wie der Abstand Houdini-Stockfish von 180 auf 95 Punkte schrumpfte. Die Komodo-Ratings blieben praktisch stabil.

Die Remisquote insgesamt stieg von ca. 40% auf etwas über 50% an.

By Ralf Mueller Date 2013-05-26 17:29

Hallo Andreas,

vielen Dank für deine Tests.

Was mir persönlich immer wieder auffällt, dass in Ranglisten vom gleichen Betreiber Engines bei unterschiedlichen Zeitkontrollen sehr unterschiedlich abschneiden (mal liegt die eine vorne, mal die andere), was nicht von Errorbars gedeckt wird.

Man nehme nur die aktuelle CEGT Rangliste.

In der Rangliste 40/20 liegt Komodo 5.0 x64 1CPU 18 Elopunkte vor Rybka 3 x64 4CPU bei einer insgesamten Errorbar von 18 Punkten. Das heißt, dass entweder Komodo stärker ist oder die Engines genau gleich stark. Hier der Link: http://www.husvankempen.de/nunn/40_40%20Rating%20List/40_40%20All%20Versions/rangliste.html
In der Rangliste 40/4 liegt hingegen Rybka 3 x64 4CPU 20 Elopunkte vor Komodo 5.0 x64 1CPU bei einer insgesamten Errorbar von 18 Punkten. Das bedeutet, dass auf jeden Fall Rybka stärker ist als Komodo. Hier der Link:
http://www.husvankempen.de/nunn/40_40%20Rating%20List/40_40%20All%20Versions/rangliste.html

Offensichtlich widersprechen sich die beiden Ergebnisse, was nur zwei Schlüsse zulässt:
1) Entweder ist das Konfidenzintervall bei den Tests zu klein gewählt
2) Engines liefern bei unterschiedlichen Zeitkontrollen unterschiedliche Ergebnisse

Beide Schlüsse ziehen die Zuverlässigkeit aktueller Enginetests stark in Zweifel.

Wie gesagt, es ist nur ein Beispiel unter vielen. Gerne kann ich weitere, extremere Beispiele heraussuchen.

By Andreas Strangmüller Date 2013-05-26 20:49

Hallo Ralf,

Engines liefern bei unterschiedlichen Zeitkontrollen unterschiedliche Ergebnisse, das ist definitiv der Fall und wird durch meine Tests bestätigt.
Das ist ja auch ein Grund weshalb Ranglisten zu unterschiedlichen Bedenkzeiten erstellt werden. Eine Rangliste zu Bedenkzeit A, eine andere zu Bedenkzeit B, usw.

Das Vertrauensintervall sollte zudem nicht zu niedrig gewählt werden, 5000 Partien oder besser noch mehr sollten es unter exakt den gleichen Bedingungen schon sein.

Doch wie sehen diese "Laborbedingungen" exakt aus?

- gleiche Hardware
- gleiche GUI
- gleiche Engineversionen
- identische Zeitkontrollen, bei anderer Hardware angepasste Bedenkzeiten
- gleiches Buch
- gleiche Hashtabellengröße
- nur 1 Kern wegen der Reproduzierbarkeit
- sehr viele Partien, mind. 5000, je mehr desto besser
- alle Engines absolvieren die gleiche Anzahl an Partien

Hab ich noch was vergessen?

Wird eine Rangliste unter diesen Bedingungen erstellt ist sie m.E. absolut aussagekräftig.

Viele Grüße,
Andreas

By Ralf Mueller Date 2013-05-26 20:56

Code:

Engines liefern bei unterschiedlichen Zeitkontrollen unterschiedliche Ergebnisse, das ist definitiv der Fall und wird durch meine Tests bestätigt.
Das ist ja auch ein Grund weshalb Ranglisten zu unterschiedlichen Bedenkzeiten erstellt werden. Eine Rangliste zu Bedenkzeit A, eine andere zu Bedenkzeit B, usw.

Hier im Forum herrscht leider oft die Meinung vor, dass die Bedenkzeit (fast) beliebig kürzbar ist, ohne dass ein Ranglistenunterschied auftritt. Gerne wird anhand von Blitzranglisten auf die Gesamtspielstärke einer Engine geschlossen.

By Andreas Aicher Date 2013-05-26 22:06

Hallo Andreas,
ich kann Deinen Ausführungen voll zustimmen.
Allerdings gebe ich zu bedenken, dass 1 Kern Rechner inzwischen doch recht selten geworden sind, Std ist wohl eher inzwischen mind. ein Quad.
Deshalb finde ich Ranglisten (zB CETG) die auch MP Listen erstellt, wesentlich praxisrelevanter (auch unter der Gefahr der Reproduzierbarkeit).
Mit Praxisrelevanz meine ich, dass ich ja auch nicht mit nur einem Kern analysiere

Aus ähnlichen Gründen halte ich die CETG 40/20 Liste für einen guten Kompromiss.
schöne Grüsse
Andreas

By Andreas Strangmüller Date 2013-05-26 22:37

Hallo Andreas,

Praxisrelevanter sind MP-Listen, da gebe ich Dir völlig recht, da ein Quad-Core Rechner ja mittlerweile (fast) zum Standard gehört.
Die 40/20 Rangliste der CETG ist da durchaus ein guter Anhaltspunkt.

Interessant wäre eine ganz saubere Rangliste aktueller Engines bei höheren Zeitkontrollen mit 3000 Partien je Engine

Aber das ist eben eine Zeit und Ressorcenfrage.

Viele Grüße,
Andreas

By Ernest Bonnem Date 2013-05-26 23:13

[quote="Andreas Strangmüller"]- nur 1 Kern wegen der Reproduzierbarkeit[/quote]
Warum denn?
Sogar mit 1 Kern ist eine Partie nicht reproduzierbar...

By Andreas Strangmüller Date 2013-05-27 06:16

Ist das so?
Ich dachte bei einem Kern, gleicher Hashtabellengröße, gleicher Bedenkzeit und ohne Stellungslernen ist ein Ergebnis bzw. eine Partie reproduzierbar oder gilt das nur bei Analyse einer Stellung?

By Ingo Bauer Date 2013-05-27 07:28

[quote="Andreas Strangmüller"]
Ist das so?
Ich dachte bei einem Kern, gleicher Hashtabellengröße, gleicher Bedenkzeit und ohne Stellungslernen ist ein Ergebnis bzw. eine Partie reproduzierbar oder gilt das nur bei Analyse einer Stellung?
[/quote]

Mach doch mal 1000 Spiele, immer Grundstellung, immer 1 Kern und gleicher Hash und schau mal wie viele Spiele wirklich gleich sind

Gruß
Ingo

By Andreas Strangmüller Date 2013-05-27 07:39

Das mach ich tatsächlich, weil es mich jetzt interessiert

An was liegt es dann, dass eine Partie unter den geschilderten Bedingungen nicht reproduzierbar ist?
Am Zeitmanagement?

Gruß
Andreas

By Ingo Bauer Date 2013-05-27 07:43

[quote="Andreas Strangmüller"]
Das mach ich tatsächlich, weil es mich jetzt interessiert

An was liegt es dann, dass eine Partie unter den geschilderten Bedingungen nicht reproduzierbar ist?
Am Zeitmanagement?

Gruß
Andreas
[/quote]

Letztendlich ja. Millisekunden Unterschiede, kleine Interrups die gerade mal zugreifen und schon laufen deine Partien auseinander.

Gruß
Ingo

By Andreas Strangmüller Date 2013-05-27 11:22

Hallo Ingo,

nun bin ich restlos überzeugt.

Bei 1000 Partien zwischen Stockfish 3 und Houdini 3 bei 15.00+0.05 Sek., ein Kern, 128 MB Hash, ohne Buch gabe es nur

14 Dubletten bei Tiefe bis 8 Züge
8 Dubletten bei Tiefe bis 10 Züge
4 Dubletten bei Tiefe bis 15 Züge

Gruß
Andreas

By Ernest Bonnem Date 2013-05-27 20:15

[quote="Andreas Strangmüller"]nun bin ich restlos überzeugt.[/quote]
Wenn Du wirklich reproduzierbare Spiele willst, kannst Du Spiele mit Fixed Depth machen...
Sowas sollte klappen (aber habe ich nicht experimentiert...).
Aber natürlich ist das sinnlos!...

By Ingo Bauer Date 2013-05-27 06:30

Hallo Andreas, Hallo Ralf,

[quote="Andreas Strangmüller"]
Engines liefern bei unterschiedlichen Zeitkontrollen unterschiedliche Ergebnisse, das ist definitiv der Fall und wird durch meine Tests bestätigt.
[/quote]

Jein, Ich habe auch inzwischen auch den Eindruck das einzelne Engines evtl anders reagieren aber
1. Ist in deinem Test die steigende Remisquote nicht berücksichtigt was völlig normal zu einer Annäherung führt (Wie ist denn das Verhältniss Gewinn/Verlust je Engine und Zeitkontrolle)
2. Sollten die Unterschiede eine abflachende Kurve geben. Ultrakurze 7.5s unterscheident sich mehr von 120m als 5m von 120 ... Ultrakurze Bedenkzeiten sind deswegen durchaus mit Vorsicht zu geniessen! Interessant ist in diesem Zusammenhang das (bei ordentlicher Anpassung) zw. meiner 5+3 und der CEGT 40/20* (über den Daumen dopplet Rechenzeit je Engine) praktisch kein Unterschied mehr besteht ...

[quote="Andreas Strangmüller"]
Das ist ja auch ein Grund weshalb Ranglisten zu unterschiedlichen Bedenkzeiten erstellt werden.
[/quote]

Nein, der Grund warum Ranglisten zu unterschiedlichen Bedenkzeiten erstellt werden ist schlicht der Zeitaufwand. Wenn Zeit keine Rolle spieln würde, würden alle mit sehr langen Zeiten testen.

[quote="Andreas Strangmüller"]
Das Vertrauensintervall sollte zudem nicht zu niedrig gewählt werden, 5000 Partien oder besser noch mehr sollten es unter exakt den gleichen Bedingungen schon sein.
[/quote]

Mehr ist immer besser, wird aber bei rund Plus/Minus 10Elo irrelevent. Kein MENSCH, und das sind die einzigen die sich das ansehen, kann alles darunter noch unterschieden, insofern ist das für eine Rangliste egal weil jeder Realitätsbezug fehlt. (Ein anderer Schnack ist Enigneentwicklung, da will man evtl mit 1,2,3 Eloschritten vorwärtskommen um am Schluß aber hoffentlich etwas "fühlbar", also für den Menschen, besseres zu bekommen)

[quote="Andreas Strangmüller"]

1. identische Zeitkontrollen, bei anderer Hardware angepasste Bedenkzeiten
2 gleiches Buch
3 nur 1 Kern wegen der Reproduzierbarkeit
4 sehr viele Partien, mind. 5000, je mehr desto besser
5 alle Engines absolvieren die gleiche Anzahl an Partien

[/quote]

Also da habe ich doch ein paar Kommentare
1. Andere Hardware ist kritisch. Man kann nicht nur einfach die Zeitkontrolle anpassen. Engine A reagiert besser auf eine HW als Engine B. Wenn das passiert ist die Zeitkontrollenanpassung egal, dann laufen Engines auseinander. Am besten ist gleiche Hardware - wobei man fragen kann ob die Unterschiede nicht in der 10 ELo Grenze liegen. Aus meiner Erfahrung glaube ich aber das da mehr als 10 Elo drin sind (beim Pondern bin ich da nicht mehr so sicher, bzw ich glaube das die Unterschiede ziemlich dicht um diese 10 Elo herum liegen)
2. Buch? Wenn du wirklich das gleiche spielen willst darf man kein Buch benutzen!
3. Nein, "Ein-Kern" Spiele sind auch nicht reproduzierbar. Der Grund für einen Kern ist schlicht der Aufwand, eine valide Liste ließe sich auch mit 2 oder 4 Kernen erstellen.
4. Siehe oben, aber ca +/- 10 Elo (also 20 Elo Range) sind wir sowieso nicht in der Lage das zu "erfahren"
5. Hmmm, idealerweise ja, aber die Eloformel ist durchaus dafür gemacht auch solche Unerschiede zu erfassen. Sicherlich schaue ich mehr auf meine IPON-RRRL aber die Gesammtliste ist immer einen Blick wert (und unterscheidet sich interessanterweise bei keiner Engine subsanziel, obwohl manche 4 mal soviel Spiele unter gleichen Bedinungen haben wie in der RRRL - was nochmal Zweifel läßt an X-tausend spielen...)

"Enginelernen" hast du vergessen u erwähnen.

Gruß
Ingo

* Das ist meine Hauptreferenz um im Nachhinein zu prüfen in wie weit das was ich Messe noch relevant ist. Sollte übrigens jede Liste machen. Vergleichen ob man als einziger etwas "seltsames" misst. Wenn ja solte man sich sehr kritisch hinterfragen.

By Ralf Mueller Date 2013-05-27 20:50

Hallo Ingo,

du hast leider nur auf Andreas geantwortet.

Mich würde aber sehr deine Meinung zu meinen Beobachtungen interessieren, die sich nicht durch den Remisanstieg erklären lässt.

By Michael Scheidl Date 2013-05-26 22:21

Zitat:

Das bedeutet, dass auf jeden Fall Rybka stärker ist als Komodo.

Soweit ich weiß handelt es sich zumeist um 95%-Errorbars, d.h. es besteht eine Restwahrscheinlichkeit von 5% daß der "wahre" Wert sogar außerhalb der Errorbars liegt. Das beträfe somit bis zu 1/20 der Fälle und so einer könnte es hier sein, nur weiß man nicht welcher von beiden

Bei CCRL liegt R3/4CPU bei beiden Zeitkontrollen knapp voran, wobei sich die Errormargins überlappen.

P.S. Der zweite Link oben ist identisch mit dem ersten; ich nehme an gemeint war
http://www.husvankempen.de/nunn/40_4_Ratinglist/40_4_AllVersion/rangliste.html

By Ralf Mueller Date 2013-05-26 22:33

Zitat:

Soweit ich weiß handelt es sich zumeist um 95%-Errorbars, d.h. es besteht eine Restwahrscheinlichkeit von 5% daß der "wahre" Wert sogar außerhalb der Errorbars liegt. Das beträfe somit bis zu 1/20 der Fälle und so einer könnte es hier sein, nur weiß man nicht welcher von beiden

Hallo Michael,

ja, die 95% nennt man Konfidenzintervall, die wie ich schon sagte, zu klein sein könnten.
Es ist die große Frage, woran die Differenzen liegen - aber auf jeden Fall zeigt es eindeutig, dass kein Test absolut und fehlerfrei ist, sondern es sich immer nur um Annäherungen handeln kann (ja, es ist möglich, dass Houdini 3 nicht die stärkste Engine ist).

Code:

Bei CCRL liegt R3/4CPU bei beiden Zeitkontrollen knapp voran, wobei sich die Errormargins überlappen.

Für die längere Bedenkzeit ist noch gar kein Eintrag für Komodo 5 vorhanden.

By Michael Scheidl Date 2013-05-28 00:42

Bei mir erscheint ein Eintrag mit 3123, siehe http://tinyurl.com/na488te

In der Hauptliste wurde die Version bereits von K.CCT abgelöst. - Nebenbei aufgefallen: Komodo 3 64-bit hat um 55 Elo stärker performt als Komodo 5 32-bit. Letztere ist bei gleichen Bits dort 13...25 Elo stärker. D.h. wir haben hier einen Effekt von 32 auf 64 Bit von +68...80 Elo

By Marcus Nider Date 2013-05-27 07:26

Ich bin der selben Meinung.
Als Junior Fan vergleiche ich auch die Stellung "meines" Programms in den diversen Listen.
Dabei fällt auf daß Junior bei längeren Bedenkzeiten fast überall besser abschneidet.

Beispiele:
(Quelle: http://www.husvankempen.de/nunn/40_20_PBON/40_20_PBON_AllVersion/rangliste.html)

Code:


Deep Shredder 12 x64 = 2800 Wertungspunkte
Deep Junior 13 x64   = 2791 Wertungspunkte, also 9 dahinter

Bei kürzerer Bedenkzeitvorgabe
(Quelle: http://www.husvankempen.de/nunn/40_4_Ratinglist/40_4_single/rangliste.html)

Code:


Deep Shredder 12 x64 = 2800 Wertungspunkte
Deep Junior 13 x64   = 2750 Wertungspunkte, also 50 dahinter

Bei der CCRL sieht es fast genauso aus:
bei 40/40 liegt Junior gerade mal 12 Punkte zurück, bei 40/4 jedoch deren 64!

Den Vergleich mit Deep Shredder 12 habe ich deshalb gewählt, weil diese Engine als eine
Art Referenz angesehen werden darf und in wohl jeder ernsthaften Liste aufscheint.

cu, Marcus