Not logged inCSS-Forum
Forum CSS-Online Help Search Login
CSS-Shop Impressum Datenschutz
Up Topic Hauptforen / CSS-Forum / LittleBlitzer-GUI / Test
- - By Gerhard Sonnabend Date 2014-01-14 15:47
Hi !

Ich habe mir das Teil (Version 2.74) mal runtergeladen und die entsprechenden Files konfiguriert.
Das alles hat keine 5 Minuten in Anspruch genommen, dazu braucht es keine Anleitung.
Ich wollte mal versuchen festzustellen, ob sich Resultate in etwa reproduzieren lassen unter
diesem GUI bei sehr sehr sehr sehr sehr kurzen Bedenkzeiten.

Level: 4000ms + 1000ms
Cores: 1 each
HTs: 64MB each
Vorgaben: 15 Stellungen (4 volle Züge lang) = 30 Games/Match

Code:

1. Durchgang
Houdini 4 x64 vs Stockfish DD x64
15.0-15.0 (+12 =06 -12)

---> danach PC Neustart

2. Durchgang
Houdini 4 x64 vs Stockfish DD x64
16.5-13.5 (+08 =17 -05) ---> 17 Remisen !

---> danach PC Neustart

3. Durchgang
Houdini 4 x64 vs Stockfish DD x64
17.0-13.0 (+13 =08 -09)


---> wieder System Neustart

Nun das selbe unter dem Shredder-Classic-GUI, Level 4"+1", also ebenfalls 4000ms + 1000ms.
(4"+1" ist hier 0'+1", nach der 4-zügigen Stellungsvorgabe haben die Engine allerdings
jeweils 4 Sekunden auf der Uhr). Ich weis nicht ob das beim LittleBlitzer-GUI auch so ist,
ich konnte keine Restzeitanzeige finden. Falls ja, dann hatten die Engines unter diesem GUI
jeweils 8 Sekunden pro Partie plus 1 Sekunde Aufschlag pro Zug.

Code:

1. Durchgang
Houdini 4 x64 vs Stockfish DD x64
16.5-13.5 (+12 =09 -09)

---> danach PC Neustart

2. Durchgang
Houdini 4 x64 vs Stockfish DD x64
15.5-14.5 (+10 =11 -09)

---> danach PC Neustart

3. Durchgang
Houdini 4 x64 vs Stockfish DD x64
16.0-14.0 (+11 =10 -09)


Alles in allem macht mir das Shredder-GUI einen vertrauenswürdigeren Eindruck, die Ergebnisse
sind deutlich homogener. Die maximale Abweichung beträgt gerade mal einen Punkt !
Aber möglicherweise ändert sich dieser Eindruck bei deutlich längeren Serien ?
Wenn ich Zeit finde wiederhole ich das Ganze mit einer Partienanzahl von 100 oder 200.
Parent - - By Gerhard Sonnabend Date 2014-01-14 16:59
Zusatz:
alle Serien im oben stehenden Posting liefen unter dem LittleBlitzer-GUI mit nur einer Instanz.
Hier mal das Ganze mit 2 Instanzen (Num Parallel Tournaments: 2):

Code:

1. Durchgang
Houdini 4 x64 vs Stockfish DD x64
16.0-14.0 (+11 =10 -09)

---> danach PC Neustart

2. Durchgang
Houdini 4 x64 vs Stockfish DD x64
14.0-16.0 (+07 =14 -09) ---> zum ersten mal verliert Houdini den Kurzwettkampf

---> danach PC Neustart

3. Durchgang
Houdini 4 x64 vs Stockfish DD x64
15.5-14.5 (+08 =15 -07)
Parent - - By Frank Brenner Date 2014-01-14 19:26 Edited 2014-01-14 20:29
(...) [erster Satz von Mod. gelöscht]. Sowas kann ich auch, dazu brauche ich kein shredder und kein lb

15-15
13-17
17-13
16-14
bla bla

Was sollen uns die 30 Spiele zeigen ?
Parent - - By Gerhard Sonnabend Date 2014-01-14 20:50
Sie haben das erste und auch das zweite Posting zum Thema von mir gelesen und auch erfasst ?
Falls ja, so ist mir ihre Frage: "Was sollen uns die 30 Spiele zeigen ?" im Kontext nicht verständlich ...
Parent - - By Frank Brenner Date 2014-01-14 21:19
Du leitest aus ein paar 30 Partien Begegnungen ein Ergebnis ab und glaubst damit den LittleBlitzer abwerten zu können?

Da muss du aber schon ein taugliches Geschütz auffahren.

** Klingt ja wie JoBo
Parent - - By Gerhard Sonnabend Date 2014-01-14 22:50
Frank Brenner schrieb:

Du leitest aus ein paar 30 Partien Begegnungen ein Ergebnis ab und glaubst damit den LittleBlitzer abwerten zu können?


Sie haben meine 2 Beiträge nicht richtig gelesen und wohl doch nicht (vollständig) erfasst - nicht tragisch, kommt vor.

Frank Brenner schrieb:

Da muss du aber schon ein taugliches Geschütz auffahren.


Muss ich nicht, weshalb auch ? Einfach noch einmal aufmerksam durchlesen und versuchen zu erfassen, s.o. !

Frank Brenner schrieb:

** Klingt ja wie JoBo


Wer oder was ist das ?

Egal, Danke für das Gespräch.

:EOD:
Parent - By Guest Date 2014-01-15 09:40
Ich finde die Testergebnisse schon bemerkenswert unter der Berücksichtigung, dass wegen der Reproduzierbarkeit nur mit einem Kern getestet wird. Ergo sollten solche Dinge wie mit der LB GUI nich passieren. Das sieht nach einem üblen Bug aus.
Parent - - By Stefan Pohl Date 2014-01-15 07:15
Frank Brenner schrieb:

(...) [erster Satz von Mod. gelöscht]. Sowas kann ich auch, dazu brauche ich kein shredder und kein lb

15-15
13-17
17-13
16-14
bla bla

Was sollen uns die 30 Spiele zeigen ?


Sicher, so ein "Test" ist einfach nur Quatsch.
Ich habe seinerzeit alle 3 Versionen von Komodo 5.1 (5.1, 5.1r1 und 5.1r2) für die LS-Rangliste getestet, welche ja schachlich praktisch identisch waren. Die Ergebnisse kann man auf meiner Website ja nachlesen, aber ich poste sie hier gerne nochmal:
Komodo 5.1: 3079 LS-Elo (10000 Partien)
Komodo 5.1r1: 3081 LS-Elo (10000 Partien)
Komodo 5.1r2: 3079 LS-Elo (10000 Partien)

Also landeten alle 3 Tests in einem 2-Elo Intervall. So wie es bei so vielen Partien, einem echten Test, zu erwarten ist. Die LittleBlitzerGuI ist sicher nicht perfekt (En-passant Bug in PGN-Vorgabezügen, sequentielles Abspielen von Vorgabestellungen nur im Gauntlet-Modus), aber die eigentliche Funktionsfähigkeit des Gameplays auch bei kurzen Bedenkzeiten ist einwandfrei.

Stefan
Parent - - By Thomas Müller Date 2014-01-15 09:00
Hallo,

ich finde das kein quatsch
Es hat ja auch nix mit komodo oder einer anderen engine zu tun!

G.S. hat nur darauf hingewisen, dass bei seinen 30 vorgabestellungen unter der littleblitzer-GUI größere abweichungen gab als z.b. unter shredder.
Einmal waren 17 remisen, wie das bei mehreren 100/1000 partien aussieht...keine ahnung.
Vielleicht testet er es ja gerade noch?!
Aber verwunderlich finde ich die abweichungen von 30 gleichen vorgabestellung und den dann etwas unterschiedlichen ergebnissen schon?!
Ist aber wurscht wenn es quatsch ist, am ende kommt vermutlich trotz allem immer das gleiche raus 

gruß
thomas
Parent - By Chess Player Date 2014-01-15 11:34
Thomas Müller schrieb:

...
Ist aber wurscht wenn es quatsch ist, am ende kommt vermutlich trotz allem immer das gleiche raus 

gruß
thomas

dauert nur länger bis sich diese zufallsfehler selber eleminieren... 
Parent - - By Gerhard Sonnabend Date 2014-01-15 10:41
Hi !

Nachfolgend die Resultate aus einer etwas längeren Serie unter dem LittleBlitzer-GUI.

Code:

Level:      1500ms + 200ms (damit es schnell geht)
Instanzen:  2 auf Intel i5-2400 @ 3.1 GHz
Cores:      1 each
HTs:        64MB each
Vorgaben:   50 Stellungen = 100 Games/Match

1. Durchgang

Games Completed = 100 of 100 (Avg game length = 31.215 sec)
Settings = Gauntlet/64MB/1500ms+200ms/M 9000cp for 50 moves, D 500 moves/PGN:F:\Chess\GUITest2014\LB274\Vorgaben\50VorgabenUltraBullet.pgn(100)
Time = 1587 sec elapsed, 0 sec remaining
Houdini 4.0 x64 1CPU   56.0/100   43-31-26  (L: m=31 t=0 i=0 a=0)  (D: r=10 i=8 f=8 s=0 a=0)  (tpm=177.2 d=17.38 nps=2868265)
Stockfish DD x64 1CPU  44.0/100   31-43-26  (L: m=43 t=0 i=0 a=0)  (D: r=10 i=8 f=8 s=0 a=0)  (tpm=200.1 d=23.37 nps=2416166)

---> danach System Neustart

2. Durchgang (erste Wiederholung)

Games Completed = 100 of 100 (Avg game length = 32.445 sec)
Settings = Gauntlet/64MB/1500ms+200ms/M 9000cp for 50 moves, D 500 moves/PGN:F:\Chess\GUITest2014\LB274\Vorgaben\50VorgabenUltraBullet.pgn(100)
Time = 1648 sec elapsed, 0 sec remaining
Houdini 4.0 x64 1CPU   63.0/100  48-22-30  (L: m=22 t=0 i=0 a=0)  (D: r=11 i=11 f=7 s=1 a=0)  (tpm=181.6 d=14.93 nps=2878440)
Stockfish DD x64 1CPU  37.0/100  22-48-30  (L: m=48 t=0 i=0 a=0)  (D: r=11 i=11 f=7 s=1 a=0)  (tpm=204.4 d=21.42 nps=2468912)

---> danach System Neustart

3. Durchgang (zweite Wiederholung)

Games Completed = 100 of 100 (Avg game length = 31.860 sec)
Settings = Gauntlet/64MB/1500ms+200ms/M 9000cp for 50 moves, D 500 moves/PGN:F:\Chess\GUITest2014\LB274\Vorgaben\50VorgabenUltraBullet.pgn(100)
Time = 1618 sec elapsed, 0 sec remaining
Houdini 4.0 x64 1CPU   49.0/100  29-31-40  (L: m=31 t=0 i=0 a=0)  (D: r=17 i=12 f=11 s=0 a=0)  (tpm=184.1 d=17.75 nps=2826490)
Stockfish DD x64 1CPU  51.0/100  31-29-40  (L: m=29 t=0 i=0 a=0)  (D: r=17 i=12 f=11 s=0 a=0)  (tpm=200.1 d=23.88 nps=2475260)


Das Bild ist im Vergleich zum gestrigen 30-Partien-Test noch deutlich schlimmer geworden. Für mich gibt es nun
auch keinen Grund mehr anzunehmen, dass sich die Situation mit noch mehr Partien bessern soll, weshalb auch ?

Denkbar aus meiner Sicht ist jedoch, dass alles nur mit diesen eigenartigen Bedenkzeiten (Zugzeitaufschläge
im mS-Bereich) zu tun hat und das GUI absolut schuldlos ist an den wirren Resultaten ?!

Mir persönlich ist die Streuung deutlich zu hoch. Aus einem 63.0 - 37.0 wird ein 49.0 - 51.0 unter absolut
identischen Bedingungen !! Dazu kommt, dass die erzeugte PGN-Datei nicht viel resp. gar nichts taugt. Für CEGT-
und/oder QBRL-Tests kommt das GUI in dieser Form somit auf gar keinem Fall in Frage. Die Idee ein schlankes GUI
für Testzwecke zu bauen ist nicht schlecht, allerdings gab es das bereits einmal in früheren Zeiten - Stichwort ERT
(Lokasoft / Chesspartner). Dieses Test-GUI war ebenfalls kaum zu gebrauchen. Das Shredder-Classic-GUI übertrifft
alles um Welten und wenn man dieses besonders schlank haben möchte, dann schaltet man einfach die Brettdarstellung
und andere Dinge aus.
Parent - - By Dirk Triebel Date 2014-01-15 11:38
Servus,

ist schon ein wenig eigenartig da geb ich Dir recht.

Jedoch hatte ich bei der Fritz Gui auch 2x mal je 50 Partien unter gleichen Bedingunen durchgespielt (Houd4 - Stockfish 271213) 1min+1s+ponder. Die erste war 50/50% und die 2. hat Stocki relativ klar für sich entschieden. Man konnte auch gut sehen 10 Partien hin u her ging. Jedoch beobachte ich das nur bei Stockfish - eigenartig.

Aber du hast schon recht, Konstanz auch nach kurzen Partien wären wünschenswert. Bei mehreren Partien gleicht sich denke ich aber wieder aus.

Gruß,
Dirk
Parent - - By Gerhard Sonnabend Date 2014-01-15 11:59
Dirk Triebel schrieb:

[...snip...]
Bei mehreren Partien gleicht sich denke ich aber wieder aus.


Da habe ich erhebliche Zweifel !

Aber wie gesagt, momentan weis ich selbst nicht ob es an den eigenartigen
Bedenkzeitvorgaben und/oder am GUI selbst liegt. Ich werde wohl noch einen
Test mit dem LittleBlitzer-GUI starten, diesmal jedoch mit einer halbwegs
vernünftigen Zeitvorgabe, z.B. 100000ms + 1000ms.

Viele Grüsse,
G.S.
Parent - - By Tom Paul Date 2014-01-15 13:08
Wie wäre es, wenn man den Stockfish aus der LS Rating List
4 Stockfish 140106 x64s   3146    5    5 10000   61%  3067   45% (best mp-free+open)
nochmal 5000 Partien spielen lässt aber mit doppelter Bedenkzeit.
Dann könnte man schauen, ob das Ergebnis identisch ist.
Parent - - By Gerhard Sonnabend Date 2014-01-15 13:47
Tom Paul schrieb:

Wie wäre es, wenn man den Stockfish aus der LS Rating List
4 Stockfish 140106 x64s   3146    5    5 10000   61%  3067   45% (best mp-free+open)
nochmal 5000 Partien spielen lässt aber mit doppelter Bedenkzeit.
Dann könnte man schauen, ob das Ergebnis identisch ist.


Das verstehe ich jetzt nicht.
5000 anstatt vormals 10000 Games und dann auch noch mit anderer Bedenkzeit ?
Das schreit ja förmlich nach einem (total) anderen Resultat !
Sinnvoll aus meiner Sicht wäre es den kompletten 10000er-Test unter absolut
identischen Bedingungen zu wiederholen und dann zu vergleichen.
Parent - By Stefan Pohl Date 2014-01-16 06:50
Gerhard Sonnabend schrieb:

Tom Paul schrieb:

Wie wäre es, wenn man den Stockfish aus der LS Rating List
4 Stockfish 140106 x64s   3146    5    5 10000   61%  3067   45% (best mp-free+open)
nochmal 5000 Partien spielen lässt aber mit doppelter Bedenkzeit.
Dann könnte man schauen, ob das Ergebnis identisch ist.


Das verstehe ich jetzt nicht.
5000 anstatt vormals 10000 Games und dann auch noch mit anderer Bedenkzeit ?
Das schreit ja förmlich nach einem (total) anderen Resultat !
Sinnvoll aus meiner Sicht wäre es den kompletten 10000er-Test unter absolut
identischen Bedingungen zu wiederholen und dann zu vergleichen.


Das habe ich doch mit Komodo 5.1 sogar zweimal gemacht (unfreiwillig, wegen der zwei Bugfixes (laut der Autoren wären die Tests der bugfix-Versionen gar nicht nötig gewesen, da sich schachlich wohl nichts geändert hatte)). Wie oft muß ich das denn nun noch posten?
Komodo 5.1: 3079 LS-Elo (10000 Partien)
Komodo 5.1r1: 3081 LS-Elo (10000 Partien)
Komodo 5.1r2: 3079 LS-Elo (10000 Partien)

Stefan
Parent - - By Frank Quisinsky Date 2014-01-15 15:03
Hi Gerhard,

habe mich schon länger nicht mehr mit den GUIs beschäftigt. Seinerzeit habe ich eher Shredder, Arena, Fritz verglichen. Fritz halte ich zum Testen für OK aber hier liegt einfach zu viel im RAM und auch die Verzögerungszeiten bei der Zugausführung sind zu hoch. Sehe auch die Prozesse bei Fritz nicht alle im Detail. Bei extrem niedrigen Bedenkzeiten finde ich schon die Fritz GUI nicht die beste Wahl. Arena ist gut aber bei mehrfach laden auf Quad gibt es Probleme. Zum testen OK wie ich finde aber auch hier die Verzögerungszeiten bei der Zugausführung erscheinen mit immer noch zu hoch. Martin arbeitete stetig an der Optimierung und dem RAM Verbrauch und in der Update Info stand glaube ich wieder was zu dem Thema bei der letzten Version. Ein paar Jahre her als ich mir das zuletzt angesehen habe, aber bei der Fritz GUI hatte ich erheblich mehr Zeitüberschreitungen bei 40 in 2 Testpartien als bei der Shredder GUI. Das waren glaube ich 8x so viele bei gleicher Verwendung der UCIs. Und wenn schon 8x so viele kann ich getrost davon ausgehen das bei den nicht auf Zeit überzogenen Partien auch nicht alles immer korrekt lief. Das Problem welches vor 10 Jahren oft beschrieben wurde ist bei der Fritz 12 Version immer noch drin gewesen. Während Eng-Eng Match dauert es manchmal Sekunden bei nicht ponder Treffer bis die Engine überhaupt anfängt zu rechnen. Was passiert dann in solchen Situationen wenn mit 1+1 gespielt wird. Dann kommt noch hinzu das UCI nicht UCI bei der Fritz GUI ist. Glaube das war auch mal im Gespräch das bei der Protokollumsetzung einiges anders gemacht wurde um auf die GUI anzupassen.

Mag die Fritz GUI einfach nicht. Hat vielleicht auch damit zu tun das in Zeiten als die Protokolle ihren Weg gegangen sind diese GUI immer die meiste Verwirrung gemacht hat. Das war ja auch der Grund warum Arena dann durch die Umsetzung von WB1/2, UCI so erfolgreich war. Alle Standards wurden vereint und endlich war die Test GUI geboren.

Shredder GUI ist zum Testen für mich die wirkliche Nummer 1. Gibt aus was ich brauche und erfüllt den Zweck des Einsatzes mit Bravour. Verbraucht wenig RAM und ist rasant schnell bei der Zugübertragung. Vom Funktionsumfang finde ich Arena TOP. Letztendlich sind aber grob alle GUIs geeignet um Eng-Eng spielen zu lassen. Little Blitzer bestimmt auch aber schon alleine diese extremen Zeitbedingungen, davon halte ich persönlich nicht so viel. Im Grunde wird's messen ungenauer je extremer es wird und da helfen auch keine x Tausend Partien, denn die Ungenauigkeit wird damit ja nicht geringer.

Gruß
Frank
Parent - - By Frank Quisinsky Date 2014-01-15 15:19
Fritz GUI

- sehe nicht was sich den vielen Updates geändert hat, keine Informationen seit Jahren.
- vermisse den Support bei Problemen aber ich glaube die sind auf mich einfach nicht gut zu sprechen und bei dem was ich so erlebt habe ist es oft auch umgekehrt so. Dennoch schaute ich mir die Software hier und da mal an und schrieb durchaus z. B. für die Schachwelt positive Berichte auch bei meiner grundsätzlichen Negativ-Haltung, die aber hier nicht hingehört.
- und alleine schon das Problem mit Settings speichern. Speichere etwas was ich gerne hätte ab und beim nächsten GUI Start kann ich dann wieder alles so einstellen wie ich es haben möchte. Dieses Problem ist schon so lange drin.

Positiv ist aber das viele schöne Dinge drin sind, die übersichtlich angeordnet sind und auch viele gute Ideen ganz hervorragend umgesetzt werden. Die Übersichtlichkeit ist um Klassen besser als bei ChessAssistant und die GUI ist auch einfacher zu verstehen als Arena. Aber geht es in die Details bei der Engine Forschung ist Arena wiederrum Ligen voraus. Denke das die GUIs auch nicht unbedingt miteinander verglichen werden können aber bei Eng-Eng ist Fritz für mich die letzte Wahl. Da würde ich wenn es kein Shredder oder Arena geben würde eher wieder Winboard nehmen.

Gruß
Frank
Parent - - By Dirk Triebel Date 2014-01-15 16:47
Hallo Frank,

danke für Deine detailierte Analyse.

Ich kann mich über die Fritz 14 Gui bislang nicht beschweren bis auf eine Sache (see below). Die 13er Version hat einige Abstürze verursacht. Aber du hast auch recht, das extrem viel im RAM liegt hab ich hier auch schon festgestellt. Aber kann keine Verzögerungszeiten in den Zügen erkennen. Woran machst Du das fest?
Auch die angesprochenen Zeitüberschreitungen konnte ich nicht feststellen. Mit Verzögerungen beim Rechnen der engines bei Fritz 12 kann ich auch bestätigen bei manchen engines. Ein erheblichen bug hatte ich noch bei der Fritz 12 GUI, das die cores (z.b. wenn 2 eingestellt waren pro engine) bei manchen engines (allerdings nur kommerzielle (extrem bei Shredder 12 oder manchmal Rybka) nicht richtig geladen wurden. Es war dann so schlimm, dass ich Shredder 12 dann leider rausschmeißen musste.
Konnte das dann aber ab der 13er version nicht mehr feststellen. Und die 14er läuft bislang einwandfrei bis auf eine Sache. Wenn ich mehere Fritz 14 Gui Partien laufen lasse in parallel,  läuft Houdine 4 mit weniger Knoten als wenn ich nur eine Partie laufen lasse. Bei 3 offenen Guis der F14 wird es dann noch weniger. D.h. aber nur wenn ich z.b. 3 H4 Testruns gleichzeitig mache in parallel, sodass H4 3 mal gleichzeitig auf die engine zugreift. Der Prozessor ist dabei 1/3 nicht belastet und RAM ist auch bei 50%, daran kann es also nicht liegen. Offenbar gibt es Probleme/ Verzögerungen beim Parallelzugriff auf die engine. Vielleicht hängt es aber auch mit H4 zusammen. Bei Stocki oder anderen engines konnte ich dieses Phänomen noch nicht feststellen. Werde das mal mit Shredder testen, ob es da auch so ist.

Gruß,
Dirk
Parent - By Frank Quisinsky Date 2014-01-16 00:27 Edited 2014-01-16 00:29
Hallo Dirk,

also ich antworte ja immer super gerne aber ich habe es aufgegeben mich mit der Fritz GUI zu beschäftigen. Zu diesem ganzen Thema GUIs habe ich mir schon jahrelang die Finger wund geschrieben, nicht zuletzt in meiner aktiven Arena Zeit.

Ob die neuen Fritz GUIs besser sind als die alten oder jetzt vernünftiger laufen als die vielen alten Versionen die ich hier und da natürlich auch ausprobiert habe weiß ich nicht. Könnte Dir zwar schreiben wie ich vorgegangen bin um die Übertragungszeiten zu messen aber ich habe dazu einfach keine Lust mehr. Fritz ist ganz sicher auch ne gute GUI.

Also nicht dieses Thema oder ich verliere sehr schnell wieder die Lust. Hat nichts mit Dir zu tun aber wenn Du wüsstest was ich mir an Arbeit gemacht haben in GUI Fragen.

Hätte das hier besser auch gar nicht geschrieben zu den GUIs.
Habe mich schon deswegen selbst geärgert.

Gruß
Frank
Parent - By Gerhard Sonnabend Date 2014-01-15 15:27 Upvotes 1
Hi Frank !

Das Shredder-Classic-GUI ist auch meine allererste Wahl.
Schade nur, dass der ECO-Code nicht in das PGN-File eingetragen wird.
Das GUI zeigt zwar den Code an während der Partie, ins PGN-File findet
dieser leider nicht den Weg.
So muss ich immer den Umweg über mein altes CB 7 gehen bevor ich die
diversen Updates für die CEGT online stellen kann.
Aber, die Vorteile wiegen diesen kleinen Nachteil bei weitem auf !

Viele Grüsse,
G.S.
Parent - - By Stefan Pohl Date 2014-01-16 06:38
Dirk Triebel schrieb:

Servus,

ist schon ein wenig eigenartig da geb ich Dir recht.



Diese Ergebnisse sind m.E. eine Mischung aus Zufall (zu wenig Partien) und zu kurzer Bedenkzeit. Ich habe mit der LBG schon einiges an Experimenten gemacht und ein Fischerbonus von 200ms (wie hier benutzt) ist schon grenzwertig. Houdini 2 fing seinerzeit schon bei Fischerboni von 150ms an, Partien auf Zeit zu verlieren. Bei so kurzen Bedenkzeiten könnten also schon Systemoperationen des PCs und/oder Windoofs eine verzerrende Rolle spielen. Ab einem Aufschlag von 300-350ms sollte das alles nicht mehr problematisch sein. Und ich benutze (auch aufgrund dieser Erkenntnisse) ja bekanntermaßen 500ms Fischerbonus. Hatte sogar deswegen seinerzeit die LS-Rangliste mit der doppelten Bedenkzeit komplett neu aufgebaut (ganz früher war die Bdenkzeit ja 20''+250ms).
Und das von mir hier angeführte Resultat der drei Komodo 5.1-Versionen zeigt ja ganz klar, daß diese Bedenkzeiteinstellung von 45''+500ms sehr gut reproduzierbare Ergebnisse liefert, sofern genug Partien absolviert werden. Auch hatte ich bei meinen Testruns für die LS-Rangliste noch nie Ergebnisse oder Zwischenergebnisse, die im Vergleich zu den anderen Listenresultaten außerhalb der Errorbar gelegen hätten.

Stefan
Parent - - By Dirk Triebel Date 2014-01-16 10:47
Hallo Stefan,

geb ich Dir recht, aber Du hattest auch schon mal berichtet, das es teilweise ziemliche Schwankungen während Deiner test runs gab sogar noch bei der 8000ern Marke, daran erinnere ich mich. Ich glaube es war mal bei einem Stockitest, aber weiß nicht mehr genau. Ich weiß nicht ob das so sein muss oder normal ist.

Ich denke aber auch, dass Faktoren des Rechners eher einen Einfluss auf ganz kurze Zeiten haben als wenn sie länger sind. Jede kleine Änderung die im Hintergrund läuft, z.B. ob der Rechner warmgelaufen oder kalt ist, Alter vom Rechner oder einfach die Trägheit des Programms was mgl.weise nicht ausreichend getestet wurde können dann einen Einfluß auf die kurzen Zeiten haben. Und sei versichert, es läuft immer was ab, besonders bei Windows. Prozentual macht es dann erheblich mehr aus als bei längeren Zeiten, wo das von der Fehlertoleranz zu vernachlässigen ist.

Irgendwann kommst Du an die Software- und technischen Grenzen. Aber wo die genau liegen, kann ich Dir auch nicht genau sagen. Dazu müsste ich mich genauer mit beidem beschäftigen. Wenn ich aber eine Anlage auslege, sollte die nie mehr als 70% laufen.

Gruß,
Dirk
Parent - By Jörg Oster Date 2014-01-16 11:36
Dirk Triebel schrieb:

Hallo Stefan,

geb ich Dir recht, aber Du hattest auch schon mal berichtet, das es teilweise ziemliche Schwankungen während Deiner test runs gab sogar noch bei der 8000ern Marke, daran erinnere ich mich. Ich glaube es war mal bei einem Stockitest, aber weiß nicht mehr genau. Ich weiß nicht ob das so sein muss oder normal ist.

Das ist völlig normal.
Nicht umsonst lässt z. B. ein Bob Hyatt (Crafty) afaik 30.000! Spiele pro Testlauf spielen ...
Oder schau dir mal die Schwankungen im Fishtest-Framework bei den einzelnen Tests an.

Dirk Triebel schrieb:
Ich denke aber auch, dass Faktoren des Rechners eher einen Einfluss auf ganz kurze Zeiten haben als wenn sie länger sind. Jede kleine Änderung die im Hintergrund läuft, z.B. ob der Rechner warmgelaufen oder kalt ist, Alter vom Rechner oder einfach die Trägheit des Programms was mgl.weise nicht ausreichend getestet wurde können dann einen Einfluß auf die kurzen Zeiten haben. Und sei versichert, es läuft immer was ab, besonders bei Windows. Prozentual macht es dann erheblich mehr aus als bei längeren Zeiten, wo das von der Fehlertoleranz zu vernachlässigen ist.

Irgendwann kommst Du an die Software- und technischen Grenzen. Aber wo die genau liegen, kann ich Dir auch nicht genau sagen. Dazu müsste ich mich genauer mit beidem beschäftigen. Wenn ich aber eine Anlage auslege, sollte die nie mehr als 70% laufen.

Gruß,
Dirk
Parent - By Stefan Pohl Date 2014-01-16 13:00 Edited 2014-01-16 13:02
Dirk Triebel schrieb:

Hallo Stefan,

geb ich Dir recht, aber Du hattest auch schon mal berichtet, das es teilweise ziemliche Schwankungen während Deiner test runs gab sogar noch bei der 8000ern Marke, daran erinnere ich mich. Ich glaube es war mal bei einem Stockitest, aber weiß nicht mehr genau. Ich weiß nicht ob das so sein muss oder normal ist.

Ich denke aber auch, dass Faktoren des Rechners eher einen Einfluss auf ganz kurze Zeiten haben als wenn sie länger sind. Jede kleine Änderung die im Hintergrund läuft, z.B. ob der Rechner warmgelaufen oder kalt ist, Alter vom Rechner oder einfach die Trägheit des Programms was mgl.weise nicht ausreichend getestet wurde können dann einen Einfluß auf die kurzen Zeiten haben. Und sei versichert, es läuft immer was ab, besonders bei Windows. Prozentual macht es dann erheblich mehr aus als bei längeren Zeiten, wo das von der Fehlertoleranz zu vernachlässigen ist.

Irgendwann kommst Du an die Software- und technischen Grenzen. Aber wo die genau liegen, kann ich Dir auch nicht genau sagen. Dazu müsste ich mich genauer mit beidem beschäftigen. Wenn ich aber eine Anlage auslege, sollte die nie mehr als 70% laufen.

Gruß,
Dirk


Es gibt schon mal relevante Schwankungen auch in der zweiten Testhälfte. Aber immer alles innerhalb der Errorbar und außerdem recht selten. Da ich diese seltenen Fälle hier erwähnt habe und die vielen sehr viel früher stabileren Testruns nicht, scheint hier bei einigen der falsche Eindruck entstanden zu sein, daß meine Testruns regelmäßig auch bei 5000+ Partien noch stark schwanken. Das ist nicht der Fall. In den allermeisten Fällen passiert nach der Halbzeit nichts mehr weltbewegendes. Aber das ist eben nicht immer so, daher kann man sich die zweite Testhälfte leider nicht schenken.
Und was die Auslastung meiner Testrechner angeht, so spiele ich ja schon seit dem Sommer meine Testruns auf 2 absolut identischen Notebooks und lasse seitdem immer nur 3 der 4 Cores auf jedem dieser Notebooks spielen, damit die Notebooks nicht zu heiß werden. Damit sind auf beiden Rechnern immer 25% Rechenkapazität frei und da ich mit sehr kleinen Hashtables teste, ist auch immer mindestens 2GB RAM frei, sodaß Windoof sich austoben kann. Da sollte es also keine Probleme geben.
Zudem ist ja mein Spieltempo gar nicht soooo hoch. Da ich mit 500ms Fischerbonus teste, kann jede Engine bei jedem Zug immer mindestens eine halbe Sekunde lang rechnen. Eine halbe Sekunde ist auf einem modernen PC eine lange Zeit. Das ist ja kein Vergleich zum Stockfish-Testframework, wo nur 50ms Fischerbonus benutzt werden. Bei mir ist die minimale Bedenkzeit also zehn mal so hoch!

Stefan
Parent - - By Gerhard Sonnabend Date 2014-01-15 16:31
Noch ein Test, diesmal mit der etwas höheren Bedenkzeit 60000ms + 1000ms und 128MB HTs.

Code:

Level:      60000ms + 1000ms (also ultra-ultra-Bullet)
Instanzen:  2 auf Intel i5-2400 @ 3.1 GHz
Cores:      1 each
HTs:        128MB each
Vorgaben:   25 Stellungen = 50 Games/Match

1. Durchgang

Time = 7058 sec elapsed, 0 sec remaining
Houdini 4.0 x64 1CPU   28.5/50  19-12-19  (L: m=12 t=0 i=0 a=0)  (D: r=5 i=9 f=5 s=0 a=0)  (tpm=1403.8 d=19.64 nps=2851600)
Stockfish DD x64 1CPU  21.5/50  12-19-19  (L: m=19 t=0 i=0 a=0)  (D: r=5 i=9 f=5 s=0 a=0)  (tpm=1558.5 d=27.68 nps=2449163)

---> danach System Neustart

2. Durchgang (erste Wiederholung)

Time = 6994 sec elapsed, 0 sec remaining
Houdini 4.0 x64 1CPU   26.5/50  17-14-19  (L: m=14 t=0 i=0 a=0)  (D: r=7 i=4 f=6 s=2 a=0)  (tpm=1404.8 d=20.51 nps=2830659)
Stockfish DD x64 1CPU  23.5/50  14-17-19  (L: m=17 t=0 i=0 a=0)  (D: r=7 i=4 f=6 s=2 a=0)  (tpm=1550.6 d=28.80 nps=2413951)



Das sieht schon etwas besser aus und entspricht fast den Erfahrungen, welche ich unter
dem Shredder-Classic-GUI mit Level 1+1 gemacht habe. Ich denke, dass diese eigenartigen
Bedenkzeiten i.d.A. 20000ms + 300ms für die "Ergebnis-Lotterien" verantwortlich sind/waren.
Ob das LittleBlitzer-GUI u.U. auch den einen oder anderen Fehler hat will ich z.Zt. nicht
ausschliessen, behaupten kann ich das zum jetzigen Zeitpunkt jedoch nicht.
Für Spielstärkenmessungen (dies war NICHT Gegenstand meiner Tests !!) reicht selbst die
gerade gewählte Bedenkzeit (60000ms + 1000ms) mit Sicherheit bei weitem nicht aus !
Parent - By Simon Gros Date 2014-01-15 21:11
"Ich denke, dass diese eigenartigen Bedenkzeiten i.d.A. 20000ms + 300ms für die "Ergebnis-Lotterien" verantwortlich sind/waren. Ob das LittleBlitzer-GUI u.U. auch den einen oder anderen Fehler hat will ich z.Zt. nicht ausschliessen, behaupten kann ich das zum jetzigen Zeitpunkt jedoch nicht."

Das liegt bestimmt nicht an der Oberfläche, damit habe ich auch schon ein wenig spielen lassen und nichts gefunden. Das liegt sicherlich an den Bedenkzeitstufen! Wie nur soll ein Programm mit "Aufschlägen" unter einer Sekunde zurecht kommen und dann auch noch mit derart wenig Grundzeit? Das kann doch nur zur Lotterie ausarten! Aber vielen Dank für all diese Tests, diese waren überfällig. Ich wäre einfach zu faul dazu und so geht es wohl den meisten Konsumenten.
Simon
Up Topic Hauptforen / CSS-Forum / LittleBlitzer-GUI / Test

Powered by mwForum 2.29.3 © 1999-2014 Markus Wichitill