Bedenkzeit: 30 Minuten / Partie
Intel i5-750 @ 3,5 GHz, Fritzmark: 21.15 / 10150
Zwischenstand nach 476 Partien:
Games Completed = 476 of 3000 (Avg game length = 3182.991 sec)
Settings = RR/512MB/1800000ms+600ms/M 800cp for 6 moves, D 350 moves/PGN:C:\Schach\LittleBlitzer-2.74\8moves_v3.pgn(32000)
Time = 510987 sec elapsed, 2676043 sec remaining
1. Stockfish DD 64 SSE4.2 169.5/319 88-68-163 (L: m=1 t=0 i=0 a=67) (D: r=65 i=62 f=34 s=2 a=0) (tpm=17951.3 d=34.53 nps=2296668)
2. Houdini 4 x64 161.5/318 74-69-175 (L: m=0 t=0 i=0 a=69) (D: r=51 i=72 f=48 s=3 a=1) (tpm=14741.1 d=26.47 nps=2727403)
3. Komodo TCEC 64-bit 145.0/315 56-81-178 (L: m=0 t=0 i=0 a=81) (D: r=62 i=86 f=24 s=5 a=1) (tpm=18339.5 d=22.50 nps=2033479)
Program Elo + - Games Score Av.Op. Draws
---------------------------------------------------------------------------
1 Stockfish DD 64 SSE4.2 : 3015 27 27 319 53.1 % 2993 51.1 %
2 Houdini 4 x64 : 3004 26 26 318 50.8 % 2998 55.0 %
3 Komodo TCEC 64-bit : 2982 25 25 315 46.0 % 3009 56.5 %
Individual statistics:
1 Stockfish DD 64 SSE4.2 : 3015 319 (+ 88,=163,- 68), 53.1 %
Houdini 4 x64 : 161 (+ 43,= 80,- 38), 51.6 %
Komodo TCEC 64-bit : 158 (+ 45,= 83,- 30), 54.7 %
2 Houdini 4 x64 : 3004 318 (+ 74,=175,- 69), 50.8 %
Stockfish DD 64 SSE4.2 : 161 (+ 38,= 80,- 43), 48.4 %
Komodo TCEC 64-bit : 157 (+ 36,= 95,- 26), 53.2 %
3 Komodo TCEC 64-bit : 2982 315 (+ 56,=178,- 81), 46.0 %
Stockfish DD 64 SSE4.2 : 158 (+ 30,= 83,- 45), 45.3 %
Houdini 4 x64 : 157 (+ 26,= 95,- 36), 46.8 %
Games : 476 (finished)
White Wins : 123 (25.8 %)
Black Wins : 95 (20.0 %)
Draws : 258 (54.2 %)
White Perf. : 52.9 %
Black Perf. : 47.1 %
Danke für das interessantes Turnier, Andreas!
Sollte Stockfish am Ende sogar schon bei 30 Min./Partie die Nase vorn haben? Das kann ich mir kaum vorstellen, aber ich bin gespannt auf den weiteren Verlauf.
Wie ist der 'contempt' von 'Houdini' und 'drawscore' bei Komodo gesetzt? Ich nehme an default. Bitte auf 0 setzen! Wir werden niemals zu einer Aussage kommen, ob Stockfish oder Komodo ab einer bestimmten Bedenkzeit stärker sind als Houdini, wenn Houdini gehandicapt ist. Einen Test mit noch längerer Bedenkzeit gibt es schon auf talkchess, leider auch mit default-Parametern, also nutzlos.
Gruß Stefan
Hallo Stefan,
die Optionen aller Engines sind "default".
Wieso sollte ich sie ändern, wenn der Programmierer der Meinung ist, mit diesen Einstellungen spielt seine Engine am stärksten?
Grüße,
Andreas
Hallo Andreas,
Der 'contempt' und 'drawscore' sind für Ranglisten voreingestellt, wo es viele schwächere Gegner gibt. Dann wird remis verhindert trotz leicht schlechterer Stellung. Wenn aber die top 3 gegeneinander spielen, so sollten diese Parameter auf 0 gestellt sein. Das empfehlen Robert Houdert und Larry Kaufman.
http://talkchess.com/forum/viewtopic.php?p=547607&highlight=contempt#547607Gruß Stefan
wenn sie das wollen, sollen sie es so als default einstellen.
wo kommen wir dahin, dass Ranglistenbetreiber für jede Bedenkzeit die Grundeinstellung ändern, das war immer so Tradition dass die default Einstellungen immer verwendet werden
Hallo Stefan,
welche Parameter soll ich verwenden wenn die Top 4 gegeneinander spielen, welche wenn die Top 5 gegeneinander spielen, usw.? Immer unterschiedliche, auf den Gegner optimierte?
Gibt es vielleicht noch optimierte Parameter zu unterschiedlichen Bedenkzeiten, Bullet, Blitz, LTC?
Was will ich damit sagen?
Ich bin nicht gewillt, an irgendwelchen Parametern herumzuschrauben, nur weil der Programmierer glaubt, gegen Gegner A oder Gegner B spielt sein Programm dann besser.
Default Einstellungen sollten die optimalen Einstellungen sein. Wenn nicht, dann ist der Programmierer in der Pflicht hier etwas zu ändern.
Gibt es schon Tests, die bestätigen, dass Houdini bzw. Komodo gegen Stockfish bei contempt=0 oder drawscore=0 besser abschneiden?
Vielleicht mache ich mir auch die Mühe und wiederhole das Turnier mit den von den Programmierern vorgeschlagenen Einstellungen.
Viele Grüße,
Andreas
Andreas Strangmüller schrieb:
welche Parameter soll ich verwenden wenn die Top 4 gegeneinander spielen, welche wenn die Top 5 gegeneinander spielen, usw.? Immer unterschiedliche, auf den Gegner optimierte?
Gibt es vielleicht noch optimierte Parameter zu unterschiedlichen Bedenkzeiten, Bullet, Blitz, LTC?
Darum geht es nicht. Es geht nur um die Frage, will man eine Rangliste erstellen oder einen Zwei/Dreikampf gegen die stärksten Engines spielen. Wenn die Parameter nicht optimal eingestellt sind (entsprechend der Empfehlung der Autoren), bleibt nach dem Test ein pfader Beigeschmack wie: Stockfish hat ja nur gewonnen, weil Houdini nicht mit Contempt=0 gespielt hat.
Andreas Strangmüller schrieb:
Default Einstellungen sollten die optimalen Einstellungen sein.
Dann sollte Stockfish immer mit einem Thread laufen. Denn das ist die Voreinstellung. Ich denke, man sollte sich an die Empfehlung des Autors halten, falls es die gibt, ansonsten Default-Einstellung.
Andreas Strangmüller schrieb:
Gibt es schon Tests, die bestätigen, dass Houdini bzw. Komodo gegen Stockfish bei contempt=0 oder drawscore=0 besser abschneiden?
Vielleicht mache ich mir auch die Mühe und wiederhole das Turnier mit den von den Programmierern vorgeschlagenen Einstellungen.
Es gab so viel ich weiß Tests für die IPON und die LS-Liste, wo der Contempt von Houdini 3 auf 0 gesetzt wurde. Houdini schnitt signifikant schlechter ab. Wie sich aber das Spiel gegen gleichstarke Engines verbessert, da ist mir kein Test bekannt.
Gruß Stefan
ich denke, dass alles andere als Defaulteinstellungen ein mehr als nur schales Beigeschmäckle hätten, es sei denn, man verwendet sie für alle Bedenkzeiten.
Also müsste sich dann Houdini mit Contempt auch im Bullet beweisen, nicht einmal 2 einmal 0, einmal 1 je nachdem wie die Ergebnisse der Houdinifangemeinde gefallen.
Das hat schon wirklich "Geschmäckle", bisher war immer der Grundsatz bei solchen Tests die Defaulteinstellung zu verwenden.
Bis jetzt finde ich Deine Vergleiche für sehr aufschlussreich, wenn Du jetzt für einzelne Engines die Deffaulteinstellung änderst, sorry, nur noch für die Tonne
Andreas
Hallo Andreas,
am Grundsatz der Defaulteinstellungen werde ich auch nicht rütteln. Denke das habe ich auch klar und deutlich geschrieben.
Evtl. werde ich interessehalber diesen Test der drei Top Engines mit contempt=0 bzw. drawscore=0 wiederholen, um den Unterschied festzustellen. Mal sehen.
Viele Grüße,
Andreas
wie schon unten geschrieben, ich finde es sehr fragwürdig eine Engine derart zu bevorzugen.
Andere Ranglisten benutzen die Default Einstellungen, nicht Contempt 0, ein Vergleich mit anderen Listen verbietet sich dann, wird aber wohl doch stattfinden.
Aber Du kannst das natürlich machen, um den Unterschied festzustellen, nur dann ist eben diese Bevorzugen in der Welt und was dann in der Welt ist, bleibt dann auch.
Ich hoffe nur, dass es keinen Unterschied geben wird.
Sonst braucht man über derartiges gar nicht mehr zu diskutieren, wenn Houdini Anhänger das Resultat nicht passt machen weisen sie einfach auf Aussagen der Programmierer hin, dass Engine XY mit dieser Einstellung gegen bestimmte Gegner, bei bestimmten Bedenkzeiten besser spielt, na super, wenn das Schule macht.
Wäre Schade um das schöne Hobby
Andreas
By Frank Brenner
Date 2013-12-30 19:43
> ich finde es sehr fragwürdig eine Engine derart zu bevorzugen.
Ich denke du hast einen wesentlichen Punkt nicht verstanden:
Die Ranglisten werden nicht gemacht, damit sich hinterher der Programmierer der Engine damit brüsten kann oder damit nachher offiziell in der Wikipedia ein Eintrag über die Spielstärke vorgenommen wird, sondern die Spiele werden nur zur Freude und zum Spass gemacht und wir "Freaks" freuen uns dann über die Fortschritte die in der Programmierung erzielt werden.
Und im Kontext dieser Freude an den Fortschritten ist es sogar dienlich wenn man auch einmal den Houdini mit Contempt = 0 testet, um zu sehen ob der Leistungseinbruch den wir bei Houdini bei großen Bedenkzeiten beobachtet haben vielleicht mit dieser Contempt Einstellung etwas zu tun hat.
Bei Houdini ist laut Bedienungsanleitung der Contempt nicht einfach nur der Drawscore so wie bei Stockfish, sondern es gibt auch in der Engine andere Bewertungsterme für eine Reihe von Merkmalen.
Von daher wäre es sogar interessant wenn Stephan Pohl den Houdini auch einmal mit Contempt = 0 durch seine Liste jagen könnte, da hier ja viel mehr Gegener auftreten, um zu gucken ob Contempt = 1 überhaupt grundsätzlich für Houdini vorteilhaft ist.
(Die Chance dass Ingo mit der IPon sowas ausprobiert, halte ich für 0 %, da würde eher Erde die Drehrichtung ändern)
ich bin sehr froh, dass ich das nicht verstehen muss
jetzt habe ich es verstanden, ihr wollt Betatester für Houdini sein !
By Frank Brenner
Date 2013-12-31 01:13
Du denkst immer viel zu kommerziell.
Ich denke für den Großteil wäre es begrüßenswert von ab und zu mal eine Entwicklerversion von houdini zum testen zu verfügung stehen würde, ich denke der eine oder andere würde gerne nachgucken wie groß der fortschritt ist ... so wie bei stockfish.... UNd es würde die szene sehr positiv beleben, wenn auch bei Houdini sichtbare fortschritte erzielt würden, nicht nur bei Stockfish.
Das gleiche gilt natürlich auch für Komodo, aber ich denke Mark Lefler wird sich noch einige Monate in den Code einlesen müssen um Verbesserungen auf eingene Faust erzielen zu können.
ich denke dabei sicher nicht kommerziell, das sicher nicht.
Bei Stockfish finde ich das völlig ok.
Houdini ist ja nun mal genau das Gegenteil von Stockfish, Geschmäckle, kommerziell, closed Source (welche denn wohl).
Da gibt es einen Grundsatz Gleiches gleich und Ungleiches ungleich zu behandeln.
Da es nicht lange her ist, dass Albert Camus seinen 100. Geburtstag gefeiert hat, will ich Camus zitieren, der Zweck heiligt niemals die Mittel.
Aber vielleicht trifft das nur zu, wenn man eine Sache nicht allzu ernst sieht und kein Computerschachfreak ist, der nun alles mitmacht.
Andreas
By Stefan Pohl
Date 2013-12-31 12:28
Edited 2013-12-31 12:31
Frank Brenner schrieb:
Bei Houdini ist laut Bedienungsanleitung der Contempt nicht einfach nur der Drawscore so wie bei Stockfish, sondern es gibt auch in der Engine andere Bewertungsterme für eine Reihe von Merkmalen.
Von daher wäre es sogar interessant wenn Stephan Pohl den Houdini auch einmal mit Contempt = 0 durch seine Liste jagen könnte, da hier ja viel mehr Gegener auftreten, um zu gucken ob Contempt = 1 überhaupt grundsätzlich für Houdini vorteilhaft ist.
In Marijans 1min-ratinglist (im Immortal-Forum zu finden), von der ich prinzipiell nicht so viel halte, weil ich Bullet-Tests ohne Fischerbonus für höchst fragwürdig halte, wurde Houdini 3 auch mit contempt=0 getestet und es kamen 15 Elo weniger raus. Das ist durchaus realistisch, denke ich, da bei Vergleich eines Settings mit einer Default-Engine Zeitprobleme nicht ins Gewicht fallen (ergo ist hier der fehlende Fischerbonus nicht tragisch). Und diesem Test liegen immerhin 2x3168 Partien zugrunde. Also schon halbwegs aussagekräftig. Ich hatte mit Houdini 3 auch mal ein paar Partien gemacht (2000 glaube ich) und da war der Score auch schlechter mit c=0.
Aber wenns wirklich von allgemeinem Interesse ist, kann ich ja bei Gelegenheit mal einen Testlauf mit Houdini 4 machen. Der Saros 4.1.6 Test sollte am Freitag durch sein. Wenn bis dahin nichts Neues released wird, kann ich ja mal Houdini 4 mit contempt=0 durchlaufen lassen. Ich denke aber, daß dort ein Minus rauskommt, einfach weil Houdini 4 im Bullet klar die Nummer 1 der Welt ist und somit nur gegen schwächere Gegner (als sich selber) spielt. Daher ist ein positiver Contempt auf jeden Fall sinnvoll und ein Contempt=0 wird sicher einige mögliche Gewinne in Remisen verwandeln. Aber testen kann ichs ja mal. Interessant wird dann ja evt. auch, wie sich die Remisquote von Houdini 4 verändert. Theoretisch müßte sie höher ausfallen.
Stefan
Andersrum müssten bei den anderen Ranglisten die Stockfish Parameter angepasst werden.
Meines wissen hat da aber auch noch nie jemand nachgefragt, ob dass jemand anpassen könnte.
Sinnvoll für eine bessere Vergleichbarkeit wäre es wenn alle Engines default mit contempt=0 oder drawscore=0 eingestellt würden.
Wohlmöglich wäre Stockfish dann aber auch bei den Ranglisten (bei den es viele schwächere Gegner gibt) bereits ganz oben!?
Bei Stockfish bringt es nicht so viel, den contempt zu verändern, um gegen Schwächere mehr zu punkten, wie bei Houdini. Deshalb hat man ihn standartmäßig auf 0 belassen.
Außerdem gibt es keine klare Empfehlung vom Stockfish-Team, wie der Contempt einzustellen ist für eine Rangliste. Also bleibt dem Ranglistenbetreiber nichts anderes übrig, als die Defaulteinstellung zu verwenden. Der Vergleichbarkeit wegen könnte man den Contempt bei den anderen Engines zwar auch auf 0 setzen. Aber dann würden sich ja alle nach Stockfish richten.
ein Experiment, wie stark eine Engine bei verschiedenen Bedenkzeiten spielt, macht doch nur Sinn, wenn die Einstellungen beibehalten werden.
OK. Contempt 0, bei solchen vergleich, aber dann auch auf Bullit und Blitzstufen.
Was wäre das für ein Vergleich und was wäre er Wert (wohl nahe 0) wenn man den je nach Bedenkzeit oder Gegner ändert.
Vielleicht meint der Programmierer gegen Komodo wäre besser 1, gegen Stockfish 0 etc.
Das wäre dann ein sauberes Geschmäckle, den ich bei Defaulteinstellungen nicht sehe
Andreas
Ja natürlich, wenn man verschiedene Bedenkzeiten vergleichen will, sollten alle anderen Einstellungen gleich bleiben. Auch innerhalb eines Turniers, wo es um Statistik geht, sollte man die Einstellungen nicht verändern.
Wenn Houdini die Möglichkeit bietet durch den Contempt-Parameter gegen schwächere Gegner (Rangliste) besser zu punkten, so ist das eine gute Sache, die ihm aber nicht zum Nachteil werden sollte, nur weil man in jedem Fall auf den Default-Wert besteht.
Gruß Stefan
ich finde das nicht gut, auf jedem Fall wird Houdini dabei bevorzugt, was passiert, solltest Du, was ich zwar nicht glaube, mit Contempt 0 besser abschneiden,
die anderen Ranglisten bleiben doch bei den Defaulteinstellungen, also man sagt dann Houdini ist im Bullet und Blitz der King.
Die anderen, auch mit längerer Bedenkzeit noch vorne, dass dabei andere Einstellungen benutzt werden ist dann nebensächlich.
Also eine Engine mit Contempt default, eine andere mit Contempt 0.
Das ist nicht nur ein pisschen bedenklich, wenn es dann allgemein so wird, werde ich nie mehr einen Blick auf irgendwelche Ranglisten ohne sehr schlechtes Geschmäckle betrachten können und das alles als für die Tonne sehen werden.
Das wäre dann für mich das Ende des Computerschachs, wenn man es so hinbiegen kann, wie es einem gerade passt.
Ich bleibe dabei, Default ist die einzige Einstellung die getestet werden soll um irgendetwas aussagen zu können.
Alles andere ist zwar vielleicht als Experiment recht "lustig" mehr aber nicht
Andreas
Andreas Aicher schrieb:
ich finde das nicht gut, auf jedem Fall wird Houdini dabei bevorzugt,
Houdini wird bei dem Top 3 Turnier
nicht benachteiligt. Bevorzugt wir Houdini in einer Rangliste mit schwächeren Gegnern, wo Houdini mit contempt ungleich 0 spielt, Stockfish aber mit contempt=0. Dort ist Stockfish aber selber Schuld, weil das Stockfish-Team eben keinen contempt-Wert empfielt oder voreingestellt hat.
Du irrst, Houdini wird, wenn das so stattfindet unreperabel bevorzugt, es müssen die Bedingung und die Einstellungen verwendet werden, schade dass Du das nicht akzeptieren willst.
Für mich wäre dann jede Rangliste wertlos geworden, weil der kleinste gemeinsame Nenner abhanden gekommen ist, das Testen mit einer einheitlichen Einstellung, nämlich den Defaulteinstellungen.
Es wäre keine Rangliste mehr miteinander vergleichbar, jeder macht dann seine eigenen Einstellungen und so wird alles verfälscht, wenn es dem Fan einer Engine nicht passt, wie man ja bei Dir sieht
Andreas
Ein TCEC-Finale zwischen Houdini und Stockfish, wo Houdini aus dogmatischen Gründen mit contempt spielt und dadurch benachteiligt ist, macht für dich vielleicht Sinn. Für mich nicht.
das TCEC Finale fand ohne Beteiligung von Houdini statt.
Aber das ist dann auch eine andere Geschichte, die Programmierer haben da die Möglichkeit eine Betaversion oder geänderte Version spielen zu lassen, auch eine mit Contempt 0 und ich bin sicher, dass das auch getan wurde!
Bei Tests, wie die von Andreas sieht das aber wirklich ganz anders aus.
Der kleinste gemeinsame Nenner, dass Engines mit den vom Programmierer gewählten Default-Einstellungen verwendet werden, darf meiner Meinung nach nicht durchbrochen werden, nicht nur wegen der Vergleichbarkeit der verschiedenen Listen.
Aussagen, dass eine Engine mit anderen Einstellungen bei bestimmten Bedenkzeiten oder gegen bestimmte Gegner besser spielen (könnten) dürfen da keine Rolle spielen.
Andreas
> Du irrst, Houdini wird, wenn das so stattfindet unreperabel bevorzugt...
Ist denn überhaupt mal bei irgendeiner Engine tatsächlich bestätigt worden, dass bestimmte Contempt-Werte gegen Engines mit größerer ELO-Distanz zu messbar besseren Ergebnissen führen?
Benno
ich glaube, kann mich jetzt aber täuschen, Stefan hat es mal in seiner LS Liste getestet.
Angeblich auch Ingo.
Ich finde aber, das ist eine Aufgabe für Betatester oder dem Programmierer selbst, nicht unbedingt für Ranglisten, da sollte man schon auf die Default Einstellungen vertrauen.
Das kann jemand als Spass für sich machen, nicht unbedingt von anderen fordern, wie das ja hier versucht wird.
Andreas
Kam jetzt vielleicht zu hart rüber, unterstelle Dir auch nicht Ergebnisse verfälschen zu wollen, aber im Endeffekt läuft es gerade darauf hinaus.
Wenn ein Programmierer, jetzt überspitzt ausgedrückt, seine Engine darauf zu optimieren, gegen schwächere Engines oder mit kurzer Bedenkzeit sehr gut abzuschneiden, trägt das ja auch Früchte, zumal fast ausschliesslich Ranglisten mit kurzen Bedenkzeiten oder Bullitlisten existieren, so muss er auch damit leben, dass die Engine bei nicht optimierten Bedingungen weniger erfolgreich ist, er kann nicht verlangen, dass man zu seinem Gunsten die Bedingungen für diese Vergleiche oder Ranglisten ändert.
Wenn man das doch macht, ist und bleibt es einfach eine Bevorzugung, die meiner Meinung untragbar ist.
Man schaffe einfach die Bedingungen damit die Engine auf jedem Fall Nummer Eins bleibt, damit sollte man nicht anfangen, wirklich nicht
Zitat von dem Stockfish Programmierer Lucas Braesch:
"All we need is to change the default contempt of SF to solve the problem. But Marco doesn't want to. In head to head SF is at least on par with Houdini, yet Houdini is significantly above in rating lists. The difference is that Houdini destroys the weaker engines more than SF destroys them, because it doesn't accept 3-fold repetitions where SF would."
http://talkchess.com/forum/viewtopic.php?t=50648
Patrick Götz schrieb:
Zitat von dem Stockfish Programmierer Lucas Braesch:
"All we need is to change the default contempt of SF to solve the problem. But Marco doesn't want to. In head to head SF is at least on par with Houdini, yet Houdini is significantly above in rating lists. The difference is that Houdini destroys the weaker engines more than SF destroys them, because it doesn't accept 3-fold repetitions where SF would."
<a class='ura' href='
http://talkchess.com/forum/viewtopic.php?t=50648'>http://talkchess.com/forum/viewtopic.php?t=50648</a>
Das sage ich doch schon seit langem
Stockfish sollte 2-Fold Rep. spielen und dann ausweichen.
diese Aussage kann man immer nur mit einer Einstellung machen, nicht bis 8+3 die und ab 9+3, wo die Reihenfolge dann kippt einfach eine andere, das kanns ja nun wirklich nicht sein.
Also über solche Aussagen kann ich mich nur sehr wundern.
Wenn man die Einstellungen verändert lassen sich die Ergebnisse auch nicht mehr vergleichen
Gab es denn schon ein Turnier der Top 3 bei anderer Bedenkezeit? Denn nur dann macht deine Aussage Sinn.
das ganze ist Computerschach und ohnehin sinnfrei, ich verstehe selbst nicht, warum ich mich dafür interessiere und warum ich überhaupt geantwortet habe, ist doch immer wieder das gleiche Muster.
Eine einmal vorgetragene Meinung wird niemals verändert, dabei geht es doch nur darum, dass man nicht mehrere Default Einstellungen hat und Engines nun mal mit der Einstellung getestet werden und bisher auch immer getestet wurden, wie sie vorgegeben sind.
Nichts weiter, Sinn steckt da keiner dahinter
Thanx.
Hat es einen bestimmten Grund, dass du einen Turnierstand meldest, bei dem die 3 Engines unterschiedlich viele Spiele absolvierten?
Es mag nicht wirklich wichtig sein, aber schöner finde ich schon solche Stände, bei denen jeder gleich viele Spiele hatte, gleich oft gegen jeden Gegner antrat und dabei jeweils gleich oft schwarz und weiß hatte.
Benno
Hallo Benno,
ich habe die aktuell fünf Verlustpartien aufgrund des Rochade-Bugs von Komodo TCEC entfernt, darum der Turnierstand mit der unterschiedlich absolvierten Partienanzahl.
Diese Verlustpartien hole ich nach Turnierende nach.
Grüße,
Andreas
Verstehe ich es richtig: du hast Partien entfernt, weil ein Programm einen Bug hat?
Ja sollten die dann nicht unbedingt(!) auch eingehen?
Wenn ein Programm aufgrund eines Programierfehlers Partien verliert, dann sollten die doch auch zählen. Es ist ja schließlich eine ganz reale Schwäche dieses Programms.
Benno
Sehe ich auch so.
Wenn man selbst professionell programmiert, dann passieren solche Bugs nicht, nur wenn man versucht etwas von Stockfish zu übernehmen, was zwar zur einer Spielstärkesteigerung führt aber auch zu Bugs.
Benno Hartwig schrieb:
Verstehe ich es richtig: du hast Partien entfernt, weil ein Programm einen Bug hat?
Ja sollten die dann nicht unbedingt(!) auch eingehen?
Wenn ein Programm aufgrund eines Programierfehlers Partien verliert, dann sollten die doch auch zählen. Es ist ja schließlich eine ganz reale Schwäche dieses Programms.
Benno
Nein. Erstens gibt es ja schon ein bugfix und zweitens tritt der Rochade-Bug bei Komodo TCEC nur auf, wenn der Zügezähler auf 1 steht. Das passiert ja in einer realen Schachpartie nicht. Das liegt nur an der Unart der LittleBlitzerGUI trotz vorgegebener Eröffnungszüge den Zugzähler immer auf 1 zu setzen, bevor die Engines anfangen zu spielen. In allen anderen GUIs tritt das Problem in realen Partien nicht auf, nur bei künstlich aufgesetzten Stellungen per Stellungseingabe. Ergo macht es durchaus Sinn, die Partien später mit Komodo TCECr nachzuholen.
Stefan
> Erstens gibt es ja schon ein bugfix
OK, dann kann man darauf vertrauen, dass nur diese Bug gefixt wurde und nimmt das Ergebnis für die gefixte Version.
> und zweitens tritt der Rochade-Bug bei Komodo TCEC nur auf, wenn der Zügezähler auf 1 steht.
Daran hatte ich nicht gedacht. Du hast recht, das ist eine so spezielle Besonderheit gerade dieses Tests, dass ich das auch ausblenden würde.
Benno
Zwischenstand nach 743 Partien:
Games Completed = 743 of 3000 (Avg game length = 3170.407 sec)
Settings = RR/512MB/1800000ms+600ms/M 800cp for 6 moves, D 350 moves/PGN:C:\Schach\LittleBlitzer-2.74\8moves_v3.pgn(32000)
Time = 794067 sec elapsed, 2382200 sec remaining
1. Stockfish DD 64 SSE4.2 269.0/496 128-94-274 (L: m=1 t=0 i=0 a=93) (D: r=111 i=97 f=63 s=3 a=0) (tpm=17475.3 d=34.93 nps=2339736)
2. Houdini 4 x64 249.0/497 107-112-278 (L: m=0 t=0 i=0 a=112) (D: r=78 i=106 f=88 s=5 a=1) (tpm=14761.7 d=26.42 nps=2727117)
3. Komodo TCEC 64-bit 232.0/493 91-120-282 (L: m=0 t=0 i=0 a=120) (D: r=101 i=129 f=43 s=8 a=1) (tpm=18250.7 d=22.62 nps=2059050)
Program Elo + - Games Score Av.Op. Draws
-------------------------------------------------------------------------
1 Stockfish DD 64 SSE4.2 : 3016 21 20 496 53.4 % 2992 55.2 %
2 Houdini 4 x64 : 2998 20 20 497 49.5 % 3001 55.9 %
3 Komodo TCEC 64-bit : 2986 20 20 493 47.1 % 3007 57.2 %
Individual statistics:
1 Stockfish DD 64 SSE4.2 : 3016 496 (+128,=274,- 94), 53.4 %
Houdini 4 x64 : 250 (+ 65,=135,- 50), 53.0 %
Komodo TCEC 64-bit : 246 (+ 63,=139,- 44), 53.9 %
2 Houdini 4 x64 : 2998 497 (+107,=278,-112), 49.5 %
Stockfish DD 64 SSE4.2 : 250 (+ 50,=135,- 65), 47.0 %
Komodo TCEC 64-bit : 247 (+ 57,=143,- 47), 52.0 %
3 Komodo TCEC 64-bit : 2986 493 (+ 91,=282,-120), 47.1 %
Stockfish DD 64 SSE4.2 : 246 (+ 44,=139,- 63), 46.1 %
Houdini 4 x64 : 247 (+ 47,=143,- 57), 48.0 %
Games : 743 (finished)
White Wins : 187 (25.2 %)
Black Wins : 139 (18.7 %)
Draws : 417 (56.1 %)
White Perf. : 53.2 %
Black Perf. : 46.8 %
Zwischenstand nach 949 Partien:
Games Completed = 949 of 3000 (Avg game length = 3184.982 sec)
Settings = RR/512MB/1800000ms+600ms/M 800cp for 6 moves, D 350 moves/PGN:C:\Schach\LittleBlitzer-2.74\8moves_v3.pgn(32000)
Time = 1017568 sec elapsed, 2168972 sec remaining
1. Stockfish DD 64 SSE4.2 337.5/635 163-123-349 (L: m=1 t=0 i=0 a=122) (D: r=138 i=130 f=78 s=3 a=0) (tpm=17696.8 d=34.61 nps=2335219)
2. Houdini 4 x64 311.0/634 135-147-352 (L: m=0 t=0 i=0 a=147) (D: r=91 i=146 f=108 s=6 a=1) (tpm=14890.5 d=25.99 nps=2726386)
3. Komodo TCEC 64-bit 300.5/629 116-144-369 (L: m=1 t=0 i=0 a=143) (D: r=133 i=174 f=52 s=9 a=1) (tpm=18197.0 d=22.69 nps=2059243)
Program Elo + - Games Score Av.Op. Draws
-------------------------------------------------------------------------
1 Stockfish DD 64 SSE4.2 : 3015 18 18 635 53.1 % 2993 55.0 %
2 Houdini 4 x64 : 2996 18 18 634 49.1 % 3002 55.5 %
3 Komodo TCEC 64-bit : 2990 17 17 629 47.8 % 3005 58.7 %
Individual statistics:
1 Stockfish DD 64 SSE4.2 : 3015 635 (+163,=349,-123), 53.1 %
Houdini 4 x64 : 320 (+ 89,=166,- 65), 53.8 %
Komodo TCEC 64-bit : 315 (+ 74,=183,- 58), 52.5 %
2 Houdini 4 x64 : 2996 634 (+135,=352,-147), 49.1 %
Stockfish DD 64 SSE4.2 : 320 (+ 65,=166,- 89), 46.2 %
Komodo TCEC 64-bit : 314 (+ 70,=186,- 58), 51.9 %
3 Komodo TCEC 64-bit : 2990 629 (+116,=369,-144), 47.8 %
Stockfish DD 64 SSE4.2 : 315 (+ 58,=183,- 74), 47.5 %
Houdini 4 x64 : 314 (+ 58,=186,- 70), 48.1 %
Games : 949 (finished)
White Wins : 243 (25.6 %)
Black Wins : 171 (18.0 %)
Draws : 535 (56.4 %)
White Perf. : 53.8 %
Black Perf. : 46.2 %
By Christian Schmidt
Date 2014-01-04 08:49
Ich bin absolut dagegen, bei H4 die Einstellungen gegnerspezifisch zu wählen. Bei Stockfish könnte man auch experimentieren, mit welcher Einstellung er am besten gegen H4 abschneidet. Aber das ist nicht Sinn der Sache bei einer Rangliste. Da sollte nur mit einer Einstellung gearbeitet werden und die ist Default.
Man kann gerne ausprobieren, wie sich einzelne Einstellungen gegen bestimmte Gegner auswirken. Aber das dann bitte außerhalb einer Rangliste.
Christian Schmidt schrieb:
Ich bin absolut dagegen, bei H4 die Einstellungen gegnerspezifisch zu wählen. Bei Stockfish könnte man auch experimentieren, mit welcher Einstellung er am besten gegen H4 abschneidet. Aber das ist nicht Sinn der Sache bei einer Rangliste. Da sollte nur mit einer Einstellung gearbeitet werden und die ist Default.
Man kann gerne ausprobieren, wie sich einzelne Einstellungen gegen bestimmte Gegner auswirken. Aber das dann bitte außerhalb einer Rangliste.
Stimmt. Aber man kann eine zweite Testreihe mit einer anderen Einstellung durchführen und das ganze dann zusätzlich als Setting listen. So habe ich das mit Houdini 3 mit tactical mode=true gemacht und mache es jetzt mit Houdini 4 mit contempt=0. Diese Settings kennzeichne ich als solche ("set") und sie werden nicht ins LS-top10-tournament aufgenommen und sind somit nicht die Gegner für spätere Enginetests. Das kann dann durchaus informativ sein und verzerrt die Rangliste nur minimal, sofern man das Ganze nicht überhand nehmen läßt und zig Settings testet...
Stefan
Zwischenstand nach 1325 Partien:
Games Completed = 1325 of 3000 (Avg game length = 3180.641 sec)
Settings = RR/512MB/1800000ms+600ms/M 800cp for 6 moves, D 350 moves/PGN:C:\Schach\LittleBlitzer-2.74\8moves_v3.pgn(32000)
Time = 1417163 sec elapsed, 1767473 sec remaining
1. Stockfish DD 64 SSE4.2 467.5/886 226-177-483 (L: m=1 t=0 i=0 a=176) (D: r=178 i=191 f=107 s=7 a=0) (tpm=17967.9 d=34.18 nps=2326324)
2. Houdini 4 x64 442.5/885 204-204-477 (L: m=0 t=0 i=0 a=204) (D: r=122 i=192 f=154 s=8 a=1) (tpm=15052.6 d=25.56 nps=2728391)
3. Komodo TCEC 64-bit 415.0/879 163-212-504 (L: m=1 t=0 i=0 a=211) (D: r=180 i=239 f=71 s=13 a=1) (tpm=18486.4 d=22.72 nps=2053451)
Program Elo + - Games Score Av.Op. Draws
-------------------------------------------------------------------------
1 Stockfish DD 64 SSE4.2 : 3013 15 15 886 52.8 % 2994 54.5 %
2 Houdini 4 x64 : 3000 16 16 885 50.0 % 3000 53.9 %
3 Komodo TCEC 64-bit : 2987 15 15 879 47.2 % 3006 57.3 %
Individual statistics:
1 Stockfish DD 64 SSE4.2 : 3013 886 (+226,=483,-177), 52.8 %
Houdini 4 x64 : 446 (+120,=228,- 98), 52.5 %
Komodo TCEC 64-bit : 440 (+106,=255,- 79), 53.1 %
2 Houdini 4 x64 : 3000 885 (+204,=477,-204), 50.0 %
Stockfish DD 64 SSE4.2 : 446 (+ 98,=228,-120), 47.5 %
Komodo TCEC 64-bit : 439 (+106,=249,- 84), 52.5 %
3 Komodo TCEC 64-bit : 2987 879 (+163,=504,-212), 47.2 %
Stockfish DD 64 SSE4.2 : 440 (+ 79,=255,-106), 46.9 %
Houdini 4 x64 : 439 (+ 84,=249,-106), 47.5 %
Games : 1325 (finished)
White Wins : 350 (26.4 %)
Black Wins : 243 (18.3 %)
Draws : 732 (55.2 %)
White Perf. : 54.0 %
Black Perf. : 46.0 %
Bedenkzeit:
30 Minuten / PartieIntel i5-750 @ 3.5 GHz, Fritzmark: 21.15 / 10150
Alle Engines: 1 Kern, Default settings, 512 MB Hash, keine TBs, Ponder off
Eröffnungen: 8moves_v3.pgn (Fishtest)
GUI: LittleBlitzer 2.74
Endstand nach 1500 Partien:Games Completed = 1500 (Avg game length = 3180.801 sec ~ 53 Minuten)
Settings = RR/512MB/1800000ms+600ms/M 800cp for 6 moves, D 350 moves/PGN:C:\Schach\LittleBlitzer-2.74\8moves_v3.pgn(32000)
Time = 1590400 sec elapsed, 18 Tage : 9 Stunden : 46 Minuten : 40 Sekunden
1. Stockfish DD 64 SSE4.2 527.5/1000 258-203-539 (L: m=1 t=0 i=0 a=202) (D: r=199 i=210 f=115 s=10 a=0) (tpm=18185.3 d=33.97 nps=2320151)
2. Houdini 4 x64 502.5/1000 236-231-533 (L: m=0 t=0 i=0 a=231) (D: r=140 i=211 f=167 s=10 a=1) (tpm=15236.2 d=25.40 nps=2729731)
3. Komodo TCEC 64-bit 470.0/1000 188-248-564 (L: m=1 t=0 i=0 a=247) (D: r=201 i=263 f=76 s=14 a=1) (tpm=18644.6 d=22.72 nps=2049512)
Program Elo + - Games Score Av.Op. Draws
-------------------------------------------------------------------------
1 Stockfish DD 64 SSE4.2 : 3013 15 15 1000 52.8 % 2994 53.9 %
2 Houdini 4 x64 : 3001 15 15 1000 50.2 % 2999 53.3 %
3 Komodo TCEC 64-bit : 2986 14 14 1000 47.0 % 3007 56.4 %
Individual statistics:
1 Stockfish DD 64 SSE4.2 : 3013 1000 (+258,=539,-203), 52.8 %
Houdini 4 x64 : 500 (+136,=254,-110), 52.6 %
Komodo TCEC 64-bit : 500 (+122,=285,- 93), 52.9 %
2 Houdini 4 x64 : 3001 1000 (+236,=533,-231), 50.2 %
Stockfish DD 64 SSE4.2 : 500 (+110,=254,-136), 47.4 %
Komodo TCEC 64-bit : 500 (+126,=279,- 95), 53.1 %
3 Komodo TCEC 64-bit : 2986 1000 (+188,=564,-248), 47.0 %
Stockfish DD 64 SSE4.2 : 500 (+ 93,=285,-122), 47.1 %
Houdini 4 x64 : 500 (+ 95,=279,-126), 46.9 %
Games : 1500 (finished)
White Wins : 397 (26.5 %)
Black Wins : 285 (19.0 %)
Draws : 818 (54.5 %)
White Perf. : 53.7 %
Black Perf. : 46.3 %
Alle Partien:
http://www.fastgm.de/schach/Top3-1500.zip
Ein weiteres mal kann Stockfish DD bei längerer Bedenkzeit Houdini 4 hinter sich lassen. Diesmal sogar überraschend schon bei 30 Minuten/Partie.
Die +50 Elo aus der IPON- und +64 Elo aus der LS-Rangliste für H4 scheinen sich in Luft aufzulösen.
Eine Beobachtung die die mittlerweile gehäuft auftritt. Stockfish rult.
Michael Scheidl schrieb:
Eine Beobachtung die die mittlerweile gehäuft auftritt. Stockfish rult.
Entspricht durchaus meinen Erwartungen. Und inzwischen ist Stockfish schon wieder +27 Elo (LS-Bedingungen) stärker geworden. Damit sollte der Sieg im nächsten TCEC - wenn überhaupt - nur an der geringen Partienzahl scheitern...
Es bleibt nur die Frage, ob und wann Stockfish auch bei kurzen Bedenkzeiten an Houdini 4 vorbeiziehen kann.
Stefan