Top 3 Turnier - 30 Minuten Partien

By Patrick Götz (Mod.) Date 2013-12-29 12:31

Danke für das interessantes Turnier, Andreas!
Sollte Stockfish am Ende sogar schon bei 30 Min./Partie die Nase vorn haben? Das kann ich mir kaum vorstellen, aber ich bin gespannt auf den weiteren Verlauf.

By Stefan Schiffermüller Date 2013-12-29 14:20

Wie ist der 'contempt' von 'Houdini' und 'drawscore' bei Komodo gesetzt? Ich nehme an default. Bitte auf 0 setzen! Wir werden niemals zu einer Aussage kommen, ob Stockfish oder Komodo ab einer bestimmten Bedenkzeit stärker sind als Houdini, wenn Houdini gehandicapt ist. Einen Test mit noch längerer Bedenkzeit gibt es schon auf talkchess, leider auch mit default-Parametern, also nutzlos.

Gruß Stefan

By Andreas Strangmüller Date 2013-12-29 18:20

Hallo Stefan,

die Optionen aller Engines sind "default".
Wieso sollte ich sie ändern, wenn der Programmierer der Meinung ist, mit diesen Einstellungen spielt seine Engine am stärksten?

Grüße,
Andreas

By Stefan Schiffermüller Date 2013-12-29 18:35

Hallo Andreas,

Der 'contempt' und 'drawscore' sind für Ranglisten voreingestellt, wo es viele schwächere Gegner gibt. Dann wird remis verhindert trotz leicht schlechterer Stellung. Wenn aber die top 3 gegeneinander spielen, so sollten diese Parameter auf 0 gestellt sein. Das empfehlen Robert Houdert und Larry Kaufman.

http://talkchess.com/forum/viewtopic.php?p=547607&highlight=contempt#547607

Gruß Stefan

By Andreas Aicher Date 2013-12-29 19:06

wenn sie das wollen, sollen sie es so als default einstellen.
wo kommen wir dahin, dass Ranglistenbetreiber für jede Bedenkzeit die Grundeinstellung ändern, das war immer so Tradition dass die default Einstellungen immer verwendet werden

By Andreas Strangmüller Date 2013-12-29 19:36

Hallo Stefan,

welche Parameter soll ich verwenden wenn die Top 4 gegeneinander spielen, welche wenn die Top 5 gegeneinander spielen, usw.? Immer unterschiedliche, auf den Gegner optimierte?
Gibt es vielleicht noch optimierte Parameter zu unterschiedlichen Bedenkzeiten, Bullet, Blitz, LTC?

Was will ich damit sagen?
Ich bin nicht gewillt, an irgendwelchen Parametern herumzuschrauben, nur weil der Programmierer glaubt, gegen Gegner A oder Gegner B spielt sein Programm dann besser.
Default Einstellungen sollten die optimalen Einstellungen sein. Wenn nicht, dann ist der Programmierer in der Pflicht hier etwas zu ändern.

Gibt es schon Tests, die bestätigen, dass Houdini bzw. Komodo gegen Stockfish bei contempt=0 oder drawscore=0 besser abschneiden?
Vielleicht mache ich mir auch die Mühe und wiederhole das Turnier mit den von den Programmierern vorgeschlagenen Einstellungen.

Viele Grüße,
Andreas

By Stefan Schiffermüller Date 2013-12-29 21:06

Andreas Strangmüller schrieb:

welche Parameter soll ich verwenden wenn die Top 4 gegeneinander spielen, welche wenn die Top 5 gegeneinander spielen, usw.? Immer unterschiedliche, auf den Gegner optimierte?
Gibt es vielleicht noch optimierte Parameter zu unterschiedlichen Bedenkzeiten, Bullet, Blitz, LTC?

Darum geht es nicht. Es geht nur um die Frage, will man eine Rangliste erstellen oder einen Zwei/Dreikampf gegen die stärksten Engines spielen. Wenn die Parameter nicht optimal eingestellt sind (entsprechend der Empfehlung der Autoren), bleibt nach dem Test ein pfader Beigeschmack wie: Stockfish hat ja nur gewonnen, weil Houdini nicht mit Contempt=0 gespielt hat.

Andreas Strangmüller schrieb:

Default Einstellungen sollten die optimalen Einstellungen sein.

Dann sollte Stockfish immer mit einem Thread laufen. Denn das ist die Voreinstellung. Ich denke, man sollte sich an die Empfehlung des Autors halten, falls es die gibt, ansonsten Default-Einstellung.

Andreas Strangmüller schrieb:

Gibt es schon Tests, die bestätigen, dass Houdini bzw. Komodo gegen Stockfish bei contempt=0 oder drawscore=0 besser abschneiden?
Vielleicht mache ich mir auch die Mühe und wiederhole das Turnier mit den von den Programmierern vorgeschlagenen Einstellungen.

Es gab so viel ich weiß Tests für die IPON und die LS-Liste, wo der Contempt von Houdini 3 auf 0 gesetzt wurde. Houdini schnitt signifikant schlechter ab. Wie sich aber das Spiel gegen gleichstarke Engines verbessert, da ist mir kein Test bekannt.

Gruß Stefan

By Andreas Aicher Date 2013-12-29 22:35

ich denke, dass alles andere als Defaulteinstellungen ein mehr als nur schales Beigeschmäckle hätten, es sei denn, man verwendet sie für alle Bedenkzeiten.
Also müsste sich dann Houdini mit Contempt auch im Bullet beweisen, nicht einmal 2 einmal 0, einmal 1 je nachdem wie die Ergebnisse der Houdinifangemeinde gefallen.

Das hat schon wirklich "Geschmäckle", bisher war immer der Grundsatz bei solchen Tests die Defaulteinstellung zu verwenden.

Bis jetzt finde ich Deine Vergleiche für sehr aufschlussreich, wenn Du jetzt für einzelne Engines die Deffaulteinstellung änderst, sorry, nur noch für die Tonne

Andreas

By Andreas Strangmüller Date 2013-12-29 22:58

Hallo Andreas,

am Grundsatz der Defaulteinstellungen werde ich auch nicht rütteln. Denke das habe ich auch klar und deutlich geschrieben.

Evtl. werde ich interessehalber diesen Test der drei Top Engines mit contempt=0 bzw. drawscore=0 wiederholen, um den Unterschied festzustellen. Mal sehen.

Viele Grüße,
Andreas

By Andreas Aicher Date 2013-12-29 23:52

wie schon unten geschrieben, ich finde es sehr fragwürdig eine Engine derart zu bevorzugen.
Andere Ranglisten benutzen die Default Einstellungen, nicht Contempt 0, ein Vergleich mit anderen Listen verbietet sich dann, wird aber wohl doch stattfinden.
Aber Du kannst das natürlich machen, um den Unterschied festzustellen, nur dann ist eben diese Bevorzugen in der Welt und was dann in der Welt ist, bleibt dann auch.
Ich hoffe nur, dass es keinen Unterschied geben wird.
Sonst braucht man über derartiges gar nicht mehr zu diskutieren, wenn Houdini Anhänger das Resultat nicht passt machen weisen sie einfach auf Aussagen der Programmierer hin, dass Engine XY mit dieser Einstellung gegen bestimmte Gegner, bei bestimmten Bedenkzeiten besser spielt, na super, wenn das Schule macht.
Wäre Schade um das schöne Hobby

Andreas

By Frank Brenner Date 2013-12-30 19:43

> ich finde es sehr fragwürdig eine Engine derart zu bevorzugen.

Ich denke du hast einen wesentlichen Punkt nicht verstanden:

Die Ranglisten werden nicht gemacht, damit sich hinterher der Programmierer der Engine damit brüsten kann oder damit nachher offiziell in der Wikipedia ein Eintrag über die Spielstärke vorgenommen wird, sondern die Spiele werden nur zur Freude und zum Spass gemacht und wir "Freaks" freuen uns dann über die Fortschritte die in der Programmierung erzielt werden.

Und im Kontext dieser Freude an den Fortschritten ist es sogar dienlich wenn man auch einmal den Houdini mit Contempt = 0 testet, um zu sehen ob der Leistungseinbruch den wir bei Houdini bei großen Bedenkzeiten beobachtet haben vielleicht mit dieser Contempt Einstellung etwas zu tun hat.

Bei Houdini ist laut Bedienungsanleitung der Contempt nicht einfach nur der Drawscore so wie bei Stockfish, sondern es gibt auch in der Engine andere Bewertungsterme für eine Reihe von Merkmalen.

Von daher wäre es sogar interessant wenn Stephan Pohl den Houdini auch einmal mit Contempt = 0 durch seine Liste jagen könnte, da hier ja viel mehr Gegener auftreten, um zu gucken ob Contempt = 1 überhaupt grundsätzlich für Houdini vorteilhaft ist.

(Die Chance dass Ingo mit der IPon sowas ausprobiert, halte ich für 0 %, da würde eher Erde die Drehrichtung ändern)

By Andreas Aicher Date 2013-12-30 21:02

ich bin sehr froh, dass ich das nicht verstehen muss

By Andreas Aicher Date 2013-12-30 21:13

jetzt habe ich es verstanden, ihr wollt Betatester für Houdini sein !

By Frank Brenner Date 2013-12-31 01:13

Du denkst immer viel zu kommerziell.

Ich denke für den Großteil wäre es begrüßenswert von ab und zu mal eine Entwicklerversion von houdini zum testen zu verfügung stehen würde, ich denke der eine oder andere würde gerne nachgucken wie groß der fortschritt ist ... so wie bei stockfish.... UNd es würde die szene sehr positiv beleben, wenn auch bei Houdini sichtbare fortschritte erzielt würden, nicht nur bei Stockfish.
Das gleiche gilt natürlich auch für Komodo, aber ich denke Mark Lefler wird sich noch einige Monate in den Code einlesen müssen um Verbesserungen auf eingene Faust erzielen zu können.

By Andreas Aicher Date 2013-12-31 11:55

ich denke dabei sicher nicht kommerziell, das sicher nicht.
Bei Stockfish finde ich das völlig ok.
Houdini ist ja nun mal genau das Gegenteil von Stockfish, Geschmäckle, kommerziell, closed Source (welche denn wohl).
Da gibt es einen Grundsatz Gleiches gleich und Ungleiches ungleich zu behandeln.
Da es nicht lange her ist, dass Albert Camus seinen 100. Geburtstag gefeiert hat, will ich Camus zitieren, der Zweck heiligt niemals die Mittel.
Aber vielleicht trifft das nur zu, wenn man eine Sache nicht allzu ernst sieht und kein Computerschachfreak ist, der nun alles mitmacht.

Andreas

By Stefan Pohl Date 2013-12-31 12:28 Edited 2013-12-31 12:31

Frank Brenner schrieb:

Bei Houdini ist laut Bedienungsanleitung der Contempt nicht einfach nur der Drawscore so wie bei Stockfish, sondern es gibt auch in der Engine andere Bewertungsterme für eine Reihe von Merkmalen.

Von daher wäre es sogar interessant wenn Stephan Pohl den Houdini auch einmal mit Contempt = 0 durch seine Liste jagen könnte, da hier ja viel mehr Gegener auftreten, um zu gucken ob Contempt = 1 überhaupt grundsätzlich für Houdini vorteilhaft ist.

In Marijans 1min-ratinglist (im Immortal-Forum zu finden), von der ich prinzipiell nicht so viel halte, weil ich Bullet-Tests ohne Fischerbonus für höchst fragwürdig halte, wurde Houdini 3 auch mit contempt=0 getestet und es kamen 15 Elo weniger raus. Das ist durchaus realistisch, denke ich, da bei Vergleich eines Settings mit einer Default-Engine Zeitprobleme nicht ins Gewicht fallen (ergo ist hier der fehlende Fischerbonus nicht tragisch). Und diesem Test liegen immerhin 2x3168 Partien zugrunde. Also schon halbwegs aussagekräftig. Ich hatte mit Houdini 3 auch mal ein paar Partien gemacht (2000 glaube ich) und da war der Score auch schlechter mit c=0.
Aber wenns wirklich von allgemeinem Interesse ist, kann ich ja bei Gelegenheit mal einen Testlauf mit Houdini 4 machen. Der Saros 4.1.6 Test sollte am Freitag durch sein. Wenn bis dahin nichts Neues released wird, kann ich ja mal Houdini 4 mit contempt=0 durchlaufen lassen. Ich denke aber, daß dort ein Minus rauskommt, einfach weil Houdini 4 im Bullet klar die Nummer 1 der Welt ist und somit nur gegen schwächere Gegner (als sich selber) spielt. Daher ist ein positiver Contempt auf jeden Fall sinnvoll und ein Contempt=0 wird sicher einige mögliche Gewinne in Remisen verwandeln. Aber testen kann ichs ja mal. Interessant wird dann ja evt. auch, wie sich die Remisquote von Houdini 4 verändert. Theoretisch müßte sie höher ausfallen.

Stefan

By Patrick Götz (Mod.) Date 2013-12-29 19:53

Andersrum müssten bei den anderen Ranglisten die Stockfish Parameter angepasst werden.
Meines wissen hat da aber auch noch nie jemand nachgefragt, ob dass jemand anpassen könnte.

Sinnvoll für eine bessere Vergleichbarkeit wäre es wenn alle Engines default mit contempt=0 oder drawscore=0 eingestellt würden.
Wohlmöglich wäre Stockfish dann aber auch bei den Ranglisten (bei den es viele schwächere Gegner gibt) bereits ganz oben!?

By Stefan Schiffermüller Date 2013-12-29 20:11

Bei Stockfish bringt es nicht so viel, den contempt zu verändern, um gegen Schwächere mehr zu punkten, wie bei Houdini. Deshalb hat man ihn standartmäßig auf 0 belassen.

By Stefan Schiffermüller Date 2013-12-29 21:55

Außerdem gibt es keine klare Empfehlung vom Stockfish-Team, wie der Contempt einzustellen ist für eine Rangliste. Also bleibt dem Ranglistenbetreiber nichts anderes übrig, als die Defaulteinstellung zu verwenden. Der Vergleichbarkeit wegen könnte man den Contempt bei den anderen Engines zwar auch auf 0 setzen. Aber dann würden sich ja alle nach Stockfish richten.

By Andreas Aicher Date 2013-12-29 22:42

ein Experiment, wie stark eine Engine bei verschiedenen Bedenkzeiten spielt, macht doch nur Sinn, wenn die Einstellungen beibehalten werden.
OK. Contempt 0, bei solchen vergleich, aber dann auch auf Bullit und Blitzstufen.
Was wäre das für ein Vergleich und was wäre er Wert (wohl nahe 0) wenn man den je nach Bedenkzeit oder Gegner ändert.
Vielleicht meint der Programmierer gegen Komodo wäre besser 1, gegen Stockfish 0 etc.
Das wäre dann ein sauberes Geschmäckle, den ich bei Defaulteinstellungen nicht sehe

Andreas

By Stefan Schiffermüller Date 2013-12-29 23:23

Ja natürlich, wenn man verschiedene Bedenkzeiten vergleichen will, sollten alle anderen Einstellungen gleich bleiben. Auch innerhalb eines Turniers, wo es um Statistik geht, sollte man die Einstellungen nicht verändern.
Wenn Houdini die Möglichkeit bietet durch den Contempt-Parameter gegen schwächere Gegner (Rangliste) besser zu punkten, so ist das eine gute Sache, die ihm aber nicht zum Nachteil werden sollte, nur weil man in jedem Fall auf den Default-Wert besteht.

Gruß Stefan

By Andreas Aicher Date 2013-12-29 23:37

ich finde das nicht gut, auf jedem Fall wird Houdini dabei bevorzugt, was passiert, solltest Du, was ich zwar nicht glaube, mit Contempt 0 besser abschneiden,
die anderen Ranglisten bleiben doch bei den Defaulteinstellungen, also man sagt dann Houdini ist im Bullet und Blitz der King.
Die anderen, auch mit längerer Bedenkzeit noch vorne, dass dabei andere Einstellungen benutzt werden ist dann nebensächlich.
Also eine Engine mit Contempt default, eine andere mit Contempt 0.
Das ist nicht nur ein pisschen bedenklich, wenn es dann allgemein so wird, werde ich nie mehr einen Blick auf irgendwelche Ranglisten ohne sehr schlechtes Geschmäckle betrachten können und das alles als für die Tonne sehen werden.
Das wäre dann für mich das Ende des Computerschachs, wenn man es so hinbiegen kann, wie es einem gerade passt.
Ich bleibe dabei, Default ist die einzige Einstellung die getestet werden soll um irgendetwas aussagen zu können.
Alles andere ist zwar vielleicht als Experiment recht "lustig" mehr aber nicht

Andreas

By Stefan Schiffermüller Date 2013-12-30 00:05

Andreas Aicher schrieb:

ich finde das nicht gut, auf jedem Fall wird Houdini dabei bevorzugt,

Houdini wird bei dem Top 3 Turnier nicht benachteiligt. Bevorzugt wir Houdini in einer Rangliste mit schwächeren Gegnern, wo Houdini mit contempt ungleich 0 spielt, Stockfish aber mit contempt=0. Dort ist Stockfish aber selber Schuld, weil das Stockfish-Team eben keinen contempt-Wert empfielt oder voreingestellt hat.

By Andreas Aicher Date 2013-12-30 00:19

Du irrst, Houdini wird, wenn das so stattfindet unreperabel bevorzugt, es müssen die Bedingung und die Einstellungen verwendet werden, schade dass Du das nicht akzeptieren willst.
Für mich wäre dann jede Rangliste wertlos geworden, weil der kleinste gemeinsame Nenner abhanden gekommen ist, das Testen mit einer einheitlichen Einstellung, nämlich den Defaulteinstellungen.
Es wäre keine Rangliste mehr miteinander vergleichbar, jeder macht dann seine eigenen Einstellungen und so wird alles verfälscht, wenn es dem Fan einer Engine nicht passt, wie man ja bei Dir sieht

Andreas

By Stefan Schiffermüller Date 2013-12-30 01:25

Ein TCEC-Finale zwischen Houdini und Stockfish, wo Houdini aus dogmatischen Gründen mit contempt spielt und dadurch benachteiligt ist, macht für dich vielleicht Sinn. Für mich nicht.

By Andreas Aicher Date 2013-12-30 02:09

das TCEC Finale fand ohne Beteiligung von Houdini statt.
Aber das ist dann auch eine andere Geschichte, die Programmierer haben da die Möglichkeit eine Betaversion oder geänderte Version spielen zu lassen, auch eine mit Contempt 0 und ich bin sicher, dass das auch getan wurde!
Bei Tests, wie die von Andreas sieht das aber wirklich ganz anders aus.
Der kleinste gemeinsame Nenner, dass Engines mit den vom Programmierer gewählten Default-Einstellungen verwendet werden, darf meiner Meinung nach nicht durchbrochen werden, nicht nur wegen der Vergleichbarkeit der verschiedenen Listen.
Aussagen, dass eine Engine mit anderen Einstellungen bei bestimmten Bedenkzeiten oder gegen bestimmte Gegner besser spielen (könnten) dürfen da keine Rolle spielen.

Andreas

By Benno Hartwig Date 2013-12-30 21:17

> Du irrst, Houdini wird, wenn das so stattfindet unreperabel bevorzugt...

Ist denn überhaupt mal bei irgendeiner Engine tatsächlich bestätigt worden, dass bestimmte Contempt-Werte gegen Engines mit größerer ELO-Distanz zu messbar besseren Ergebnissen führen?
Benno

By Andreas Aicher Date 2013-12-30 22:13

ich glaube, kann mich jetzt aber täuschen, Stefan hat es mal in seiner LS Liste getestet.
Angeblich auch Ingo.
Ich finde aber, das ist eine Aufgabe für Betatester oder dem Programmierer selbst, nicht unbedingt für Ranglisten, da sollte man schon auf die Default Einstellungen vertrauen.
Das kann jemand als Spass für sich machen, nicht unbedingt von anderen fordern, wie das ja hier versucht wird.

Andreas

By Andreas Aicher Date 2013-12-30 00:30

Kam jetzt vielleicht zu hart rüber, unterstelle Dir auch nicht Ergebnisse verfälschen zu wollen, aber im Endeffekt läuft es gerade darauf hinaus.
Wenn ein Programmierer, jetzt überspitzt ausgedrückt, seine Engine darauf zu optimieren, gegen schwächere Engines oder mit kurzer Bedenkzeit sehr gut abzuschneiden, trägt das ja auch Früchte, zumal fast ausschliesslich Ranglisten mit kurzen Bedenkzeiten oder Bullitlisten existieren, so muss er auch damit leben, dass die Engine bei nicht optimierten Bedingungen weniger erfolgreich ist, er kann nicht verlangen, dass man zu seinem Gunsten die Bedingungen für diese Vergleiche oder Ranglisten ändert.
Wenn man das doch macht, ist und bleibt es einfach eine Bevorzugung, die meiner Meinung untragbar ist.
Man schaffe einfach die Bedingungen damit die Engine auf jedem Fall Nummer Eins bleibt, damit sollte man nicht anfangen, wirklich nicht

By Patrick Götz (Mod.) Date 2013-12-30 01:07

Zitat von dem Stockfish Programmierer Lucas Braesch:

"All we need is to change the default contempt of SF to solve the problem. But Marco doesn't want to. In head to head SF is at least on par with Houdini, yet Houdini is significantly above in rating lists. The difference is that Houdini destroys the weaker engines more than SF destroys them, because it doesn't accept 3-fold repetitions where SF would."

http://talkchess.com/forum/viewtopic.php?t=50648

By Tom Paul Date 2013-12-30 09:03

Patrick Götz schrieb:

Das sage ich doch schon seit langem

Stockfish sollte 2-Fold Rep. spielen und dann ausweichen.

By Andreas Aicher Date 2013-12-29 19:12

diese Aussage kann man immer nur mit einer Einstellung machen, nicht bis 8+3 die und ab 9+3, wo die Reihenfolge dann kippt einfach eine andere, das kanns ja nun wirklich nicht sein.
Also über solche Aussagen kann ich mich nur sehr wundern.
Wenn man die Einstellungen verändert lassen sich die Ergebnisse auch nicht mehr vergleichen

By Stefan Schiffermüller Date 2013-12-29 23:31

Gab es denn schon ein Turnier der Top 3 bei anderer Bedenkezeit? Denn nur dann macht deine Aussage Sinn.

By Andreas Aicher Date 2013-12-30 18:53

das ganze ist Computerschach und ohnehin sinnfrei, ich verstehe selbst nicht, warum ich mich dafür interessiere und warum ich überhaupt geantwortet habe, ist doch immer wieder das gleiche Muster.
Eine einmal vorgetragene Meinung wird niemals verändert, dabei geht es doch nur darum, dass man nicht mehrere Default Einstellungen hat und Engines nun mal mit der Einstellung getestet werden und bisher auch immer getestet wurden, wie sie vorgegeben sind.
Nichts weiter, Sinn steckt da keiner dahinter

By Benno Hartwig Date 2013-12-29 15:53

Thanx.
Hat es einen bestimmten Grund, dass du einen Turnierstand meldest, bei dem die 3 Engines unterschiedlich viele Spiele absolvierten?
Es mag nicht wirklich wichtig sein, aber schöner finde ich schon solche Stände, bei denen jeder gleich viele Spiele hatte, gleich oft gegen jeden Gegner antrat und dabei jeweils gleich oft schwarz und weiß hatte.

Benno

By Andreas Strangmüller Date 2013-12-29 18:14

Hallo Benno,

ich habe die aktuell fünf Verlustpartien aufgrund des Rochade-Bugs von Komodo TCEC entfernt, darum der Turnierstand mit der unterschiedlich absolvierten Partienanzahl.
Diese Verlustpartien hole ich nach Turnierende nach.

Grüße,
Andreas

By Benno Hartwig Date 2013-12-30 07:57

Verstehe ich es richtig: du hast Partien entfernt, weil ein Programm einen Bug hat?
Ja sollten die dann nicht unbedingt(!) auch eingehen?
Wenn ein Programm aufgrund eines Programierfehlers Partien verliert, dann sollten die doch auch zählen. Es ist ja schließlich eine ganz reale Schwäche dieses Programms.

Benno

By Tom Paul Date 2013-12-30 09:06

Sehe ich auch so.
Wenn man selbst professionell programmiert, dann passieren solche Bugs nicht, nur wenn man versucht etwas von Stockfish zu übernehmen, was zwar zur einer Spielstärkesteigerung führt aber auch zu Bugs.

By Stefan Pohl Date 2013-12-30 10:05

Benno Hartwig schrieb:

Nein. Erstens gibt es ja schon ein bugfix und zweitens tritt der Rochade-Bug bei Komodo TCEC nur auf, wenn der Zügezähler auf 1 steht. Das passiert ja in einer realen Schachpartie nicht. Das liegt nur an der Unart der LittleBlitzerGUI trotz vorgegebener Eröffnungszüge den Zugzähler immer auf 1 zu setzen, bevor die Engines anfangen zu spielen. In allen anderen GUIs tritt das Problem in realen Partien nicht auf, nur bei künstlich aufgesetzten Stellungen per Stellungseingabe. Ergo macht es durchaus Sinn, die Partien später mit Komodo TCECr nachzuholen.

Stefan

By Benno Hartwig Date 2013-12-30 10:14 Edited 2013-12-30 10:16

> Erstens gibt es ja schon ein bugfix

OK, dann kann man darauf vertrauen, dass nur diese Bug gefixt wurde und nimmt das Ergebnis für die gefixte Version.

> und zweitens tritt der Rochade-Bug bei Komodo TCEC nur auf, wenn der Zügezähler auf 1 steht.

Daran hatte ich nicht gedacht. Du hast recht, das ist eine so spezielle Besonderheit gerade dieses Tests, dass ich das auch ausblenden würde.

Benno

By Andreas Strangmüller Date 2014-01-01 17:57

Zwischenstand nach 743 Partien:

Games Completed = 743 of 3000 (Avg game length = 3170.407 sec)
Settings = RR/512MB/1800000ms+600ms/M 800cp for 6 moves, D 350 moves/PGN:C:\Schach\LittleBlitzer-2.74\8moves_v3.pgn(32000)
Time = 794067 sec elapsed, 2382200 sec remaining

 1.  Stockfish DD 64 SSE4.2     269.0/496  128-94-274    (L: m=1 t=0 i=0 a=93)   (D: r=111 i=97  f=63 s=3 a=0) (tpm=17475.3 d=34.93 nps=2339736)
 2.  Houdini 4 x64              249.0/497  107-112-278   (L: m=0 t=0 i=0 a=112)  (D: r=78  i=106 f=88 s=5 a=1) (tpm=14761.7 d=26.42 nps=2727117)
 3.  Komodo TCEC 64-bit         232.0/493  91-120-282    (L: m=0 t=0 i=0 a=120)  (D: r=101 i=129 f=43 s=8 a=1) (tpm=18250.7 d=22.62 nps=2059050)

    Program                   Elo    +   -   Games   Score   Av.Op.  Draws
  -------------------------------------------------------------------------
  1 Stockfish DD 64 SSE4.2  : 3016   21  20   496    53.4 %   2992   55.2 %
  2 Houdini 4 x64           : 2998   20  20   497    49.5 %   3001   55.9 %
  3 Komodo TCEC 64-bit      : 2986   20  20   493    47.1 %   3007   57.2 %

Individual statistics:

1 Stockfish DD 64 SSE4.2    : 3016  496 (+128,=274,- 94), 53.4 %

Houdini 4 x64               :       250 (+ 65,=135,- 50), 53.0 %
Komodo TCEC 64-bit          :       246 (+ 63,=139,- 44), 53.9 %

2 Houdini 4 x64             : 2998  497 (+107,=278,-112), 49.5 %

Stockfish DD 64 SSE4.2      :       250 (+ 50,=135,- 65), 47.0 %
Komodo TCEC 64-bit          :       247 (+ 57,=143,- 47), 52.0 %

3 Komodo TCEC 64-bit        : 2986  493 (+ 91,=282,-120), 47.1 %

Stockfish DD 64 SSE4.2      :       246 (+ 44,=139,- 63), 46.1 %
Houdini 4 x64               :       247 (+ 47,=143,- 57), 48.0 %

Games        :    743 (finished)

White Wins   :    187 (25.2 %)
Black Wins   :    139 (18.7 %)
Draws        :    417 (56.1 %)

White Perf.  : 53.2 %
Black Perf.  : 46.8 %

By Andreas Strangmüller Date 2014-01-04 08:00

Zwischenstand nach 949 Partien:

Games Completed = 949 of 3000 (Avg game length = 3184.982 sec)
Settings = RR/512MB/1800000ms+600ms/M 800cp for 6 moves, D 350 moves/PGN:C:\Schach\LittleBlitzer-2.74\8moves_v3.pgn(32000)
Time = 1017568 sec elapsed, 2168972 sec remaining

 1.  Stockfish DD 64 SSE4.2     337.5/635  163-123-349    (L: m=1 t=0 i=0 a=122)  (D: r=138 i=130 f=78 s=3 a=0)  (tpm=17696.8 d=34.61 nps=2335219)
 2.  Houdini 4 x64              311.0/634  135-147-352    (L: m=0 t=0 i=0 a=147)  (D: r=91 i=146 f=108 s=6 a=1)  (tpm=14890.5 d=25.99 nps=2726386)
 3.  Komodo TCEC 64-bit         300.5/629  116-144-369    (L: m=1 t=0 i=0 a=143)  (D: r=133 i=174 f=52 s=9 a=1)  (tpm=18197.0 d=22.69 nps=2059243)

    Program                   Elo    +   -   Games   Score   Av.Op.  Draws
  -------------------------------------------------------------------------
  1 Stockfish DD 64 SSE4.2  : 3015   18  18   635    53.1 %   2993   55.0 %
  2 Houdini 4 x64           : 2996   18  18   634    49.1 %   3002   55.5 %
  3 Komodo TCEC 64-bit      : 2990   17  17   629    47.8 %   3005   58.7 %

Individual statistics:

1 Stockfish DD 64 SSE4.2    : 3015  635 (+163,=349,-123), 53.1 %

Houdini 4 x64               :       320 (+ 89,=166,- 65), 53.8 %
Komodo TCEC 64-bit          :       315 (+ 74,=183,- 58), 52.5 %

2 Houdini 4 x64             : 2996  634 (+135,=352,-147), 49.1 %

Stockfish DD 64 SSE4.2      :       320 (+ 65,=166,- 89), 46.2 %
Komodo TCEC 64-bit          :       314 (+ 70,=186,- 58), 51.9 %

3 Komodo TCEC 64-bit        : 2990  629 (+116,=369,-144), 47.8 %

Stockfish DD 64 SSE4.2      :       315 (+ 58,=183,- 74), 47.5 %
Houdini 4 x64               :       314 (+ 58,=186,- 70), 48.1 %

Games        :    949 (finished)

White Wins   :    243 (25.6 %)
Black Wins   :    171 (18.0 %)
Draws        :    535 (56.4 %)

White Perf.  : 53.8 %
Black Perf.  : 46.2 %

By Christian Schmidt Date 2014-01-04 08:49

Ich bin absolut dagegen, bei H4 die Einstellungen gegnerspezifisch zu wählen. Bei Stockfish könnte man auch experimentieren, mit welcher Einstellung er am besten gegen H4 abschneidet. Aber das ist nicht Sinn der Sache bei einer Rangliste. Da sollte nur mit einer Einstellung gearbeitet werden und die ist Default.

Man kann gerne ausprobieren, wie sich einzelne Einstellungen gegen bestimmte Gegner auswirken. Aber das dann bitte außerhalb einer Rangliste.

By Stefan Pohl Date 2014-01-04 10:49

Christian Schmidt schrieb:

Stimmt. Aber man kann eine zweite Testreihe mit einer anderen Einstellung durchführen und das ganze dann zusätzlich als Setting listen. So habe ich das mit Houdini 3 mit tactical mode=true gemacht und mache es jetzt mit Houdini 4 mit contempt=0. Diese Settings kennzeichne ich als solche ("set") und sie werden nicht ins LS-top10-tournament aufgenommen und sind somit nicht die Gegner für spätere Enginetests. Das kann dann durchaus informativ sein und verzerrt die Rangliste nur minimal, sofern man das Ganze nicht überhand nehmen läßt und zig Settings testet...

Stefan

By Andreas Strangmüller Date 2014-01-08 22:53

Zwischenstand nach 1325 Partien:

Games Completed = 1325 of 3000 (Avg game length = 3180.641 sec)
Settings = RR/512MB/1800000ms+600ms/M 800cp for 6 moves, D 350 moves/PGN:C:\Schach\LittleBlitzer-2.74\8moves_v3.pgn(32000)
Time = 1417163 sec elapsed, 1767473 sec remaining

 1.  Stockfish DD 64 SSE4.2     467.5/886  226-177-483    (L: m=1 t=0 i=0 a=176)  (D: r=178 i=191 f=107 s=7 a=0)  (tpm=17967.9 d=34.18 nps=2326324)
 2.  Houdini 4 x64              442.5/885  204-204-477    (L: m=0 t=0 i=0 a=204)  (D: r=122 i=192 f=154 s=8 a=1)  (tpm=15052.6 d=25.56 nps=2728391)
 3.  Komodo TCEC 64-bit         415.0/879  163-212-504    (L: m=1 t=0 i=0 a=211)  (D: r=180 i=239 f=71 s=13 a=1)  (tpm=18486.4 d=22.72 nps=2053451)

    Program                   Elo    +   -   Games   Score   Av.Op.  Draws
  -------------------------------------------------------------------------
  1 Stockfish DD 64 SSE4.2  : 3013   15  15   886    52.8 %   2994   54.5 %
  2 Houdini 4 x64           : 3000   16  16   885    50.0 %   3000   53.9 %
  3 Komodo TCEC 64-bit      : 2987   15  15   879    47.2 %   3006   57.3 %

Individual statistics:

1 Stockfish DD 64 SSE4.2    : 3013  886 (+226,=483,-177), 52.8 %

Houdini 4 x64               :       446 (+120,=228,- 98), 52.5 %
Komodo TCEC 64-bit          :       440 (+106,=255,- 79), 53.1 %

2 Houdini 4 x64             : 3000  885 (+204,=477,-204), 50.0 %

Stockfish DD 64 SSE4.2      :       446 (+ 98,=228,-120), 47.5 %
Komodo TCEC 64-bit          :       439 (+106,=249,- 84), 52.5 %

3 Komodo TCEC 64-bit        : 2987  879 (+163,=504,-212), 47.2 %

Stockfish DD 64 SSE4.2      :       440 (+ 79,=255,-106), 46.9 %
Houdini 4 x64               :       439 (+ 84,=249,-106), 47.5 %

Games        :   1325 (finished)

White Wins   :    350 (26.4 %)
Black Wins   :    243 (18.3 %)
Draws        :    732 (55.2 %)

White Perf.  : 54.0 %
Black Perf.  : 46.0 %

By Andreas Strangmüller Date 2014-01-11 08:02

Bedenkzeit: 30 Minuten / Partie
Intel i5-750 @ 3.5 GHz, Fritzmark: 21.15 / 10150
Alle Engines: 1 Kern, Default settings, 512 MB Hash, keine TBs, Ponder off
Eröffnungen: 8moves_v3.pgn (Fishtest)
GUI: LittleBlitzer 2.74

Endstand nach 1500 Partien:

Games Completed = 1500 (Avg game length = 3180.801 sec ~ 53 Minuten)
Settings = RR/512MB/1800000ms+600ms/M 800cp for 6 moves, D 350 moves/PGN:C:\Schach\LittleBlitzer-2.74\8moves_v3.pgn(32000)
Time = 1590400 sec elapsed, 18 Tage : 9 Stunden : 46 Minuten : 40 Sekunden

 1.  Stockfish DD 64 SSE4.2     527.5/1000  258-203-539    (L: m=1 t=0 i=0 a=202)  (D: r=199 i=210 f=115 s=10 a=0)  (tpm=18185.3 d=33.97 nps=2320151)
 2.  Houdini 4 x64              502.5/1000  236-231-533    (L: m=0 t=0 i=0 a=231)  (D: r=140 i=211 f=167 s=10 a=1)  (tpm=15236.2 d=25.40 nps=2729731)
 3.  Komodo TCEC 64-bit         470.0/1000  188-248-564    (L: m=1 t=0 i=0 a=247)  (D: r=201 i=263 f=76  s=14 a=1)  (tpm=18644.6 d=22.72 nps=2049512)

    Program                   Elo    +   -   Games   Score   Av.Op.  Draws
  -------------------------------------------------------------------------
  1 Stockfish DD 64 SSE4.2  : 3013   15  15  1000    52.8 %   2994   53.9 %
  2 Houdini 4 x64           : 3001   15  15  1000    50.2 %   2999   53.3 %
  3 Komodo TCEC 64-bit      : 2986   14  14  1000    47.0 %   3007   56.4 %

Individual statistics:

1 Stockfish DD 64 SSE4.2    : 3013  1000 (+258,=539,-203), 52.8 %

  Houdini 4 x64             :        500 (+136,=254,-110), 52.6 %
  Komodo TCEC 64-bit        :        500 (+122,=285,- 93), 52.9 %

2 Houdini 4 x64             : 3001  1000 (+236,=533,-231), 50.2 %

  Stockfish DD 64 SSE4.2    :        500 (+110,=254,-136), 47.4 %
  Komodo TCEC 64-bit        :        500 (+126,=279,- 95), 53.1 %

3 Komodo TCEC 64-bit        : 2986  1000 (+188,=564,-248), 47.0 %

  Stockfish DD 64 SSE4.2    :        500 (+ 93,=285,-122), 47.1 %
  Houdini 4 x64             :        500 (+ 95,=279,-126), 46.9 %

Games        :   1500 (finished)

White Wins   :    397 (26.5 %)
Black Wins   :    285 (19.0 %)
Draws        :    818 (54.5 %)

White Perf.  : 53.7 %
Black Perf.  : 46.3 %

Alle Partien:
http://www.fastgm.de/schach/Top3-1500.zip

By Patrick Götz Date 2014-01-11 08:26

Ein weiteres mal kann Stockfish DD bei längerer Bedenkzeit Houdini 4 hinter sich lassen. Diesmal sogar überraschend schon bei 30 Minuten/Partie.
Die +50 Elo aus der IPON- und +64 Elo aus der LS-Rangliste für H4 scheinen sich in Luft aufzulösen.

By Michael Scheidl Date 2014-01-11 12:44

Eine Beobachtung die die mittlerweile gehäuft auftritt. Stockfish rult.

By Stefan Pohl Date 2014-01-11 13:22

Michael Scheidl schrieb:

Eine Beobachtung die die mittlerweile gehäuft auftritt. Stockfish rult.

Entspricht durchaus meinen Erwartungen. Und inzwischen ist Stockfish schon wieder +27 Elo (LS-Bedingungen) stärker geworden. Damit sollte der Sieg im nächsten TCEC - wenn überhaupt - nur an der geringen Partienzahl scheitern...
Es bleibt nur die Frage, ob und wann Stockfish auch bei kurzen Bedenkzeiten an Houdini 4 vorbeiziehen kann.

Stefan