Houdini auf kurze Zeiten optimiert, lange Zeiten schlechter

By Michael Scheidl Date 2014-01-06 12:24

Solche Einzeleindrücke sind eine problematische Grundlage für allgemeine Beurteilung. Es wird immer Gegenbeispiele geben, z.B. Stellungen wo Houdini (oder jede beliebige Engine) einen entscheidenden schweren Zug erst bei einer, drei oder zwölf Minuten findet, oder erst nach Stunden, und in anderen Stellungen mitunter schneller als jede andere Engine im Blitzzeitbereich.

Wenn ich auf mehrere von mir oft aufgerufene Engineranglisten schaue, so finde ich derzeit überall:

1. Houdini
2. Stockfish
3. Komodo

Das erstreckt sich von Lightspeed bis 40/40m (-Äquivalent). Details wie Abstände, Errormargins oder exakte Versionen variieren, aber das Gesamtbild ist eigentlich ein sehr klares. Also, daß Houdini bei TCEC/S2 den Finaleinzug knapp verpaßte, sollte nur auf die "relativ geringe" Partienzahl zurückgeführt werden. Außerdam war das noch nicht ganz die Releaseversion 4.

By Guest Date 2014-01-06 12:32

Michael Scheidl schrieb:

...Also, daß Houdini bei TCEC/S2 den Finaleinzug knapp verpaßte, sollte nur auf die "relativ geringe" Partienzahl zurückgeführt werden. ...

Das sehe ich nicht so! Das "nur" stört mich...

By Benno Hartwig Date 2014-01-06 13:32

> Also, daß Houdini bei TCEC/S2 den Finaleinzug knapp verpaßte, sollte nur auf die "relativ geringe" Partienzahl zurückgeführt werden. Außerdam war das noch nicht ganz die Releaseversion 4.

Houdini hatte bei nur 30 Partien nur 1,0 Punkte Rückstand auf Komodo, der in das Finale kam.
Da spielt der Zufall natürlich eine sehr große Rolle.
Nur aus diesem Turnier kann man aber eben auch nicht ersehen, ob der Platz "schon irgendwie richtig" war, ob Houdini unter diesen Bedingungen nicht eigentlich ein Stück stärker ist als es hier scheint, oder ob er nicht eigentlich Glück hatte, überhaupt so weit zu kommen.

Immhin führt H4 bei CEGT 40/20 (immerhin) die Tabelle an (H4 immerhin noch 18 Punkte vor SFDD und 44 vor K6)
http://www.husvankempen.de/nunn/40_40%20Rating%20List/40_40%20All%20Versions/rangliste.html

und bei CCRL 40/40 sind SFDD und H4 fast gleichauf. (H4 hat 2 vor SFDD und 14 vor K-TCEC, was wohl ungefähr K6 entspricht)
http://www.computerchess.org.uk/ccrl/4040/

Ich vermute daher schon (auch), dass H4 bei TCEC etwas unter Wert gespielt hat ("etwas Pech gehabt hat"), was wegen der kleinen Partienzahl eben sehr leicht mit recht deutlichen Auwirkungen passiert.
Und mit Blick auf die Tabellen vermute ich, dass K6 bei TCEC ggf. etwas über Wert gespielt hat. (Das Glück des Tüchtigen, was man eben auch manchmal hat, in einem Wettkampf, der Dank der Partienzahl aber immerhin schon deutlich mehr Aussagekraft bot als manche andere Turniere wie z.B. die WM-Events.)

Benno

By Andreas Aicher Date 2014-01-06 13:42

ich denke das 3Champ Turnier von Clemens unterstreicht, dass die richtigen Engines im TCEC Finale standen, das war ähnliche Hardware und ähnliche Zeit, auch eine für diese Bedenkzeit beachtliche Partiezahl.
40/20 ist doch etwas anderes, der Vergleich dazu verbietet sich.
Jetzt aber nur im Bezug auf das TCEC und ob die richtigen Engines bei diesen Bedingungen im Finale waren, für mich ein ganz klares ja.

Andreas

By Michael Scheidl Date 2014-01-06 13:57

Zitat:

das 3Champ Turnier von Clemens

Richtig, die hochklassigen Champs-Turniere, aber auch das laufende mittellange von Andreas Strangmüller hatte ich momentan aus dem Blickfeld verloren! Stimmt, unter solchen Bedingungen verpaßt Houdini derzeit quasi regelmäßig Rang Eins, und die Partienzahlen sind nicht ganz gering...

Bei mir ist somit jede Klarheit beseitigt.

By Benno Hartwig Date 2014-01-06 16:15 Edited 2014-01-06 16:18

Hochklassige Turnier sind solche, bei denen SF eventuell weniger unter seinenr Neigung leidet, gegen Schwächere ziemlich viele halbe Punkte abzugeben.
Leidet aber Houdini ggf. hier auch besonders darunter, dass seine Stärke, Schwächere recht sicher zu vermöbeln, nicht zum Tragen kommen kann?

Welche Engine soll bei bestimmten Rahmenbedingungen eigentlich als die Stärkste gelten?
Die, die gegen die Top-Konkurrenz am erfolgreichsten ist?
Die, die gegen die verfügbaren Engines am besten punktet, wobei die annähernd gleich Starken dann nur einen sehr kleinen Teil aus machen?
Oder ein Kompromiss aus beidem? "+1"
Benno

By Rudolf Rohs Date 2014-01-06 16:32

Hallo Benno,

wer hindert Dich dran Ergebnissen von Topengines untereinander einen Bewertungszuschlag zu geben.
So könntest Du ja Spiele mit einem Elounterschied über 200 normal bewerten, bei Elounterschieden unter 200
vielleicht mit 1,2, bei Elounterschieden bis 100 mit 1,5 und unter 50 Elounterschied mit 2 bewerten.

Dann hättest Du eine Übergewichtung der Engines mit ähnlicher Spielstärke.

Gruß

Rudolf

By Benno Hartwig Date 2014-01-07 12:45

> wer hindert Dich dran Ergebnissen von Topengines untereinander einen Bewertungszuschlag zu geben.

Ja, kann man machen, aber:
Gedacht hatte ich aber eher daran, gegen die annähernd gleichstarken Engines einfach mehr Spiele zu machen.
"Zwei Spiele machen" informiert mich halt besser als "Ein Spiel machen, und dieses dann doppelt zu werten".

Benno

By Michael Scheidl Date 2014-01-06 19:56 Edited 2014-01-06 20:03

Zitat:

Hochklassige Turnier sind solche, bei denen SF eventuell weniger unter seinenr Neigung leidet, gegen Schwächere ziemlich viele halbe Punkte abzugeben.

Da fragt sich wieder einmal, was die "wahre" Spielstärke ist. Bitte es nicht abwertend gegenüber sehr, aber nicht ganz so superstarken Testgegnern zu verstehen, aber soll es mich wirklich interessieren ob nun Houdini, Stockfish oder Komodo ein bißchen besser gegen Engines wie Protector, Jonny & Co abschneidet? In welchem Zusammenhang mit einer schachpraktischen Anwendung steht das?

Auf der anderen Seite stört es mich aber überhaupt nicht, wenn irgendwo eine relativ große(*) Bandbreite von Gegnern bzw. Spielstärken antritt, was ja u.U. zu vereinzelten, attraktiven Außenseitersiegen führen kann. Letztere können m.E. etwaige verbliebene Schwächen der "Überflieger" deutlicher aufzeigen als die gegen ihresgleichen. In letzteren sind ja nur noch ganz selten "singuläre Ursachen" für Sieg & Niederlage zu orten. Natürlich nur falls sich jemand wenigstens solche Partien ansieht.

*) wobei man jedoch übertreiben kann

Also bei der Auswahl

1. Resultate wo viele schwächere Engines dabei waren, zählen nicht.
2. Resultate wo keine schwächeren Engines dabei waren, zählen nicht.
3. Mir wurscht.

entscheide ich mich für 3.

By Stefan Schiffermüller Date 2014-01-06 17:40

Das 3Champ-Turnier und das von Andreas Strangmüller sind für Houdini und Komodo mit contempt/drawscore ungleich 0 gespielt worden, was sie gegenüber Stockfish benachteiligt. Diese Daten taugen also nichts, wenn es darum geht, Stockfish, Komodo, Houdini im Zweikampf bei langer Bedenkzeit und vielen Kernen zu vergleichen.

Stefan

By Andreas Aicher Date 2014-01-06 18:27

das schreibst Du immer wieder, doch wird es durch die Wiederholung nicht besser.
Die Botschaft hab ich wohl vernommen, allein mir fehlt der Glaube.
Aber es ist ja jede Meinung erlaubt und im Internet ist jede Meinung auch sofort zu sehen

By Ingo B. Date 2014-01-06 18:43

Es ist das alte Problem. Natürlich war das Turnier mit womöglich nicht optimalen Settings gespielt und natürlich ist sowohl Houdini 4 als auch Stockfish DD (und vielleicht auch K-TCEC nicht 100%) nicht wirklich identisch mit dem was da im Turnier spielte. Jede Diskusion ist müßig. Alles was wir wissen ist, das es knapp war und extrem wenig (zu wenig) Spiele.

Das ist auch der Grund warum kein Privatturnier und keine Rangliste eine WM ersetzen kann. Bei einer WM sind die Programmierer direkt für das Setup ihrer Schütlinge verantwortlich. Da gibt es hinterher kein rausreden ala "hätte, wäre, wenn" ...

Ich persöhnlich schrieb es schon neulich. Ich habe große Zweifel das irgendeine Engine, wenn ordentlich getestet, den Abstand den ich ermittelt habe aufholen oder gar überholen kann. Knapper wirds sicherlich, einfach aufgrund der höheren Remisquote, aber 50 Elo überholen? Das hatten wir noch nie und jetzt lt. Gerüchten gleich zweimal? Ich jedenfalls sehe keine belastbaren Zahlen die das stützen. An jedem Test den ich gesehen habe, hätte ich etwas auszusetzen. Meistens schlicht die Zahl der Spiele aber auch gewählte Eröffnungen, keine Weiß-Schwarz Tausch oder schlicht der Tester.

Wenn man mich zwingen würde an einem Turnier mit gleicher Hardware und Eröffnungsfarbtausch* teilzunehmen und mir die Wahl der Engine stellen würde, würde ich zu Houdini greifen. Nicht nur weil die Engine bei mir die beste ist, sondern auch, weil sie über alle zufälligen Eröffnungen bei mir am konstantesten spielt.

Gruß
Ingo

*Der ganze Eröffnungskladeradatsch kann einem an einem kurzrundigen Turnier den Spaß verderben ...

By Andreas Aicher Date 2014-01-06 20:11

Hallo Ingo,
es geht hier eigentlich weniger um das TCEC Turnier, sondern eher um das 3 Champ Turnier von Clemens Keck und der Top 3 Vergleich von Andreas Strangmüller, auch in anderen Foren sind ähnliche Vergleiche, mit gar nicht wenigen Partien gepostet worden, dabei geht es um den Vergleich verschiedener Bedenkzeiten, immer nur die Top 3 (Houdini, Stockfish, Komodo).
Bei jedem dieser Vergleiche überholt Stockfish Houdini, das alles natürluch unter gleichen Settings.
Dass Stockfish in anderen Ranglisten ab einer bestimmten Bedenkzeit den Zweikampf gegen Houdini gewinnt, kannst Du ja auch da beobachten.
Man muss von dem allem nicht viel halten, ich selbst nehme Statistiken so und so nicht besonders ernst, weil mir mehr am Schach, als Computerschach gelegen ist, doch kann man das doch wohl nicht alles für wertlos erklären, man kann es glauben oder nicht, ernst nehmen oder nicht, aber nicht aufgrund einer Behauptung (hier der Cont. 0 statt default) die überhaupt nicht bewiesen, was nie jemand getestet hat, also da brauche sogar ich einen statistischen Beweis

Ansonsten kann ich alles, was Du geschrieben hast nur unterstreichen, ausser dass meine Vorliebe nicht Houdini gilt, ich ehrlich gesagt Houdini auch nicht haben möchte und froh bin, dass es ihn für Mac nicht gibt, so komme ich nicht in Versuchung und brauche meinen Grundsätzen nicht untreu zu werden.

Andreas

By Michael Scheidl Date 2014-01-06 19:30

Taugen nichts? Aber nur unter zwei Bedingungen:

1. Falls man in solchen Zweikämpfen unbedingt Contempt Null haben will - was ja nicht notwendigerweise so sein muß. Ich zum Beispiel habe gar nichts gegen eine kleine Dosis "kalkuliertes Risiko"... sogar wenn es der (möglicherweise?) etwas schwächere Spieler eingeht, oder gerade dann!

2. Falls sich die vorhandenen Contempt-Defaults überhaupt statistisch meßbar auswirken, im Vergleich zu Null. Dazu ist mir bislang kein beweiskräftiger Vergleich, umso weniger einer unter den o.e. aufwändigen Bedingungen, bekannt. Womit ich keineswegs behaupten will, daß es diesen nicht geben kann. Schon möglich.

Mich persönlich interessieren "antiseptische Laborbedingungen" im Computerschach immer weniger. Bei kleineren und mittleren Turnieren, die keine Ranglistentests sind sondern sich an Kibitze wenden und hauptsächlich interessantes Schach erzeugen wollen, braucht man das nicht.

Es gibt ja hier, wie so oft, verschiedene Philosophien. Gerade habe ich gelesen, wie jemand auf Testen unter Defaults besteht, was zwar auch widerum ein "Dogma" ist, aber eines das wohl tatsächlich große Akzeptanz genießt. Doch manchmal stellen Programmierer Sicherheitsvorgaben ein, damit unter ungünstigen Bedingungen sozusagen nichts passiert. Wenn man weiß was man tut, dann ist es nicht wirklich im Sinne des Erfinders, diese justament auf suboptimalen Werten stehen zu lassen. Dabei denke ich aber nicht an den Contemptfaktor sondern vor allem an Tbs.-Zugriffsparameter (Houdini, Critter) oder "Rate Of Play" (Rybka), usw.

By Stefan Schiffermüller Date 2014-01-06 20:35

Michael Scheidl schrieb:

Ich zum Beispiel habe gar nichts gegen eine kleine Dosis "kalkuliertes Risiko"... sogar wenn es der (möglicherweise?) etwas schwächere Spieler eingeht, oder gerade dann!

Vielleicht ist ein Contempt sogar für die Schwächere Engine bei einem Turnier vorteilhaft, um das Risiko und somit den Glücksfaktor zu erhöhen, auch wenn es auf lange Sicht statistisch nachteilhaft wäre.

Michael Scheidl schrieb:

Falls sich die vorhandenen Contempt-Defaults überhaupt statistisch meßbar auswirken, im Vergleich zu Null.

Das Problem is ja gerade, dass wir das nicht wissen. Und solange wir das nicht wissen bleibt der Zweifel bei jedem Testergebnis.

Michael Scheidl schrieb:

Mich persönlich interessieren "antiseptische Laborbedingungen" im Computerschach immer weniger. Bei kleineren und mittleren Turnieren, die keine Ranglistentests sind sondern sich an Kibitze wenden und hauptsächlich interessantes Schach erzeugen wollen, braucht man das nicht.

Auf Turniere bezogen, stimme ich dir zu. In einem Turnier ist alles erlaubt, z.B. um die Remisquote zu verringern oder die Attraktivität zu erhöhen. Wenn man jedoch statistisch relevante Resultate haben möchte, dann sollte man weitestgehend Laborbedingungen schaffen und sich an die Empfehlungen der Programmierer halten. Es kommt eben darauf an, was man möchte.

Michael Scheidl schrieb:

Es gibt ja hier, wie so oft, verschiedene Philosophien. Gerade habe ich gelesen, wie jemand auf Testen unter Defaults besteht, was zwar auch widerum ein "Dogma" ist, aber eines das wohl tatsächlich große Akzeptanz genießt. Doch manchmal stellen Programmierer Sicherheitsvorgaben ein, damit unter ungünstigen Bedingungen sozusagen nichts passiert. Wenn man weiß was man tut, dann ist es nicht wirklich im Sinne des Erfinders, diese justament auf suboptimalen Werten stehen zu lassen. Dabei denke ich aber nicht an den Contemptfaktor sondern vor allem an Tbs.-Zugriffsparameter (Houdini, Critter) oder "Rate Of Play" (Rybka), usw.

Default-Parameter sind meistens sinnvoll. Manchmal aber nicht.

Stefan

By Benno Hartwig Date 2014-01-06 14:22

> 40/20 ist doch etwas anderes, der Vergleich dazu verbietet sich.

OK, bei TCEC war es immerhin noch die 6-fache Zeit und die 4-fach Kernanzahl. Das ist schon was!
Ob das deutlichere Unterschiede bringt? Nein, das weiß ich auch nicht.

> Jetzt aber nur im Bezug auf das TCEC und ob die richtigen Engines bei diesen Bedingungen im Finale waren, für mich ein ganz klares ja.

Angesichts der Tatsache, dass H4 bei lediglich 30 Partien nur 1,0 Punkte hinter Komodo lag finde ich das aber ausgesprochen mutig!
Noch mutiger finde ich das, wenn ich in diversen Listen bei mittleren Zeiten K6 immer einigermaßen deutlich hinter H4 sah.

Aus meinem Bauch heraus: Wenn das Turnier noch mal genau so durchgeführt wird, dann hat H4 eine mindestens genau so große Chance in das Finale zu kommen wie K6!

K hatte halt das Quäntchen Glück, welches der Tüchtige eben oft auch braucht.
(Und das auch im Finale

)

Benno

By Andreas Aicher Date 2014-01-06 14:33

(einloggen vergessen)

Deine Aussage finde ich genauso mutig, Du vergisst schon wieder das 3 Champs Turnier und andere in anderen Foren gepustete Ergebnisse, da ist dann Komodo stets vor Houdini.
Natürlich würde eine Wiederholung des TCEC bei anderen Vorgabestellungen die Chance einräumen sich fürs Finale zu qualifizieren, das heisst aber doch noch lange nicht, dass nicht die richtigen Engines im Finale waren.
Das waren sie für ohne jeden Zweifel

Andreas

By Rudolf Rohs Date 2014-01-06 14:43

Ich bin schon der Meinung, daß die Finalisten bei der TCEC richtig waren.

Wenn man mal vergleicht:

LS (ca. 1,5 min. Partien)
Houdini 4: 3184
Stockfish DD:   3121
Komodo TCEC: 3121

Also 63 Punkte Vorsprung für Houdini 4 gegenüber der Konkurrenz.

IPON ( ca. 16 min. Partien)
Houdini 4:    3121
stockfish DD: 3071
Komodo TCEC: 3059

Also 50 Punkte zu Stockfish DD und 62 Punkte zu Komodo TCEC.

Amateurschach ( ca. 22 min. Partien)
Houdini 4: 3092
Stockfish DD:    3060
Komodo TCEC:   3047

Also 32 Punkte zu Stockfish DD und 45 Punkte zu Komodo TCEC

CEGT (40/20 4 core)
Houdini 4:    3167
Stockfish DD: 3149
Komodo TCEC: 3123

Also nur noch 18 Punkte zu Stockfish und 44 Punkte zu Komodo TCEC

CCRL (40/40 4 core)
Houdini 4: 3248
Stockfish DD: 3246
Komodo TCEC: 3234

Also nur noch 2 kleine Pünktchen zu Stockfish und 14 Punkte zu Komodo TCEC. Zwar erst einige hundert Partien, aber die Tendenz bei zunehmender Zeit und Rechnerleistung ist aufgrund
der anderen Listen m.E. schlüssig und nicht unerwartet.

Zwischen 1,5 min. pro Partie und 1 min. pro Zug verdampft also der komplette Vorteil von 63 Punkten von Houdini auf Stockfish und auch gegenüber Komodo ist nicht mehr viel Differenz
übrig. Und bei der TCEC wurde 3 min. pro Zug verwendet und auch noch 16 cores. Also noch einmal ein riesiger Gewinn an Rechenleistung, der Stockfish und Komodo warscheinlich weiter zugute kommt.

Ob nun Houdini oder Komodo bei der TCEC Bedenkzeit besser ist, ist also unklar. Zumindest ist aber klar, daß die Beiden bei der TCEC Bedenkzeit in Schlagdistanz zusammenhängen und das deshalb
ein Weiterkommen von Komodo keine große Überraschung war. Entscheidend war wohl dass Stockfish auf langen Bedenkzeiten ein Angstgegner von Houdini zu sein scheint und der zugunsten von Komodo
den Unterschied zum Weiterkommen ausmachte.

Ansonsten ist bei den engen Elounterschieden zwischen diesen drei Topengines bei begrenzter Partienanzahl natürlich alles drin. Auch spielt aufgrund der unterschiedlichen Spielstile natürlich die Eröffnungs-
wahl eine Rolle.

Gruß

Rudolf

By Frank Quisinsky Date 2014-01-07 01:37 Edited 2014-01-07 01:42

Hallo Rudolf,

ja, ich denke wir haben zwei Effekte.
Houdini nimmt ab bei längeren Zeiten zu Stockfish, würde sagen minimal ab zu Komodo (eher stärker zu Stockfish). Es ist interessant die Listen als solche zu vergleichen, dann wird es wie hier im Beispiel sehr deutlich. Und dann haben wir noch den Effekt mit den Remispartien. Houdini 4 hat bei mir die früheste Remispartie nach 39 Zügen gespielt. Das geht gegen die stärkeren natürlich hier und da mal in die Hose aber die schwächeren werden deutlicher bezwungen. Schaue Dir mal diese Datenbank der SWCR2 an, unglaublich was Houdini da getrieben hat (Remisquote).

Zumindest meine Schlußfolgerung wenn ich mir die Ergebnisse so anschaue, nicht nur die eigenen (die sind im Grunde nur ein Mosaiksteinchen).

Sind also bei mir und bei 22.5 Minuten Partien auf sehr schneller Hardware 31 ELO zu Stockfish vom 05.12.2013. Werde in ca. 16 oder erst in 24 Tagen wieder eine Stockfish Version testen und bin mir sicher SF wird dann vor Houdini liegen. Allerdings muss das SF Team noch die vielen Remispartien gegen die Schwächeren in den Griff bekommen. Houdini 4 hat eine um 10% niedrigere Remisquote. Wenn das eingeschränkt werden kann bei der wahnsinnigen Stärke mit frühen Mittelspiel wird es passieren.

Eine Freeware auf 1 und die SF schreitet dann mit nicht zu stoppenden Tempo in ELO Grenzbereiche vor die für uns unfassbar werden. Da bin ich gespannt welches Programmiererteam in den nächsten Jahren diesen Siegeszug stoppen kann. Geht im Grunde nur, wenn ein anderes Team vergleichbares macht wie es die Stockfish Leute tun. Und da ja bekanntlich gute Ideen gerne kopiert werden ... eine Frage der Zeit.

2014 wird das Jahr in dem die Engine Entwicklung einen richtigen Schub bekommen wird.
Wir können uns dafür beim Stockfish Team bedanken, dass wird spannend.

Und nicht nur das ...
Stockfish spielt das schönste Computerschach, atemberaubendes Mittelspiel.
Absolut geile Engine ... bis auf das Remisproblem.

Kann nur meinen Hut ziehen vor dieser Arbeit ... das toppt alles im Computerschach was mir bekannt ist und stellt so vieles in den Schatten.

Und dennoch auch Houdini und Komodo sind geile Engines. Was Houdini da im frühen Endspiel zaubert ist auch Schach von einem anderen Stern.
Houdini macht seinen Namen Ehre.

Gruß
Frank

By Ingo B. Date 2014-01-08 21:15

Hallo

Ich sehe gerade das auf einer tschechischen Newsseite von EV die obige Liste so übernommen wurde. Leider bin ich des Tschechischen nicht mächtig, hoffe aber das der dortige Schreiber das hier liest.

Die Liste oben ist HART nach Bedenkzeiten sortiert und so ausgewählt damit sie zu dem was der Schreiber sagen will passt. Sortiert man nach durchschnittlicher Rechenzeit, weil VÖLLIG unterschiedliche Hardware genommen wird (welche auch noch mit zweifelhaften Benchmarks angepasst wurde), gibt das schon nicht mehr eine so schöne Reihenfolge, nimmt man fehlende Listen mit rein past es auch nicht und beachtet man noch die RIESIGE Fehlerquote je "länger" die Zeiten werden, ist die ganze schöne Abfolge Makulatur oder anders: Es kann so sein, muß aber nicht.

Zb. ist die CCRL 40/4 bei 36 Elo Abstand, die Amateurschachliste müßte womöglich auf Höhe oder über die CEGT 40/20 und die CCRL 40/40 hat eine Errorbar mit einer Breite von 56 Elo für H4 und 48 für S-DD und die CEGT 40/4 mit einem Core hat nur 27 Elo Unterschied.
Man sollte man solche Reihungen die einem Zweck folgen nicht so ernst nehmen oder zumindest sehr genau hinschauen. In Wirklichkeit gibt es noch kein einheitliches Bild sondern es ist ein auf und ab.

Wenn man etwas glauben will - oder auch nicht

- dann findet man auch etwas. Wenn es so einfach ist wie hier gerade sind, zumindest im Moment, noch Zweifel angebracht!

Gruß an Emil (von dessen Seite viele Leute zu mir kommen, Danke)
Ingo

By Tom Paul Date 2014-01-06 15:08

Benno Hartwig schrieb:

Houdini hatte bei nur 30 Partien nur 1,0 Punkte Rückstand auf Komodo, der in das Finale kam.
Da spielt der Zufall natürlich eine sehr große Rolle.
Nur aus diesem Turnier kann man aber eben auch nicht ersehen, ob der Platz "schon irgendwie richtig" war, ob Houdini unter diesen Bedingungen nicht eigentlich ein Stück stärker ist als es hier scheint, oder ob er nicht eigentlich Glück hatte, überhaupt so weit zu kommen.

Immhin führt H4 bei CEGT 40/20 (immerhin) die Tabelle an (H4 immerhin noch 18 Punkte vor SFDD und 44 vor K6)
<a class='urs' href='http://www.husvankempen.de/nunn/40_40%20Rating%20List/40_40%20All%20Versions/rangliste.html'>http://www.husvankempen.de/nunn/40_40%20Rating%20List/40_40%20All%20Versions/rangliste.html</a>

und bei CCRL 40/40 sind SFDD und H4 fast gleichauf. (H4 hat 2 vor SFDD und 14 vor K-TCEC, was wohl ungefähr K6 entspricht)
<a class='urs' href='http://www.computerchess.org.uk/ccrl/4040/'>http://www.computerchess.org.uk/ccrl/4040/</a>

Ich vermute daher schon (auch), dass H4 bei TCEC etwas unter Wert gespielt hat ("etwas Pech gehabt hat"), was wegen der kleinen Partienzahl eben sehr leicht mit recht deutlichen Auwirkungen passiert.
Und mit Blick auf die Tabellen vermute ich, dass K6 bei TCEC ggf. etwas über Wert gespielt hat. (Das Glück des Tüchtigen, was man eben auch manchmal hat, in einem Wettkampf, der Dank der Partienzahl aber immerhin schon deutlich mehr Aussagekraft bot als manche andere Turniere wie z.B. die WM-Events.)

Benno

Die neueste Stockfishdev. oder die die jetzt als nächstes herauskommt, soll je nach Test 10-25 ELO stärker sein als Stockfish DD.
Somit würde Houdini 4 in beiden Listen überholt werden.

By Benno Hartwig Date 2014-01-06 15:46 Edited 2014-01-06 15:48

Ja, die Spielstärkeentwicklung bei Stockfish ist seit mehr als einem halben Jahr rasant, und ich kann im Moment noch keine Sättigungsanzeichen sehen.

Auch mal gucken, wie SF dann in einem halben Jahr aussieht, oder während des Superfinales der nächsten TCEC-Season.
Und mal gucken wer dann überhaupt hier gegen SF antreten darf.

Komodo hat dann die Chance zu zeigen, ob es 2013 im Wesentlichen auch ein wenig glücklich für ihn gelaufen ist, oder ob er bei diesen besonderen Rahmenbedingungen wirklich eine besondere Engine ist.

Benno

By Stefan Pohl Date 2014-01-07 05:25

Benno Hartwig schrieb:

Ja, die Spielstärkeentwicklung bei Stockfish ist seit mehr als einem halben Jahr rasant, und ich kann im Moment noch keine Sättigungsanzeichen sehen.

Das kannst du laut sagen! Der LS-Testrun von Stockfish 140106 läuft unfaßbar gut. Nach 3000 Partien ca. +20 Elo zu Stockfish 131223 (und somit ca. +28 Elo zu Stockfish DD - das wäre sogar (zum ersten Mal) mehr Elozugewinn als der Regression-Test im Framework ergeben hat). Das wäre ein Ergebnis auf Augenhöhe mit Houdini 3.
Um aber gleich in die Euphoriebremse zu treten: Stockfish schwankt in LS-Testruns stärker als andere Engines und daher kann in den verbleibenden 7000 Partien durchaus noch ein Einbruch kommen. Ein schönes Plus sollte aber in jedem Fall rauskommen - nur im Augenblick ist es beinahe zu schön, um wahr zu sein...Endergebnis Donnerstag nachmittag, falls alles glattgeht. Stay tuned!

Stefan

By Benno Hartwig Date 2014-01-07 09:53 Edited 2014-01-07 09:56

Ja. Und seit SF diese Dynamik hat, ist die ganze Computerschachsache noch mal interessanter geworden, finde ich.

> Das wäre ein Ergebnis auf Augenhöhe mit Houdini 3.

Es ist aber wohl schon eine Besonderheit deiner Kurzen Zeiten und der zum großen Teil vglw. schwachen Gegnerschaft, dass SF in deiner Liste noch nicht an H3 vorbeigezogen ist.
Im direkten Vergleich sollte SF auch jetzt schon bei deinen Zeiten den H3 ein kleines Stück hinter sich gelassen haben.
So verstehe ich zumindest die Berichte von anderen, und auch bei mir zieht SF ca. bei 1sec/Zug in der direkter Auseinandersetzung an H3 vorbei.

Das soll aber auf gar keinen Fall eine negative Kritik sein.
Du lieferst statistisch sehr Belastbares. (ob ggf. auch halb so viele Partien belastbar genug wären, kann man ja diskutieren wollen)
Du lieferst immer wieder sehr zeitnah die Einschätzungen, auf die gewartet wird
und die ganze Tabelle ist jetzt eben auf diesen Gegnermix eingerichtet. Dann soll es auch so bleiben.

Benno

By Stefan Pohl Date 2014-01-07 11:11

Benno Hartwig schrieb:

Es ist aber wohl schon eine Besonderheit deiner Kurzen Zeiten und der zum großen Teil vglw. schwachen Gegnerschaft, dass SF in deiner Liste noch nicht an H3 vorbeigezogen ist.

Ersteres stimmt natürlich, zweiteres aber nicht: In keiner Rangliste gibt es stärkere Gegner als bei mir. ich teste nur gegen die 10 besten Engines (und den Ur-Ippo) und da ich keine Engine ausschließe, nur weil sie ein Ippo-Derivat ist, sind diese 10 besten Engines im Eloschnitt erheblich stärker als bei allen anderen Ranglistentests! Im Moment ist der Eloschnitt der 10 Gegner von Stockfish 3067 Elo, wenn ich mich nicht verrechnet habe. Ein auch nur annähernd so starkes Gegnerfeld findest du in keinem anderen Ranglistentest von Stockfish. Und ein stärkeres ist schlicht nicht möglich, weil es nicht mehr stärkere Engines gibt. Und wenigstens 10 Gegner braucht man schon, um ein brauchbares Ranking zu generieren.

Stefan

By Benno Hartwig Date 2014-01-07 12:51

> In keiner Rangliste gibt es stärkere Gegner als bei mir...

Sorry, dann hatte ich was falsch verstanden.
Wenn ich auf http://ls-ratinglist.beepworld.de/ sehe, kann ich dann ggf. irgendwo nachgucken, gegen wen dann beispielsweise "Stockfish 131223 x64s" gespielt hat und mit welchen Ergebnissen?
Hat bei dir eigentlich dieser "Stockfish 131223 x64s" auch gegen "Houdini 3" gespielt? Wenn ja: wie?

Benno

By Stefan Pohl Date 2014-01-07 16:01 Edited 2014-01-07 16:07

Benno Hartwig schrieb:

Sorry, dann hatte ich was falsch verstanden.
Wenn ich auf <a class='urs' href='http://ls-ratinglist.beepworld.de/'>http://ls-ratinglist.beepworld.de/</a> sehe, kann ich dann ggf. irgendwo nachgucken, gegen wen dann beispielsweise "Stockfish 131223 x64s" gespielt hat und mit welchen Ergebnissen?
Hat bei dir eigentlich dieser "Stockfish 131223 x64s" auch gegen "Houdini 3" gespielt? Wenn ja: wie?

Benno

Ich habe doch meine Testbedingungen auf meiner Website klar definiert. Selbstzitat: "A new engine or new engine-version plays against the 11 opponents in the LS-top10-tournament except its own predecessor (if the predecessor is part of the LS top-tournament) (1000 games are played against each of these opponents)."
Das ist doch eigentlich eindeutig, dachte ich zumindest. Aber vielleicht ist auf dieser Seite mittlerweile auch zu viel Text. Also hier nochmal und auf Deutsch:
Jeder Test einer jeden Engine, Beta, Development-Version, Setting ist immer: Je 1000 Partien gegen alle 11 Engines des LS-top10-tournaments - außer ggf. den eigenen Vorgänger, sofern dieser im LS-top10-tournament vertreten ist.
Auf Stockfish 131223 bezogen heißt das, daß Stockfish 131223 gegen 10 Engines des LS-top10-tournaments gespielt hat (eben gegen alle außer seinen Vorgänger Stockfish 131210). Wenn die Engine (wie im diesem Fall) es daraufhin schafft, im LS-top10-tournament zu sein, dann kann man ihre Ergebnisse in der Kreuztabelle des LS-top10-tournaments einsehen, weil die Engine dann ja Teil des LS-top10-tournaments wird. Für die Zukunft dieser Engine heißt das dann, daß sie als Gegner für weitere Engine-Tests verwendet wird, wodurch dann in der LS-Gesamtliste ihre Partienzahl ansteigt (dadurch haben sich bei "Dauerbrennern" wie Critter 1.6a und Strelka 5.5 mittlerweile 64000 Partien angesammelt). Natürlich nur solange, wie sie es schafft im LS-top10-tournament zu bleiben. Es gibt ja 2 Möglichkeiten für eine Engine, aus diesem herauszufallen, nämlich
1) Sie steigt ab, weil eine andere Engine stärker ist, und sie aus den Top10 herausfällt. Wie z.B. Ivanhoe oder Firenzina, die von stärkeren Ippo-Derivaten (Mars, PanChess, Bouquet) verdrängt wurden.
2) Sie wird durch ihren stärkeren Nachfolger ersetzt, so wie Stockfish 131223 seinen Vorgänger Stockfish 131210 aus dem LS-top10-tournament verdrängt hat.

Da Fall 2) weit häufiger auftritt als Fall 1) habe ich mich ja auch entschlossen, die jeweils veraltete Version der Kreuztabelle des LS-top10-tournaments auch auf der Website anzuzeigen, weil man so schön sehen kann, wie sich die Einzelergebnisse der beiden Engineversionen (um beim konkreten Beispiel und der momentanen Situation auf der Website zu bleiben: Stockfish 131210 und seinem Nachfolger Stockfish 131223) verändert haben.

Damit habe ich dann auch gleich die Frage beantwortet, ob Stockfish 131223 gegen Houdini 3 gespielt hat: Nein. Denn Houdini 4 hatte Houdini 3 zu diesem Zeitpunkt schon aus dem LS-top10-tournament verdrängt. Stockfish 131223 hat in der LS-Gesamtliste 12000 Partien absolviert, weil diese Engine zunächst 10*1000 Partien gegen die 10 Gegner des LS-top10-tournaments gespielt hat (diese Einzelergebnisse kannst du in der Kreuztabelle des LS-top10-tournaments einsehen). Dann kamen noch 1000 Partien gegen Saros 4.1.6 und Houdini 4 Contempt=0 dazu, weil diese Tests folgten, nachdem Stockfish 131223 schon selbst ein Teil des LS-top10-tournaments war und somit als Gegner für diese beiden Testruns herhalten mußte...Da Saros 4.1.6 und Houdini 4 Contempt=0 nicht Teil des LS-top10-tournaments sind (Saros zu schwach, Houdini 4 Contempt=0 ist ein Setting und Settings dürfen nicht Teil des LS-top10-tournaments werden), kannst du diese beiden Einzelergebnisse von Stockfish 131223 gegen diese beiden Engines leider nicht auf meiner Website sehen. Sollte in einem solchen Fall brennendes Interessse bestehen, dann kannst du mir über die Kontaktfunktion meiner Website eine email-adresse zukommen lassen, dann würde ich dir alle 12000 Partien zumailen, dann kannst du dir alle Ergebnisse und Partien anschauen...

Klingt komplizierter als es ist...

Stefan

By Benno Hartwig Date 2014-01-07 16:11

Thanx, Stefan.
Ja, so auf deutsch ist es (Asche auf mein Haupt) doch sehr viel leichter zu lesen.

Benno

By Stefan Pohl Date 2014-01-07 16:28

Benno Hartwig schrieb:

Thanx, Stefan.
Ja, so auf deutsch ist es (Asche auf mein Haupt) doch sehr viel leichter zu lesen.

Benno

Naja, ich habe es auf English auch nur sehr viel knapper ausgeführt, weil auf der Conditions-Unterseite sowieso schon viel zu viel Text steht...
Im Zweifel immer nachfragen!
Ich werde mich immer bemühen, alle Fragen möglichst verständlich (und dann auch ausführlicher, so wie in diesem Fall) zu beantworten...

Generell ist die LS-Rangliste ja so konzipiert, daß sie sich auf die stärksten Engines der Welt konzentriert, weswegen auch schwächere (wie Saros) nur gegen die allerbesten Gegner spielen müssen (was ja in anderen Ranglisten nicht der Fall ist) und zu schwache (wie z.B. Chiron 2) gar nicht in die Rangliste aufgenommen werden (dank meiner 30%-Regel)(was es ja anderswo auch nicht (zumindest nicht in so strenger Form) gibt).
Ich wollte das bewußt so haben, weil mich der Top-Bereich einfach interessiert (und alles darunter nicht so sehr) und weil ich auch bewußt andere Testbedingungen haben wollte, als andere Ranglisten, denn sonst hat das Ganze ja keinen Sinn. Deswegen auch das schnelle Bullet-tempo, denn nur so kann ich sehr viele Partien spielen und erreiche dadurch hohe Genauigkeit. Und diese ist einfach vonnöten, denn wenn sich eine Rangliste auf den Top-Bereich konzentriert, und auch Development-versionen und Settings testet, dann ist klar, daß die Abstände zwischen den Engines/Engineversionen in der Rangliste deutlich kleiner sind, als in anderen, "normalen" Ranglisten. Deswegen braucht man mehr Partien. Deswegen das Bullet-Tempo, welches noch zusätzlich den angenehmen Nebeneffekt hat, daß die Remisquoten geringer sind, als bei "normalem" Testtempo (was immer normal bedeuten mag), wodurch die Liste insgesamt ein wenig gestreckt wird (also Ergebnisse etwas auseinanderrücken).
Wie du siehst, ist die gesamte Testumgebung der LS-Rangliste (hoffentlich) ganz gut durchdacht und auf ein einziges Ziel hin ausgerichtet, nämlich den Top-Bereich der Schach-Engines möglichst genau abzubilden...

Stefan

By Andreas Aicher Date 2014-01-07 16:34

Hallo Stefan,
dass Du Stockfish gegen Houdini 3 nicht getestet hast ist zwar klar, geht auch aus Deinem Testbedingungen hervor, wäre aber in diesem speziellem Einzelfall durchaus interessant gewesen

Andreas

By Stefan Pohl Date 2014-01-07 16:41

Andreas Aicher schrieb:

Na, dann warte erst mal das Testergebnis von Stockfish 140106 ab...Das wird interessant. Nach 4500 Partien sieht es so aus, als könnte diese Version fast auf den Elowert von Houdini 3 kommen...Evt. spiele ich mit dieser Version, falls das Ergebnis bis zum Testende so gut bleibt (was noch keinesfalls sicher ist!), noch zusätzlich mal interessehalber 1000 Partien gegen Houdini 3 (außerhalb der Wertung) nach. Mal sehen. Allerdings ist es ja auch so, daß veraltete Versionen einer Engine (Houdini 3), nicht mehr so interessant sind.

Stefan

By Frank Brenner Date 2014-01-07 17:00

Ein Test über 1000 Spiele vs H3 würde mich auch interessieren.

Ich will noch etwas darüber nachdenken wieso bei dir Stockfish (zumindestens in den letzen beiden Tests ) stark angefangen hat (in den ersten paar tausend spielen) und sehr stark nachgelassen hat (in den letzten mehreren tausend spielen).

Du hast ja gesagt, die Eröffnungen sind gewürfelt.

Wie schaut es mit den Gegnern aus ? Werden zuerst 1000 Spiele vs Engine1 und dann 1000 vs engine2 usw... gespielt , oder wie werden die Gegner ausgewählt ?

By Stefan Pohl Date 2014-01-07 18:41 Edited 2014-01-07 18:48

Frank Brenner schrieb:

Nein, das läuft parallel. Es gibt auf jedem der beiden Testnotebooks je ein großes Gauntlet-Turnier (Stockfish gegen seine 10 Gegner). Je 3 Partien zeitgleich (1 Core bleibt frei für Windows und damit die Rechner nicht zu warm werden). Und auf jedem Rechner werden so dann jeweils 250 der insgesamt 500 Eröffnungsstellungen nacheinander abgespielt. Die Eröffnungsstellungen habe ich so gut es ging per Hand zufällig durchmischt, sie sind also nicht nach Systemen geordnet.
Für Zwischenstände rechne ich den prozentualen Erfolgsscore per Taschenrechner aus und bilde dann aus den 2 Ergebnissen (der 2 PCs) den Mittelwert. Den vergleiche ich dann mit dem Endscore der Vorgängerversion.
Konkretes Beispiel: Im Moment liegt Stockfish 140106 auf PC A bei 61.1% (nach 2447 Partien von 5000) und auf PC B bei 62.2% (nach 2464 Partien). Das ergibt einen Mittelwert von 61.65%. Die Vorgängerversion Stockfish 131223 hatte ein Endergebnis von 58.85% (siehe Kreuztabelle LS-top10-tournament: 5885 Punkte aus 10000). Ergo ist die neue Version im Moment +2.8% besser. Das nehme ich dann mal 7, was einen guten Näherungswert in Elo ergibt. In diesem Fall +19.6 Elo.

Bei diesem Testrun war der Verlauf übrigens eher untypisch: Der Start war ganz schlecht. Dann gings nach ein paar Hundert Partien steil nach oben und blieb dann so ab Partie 2000 bis zum jetzigen Zeitpunkt recht stabil. Es hat zwar schon einige Male bei Stockfish-Tests recht späte Einbrüche gegeben, aber es gab auch etliche Testruns (habe ja viele gemacht...), die ab Partie 2000-3000 stabil blieben. Generell kann man also keine Aussagen bzgl. der Stockfish-Testverläufe machen. Das ist immer wieder anders. Das Einzige was man sagen kann, ist, daß Stockfish stärker und auch später in seinen Testruns schwankt, als andere Engines. Die Ippo-Derivate sind da viel stabiler (inklusive Houdini).

Stefan

P.S. Wäre auch mal schön, wenn jemand anders den Test von Houdini 3 gegen Stockfish 140106 machen würde. Die Eröffnungsstellungen kann man sich auf meiner Website downloaden und ich habe auch dort beschrieben, wie man die Bedenkzeiten etwa auf LS-Niveau (je nach verwendeter Hardware) anpaßt. Bei meinem Spieltempo von 45''+500ms schafft man gut 500 Partien pro Tag und Core, also sollte das über Nacht leicht mal durchzuziehen sein.
Eine Step-by-Step-Anleitung für die LittleBlitzerGUI gibt es bei Download der Stellungen gratis mit dazu...Man kann aber natürlich auch eine andere GUI nehmen, sofern sie Fischerboni unter einer Sekunde zuläßt. Oder cutechess-cli.

By Stefan Pohl Date 2014-01-08 06:25

Kurz der neueste Zwischenstand von Stockfish 140106 nach nun 6500 Partien: nur noch +16.3 Elo zu Stockfish 131223. Also gut 3.5 Elo schlechter als noch beim Halbzeitstand. Immer noch ein Riesenergebnis, aber das Einholen von Houdini 3 wird so wohl nichts. Mal sehen, ob die Score-Talfahrt weitergeht, oder sich der Score stabilisiert oder gar erholt?
Auf jeden Fall sieht man (mal wieder), daß gerade bei Stockfish auch jenseits der 5000-Partienmarke durchaus noch erhebliche Ergebnisänderungen eintreten. Der höchste Score dieses Testruns war so bei 3500 Partien, da waren es sagenhafte +23 Elo. Jetzt (3000 Partien später) sind es 7 Elo weniger.
Um Stockfish-Developmentversionen ein vernünftiges, genaues Rating zu verpassen, sind 10000 Partien einfach zwingend notwendig. Sonst ist das Ganze zu ungenau. Das beweist dieser Testrun mal wieder auf eindrückliche Art und Weise. Und es geht hier nicht um 1-3 Elo, wie Frank meint, sondern um 7-10 Elo.

Stefan

By Frank Quisinsky Date 2014-01-08 07:23

Hi Stefan,

dann stellt sich bei Dir die Frage warum ist das so denn das darf nicht sein. Robert Hyatt lässt auch immer ca. 15.000 Partien spielen aber ich weiß nicht wie er das macht bzw. welche Testbedingungen er einsetzt. Es wäre jetzt mal interessant die ELO Entwicklung nach x Partien von diesem "run" zu sehen. Also ELO nach 100, 200 bis zum Endergebnis. Stefan, ich hatte in der SWCR1 viele Engine die 2.000, 4.000 Partien hatten und konnte solche Entwicklungen nie beobachten. Du erklärst damit auch sämtliche Ratinglisten für "unnütz" und die Ratings dieser Listen stimmen. Schaute ich mir die Ergebnisse von CEGT oder CCRL mit denen der SWCR1 an oder von Ingo waren die ermittelten Ergebnisse OK. Hier und da mal unterschiede wie bei Junior oder anderen Engines die aber erklärbare Gründe hatten. Du erwähnst das ja nicht zum ersten Mal, sondern beschreibst das regelmäßig.

Viele Grüße
Frank

By Frank Quisinsky Date 2014-01-08 07:49

Hi Stefan,

was mir aber bei er der Erstellung der SWCR2 aufgefallen ist und das auch schon bei der SWCR1.
z. B. Houdini 3 Pro x64 ... startete bei 10 Gegnern mit 3.105 ELO (also 500 Partien). Und je mehr Engines hinzugekommen sind desto mehr ist das Rating gefallen auf über 50 ELO bei jetzt ca. 1.400 Partien (wenn ich alle Partien nehme). Muss aber auch dazu schreiben, 2 Stockfish Versionen, 2 Komodo Versionen kamen hinzu. Solche größeren Schwankungen hatte ich auch in der SWCR1 dann wenn ich Auswertungen gemacht habe um zu testen wie viele Gegner. Allerdings hatte ich in der SWCR1 immer nur 40 Partien Matches.

So hatte ich festgestellt, dass ca. bei 22-26 Gegner ein Rating stabil bleibt.

Du testest ja im Grunde viele gleiche Programme mit unterschiedlichen Settings (die ganzen IPPs) und hast nur wirklich wenige Programme in der Liste die sich unterschieden.

- Stockfish
- Komodo
- Houdini

- in Critter und GullChess ist viel vom Code drin, dennoch spielen die beiden Programme anderes Schach. Gleiches offenbar bei Equinox, geht aus meinen Statistiken hervor.
- Rybka
- und der Rest vom Schützenfest

Erinnert mich an wenig an die TheKing Testerei mit den ganzen Settings. Da gab es auch Personen die x Settings haben testen lassen und auch Unmengen von solchen kurzen Partien produziert haben. Wurde dann festgestellt, dass ein Setting besonders gut und dieses Setting kam in eine Ratinglisten mit deutlich längeren Zeiten wurde die Standardeinstellung selten weit überflügelt.

Oder ich rufe mir den Test der Exp. Settings bei Rybka in Erinnerung. Hier waren es bei der Exp.42 über 70 ELO Verbesserung. in der SWCR1 war dann zwar klar das Setting spielt besser. Aber nach ca. 2.000 Partien waren es dann ganze 10-15 ELO bei eingeflossenen 25 unterschiedlichen Gegnern. Und sofern ich das richtig in Erinnerung hatte schwankten die Werte beim sehr schnellen testen vergleichbar.

Will Deine Arbeit jetzt nicht niederreden, weil durchaus aus Deiner Liste z. B. die Stockfish Veränderungen mit den neuen Versionen schön abzulesen sind und insofern auch plausible Dinge ermittelt werden. Aber ganz ehrlich Stefan, auf diese Art zu testen hätte ich gar keine Lust. Immer dieses langweilige IPP Schach und nur Stockfish und Komodo dazwischen. Rybka hat ja im Grunde auch keine anderen Stärken und Schwächen wie GullChess. OK Critter hat ein paar Dinge drin die zu mehr Angriffsschach führen aber letztendlich spielen die Programme fast alle gleich, bis auf Komodo und Stockfish die sich stark zu allen anderen unterscheiden. Houdini spielt durch die eingeflossenen Verbesserungen das Endspiel und den Übergang besser aber in den ersten 40 Zügen ist das auch das zu 95% gleiche Schach.

Gruß
Frank

By Stefan Pohl Date 2014-01-08 08:30

Frank Quisinsky schrieb:

Ich erkläre gar keine Rangliste für unnütz. Leg mir bitte nicht so einen Quatsch in den Mund. Alle Ranglisten-Ratings stimmen innerhalb ihrer Errorbars, nicht mehr und nicht weniger. Nur daß du das statistische Prinzip der Errorbars nicht verstehen und/oder akzeptieren willst. Aber das ist dein Problem und nicht meins.
Wie ich hier gerade schon erläutert habe, ist meine Rangliste nun mal nicht wie andere Ranglisten, weil ich mich auf den Top-Bereich konzentriere und auch Development-Versionen teste. Daher sind die Abstände zwischen Engines oder neuen Engine-Versionen bei mir geringer und ich brauche daher Ergebnisse, die genauer und Errorbars die kleiner sind. Ingo sagt z.B. selber über seine IPON, daß er im Bereich von 10 Elo Genauigkeit messen will (und das auch tut) und das ist ja auch völlig in Ordnung. Und für seine Lsite, die sich ja nicht nur auf den Top-Bereich konzentriert ist diese Genauigkeit auch völlig ausreichend.
Und Ergebnisse schwanken nun mal umso stärker, je weniger Partien man spielt. Wenn du nach 2000 oder 4000 Partien nicht weitertestest, wirst du natürlich auch keine weiteren Schwankungen mehr messen - logisch, wenn nicht mehr getestet wird. Und natürlich gibt es auch bei mir viele Testruns, die sich schon nach 1000-1500 Partien auf einen Wert einpendeln, der danach kaum noch schwankt. Das ist sogar die Regel. Nur über die schreibe ich hier dann nichts, wozu auch? Ich beschreibe hier die Ausnahmen, die aber eben durchaus vorkommen (besonders bei Stockfish). Dadurch mag evt. der Eindruck entstehen, daß das bei mir ständig solche Testruns gibt. Das ist aber nicht der Fall.
Aber es kommt eben vor. Was ja auch gemäß der statistischen Wahrscheinlichkeiten durchaus logisch und zu erwarten ist (deswegen ja die Errorbars!!!). Wenn solche Schwankungen bei deinen Tests wirklich nie auftreten (was ich nicht glaube), dann solltest du mal deine Testmethoden überdenken! Denn das kann nicht sein! Jedes Testergebnis, das auf gespielten Partien beruht, wird, während der Test läuft, schwanken. Nur nimmt die Wahrscheinlichkeit für große Schwankungen und die durchschnittliche Schwankungsbreite mit mehr gespielten Partien immer mehr ab. Aber die Schwankungen werden nie ganz verschwinden. Das ist eine fundamentale, statistisch-mathematische Tatsache, an der niemand - auch du nicht - vorbeikommt.
Und im konkreten Fall ist bei Stockfish 140106 der Erfolgsscore nach Partie 3500 bis Partie 6500 um 7 Elo gefallen. Nach 3500 Partien liegt die Errorbar bei ca. +/-8 Elo. Also alles im Rahmen der zu erwartenden Schwankungsbreite. Und zum jetzigen Testzeitpunkt liegt die Errorbar noch bei ca. +/-6.5, ergo könnte das Ergebnis bis zum Ende durchaus nochmal um 6 Elo fallen oder steigen. Aber es muß natürlich nicht so sein und könnte auch stabil bleiben. Aber wenn es nicht stabil bleibt, heißt das nicht, daß mit meinen Tests was nicht stimmt. Nur wenn Schwankungen außerhalb der Errorbar auftreten und das mehr als einmal, dann müßte ich mir Gedanken machen. Aber das ist bisher noch nie passiert.

Stefan

By Frank Quisinsky Date 2014-01-08 17:40 Edited 2014-01-08 17:47

Hallo Stefan,

es steht mir fern Dir etwas in den Mund zu legen.
Das möchte ich zunächst mal klar stellen!

Das Du nur TOP Engines testest ... ist eine Sichtweise, die z. B. nicht meine aber Deine ist.
Muss aber nicht diskutiert werden.

Das mir Ratinglistenbetreiber vorwerfen ich würde die ErrBar nicht verstehen ...

Kurz:
Wenn 1 Programm gegen ein anderen Programm 4.000 Partien spielt (oder 40.000 oder 400.000) so viele Du willst und mir wird z. B. bei 4.000 Partien +-10 ausgegeben ist alleine schon das nicht richtig. Nehme Houdini - Stockfish und dann +-10 ... jetzt nehme 20 andere Engines hinzu und wundere Dich das die +-10 um Wert 500% nicht stimmen und dann frage ich Dich, was will ich mit dieser Information? Wenn die Anzahl der Gegner nicht berücksichtigt wird bei der Berechnung der ErrBar kann die Ausgabe nicht stimmen und genau das geht aus jeder Datenbanksimulation hervor.

Da gibt es auch nichts zu verstehen, weil die Information schlicht und ergreifend nicht korrekt ist. Es mag sein dass die ErrBar eine von der Idee gute Sache ist, ein wichtiger Anhaltspunkt und fast auch logisch aufgebaut aber es fehlen Berücksichtigungen bei der Berechnungsmethode.

Du könntest jetzt argumentieren, dass sich die ErrBar immer nur auf das untereinander bezieht was getestet wurde. OK, aber dann dürften wir die Ausgaben von Liste A nicht auf Liste B projektzieren. Und genau das machen aber die Leute so gerne.

Im Grunde und korrekt wäre wenn eine ELO, eine ErrBar und überhaupt solche Ausgaben nur dann erfolgen, wenn mindestens x verschiedene Gegner verwendet werden. Je mehr dazu kommen, desto geringer bei gleicher Partiezahl müsste die ErrBar Auswertung sein, ist sie aber nicht.

Wenn ich pro Engine 400 Partien gegen 10 Gegner habe müsste die ErrorBar mir eine andere Aussage liefern als wenn ich 400 Partien mit 20 Gegner vorliegen habe. Und so lange das nicht so ist, halte ich von dieser Ausgabe nichts. Ich denke mir immer, mein Gott das kann doch nicht so schwierig zu verstehen sein.

Die ELO Berechnung selbst ... OK, das was in der Datenbank ist sollte ausgewertet werden.
Die ErrBar selbst ... NEIN, wenn schon eine solche Aussage für Extremfälle dann bitte immer in Anbetracht aller möglichen Umstände.

4000 Partien bei 100 Gegnern = +-4 (hatte ich Datenbankmäßig simuliert)
4000 Partien bei 100 Gegnern = +-10 lt. den Berechnungsprogrammen ... FALSCH
4000 Partien bei 10 Gegnern = +-10 lt. den Berechnungsprogrammen ... FALSCH
4000 Partien bei 1 Gegner = +-10 lt. den Berechnungsprogrammen ... FALSCH

Das ist der Punkt !!
Schon selbst x mal beschrieben aber egal ... sollen die Leute glauben was die Programme ausgeben.
Ich will niemanden belehren!

Gruß
Frank

By Frank Quisinsky Date 2014-01-08 17:59

Hi Stefan,

bei glaube ich im Grunde 7 verschiedene Engines die Du einsetzt (unabhängig von der Zeit, auch ein wichtiger Faktor) wirst Du mehr Partien wegen der wenigen Gegner produzieren müssen. Wenn Du jetzt die Gegner tauscht, können gar Gegner mit gleicher Spielstärke sein, kommen andere Zahlen zu Stande. Die sind nicht auszugleichen mit mehr Partien. Wie kann ich Dir das darstellen ... muss überlegen ...

Denke es ist bekannt, dass Houdini gegen Stockfish schlecht punktet.
Denke es ist bekannt, dass Houdini und die meisten der Engines auf diesen Code beruhen.

Würdest Du nun mehr Stockfish Clones als IPP Clones in Deiner Liste haben, würdest Du trotz der vielen Partien komplett andere Ergebnisse erhalten, da wird jede ErrBar auseinandergesprengt. Und da kannst noch 100.000 Partien pro Engine mehr spielen lassen.

Das dann dennoch Houdini in Deiner Liste so weit vorne liegt, hängt damit zusammen das die Engine extrem gut bei solchen Extrembedingungen ist. Wenn schon zwei Faktoren zusammenkommen geht das Rätselraten los und bei den Ratinglisten spielen x Faktoren zusammen die uns schwer durchblicken lassen.

Gruß
Frank

By Stefan Pohl Date 2014-01-09 07:27

Frank Quisinsky schrieb:

Das mir Ratinglistenbetreiber vorwerfen ich würde die ErrBar nicht verstehen ...

Kurz:
Wenn 1 Programm gegen ein anderen Programm 4.000 Partien spielt (oder 40.000 oder 400.000) so viele Du willst und mir wird z. B. bei 4.000 Partien +-10 ausgegeben ist alleine schon das nicht richtig. Nehme Houdini - Stockfish und dann +-10 ... jetzt nehme 20 andere Engines hinzu und wundere Dich das die +-10 um Wert 500% nicht stimmen und dann frage ich Dich, was will ich mit dieser Information? Wenn die Anzahl der Gegner nicht berücksichtigt wird bei der Berechnung der ErrBar kann die Ausgabe nicht stimmen und genau das geht aus jeder Datenbanksimulation hervor.

Tja, dann würde ich mal sagen, vergiss die Simulationen und schauen wir mal auf eine echte Datenbank. Ich habe aus meiner Top10 Datenbank die ersten 6 Engines entfernt, sodaß nur noch 5 Ippo-Derivate übrig blieben und das mal durch bayeselo laufen lassen. Vergleichen wir das mit dem kompletten Top10-Tournament. Nach deiner Theorie oder Simulationen oder was auch immer, müßte ja aufgrund der geringen Zahl der Engines (nur noch 4 Gegner für jede Engine) und der Tatsache, daß es nur noch eng verwandte Ippo-Derivate sind, die hier durch die Eloauswertung laufen, nun komplett unsinnige Ergebnisse rauskommen.
Schau selber:


Rank Name                    Elo    +    - games score oppo. draws 
   1 Fire 3 x64s            3043    6    6  4000   53%  3025   62% 
   2 Mars 1 avx             3037    6    6  4000   52%  3027   63% 
   3 PanChess 00.537 x64    3035    6    6  4000   51%  3028   63% 
   4 Bouquet 1.8 x64        3030    6    6  4000   50%  3029   60% 
   5 Robbolito 0.085g3 x64  3000    5    5  4000   45%  3036   62%


Rank Name                    Elo    +    - games score oppo. draws 
   1 Houdini 4 x64          3183    5    5 10000   67%  3060   43% 
   2 Stockfish 131223 x64s  3129    5    5 10000   59%  3065   45% 
   3 Komodo TCECr x64       3120    5    5 10000   57%  3066   45% 
   4 Gull R600 x64          3075    5    4 10000   51%  3070   52% 
   5 Critter 1.6a x64       3065    5    5 10000   49%  3071   55% 
   6 Strelka 5.5 x64        3061    5    5 10000   49%  3072   55% 
   7 Fire 3 x64s            3044    5    5 10000   46%  3074   55% 
   8 Mars 1 avx             3038    5    5 10000   45%  3074   56% 
   9 PanChess 00.537 x64    3034    5    5 10000   44%  3075   55% 
  10 Bouquet 1.8 x64        3030    5    5 10000   44%  3075   53% 
  11 Robbolito 0.085g3 x64  3000    5    5 10000   39%  3078   53%

Die Ergebnisse sind praktisch identisch. Drei der fünf Engines (Fire, Mars, PanChess) weichen jeweils um einen (!!!) Elopunkt ab. Eine Engine (Bouquet) ist komplett identisch und Robbo 0.085g3 ist ja der vorgegeben Fixpunkt. Und daß trotz der exorbitant gestiegenen Remisquote (weil die Ippos gerade gegeneinander extrem oft remisieren) und eines viel niedrigeren Elodurchschnitts der Gegner und der Tatsache, daß jede Engine nur noch gegen 4 Gegner gespielt hat.

Beweisführung abgeschlossen. Thema für mich damit auch endgültig beendet. Wenn du weiter statistischen Phantasien anhängen willst, bitte sehr, aber in Zukunft ohne Kommentare meinerseits.

Stefan

By Ingo B. Date 2014-01-09 08:33

Stefan Pohl schrieb:

Thema für mich damit auch endgültig beendet. Wenn du weiter statistischen Phantasien anhängen willst, bitte sehr, aber in Zukunft ohne Kommentare meinerseits.

Welcome to the club

Ingo

By Stefan Pohl Date 2014-01-09 10:17

Ingo B. schrieb:

Stefan Pohl schrieb:

Thema für mich damit auch endgültig beendet. Wenn du weiter statistischen Phantasien anhängen willst, bitte sehr, aber in Zukunft ohne Kommentare meinerseits.

Welcome to the club

Ingo

Ich war doch immer in dem Club. Aber dieses kleine Experiment war insofern auch für mich noch lehrreich, als daß ich festgestellt habe, daß selbst eine solche reine "Ippo-Inzucht" Teilliste noch erstaunlich präzise Ergebnisse liefert. Ich war zwar immer der Meinung, daß auch mehrere Derivate in der LS-Liste und auch im LS-top10-tournament keine starken Verzerrungen verursachen, aber das der Effekt so gering (praktisch gleich Null) ist, hat mich doch etwas überrascht. Mit ein paar Elopunkten Abweichungen (so im 5-10 Elobereich) hier und da, hatte ich schon gerechnet.
Versuch macht kluch...

Stefan

By Ingo B. Date 2014-01-09 10:25

Was kommt raus wenn du in deiner Top 11 Liste die Nr. 6 bis 11 wegläßt und Critter 3065 eichst?

Ingo

By Stefan Pohl Date 2014-01-09 12:26

Ingo B. schrieb:

Was kommt raus wenn du in deiner Top 11 Liste die Nr. 6 bis 11 wegläßt und Critter 3065 eichst?

Ingo

Im moment wenig Zeit. Ich werde das demnächst aber sicher mal probieren.
Ich erwarte da aber größere Abweichungen, wenn die Ippo-Derivate alle rausfallen. Aber wie groß?
Probiere ich bald mal aus.

Stefan

By Stefan Pohl Date 2014-01-09 16:18

Stefan Pohl schrieb:

Ingo B. schrieb:

Was kommt raus wenn du in deiner Top 11 Liste die Nr. 6 bis 11 wegläßt und Critter 3065 eichst?

Ingo

Hier das Ergebnis für den oberen Bereich.


Rank Name                    Elo    +    - games score oppo. draws 
   1 Houdini 4 x64          3174    6    7  4000   60%  3100   45% 
   2 Stockfish 140106 x64s  3146    6    7  4000   56%  3107   47% 
   3 Komodo TCECr x64       3117    7    6  4000   50%  3114   46% 
   4 Gull R600 x64          3074    7    7  4000   43%  3125   50% 
   5 Critter 1.6a x64       3064    7    7  4000   41%  3128   50%


Rank Name                    Elo    +    - games score oppo. draws 
   1 Houdini 4 x64          3182    5    5 10000   67%  3061   43% 
   2 Stockfish 140106 x64s  3144    5    5 10000   61%  3064   45% 
   3 Komodo TCECr x64       3120    5    5 10000   57%  3067   45% 
   4 Gull R600 x64          3075    5    5 10000   51%  3071   52% 
   5 Critter 1.6a x64       3064    5    5 10000   49%  3072   55% 
   6 Strelka 5.5 x64        3059    5    5 10000   48%  3073   55% 
   7 Fire 3 x64s            3043    5    5 10000   46%  3075   55% 
   8 Mars 1 avx             3037    5    5 10000   45%  3075   57% 
   9 PanChess 00.537 x64    3034    5    5 10000   44%  3076   55% 
  10 Bouquet 1.8 x64        3030    5    5 10000   44%  3076   53% 
  11 Robbolito 0.085g3 x64  3000    5    5 10000   39%  3079   53%

Auch hier halten sich die Verschiebungen im Rahmen. Gull 1 Elo, Stockfish 2 Elo, Komodo 3 Elo. Nur bei Houdini sind es 8 Elo Abweichung. Was aber auch nicht wirklich viel ist und auch noch weit innerhalb der sich bei Vergleichen ja addierenden Errorbar beider Houdini-Zahlen von insgesamt 11 Elo liegt. Also alles OK. Und geringere Verschiebungen als ich gedacht hätte. Da frag ich mich ja beinahe schon, warum ich immer gegen 10 Engines teste...
Auf jeden Fall sehr interessant das mal gemacht zu haben. Schon bei nur 4 Gegnern gibt es offenbar recht brauchbare Gesamtergebnisse. Hätte ich nicht gedacht. Dachte immer, 10 sollten es schon sein. Wieder was gelernt.

Stefan

By Stefan Schiffermüller Date 2014-01-09 22:03

Das bessere Ergebnis von Houdini im Top10-Turnier mit mehr Ippon-Derivaten passt gut in die Theorie von Larry Kaufman, nach der die bessere Engine gegen ähnliche Gegner besser punktet als gegen unähnliche.

By Stefan Pohl Date 2014-01-10 07:11

Stefan Schiffermüller schrieb:

Stimmt zwar, aber es sind nur 8 Punkte Zuwachs, was auch Zufall sein kann, weil es innerhalb der sich addierenden Errorbar der beiden Houdini-Zahlen liegt.

Stefan

By ? Date 2014-01-10 10:32

Stefan Pohl schrieb:

Hier das Ergebnis für den oberen Bereich.

<code>
Rank Name Elo + - games score oppo. draws
   1 Houdini 4 x64 3174 6 7 4000   60% 3100   45%
   2 Stockfish 140106 x64s 3146 6 7 4000   56% 3107   47%
   3 Komodo TCECr x64    3117 7 6 4000   50% 3114   46%
   4 Gull R600 x64 3074 7 7 4000   43% 3125   50%
   5 Critter 1.6a x64    3064 7 7 4000   41% 3128   50%
</code>

<code>
Rank Name Elo + - games score oppo. draws
   1 Houdini 4 x64 3182 5 5 10000   67% 3061   43%
   2 Stockfish 140106 x64s 3144 5 5 10000   61% 3064   45%
   3 Komodo TCECr x64    3120 5 5 10000   57% 3067   45%
   4 Gull R600 x64 3075 5 5 10000   51% 3071   52%
   5 Critter 1.6a x64    3064 5 5 10000   49% 3072   55%
   6 Strelka 5.5 x64 3059 5 5 10000   48% 3073   55%
   7 Fire 3 x64s 3043 5 5 10000   46% 3075   55%
   8 Mars 1 avx    3037 5 5 10000   45% 3075   57%
   9 PanChess 00.537 x64 3034 5 5 10000   44% 3076   55%
10 Bouquet 1.8 x64 3030 5 5 10000   44% 3076   53%
11 Robbolito 0.085g3 x64 3000 5 5 10000   39% 3079   53%
</code>

Und jetzt die Tops nochmal auswerten mit H4 Contempt 0. Mal sehen ob sich Houdini erholt und besser abschneidet.

Ingo

By Michael Scheidl Date 2014-01-10 19:14 Upvotes 1

Wow, seit mehr als acht Stunden kein neues Posting in diesem überaus wichtigen Thread mehr? Dann strengt Euch mal an, wir wollen doch nicht die Substanzlosigkeit in Vergessenheit geraten lassen!