Stärkste Stockfish-Version = Stockfish 4 ???

By Patrick Götz (Mod.) Date 2013-08-21 17:14

[quote="Joe Boden"]
Nur Zufall?
[/quote]

Davon darfst Du ausgehen.

By Ulf Flörsheimer Date 2013-08-21 18:21

Seltsamerweise spielt die neue Version bei mir anscheinend auch schlechter! Ich lasse Stocki (1 Thread) gegen Kommode CCT seit heute morgen mit gleichen Eröffnungsbüchern bei 7'+3" gegeneinander antreten. Das mache ich seit Wochen mit den jeweils neuesten Entwickler-Versionen mit meist sehr ausgeglichenem Verhältnis (in letzter Zeit hatte Stocki oft die Nase leicht vorne). Und jetzt? Jetzt steht es gerade 22,5 : 12,5 für Kommodo (+13 =19 -3) Kommodo scheint damit rund 100 (exakt +102) Elo-Punkte vor Stockfish zu liegen. Ein solches Ergebnis kam in letzter Zeit nie vor. Wirklich seltsam ...

Ach ja, ich benutze die Version "Windows x64 for modern computers + sse4.2" von der Entwickler-Seite. Ich wundere mich daher ein wenig über Ingo Bauers Ergebnisse ...

Schönen Abend
Ulf

By Joe Boden Date 2013-08-21 18:27

Hallo Ulf,

Du solltest in den UCI-Einstellungen die Threads anpassen....bei mir 4. Aber da ich das bei mir gemacht habe ohne Effekt, bleibt auch meine Verwunderung bestehen.

By Joe Boden Date 2013-08-21 19:04

Hier das Endergebnis des Testlaufs von Stockfish 4

Soll jeder seine eigenen Schlüsse daraus ziehen.

Gespielt mit Shredder GUI
315 von 315 Partien gespielt
Spielstufe: 1 Minuten/Partie

stocki4testlauf

Platz Name Houdin Stockf Robodi Stockf Stockf Houdin Stockf Komodo Stockf Houdin Punkte S-B % Perf
1 Houdini 3 Pro x64 XXXXXXX ½00½½11 1½11101 1101101 0½½01½1 1½1½½½½ 1100½1½ ½101011 1111½11 1½11110 42.5 / 63 1271.75 67.46%
2 Stockfish 180813 64 SSE4.2 4t ½11½½00 XXXXXXX 10½110½ 100½1½½ ½½½0½½1 ½½½½1½0 ½1½½½½0 ½½½1½11 ½1½1½1½ 10½101½ 35.5 / 63 1089.50 56.35%
3 Robodini 1.1 0½00010 01½001½ XXXXXXX ½½½00½0 1101½½1 ½½01110 ½½½111½ 11½½1½1 10½½½11 111½1½0 35.5 / 63 1050.25 56.35%
4 Stockfish 270713 64 SSE4.2 [new] 0010010 011½0½½ ½½½11½1 XXXXXXX 01100½0 ½½00½11 10½½½½1 ½½1½110 ½½0½½½½ 01011½1 32.5 / 63 997.50 51.59%
5 Stockfish 090813 64 SSE4.2 4t 1½½10½0 ½½½1½½0 0010½½0 10011½1 XXXXXXX 110½½½½ ½½½½½1½ 001½110 0½½½0½½ 01101½1 32.0 / 63 994.75 50.79%
6 Houdini 2.0c Pro x64 0½0½½½½ ½½½½0½1 ½½10001 ½½11½00 001½½½½ XXXXXXX 0½1½1½0 ½½0½001 1½11100 1½½11½0 30.5 / 63 940.50 48.41%
7 Stockfish 160813 64 SSE4.2 [new] 0011½0½ ½0½½½½1 ½½½000½ 01½½½½0 ½½½½½0½ 1½0½0½1 XXXXXXX ½1½0001 ½½1½½0½ 11½½½½1 29.5 / 63 911.50 46.83%
8 Komodo 5.1r2 64-bit 4t ½010100 ½½½0½00 00½½0½0 ½½0½001 110½001 ½½1½110 ½0½1110 XXXXXXX ½010110 01½½011 28.0 / 63 861.50 44.44%
9 Stockfish 4 64 SSE4.2 4t 0000½00 ½0½0½0½ 01½½½00 ½½1½½½½ 1½½½1½½ 0½00011 ½½0½½1½ ½101001 XXXXXXX 11½001½ 27.0 / 63 820.50 42.86%
10 Houdini 1.5a x64 0½00001 01½010½ 000½0½1 10100½0 10010½0 0½½00½1 00½½½½0 10½½100 00½110½ XXXXXXX 22.0 / 63 702.75 34.92%

By Hauke Lutz Date 2013-08-21 21:06

Danke für deine Mühe, aber ich habe so meine Zweifel daran, dass ein 1+0-turnier mit nur 7x9 Partien eine Aussagekraft besitzt.

Gruß
Hauke

By Joe Boden Date 2013-08-21 21:14

Hallo Hauke,

es war keine Mühe, sondern hat mir Spass gemacht, zumal ich immer mal wieder auch live zuschaue beim Turnier.

Natürlich ist mir klar, dass alles unter 10 000 Partien keine Aussagekraft besitzt. Hier ging es ja auch nur um einen ersten Eindruck.

Aber das wissen wir Freak hier alle. Deswegen musst Du das nicht besonders betonen.

By Andreas Aicher Date 2013-08-21 21:34

Hallo Joe,
kann man wirklich ein Turnier mit 1min Bedenkzeit, nicht pro Zug, sondern pro Partie, wirklich live Verfolgen, ich habe das jetzt extra probiert, davon bekommt man nur Kopfweh.

By Joe Boden Date 2013-08-22 05:03

Andreas,

die Bulletspieler scheinen es zu können und das auch längere Zeit.
Ist eine Sache des Gehirntrainings und der Wahrnehmungsfähigkeit.

By Andreas Aicher Date 2013-08-22 09:07

da übersiehst Du aber, dass man selbst spielt, das ist ganz was anderes, das kann ich auch, nur die Frage wie gut.

By Stefan Pohl Date 2013-08-22 04:03

[quote="Joe Boden"]
Hallo Hauke,

es war keine Mühe, sondern hat mir Spass gemacht, zumal ich immer mal wieder auch live zuschaue beim Turnier.

Natürlich ist mir klar, dass alles unter 10 000 Partien keine Aussagekraft besitzt. Hier ging es ja auch nur um einen ersten Eindruck.

Aber das wissen wir Freak hier alle. Deswegen musst Du das nicht besonders betonen.

[/quote]

Der Test für die LS-Rangliste läuft. Und nur in der LS-Rangliste liegen gesicherte Eloergebnisse (mindestens 10000 gespielte Partien) für neuere Stockfishversionen vor (die neuste und beste ist dort die vom 9.August). Sobald der Test von Stockfish 4 durch ist (voraussichtlich Samstag), werden wir also sicher wissen, ob Stockfish 4 ein Fort- oder Rückschritt ist. Oder auf dem gleichen Level verharrt. Bis dahin müsst ihr euch eben leider gedulden...Es hat ja in jüngerer Vergangenheit durchaus auch mal Rückschritte gegeben, obwohl die jeweiligen Patches gegen andere Stockfishversionen gut gescored haben. Möglich wäre es also durchaus, daß Stockfish 4 schwächer ist als minimal ältere development-Versionen. Das Stockfishteam testet eben fast ausschließlich gegen andere Stockfishversionen. Das ist Zeitsparend aber nicht ohne Risiko.

Stefan

By Joe Boden Date 2013-08-22 04:59

Es ist gut Stefan, dass Du diesen Job machst und wir verlässliche Zahlen bekommen.

Ja stimmt..das mit den Vor-und Rückschritten bei den develoment-Versionen.

Gestern lies ich noch 31 1-min Partien St4 - H3 laufen, da scorte der neue St4 mit leichtem Vorteil 51,xx %.
Hatte den Eindruck, dass sich die beiden Programme absolut auf Augenhöhe gegenüberstehen.

Vielleicht bricht jetzt doch die Stockfish-Ära an.
Und das wäre mittlerweile auch keine Sensation mehr. Der Weg von Stocki führt steil nach oben und da ist noch viel Luft.

By Stefan Pohl Date 2013-08-22 07:57

[quote="Joe Boden"]

Vielleicht bricht jetzt doch die Stockfish-Ära an.
Und das wäre mittlerweile auch keine Sensation mehr. Der Weg von Stocki führt steil nach oben und da ist noch viel Luft.
[/quote]

Stimmt, nur die Schwäche bei kurzen Bedenkzeiten müßte man in den Griff kriegen. Bei längeren Bedenkzeiten ist Stockfish ganz stark und auf jeden Fall der Topfavorit fürs TCEC. Beim IPON-Test liegt Stockfish z.Zt. noch immer knapp im Plus gegen Houdini 3 (allerdings bisher nur 79 Partien im Direktvergleich absolviert). Davon kann Stockfish bei LS-Bedenkzeit und/oder älterer Hardware allerdings z.Zt. nur träumen.

Stefan

By Ingo Bauer Date 2013-08-22 08:38

[quote="Stefan Pohl"]
Beim IPON-Test liegt Stockfish z.Zt. noch immer knapp im Plus gegen Houdini 3 (allerdings bisher nur 79 Partien im Direktvergleich absolviert).
[/quote]

Zwar spiele ich alle Partien mit der Option "Vairable", d. h. dass die Engines zeitgleich unerschiedliche Eröffnungen spielen, aber das Muster ist für jede Engine jeweils identisch. So lange H3 an erster Stelle steht spielt er also die 75 Eröffnungen immer in der selben Reihenfolge. Nun ist mir bei anderen Testläufen aufgefallen das in dieser Reihenfolge H3 in der Regel in der zweiten Hälfte zulegt ... sollte sich das hier wiederholen, und ich sehe keinen Grund warum nicht, würde ich darauf tippen das S4 von H3 noch überholt wird.

Ingo

By Thomas Müller Date 2013-08-22 08:57

würde ich auch tippen.
Komodo hat es schon gedreht.
Tippe auf ein + 38-43 also gesicherter platz 3

By Stefan Pohl Date 2013-08-22 09:35

[quote="Ingo Bauer"]
[quote="Stefan Pohl"]
Beim IPON-Test liegt Stockfish z.Zt. noch immer knapp im Plus gegen Houdini 3 (allerdings bisher nur 79 Partien im Direktvergleich absolviert).
[/quote]

Zwar spiele ich alle Partien mit der Option "Vairable", d. h. dass die Engines zeitgleich unerschiedliche Eröffnungen spielen, aber das Muster ist für jede Engine jeweils identisch. So lange H3 an erster Stelle steht spielt er also die 75 Eröffnungen immer in der selben Reihenfolge. Nun ist mir bei anderen Testläufen aufgefallen das in dieser Reihenfolge H3 in der Regel in der zweiten Hälfte zulegt ... sollte sich das hier wiederholen, und ich sehe keinen Grund warum nicht, würde ich darauf tippen das S4 von H3 noch überholt wird.

Ingo
[/quote]

Völlig korrekt. Dieser Effekt ist mir gerade von Stockfish aus meinen eigenen Testruns wohlbekannt, nur ist er dort umgekehrt, nämlich dergestalt, daß alle von mir getesteten Stockfische (und das waren etliche!) in der zweiten Testhälfte ca.10 Elo schlechter punkteten als in der ersten Testhälfte. Und das, obwohl ich meine 500 Vorgabestellungen, nachdem ich sie aus Franks Datenbank rausgefiltert hatte, noch per Hand zufällig durchmischt habe und man meinen sollte, daß eine so große Zahl von Vorgabestellungen, die noch dazu wild durchgemischt sind und nicht nach Eröffnungssystemen sortiert sind, diesen Effekt eigentlich unmöglich machen sollten. Leider ist dem nicht so.

Aber beim aktuellen Test von Stockfish 4 ist keine weiterer Einbruch zu befürchten, da der Test bei mir auf beiden Testnotebooks läuft und ein Notebook die ersten 250 Vorgabestellungen abspielt und das andere die zweiten 250. Daher ist im von mir geposteten Zwischenstand die schwächere zweite Hälfte auch mit "drin".

Dieser Effekt ist aber (wie du völlig richtig sagst) total Engine-abhängig. Bei meinem letzten Testrun, nämlich Gull 2.2 x64 (teste das Teil unbedingt bald in der IPON, die Engine ist richtig stark geworden (+27 Elo zu Gull 2.1 x64 bei mir)), war der Score in der ersten Testhälfte gute 7 Elo schlechter als in der zweiten Testhälfte, Gull zeigte hier also genau das umgekehrte Verhalten im Vergleich zu Stockfish und legte zum Ende hin deutlich zu.

Stefan