Not logged inCSS-Forum
Forum CSS-Online Help Search Login
CSS-Shop Impressum Datenschutz
Up Topic Hauptforen / CSS-Forum / Stärkste Stockfish-Version = Stockfish 4 ???
- - By Joe Boden Date 2013-08-21 16:53 Edited 2013-08-21 16:56
Natürlich hat es mich gereizt auszutesten, wie stark eigentlich der neue Stockfish 4 ist.

Deshalb habe ich einige Stockiversionen gegen alle Houdini-Versionen, Robodini und Komodo spielen lassen. Also die stärkste Gegnerschaft.

Nach meinen Tests mit Hunderten von 1-min-Blitz-Partien zeigt sich überraschenderweise ein seltsames Bild.
St 4 liegt am unteren Ende der Developement-Versionen der letzten Wochen. Am Ende meines noch laufenden Turniers
sieht es nach ca. 250 Partien am Tabellenende so aus:

8  Stockfish 160813 64 SSE4.2 [new]  0011½0  ½0½½½½  ½½½00  ½½½½½  1½0½0½  01½½½½  ½1½000  XXXXXXX  ½½1½½0  11½½½½  23.5 / 52  591.75  45.19%  
9  Stockfish 4 64 SSE4.2 4t  0000½  ½0½0½0  01½½½0  1½½½1½  0½000  ½½1½½½  ½1010  ½½0½½1  XXXXXXX  11½001  21.5 / 51  534.50  42.16%  
10  Houdini 1.5a x64  0½000  01½010  000½0  10010½  0½½00  10100½  10½½10  00½½½½  00½110  XXXXXXX  17.0 / 51  436.25  33.33%  

Nur Zufall?

Natürlich werde ich das Endergebnis sofort hier posten. Die Ergenisse die Michael Scheidl ermittelt hat, dürften der Realität sehr nahe kommen. Eine andere Version liegt in meinem Turnier derzeit bei 57 %. Noch hundert Partien, dann werde ich das Endergebnis hier einstellen.

Erstaunlicherweise ist Stocki 4 bei weitem nicht so stark wie andere Versionen, und ich frage mich,
warum gerade die Stocki-Version vom 20. August 2013 als offizieller Release von St 4 erschien?
Parent - By Patrick Götz (Mod.) Date 2013-08-21 17:14
[quote="Joe Boden"]
Nur Zufall?
[/quote]

Davon darfst Du ausgehen.
Parent - - By Ulf Flörsheimer Date 2013-08-21 18:21
Seltsamerweise spielt die neue Version bei mir anscheinend auch schlechter! Ich lasse Stocki (1 Thread) gegen Kommode CCT seit heute morgen mit gleichen Eröffnungsbüchern bei 7'+3" gegeneinander antreten. Das mache ich seit Wochen mit den jeweils neuesten Entwickler-Versionen mit meist sehr ausgeglichenem Verhältnis (in letzter Zeit hatte Stocki oft die Nase leicht vorne). Und jetzt? Jetzt steht es gerade 22,5 : 12,5 für Kommodo (+13 =19 -3) Kommodo scheint damit rund 100 (exakt +102) Elo-Punkte vor Stockfish zu liegen. Ein solches Ergebnis kam in letzter Zeit nie vor. Wirklich seltsam ... 

Ach ja, ich benutze die Version "Windows x64 for modern computers + sse4.2" von der Entwickler-Seite. Ich wundere mich daher ein wenig über Ingo Bauers Ergebnisse ...

Schönen Abend
Ulf
Parent - By Joe Boden Date 2013-08-21 18:27
Hallo Ulf,

Du solltest in den UCI-Einstellungen die Threads anpassen....bei mir 4. Aber da ich das bei mir gemacht habe ohne Effekt, bleibt auch meine Verwunderung bestehen.
Parent - - By Joe Boden Date 2013-08-21 19:04
Hier das Endergebnis des Testlaufs von Stockfish 4

Soll jeder seine eigenen Schlüsse daraus ziehen.

Gespielt mit Shredder GUI
315 von 315 Partien gespielt
Spielstufe: 1 Minuten/Partie

stocki4testlauf

Platz  Name  Houdin  Stockf  Robodi  Stockf  Stockf  Houdin  Stockf  Komodo  Stockf  Houdin  Punkte  S-B  %  Perf
1  Houdini 3 Pro x64  XXXXXXX  ½00½½11  1½11101  1101101  0½½01½1  1½1½½½½  1100½1½  ½101011  1111½11  1½11110  42.5 / 63  1271.75  67.46%  
2  Stockfish 180813 64 SSE4.2 4t  ½11½½00  XXXXXXX  10½110½  100½1½½  ½½½0½½1  ½½½½1½0  ½1½½½½0  ½½½1½11  ½1½1½1½  10½101½  35.5 / 63  1089.50  56.35%  
3  Robodini 1.1  0½00010  01½001½  XXXXXXX  ½½½00½0  1101½½1  ½½01110  ½½½111½  11½½1½1  10½½½11  111½1½0  35.5 / 63  1050.25  56.35%  
4  Stockfish 270713 64 SSE4.2 [new]  0010010  011½0½½  ½½½11½1  XXXXXXX  01100½0  ½½00½11  10½½½½1  ½½1½110  ½½0½½½½  01011½1  32.5 / 63  997.50  51.59%  
5  Stockfish 090813 64 SSE4.2 4t  1½½10½0  ½½½1½½0  0010½½0  10011½1  XXXXXXX  110½½½½  ½½½½½1½  001½110  0½½½0½½  01101½1  32.0 / 63  994.75  50.79%  
6  Houdini 2.0c Pro x64  0½0½½½½  ½½½½0½1  ½½10001  ½½11½00  001½½½½  XXXXXXX  0½1½1½0  ½½0½001  1½11100  1½½11½0  30.5 / 63  940.50  48.41%  
7  Stockfish 160813 64 SSE4.2 [new]  0011½0½  ½0½½½½1  ½½½000½  01½½½½0  ½½½½½0½  1½0½0½1  XXXXXXX  ½1½0001  ½½1½½0½  11½½½½1  29.5 / 63  911.50  46.83%  
8  Komodo 5.1r2 64-bit 4t  ½010100  ½½½0½00  00½½0½0  ½½0½001  110½001  ½½1½110  ½0½1110  XXXXXXX  ½010110  01½½011  28.0 / 63  861.50  44.44%  
9  Stockfish 4 64 SSE4.2 4t  0000½00  ½0½0½0½  01½½½00  ½½1½½½½  1½½½1½½  0½00011  ½½0½½1½  ½101001  XXXXXXX  11½001½  27.0 / 63  820.50  42.86%  
10  Houdini 1.5a x64  0½00001  01½010½  000½0½1  10100½0  10010½0  0½½00½1  00½½½½0  10½½100  00½110½  XXXXXXX  22.0 / 63  702.75  34.92%  
Parent - - By Hauke Lutz Date 2013-08-21 21:06
Danke für deine Mühe, aber ich habe so meine Zweifel daran, dass ein 1+0-turnier mit nur 7x9 Partien eine Aussagekraft besitzt.

Gruß
Hauke
Parent - - By Joe Boden Date 2013-08-21 21:14
Hallo Hauke,

es war keine Mühe, sondern hat mir Spass gemacht, zumal ich immer mal wieder auch live zuschaue beim Turnier.

Natürlich ist mir klar, dass alles unter 10 000 Partien keine Aussagekraft besitzt. Hier ging es ja auch nur um einen ersten Eindruck.

Aber das wissen wir Freak hier alle. Deswegen musst Du das nicht besonders betonen.  
Parent - - By Andreas Aicher Date 2013-08-21 21:34
Hallo Joe,
kann man wirklich ein Turnier mit 1min Bedenkzeit, nicht pro Zug, sondern pro Partie, wirklich live Verfolgen, ich habe das jetzt extra probiert, davon bekommt man nur Kopfweh.
Parent - - By Joe Boden Date 2013-08-22 05:03
Andreas,

die Bulletspieler scheinen es zu können und das auch längere Zeit.
Ist eine Sache des Gehirntrainings und der Wahrnehmungsfähigkeit.
Parent - By Andreas Aicher Date 2013-08-22 09:07
da übersiehst Du aber, dass man selbst spielt, das ist ganz was anderes, das kann ich auch, nur die Frage wie gut.
Parent - - By Stefan Pohl Date 2013-08-22 04:03
[quote="Joe Boden"]
Hallo Hauke,

es war keine Mühe, sondern hat mir Spass gemacht, zumal ich immer mal wieder auch live zuschaue beim Turnier.

Natürlich ist mir klar, dass alles unter 10 000 Partien keine Aussagekraft besitzt. Hier ging es ja auch nur um einen ersten Eindruck.

Aber das wissen wir Freak hier alle. Deswegen musst Du das nicht besonders betonen.  
[/quote]

Der Test für die LS-Rangliste läuft. Und nur in der LS-Rangliste liegen gesicherte Eloergebnisse (mindestens 10000 gespielte Partien) für neuere Stockfishversionen vor (die neuste und beste ist dort die vom 9.August). Sobald der Test von Stockfish 4 durch ist (voraussichtlich Samstag), werden wir also sicher wissen, ob Stockfish 4 ein Fort- oder Rückschritt ist. Oder auf dem gleichen Level verharrt. Bis dahin müsst ihr euch eben leider gedulden...Es hat ja in jüngerer Vergangenheit durchaus auch mal Rückschritte gegeben, obwohl die jeweiligen Patches gegen andere Stockfishversionen gut gescored haben. Möglich wäre es also durchaus, daß Stockfish 4 schwächer ist als minimal ältere development-Versionen. Das Stockfishteam testet eben fast ausschließlich gegen andere Stockfishversionen. Das ist Zeitsparend aber nicht ohne Risiko.

Stefan
Parent - - By Joe Boden Date 2013-08-22 04:59
Es ist gut Stefan, dass Du diesen Job machst und wir verlässliche Zahlen bekommen.

Ja stimmt..das mit den Vor-und Rückschritten bei den develoment-Versionen.

Gestern lies ich noch 31 1-min Partien St4 - H3 laufen, da scorte der neue St4 mit leichtem Vorteil 51,xx %.
Hatte den Eindruck, dass sich die beiden Programme absolut auf Augenhöhe gegenüberstehen.

Vielleicht bricht jetzt doch die Stockfish-Ära an.
Und das wäre mittlerweile auch keine Sensation mehr. Der Weg von Stocki führt steil nach oben und da ist noch viel Luft.
Parent - - By Stefan Pohl Date 2013-08-22 07:57
[quote="Joe Boden"]

Vielleicht bricht jetzt doch die Stockfish-Ära an.
Und das wäre mittlerweile auch keine Sensation mehr. Der Weg von Stocki führt steil nach oben und da ist noch viel Luft.
[/quote]

Stimmt, nur die Schwäche bei kurzen Bedenkzeiten müßte man in den Griff kriegen. Bei längeren Bedenkzeiten ist Stockfish ganz stark und auf jeden Fall der Topfavorit fürs TCEC. Beim IPON-Test liegt Stockfish z.Zt. noch immer knapp im Plus gegen Houdini 3 (allerdings bisher nur 79 Partien im Direktvergleich absolviert). Davon kann Stockfish bei LS-Bedenkzeit und/oder älterer Hardware allerdings z.Zt. nur träumen.

Stefan
Parent - - By Ingo Bauer Date 2013-08-22 08:38
[quote="Stefan Pohl"]
Beim IPON-Test liegt Stockfish z.Zt. noch immer knapp im Plus gegen Houdini 3 (allerdings bisher nur 79 Partien im Direktvergleich absolviert).
[/quote]

Zwar spiele ich alle Partien mit der Option "Vairable", d. h. dass die Engines zeitgleich unerschiedliche Eröffnungen spielen, aber das Muster ist für jede Engine jeweils identisch. So lange H3 an erster Stelle steht spielt er also die 75 Eröffnungen immer in der selben Reihenfolge. Nun ist mir bei anderen Testläufen aufgefallen das in dieser Reihenfolge H3 in der Regel in der zweiten Hälfte zulegt ... sollte sich das hier wiederholen, und ich sehe keinen Grund warum nicht, würde ich darauf tippen das S4 von H3 noch überholt wird.

Ingo
Parent - By Thomas Müller Date 2013-08-22 08:57
würde ich auch tippen.
Komodo hat es schon gedreht.
Tippe auf ein + 38-43 also gesicherter platz 3
Parent - By Stefan Pohl Date 2013-08-22 09:35
[quote="Ingo Bauer"]
[quote="Stefan Pohl"]
Beim IPON-Test liegt Stockfish z.Zt. noch immer knapp im Plus gegen Houdini 3 (allerdings bisher nur 79 Partien im Direktvergleich absolviert).
[/quote]

Zwar spiele ich alle Partien mit der Option "Vairable", d. h. dass die Engines zeitgleich unerschiedliche Eröffnungen spielen, aber das Muster ist für jede Engine jeweils identisch. So lange H3 an erster Stelle steht spielt er also die 75 Eröffnungen immer in der selben Reihenfolge. Nun ist mir bei anderen Testläufen aufgefallen das in dieser Reihenfolge H3 in der Regel in der zweiten Hälfte zulegt ... sollte sich das hier wiederholen, und ich sehe keinen Grund warum nicht, würde ich darauf tippen das S4 von H3 noch überholt wird.

Ingo
[/quote]

Völlig korrekt. Dieser Effekt ist mir gerade von Stockfish aus meinen eigenen Testruns wohlbekannt, nur ist er dort umgekehrt, nämlich dergestalt, daß alle von mir getesteten Stockfische (und das waren etliche!) in der zweiten Testhälfte ca.10 Elo schlechter punkteten als in der ersten Testhälfte. Und das, obwohl ich meine 500 Vorgabestellungen,  nachdem ich sie aus Franks Datenbank rausgefiltert hatte, noch per Hand zufällig durchmischt habe und man meinen sollte, daß eine so große Zahl von Vorgabestellungen, die noch dazu wild durchgemischt sind und nicht nach Eröffnungssystemen sortiert sind, diesen Effekt eigentlich unmöglich machen sollten. Leider ist dem nicht so.

Aber beim aktuellen Test von Stockfish 4 ist keine weiterer Einbruch zu befürchten, da der Test bei mir auf beiden Testnotebooks läuft und ein Notebook die ersten 250 Vorgabestellungen abspielt und das andere die zweiten 250. Daher ist im von mir geposteten Zwischenstand die schwächere zweite Hälfte auch mit "drin".

Dieser Effekt ist aber (wie du völlig richtig sagst) total Engine-abhängig. Bei meinem letzten Testrun, nämlich Gull 2.2 x64 (teste das Teil unbedingt bald in der IPON, die Engine ist richtig stark geworden (+27 Elo zu Gull 2.1 x64 bei mir)), war der Score in der ersten Testhälfte gute 7 Elo schlechter als in der zweiten Testhälfte, Gull zeigte hier also genau das umgekehrte Verhalten im Vergleich zu Stockfish und legte zum Ende hin deutlich zu.

Stefan
Up Topic Hauptforen / CSS-Forum / Stärkste Stockfish-Version = Stockfish 4 ???

Powered by mwForum 2.29.3 © 1999-2014 Markus Wichitill