SPCC: Testrun von Stockfish 141024 durch

By Ralf Mueller Date 2014-10-29 09:20

Interessant, Stockfish 141012 im Grunde gleichauf mit Stockfish 141024 und im Endless Round Robin insgesamt Stockfish mit 25 Elopunkten vorne, obwohl er das Einzelmatch gegen Komodo 8 verloren hat. Im Gegensatz zu früher scheint Stockfish wohl mittlerweile gegen schwächere Engines stärker abzuschneiden als Komodo (Stockfish wurde ja oft nachgesagt, gegen schwächere Engines unterproportional zu punkten).
Ich bin gespannt auf weitere Updates!

By Stefan Pohl Date 2014-10-29 09:46

Ralf Mueller schrieb:

Ja, das starke Einzelergebnis von Komodo gegen Stockfish bei der rel. langen Bedenkzeit (+4 cores) im Endless RoundRobin ist bemerkenswert. Allerdings sind im Einzelvergleich erst 83 Partien absolviert. Da hat man also eine hohe statistische Unsicherheit. Mal sehen, wie es da weitergeht.

Im Moment läuft auf meinem zweiten Notebook noch was anderes (stelle meine Just-for-fun Ippolit-Derivat-Liste auf mein neues SALC-Eröffnungsvorgabeset um und baue bei der Gelegenheit da auch noch ein bißchen was um). Das sollte Freitag durch sein, falls alles glattgeht. Dann werde ich voraussichtlich den nächsten Stockfish-Testrun starten, sodaß kommenden Dienstag oder Mittwoch das nächste Stockfishresultat vorliegen könnte. Alle Zeitangaben wie immer ohne Gewähr...
Stay tuned!

Stefan

By Tom Paul Date 2014-10-29 12:29

Hoffentlich wird bei Stockfish SMP von 8 auf 16 Kerne verbessert.

By Hauke Lutz Date 2014-10-29 12:42

Ich glaube man sollte (eig. muss) da sogar schon auf 24 oder 32 Kerne hin optimieren, wenn Intels 16 und 18-Kern-CPUs in absehbarer Zeit das offizielle Release haben.

Gruß, Hauke

By Stefan Pohl Date 2014-10-31 15:13

Stefan Pohl schrieb:

Ralf Mueller schrieb:

Bei Stockfish werde ich wohl doch noch das Wochenende abwarten und zunächst noch was anderes testen. Oft kommt ja am Wochenende noch was.
Daher bitte noch etwas Geduld.

Stefan

By Patrick Götz Date 2014-10-29 14:11

Ich denke Stockfish hatte diesmal einen schlechten lauf, oder letztes mal einen guten, denn der "Calculate maximum threat for hanging pieces " Patch vom 24.10.:

STC
LLR: 2.95 (-2.94,2.94) [-1.50,4.50]
Total: 7598 W: 1596 L: 1468 D: 4534

LTC
LLR: 2.97 (-2.94,2.94) [0.00,6.00]
Total: 7896 W: 1495 L: 1350 D: 5051

war und ist sehr vielversprechend und wird schon ein paar Elos gebracht haben, die vielleicht beim nächsten Lauf, zusammen mit den Änderungen vom 27.10.14 sichtbar werden.

Gruß
Patrick

By Michael Scheidl Date 2014-10-29 14:17

Da muß ich zugeben daß ich "Calculate maximum threat for hanging pieces" nicht verstehe. Was genau macht das bzw. was wurde zuvor anders gemacht?

By Stefan Pohl Date 2014-10-29 15:21

Patrick Götz schrieb:

Ja, ich vermute auch, daß das Ergebnis des vorletzte Tests am oberen Rand lag, und das letzte am unteren. Dann kann das schon mal zu leichten Merkwürdigkeiten führen. Um sowas auszuschließen, müßten bei so minimalen Codeänderungen weit, weit mehr als 5000 Partien absolviert werden. Aber entscheidender Vorteil ist ja dafür, daß ich sehr viele Testruns mache und diese Masse an Testergebnissen schlußendlich eine sehr gute Entwicklungskurve im Diagramm zur Folge hat. Darauf kommts mir ja auch primär an. Ein paar "Ungenauigkeitszacken" in der Kurve muß man in Kauf nehmen. Das ist nun mal die Errorbar. Die kann man nun mal nicht überlisten...Aber interessant ist ja der "Generalkurs" bzw. die Steigungsrate der Kurve, die schlußendlich rauskommt.
Immerhin darf man wohl jetzt recht sicher davon ausgehen, daß Stockfish mittlerweile ca. +30 Elo (seit Stockfish 5) zugelegt hat, wenn sowohl der Selftest im Framework, als auch zwei Testläufe bei mir, in dieser Region gelandet sind.
Ist doch auch was.

Stefan

By Benno Hartwig Date 2014-10-29 15:51

Egal wie viel Mühe man sich gibt. man wird mit seinen Ergebnissen immer in wenig um die wahre Entwicklung herumrauschen.
Deine jeweils 5000 Partien gestatten da schon eine sehr gute Sicht auf die Entwicklung.
Und man sollte sich dann gern auch eine elegante Kurve zwischen diesen leicht hin und her hüpfenden Messwerten denken.
http://de.wikipedia.org/wiki/Trendmodell

Benno

By Frank Brenner Date 2014-10-29 16:58

> a, ich vermute auch, daß das Ergebnis des vorletzte Tests am oberen Rand lag, und das letzte am unteren

das ist aber sehr unwahrscheinlich.

Ich habe von der Version vom 27.10 etwa 1000 Spiele (30s + 0.5s) gegen die version vom 15.10 gespielt mit Gleichstand, Schuffel Chess mit Arena.

By Horst,S Date 2014-11-03 23:27

zur Info
Blitzvergleich Doppelrunden 1m+2s

1 Stockfish 021114 64 POPCNT +14 +4/=42/-2 52.08% 25.0/48
2 Stockfish 031114 64 POPCNT -14 +2/=42/-4 47.92% 23.0/48

By Frank Brenner Date 2014-11-04 14:26

Die beiden Versionen spielen doch identisch. Es gibt dort keine Codeverbesserung.

By Horst Sikorsky Date 2014-11-04 18:11

Das Turnier lief mit 6core (12 Threads), da wird der Zufall eine Rolle spielen.
Horst

By Frank Brenner Date 2014-11-04 18:24

48 partien bei 1m+2s sind doch quasi Wertlos. Die kann jeder hier mühlos in wenigen Minuten automatisch erzeugen

By Horst Sikorsky Date 2014-11-04 20:47

mühlos in wenigen Minuten automatisch erzeugen

ich habe vernünftige Partien spielen lassen!!!!
also rund 3-4 Stunden

By Frank Brenner Date 2014-11-05 16:49

oha, ist 1m+2s die Bedenkzeit pro Zug ?

By Horst Sikorsky Date 2014-11-05 18:47

ich würde erst mal Rechnen

Weiß 60s+ Schwarz 60s=120s; Jeder hat 2s pro Zug; 2 mal 2=4s; x durchschnittliche Partielänge von 52 Zügen (52x4=208)
120s+208s=328s mal 48 Partien sind 15744s durch 3600 ergibt 4,373333333333333333 Stunden

Mahhnnn habe ich schlecht geschätzt

By Benno Hartwig Date 2014-11-06 08:19 Edited 2014-11-06 08:23

> also rund 3-4 Stunden

Kurze Zeiten finde ich sehr OK.
Ich finde aber ganz schön, wenn man sich für solch einen Test wenigstens(!) mal 24 Stunden vornimmt.
Heute gestartet, morgen fertig zum Posten. Ist doch auch noch fix.
Und dann ist die Partienzahl doch wenigstens ein wenig aussagefähiger.

Benno

By Hauke Lutz Date 2014-11-06 11:45

Laut dem Experiment für die Ippo-Liste reichen 30+0.35 für realistische Werte, wenn man ein paar Tausend Partien spielen lässt.
Dies deckt sich mit meiner Beobachtung von 5000 Partien zwischen SF5 und Gull3.
Hier zeigte sich, dass 20+0.2 leider nicht ausreicht um Elodifferenzen zwischen wesentlich unterschiedlichen Engines zu bestimmen.
Für die Elodifferenz zwischen Derivaten/Versionen ist 20+0.2 aber trotzdem anwendbar.

Gruß Hauke

By Benno Hartwig Date 2014-11-06 12:50

Hast du noch mal einen Link?

30+0.35? 20+0.2? Denkzeiten?? "20 min/Partie + 0,2 Sek/Zug" oder so??

Dass Spielstärkeverhältnisse unterschiedlich sein können, wenn unterschiedliche Zeiten genutzt werden, akzeptiere ich natürlich.
"ELO-Differenzen" können daher streng genommen nur Zeit-spezifisch benannt werden.
Und für die Messung solcher Zeit-spezifischer ELO-Differenzen empfehle ich, na was wohl: eben jene Zeit.

Die Anzahl der hier jeweils für bestimmte Genauigkeiten notwendigen Partien wird jeweils sehr ähnlich sein (marginal beeinflusst wohl nur durch die ggf. leicht unterschiedlichen Wahrscheinlichkeiten für das jeweilige Remis).
Oder hast du Erfahrungen, die wirklich etwas anderes sagen? (Auch darum meine Frage nach einem Link)

Benno

By Tom Paul Date 2014-11-06 19:37

Endlich:

Author: lucasart
Date: Thu Nov 6 13:01:47 2014 -0500
Timestamp: 1415296907

Apply King Safety later in the endgame

Idea is to apply king safety later in the endgame. Previously, we didn't
apply KS in a RR vs. Q ending for example, which causes poor play.
Now we calculate king attacks when the attacking side has a queen or more.

STC with 8moves_v3
LLR: 3.06 (-2.94,2.94) [0.00,4.00]
Total: 38481 W: 6228 L: 5952 D: 26301

LTC with 2moves_v1
LLR: 2.95 (-2.94,2.94) [0.00,4.00]
Total: 51053 W: 8670 L: 8353 D: 34030

Bench: 7514010

Resolves #98

Hoffentlich folgt noch: 3 Leichtfiguren gegen Dame.

By Hauke Lutz Date 2014-11-06 19:58

s/Partie und s/Zug