SF-Fortschritt seit zwei Monaten

By Stefan Pohl Date 2017-02-28 11:53

Besonders erstaunlich ist, daß es durchaus diverse functional patches gegeben hat, die im Framework ja gut durchgingen. Es gab also durchaus Ideen. Und die haben auch die Framework-Qualitätskontrolle bestanden. Daß es dennoch keinen meßbaren Fortschritt gegen nicht-Stockfish Gegner gegeben hat, ist das eigentlich Erstaunliche.

Stefan

By Patrick Götz Date 2017-02-28 13:52

Der Fortschritt wurde von den zahlreicheren nicht functional patches [-3.00,1.00], die im Schnitt ca. 0,5 Elo kosten, wieder aufgehoben.

By Benno Hartwig Date 2017-03-09 12:47

Wow!
Abschätzung auf 0,5 Elo genau sieht man auch nicht alle Tage.

Benno

By Patrick Götz Date 2017-03-10 02:23

Das ergibt sich aus dem [-3.00,1.00].
Läßt sich ausrechnen. Ein [0.00,5.00] Patch hingegen benötigt im Schnitt mindestens ca. +1,6 ELO um erfolgreich zu sein.

By Tom Paul Date 2017-03-25 21:47

Eine neue Rangfolge und
nur 16 Entwickler?

http://tests.stockfishchess.org/users/monthly

By Florian Wieting Date 2017-03-26 23:25 Upvotes 3

Welcher von den Top10 bist du?
Sei nicht so bescheiden, sag es uns!

By Wolfgang Battig Date 2017-03-27 16:37

By Patrick Götz Date 2017-03-27 21:52

By Benno Hartwig Date 2017-04-02 07:47

Und wird noch kommen, der Kasper aus der Tüte, und plötzlich rufen "Ja, jetzt hat SF lange geruht, aber nun hat er, tataa, ganz plötzlich doch 40 Elo mehr!".
Vielleicht so nach einem halben Jahr, gut ein Vierteljahr pausieren die Fortschritte ja jetzt.

By Tom Paul Date 2017-04-13 18:17

Die Liste zeigt mal wieder deutlich das viele weitere Rechner und vor allem starke Rechner benötigt werden.

Active - 106 machines 584 cores 0.93M nps (541.68M total nps) 641 games/minute

Machine  Cores  MNps  System  Version  Running on  Last updated
crunchy   3  0.00  Linux 3.13.0-105-generic  59  ImplDefFix  seconds ago
crunchy   14  0.00  Linux 3.13.0-105-generic  59  ImplDefFix  seconds ago
crunchy   14  0.00  Linux 3.13.0-105-generic  59  ImplDefFix  seconds ago
crunchy   14  0.00  Linux 3.13.0-105-generic  59  ImplDefFix  seconds ago
crunchy   14  0.00  Linux 3.13.0-105-generic  59  ImplDefFix  seconds ago
crunchy   14  0.00  Linux 3.13.0-105-generic  59  ImplDefFix  seconds ago
crunchy   14  0.00  Linux 3.13.0-105-generic  59  ImplDefFix  seconds ago
vdv   30  0.00  Linux 4.4.0-71-generic  59  ImplDefFix  seconds ago
malala   10  0.00  Windows 8.1  59  ImplDefFix  seconds ago
crunchy   3  0.00  Linux 3.13.0-105-generic  59  ImplDefFix  seconds ago
crunchy   11  1.41  Linux 4.4.0-70-generic  59  ImplDefFix  seconds ago
crunchy   3  2.06  Linux 3.13.0-105-generic  59  ImplDefFix  seconds ago
crunchy   14  2.12  Linux 3.13.0-105-generic  59  ImplDefFix  seconds ago
malala   9  1.59  Windows 8.1  59  ImplDefFix  seconds ago
crunchy   11  1.47  Linux 4.4.0-71-generic  59  ImplDefFix  seconds ago
bcross   3  1.02  Windows 10  59  ImplDefFix  seconds ago
crunchy   11  1.46  Linux 4.4.0-70-generic  59  ImplDefFix  seconds ago
crunchy   11  1.54  Linux 4.4.0-70-generic  59  ImplDefFix  seconds ago
velislav   1  2.08  Linux 4.4.0-72-generic  59  ImplDefFix  seconds ago
mibere   5  2.12  Linux 3.16.0-4-amd64  59  ImplDefFix  seconds ago
marrco   7  1.43  Windows 8.1  59  ImplDefFix  seconds ago
lantonov   1  0.79  Windows 8  59  ImplDefFix  seconds ago
biffhero   1  1.16  Linux 3.16.0-4-amd64  59  ImplDefFix  seconds ago
Hello   1  1.34  Windows 7  59  ImplDefFix  2 minutes ago
biffhero   1  1.07  Linux 3.16.0-4-amd64  59  ImplDefFix  seconds ago
sunu   2  1.49  Linux 4.10.0-0.slh.2-aptosid-amd64  59  ImplDefFix  seconds ago
horst.prack   1  1.17  Linux 4.9.0-2-amd64  59  ImplDefFix  2 minutes ago
crunchy   3  2.03  Linux 3.13.0-105-generic  59  ImplDefFix  seconds ago
nssy   4  2.12  Linux 4.8.0-39-lowlatency  59  ImplDefFix  seconds ago
eva42   1  1.56  Linux 3.16.0-4-amd64  59  ImplDefFix  2 minutes ago
Thanar   3  1.27  Windows 10  59  ImplDefFix  seconds ago
horst.prack   1  1.13  Linux 4.9.0-2-amd64  59  ImplDefFix  3 minutes ago
cw   3  1.75  Windows 7  59  ImplDefFix  seconds ago
Thanar   3  1.69  Windows 7  59  ImplDefFix  seconds ago
chriswk   3  2.49  Linux 4.8.0-22-generic  59  ImplDefFix  seconds ago
IgorLeMasson   2  0.97  Windows 10  59  ImplDefFix  seconds ago
gri   1  2.34  Linux 3.16.0-4-amd64  59  ImplDefFix  seconds ago
SFTUser   2  2.05  Windows 10  59  ImplDefFix  seconds ago
Pking_cda   3  2.78  Linux 3.13.0-106-lowlatency  59  ImplDefFix  seconds ago
ttruscott   7  1.24  Linux 4.10.8-200.fc25.x86_64  59  ImplDefFix  seconds ago
cw   5  1.58  Windows 7  59  ImplDefFix  seconds ago
lvdv   1  2.10  Linux 4.4.0-72-generic  59  ImplDefFix  seconds ago
crunchy   3  0.00  Linux 3.13.0-105-generic  59  ImplDefFix  seconds ago
crunchy   3  0.00  Linux 3.13.0-105-generic  59  ImplDefFix  seconds ago
crunchy   14  0.00  Linux 3.13.0-105-generic  59  ImplDefFix  seconds ago
mibere   5  0.00  Linux 3.16.0-4-amd64  59  ImplDefFix  seconds ago
crunchy   14  0.00  Linux 3.13.0-105-generic  59  ImplDefFix  seconds ago
crunchy   14  0.00  Linux 3.13.0-105-generic  59  ImplDefFix  seconds ago
crunchy   14  0.00  Linux 3.13.0-105-generic  59  ImplDefFix  seconds ago
crunchy   14  0.00  Linux 3.13.0-105-generic  59  ImplDefFix  seconds ago
Data   16  0.00  Windows 10  59  ImplDefFix  seconds ago
ctoks   15  0.00  Linux 4.10.0-19-generic  59  ImplDefFix  seconds ago
crunchy   3  2.08  Linux 3.13.0-105-generic  59  ImplDefFix  seconds ago
crunchy   3  2.05  Linux 3.13.0-105-generic  59  ImplDefFix  seconds ago
crunchy   3  2.02  Linux 3.13.0-105-generic  59  ImplDefFix  seconds ago
crunchy   3  2.09  Linux 3.13.0-105-generic  59  ImplDefFix  seconds ago
crunchy   3  2.09  Linux 3.13.0-105-generic  59  ImplDefFix  seconds ago
ElbertoOne   3  2.04  Windows 7  59  ImplDefFix  seconds ago
rkl   1  2.37  Linux 3.10.0-514.10.2.el7.x86_64  59  ImplDefFix  seconds ago
garrypro   3  2.51  Windows 10  59  ImplDefFix  54 minutes ago
testfisher   3  1.60  Windows 10  59  ImplDefFix  seconds ago
crunchy   1  1.99  Windows 7  59  ImplDefFix  seconds ago
Thanar   3  0.81  Windows 7  59  ImplDefFix  seconds ago
crunchy   14  0.00  Linux 3.13.0-105-generic  59  ImplDefFix  seconds ago
drabel   1  1.43  Windows 10  59  ImplDefFix  seconds ago
crunchy   14  2.14  Linux 3.13.0-105-generic  59  lazySMP  seconds ago
crunchy   11  1.48  Linux 4.4.0-71-generic  59  lazySMP  seconds ago
CSU_Dynasty   11  1.34  Windows 7  59  lazySMP  seconds ago
crunchy   11  1.42  Linux 4.4.0-70-generic  59  lazyOddEven  seconds ago
Data   16  1.49  Windows 10  59  lazyOddEven  seconds ago
Pking_cda   3  2.07  Linux 4.4.0-59-generic  59  senti2  seconds ago
crunchy   1  1.56  Windows 10  59  senti2  seconds ago
leszek   7  1.08  Windows 7  59  senti2  seconds ago
mibere   5  2.06  Linux 3.16.0-4-amd64  59  senti2  seconds ago
Thanar   3  1.32  Windows 8.1  59  senti2  seconds ago
finfish   3  2.54  Linux 4.4.0-66-generic  59  senti2  seconds ago
achambord   3  1.28  Linux 3.10.23-xxxx-std-ipv6-64  59  senti2  seconds ago
fastgm   4  1.54  Linux 3.4.0+  59  senti2  seconds ago
eva42   5  1.22  FreeBSD 11.0-RELEASE-p7  59  senti2  seconds ago
racerschmacer   1  1.61  Windows 10  59  senti2  seconds ago
homyur   2  2.41  Windows 7  59  senti2  seconds ago
TueRens   3  2.10  Windows 7  59  senti2  seconds ago
cw   1  1.05  Windows 8.1  59  senti2  seconds ago
psk   3  2.52  Linux 3.13.0-98-generic  59  senti2  seconds ago
Data   1  1.87  Windows 10  59  senti2  seconds ago
hyperbolic.tom   3  1.30  Linux 4.8.0-41-generic  59  senti2  seconds ago
crunchy   3  2.28  Windows 7  59  senti2  seconds ago
TTT   4  1.53  Windows 7  59  senti2  seconds ago
chess_xyz   3  0.94  Windows 7  59  senti2  seconds ago
CSU_Dynasty   6  0.75  Windows 7  59  senti2  seconds ago
SFTUser   2  2.15  Windows 10  59  senti2  seconds ago
Isidor   2  2.60  Windows 8.1  59  senti2  seconds ago
mgrabiak   3  1.43  Windows 8  59  senti2  seconds ago
SFTUser   2  2.23  Windows 10  59  senti2  seconds ago
eva42   4  1.30  Windows 7  59  senti2  seconds ago
doc2177   1  1.54  Linux 3.19.0-32-generic  59  senti2  seconds ago
cw   3  2.14  Windows 8.1  59  senti2  seconds ago
SFTUser   2  2.05  Windows 10  59  senti2  seconds ago
mhoram   2  0.74  Linux 3.16.0-4-amd64  59  senti2  seconds ago
sqrt2   3  2.29  Linux 3.16.0-4-amd64  59  senti2  seconds ago
jromang   3  1.46  Windows 10  59  senti2  seconds ago
mgrabiak   2  0.74  Windows 7  59  senti2  seconds ago
Thanar   3  1.25  Windows 7  59  senti2  seconds ago
Bobo1239   1  1.77  Linux 4.10.6-1-ARCH  59  senti2  seconds ago
velislav   2  1.64  Linux 3.10.0-123.8.1.el7.x86_64  59  senti2  seconds ago
eva42   1  0.89  Linux 3.16.0-4-amd64  59  outpost_depth1  seconds ago

By Benno Hartwig Date 2017-04-14 06:13 Edited 2017-04-14 06:15

Der jetzt ein gutes Vierteljahr pausierende Fortschritt begründet sich wohl eher auf fehlenden guten Ideen, denke ich.
Ich würde eher fragen wollen: Sind die Leute, die in der Vergangenheit die Elo-bringenden Ideen einbrachten, noch engagiert dabei?
Irgendwas in den Sourcen zu ändern und dann intensiv testen, bringt es noch nicht. Häufiges Wiegen macht das Schwein nicht fett!
Benno

By Guenter Stertenbrink Date 2017-04-14 10:28

das Schwein wird offensichtlich dicker im Vergleich mit den
anderen Schweinen.
Irdenwas stimmt nicht mit der Waage.

By Benno Hartwig Date 2017-04-14 11:10

> Irdenwas stimmt nicht mit der Waage.

Seit gut 3 Monaten scheint das Schwein Diät zu halten und nimmt nicht mehr zu.

Aber wir können ja einfach der SPCC-Waage die Schuld geben. (Schuldzuweisungen an die Waage passieren vielleicht gar nicht so selten)
Benno

By Guenter Stertenbrink Date 2017-04-14 11:16

in Partien gegen andere Fische scheint es zuzulegen

By Benno Hartwig Date 2017-04-14 12:01

In diesen letzten 3 Monaten?
Wo kann ich das sehen? Hier halt nicht.

By Guenter Stertenbrink Date 2017-04-14 12:04

fishtest,chatwing,http://magictour.free.fr/gstes1.txt

By Benno Hartwig Date 2017-04-14 13:41

Interessante Seite. Was sie aussagt, verstehe ich aber nicht wirklich.

Wie kann ich hier erkennen, welche Fortschritte gerade in den letzten gut 3 Monaten gelangen?
Benno

By Guenter Stertenbrink Date 2017-04-14 14:14 Edited 2017-04-14 14:18

die Seite sagt, dass zu diesen Konditionen z.B. pedantfish vom 28.Maerz in Partien
gegen asmfish vom 7.Dezember etwa 22 Elo oder etwa 3.3% besser abschneidet.
Andere (ssj..) haben etwa das gleiche gemessen.
Waehrend asmfish vom 9. Januar eher etwas schlechter war. Also ca. 25 Elo
in den letzten 3 Monaten. Keine Ahnung, warum sich das bei SPCC (bisher)
nicht auch in Partien gegen Houdini,Komodo etc. niederschlaegt.
Der von Stefan (SPCC) unten angesprochene Regressionstest scheint bei 40000 Partien
ein Ergebnis von +11 Elo von s-Mar03 gegen s-Nov04 ergeben zu haben.
(bei 79% Remisquote)
In meiner Liste hatte asmfish in diesem Zeitraum etwa 20 Elo zugelegt, allerdings
bei nur ca. 5000 Partien und 0.5s/Zug, (=800kn Startposition) ungetestetes Buch,
ca.70% Remisquote).
Bei 10-facher Bedenkzeit (5s/Zug) oder 1min pro Partie plus 1s/Zug (ca.80% Remisquote)
sieht der Elo-Zugewinn bisher etwas geringer (20-50%?) aus aber nur einige tausend Partien.

By Stefan Pohl Date 2017-04-14 12:40 Upvotes 1

Guenter Stertenbrink schrieb:

das Schwein wird offensichtlich dicker im Vergleich mit den
anderen Schweinen.
Irdenwas stimmt nicht mit der Waage.

Ach so?

Na, dann erklär mir mal das hier:

Regression-Test der Dev-Version vom 9.3.17 gegen Stockfish 8 im Framework. Mit 40000 Partien.
09-03-17 sg master diff
ELO: 10.84 +-1.6 (95%) LOS: 100.0%
Total: 40000 W: 4817 L: 3569 D: 31614

SPCC: Testrun von Stockfish Version vom 5.3.: 3405 Elo, Testrun der Stockfish Version vom 18.3.: 3402 Elo.
Stockfish 8: SPCC: 3390 Elo

Also haben wir im Regression-Test Stockfish gegen Stockfish im Framework +11 Elo und SPCC mit den zeitnächsten Versionen +15 bzw. +12 Elo Fortschritt zu Stockfish 8. Da ich die etwas schnelleren ultimaiq-Compiles nutze, ist das Ergebnis genau so, wie es sein sollte, nämlich minimal besserer Elo-Score der Dev-Versionen bei mir (SPCC) im Vergleich zum Framework-Regression Test.

QED

Und mehr sage ich zu diesem Thema nicht. Wer meint, ich messe falsch, braucht meine Seite ja nicht aufzurufen.

Stefan (SPCC)

By Stefan Pohl Date 2017-04-26 06:02 Edited 2017-04-26 06:04

Noch ein kurzer Vergleich des aktuellen Regression-Tests (aktueller Stockfish gegen Stockfish 8) im Framework mit dem gerade bei mir zuende gegangenen Testrun (praktisch identische/zeitgleiche Stockfish-Versionen (2 non-functional patches mehr im Framework Regression-Test)):

Stockfish-Framework:
20-04-17 sg master diff
ELO: 15.17 +-1.6 (95%) LOS: 100.0%
Total: 40000 W: 5175 L: 3430 D: 31395
40000 @ 60+0.6 th 1

SPCC:
Stockfish 170417: 3407 Elo
Stockfish 8: 3390 Elo
= +17 Elo

Also ganze 2 Elo Unterschied...Also wieder mal (siehe oben) ein praktisch identisches Ergebnis zum Framework-Regression Test, obwohl ich gegen 7 nicht-Stockfish-Engines teste und das Framework Stockfish gegen Stockfish testet.

So, das war es jetzt aber wirklich zu diesem Thema. Ich messe und teste korrekt. Klarer kann man das nicht mehr beweisen.

QED (Teil 2)

Stefan

By Guenter Stertenbrink Date 2017-04-26 11:35

http://tests.stockfishchess.org/tests/view/58f92a310ebc59035df33d48 http://tests.stockfishchess.org/tests/view/58c11dcf0ebc59035df32b75 http://tests.stockfishchess.org/tests/view/588dc7620ebc5915193f7d19 http://tests.stockfishchess.org/tests/view/5867b55c0ebc5903140c639c

20-04-17, 09-03-17, 29-01-17, 31-12-16
+15.2,+10.8,+08.8,+05.2 Elo

http://magictour.free.fr/1231G1.GIF

By Frank Brenner Date 2017-04-26 13:27 Upvotes 1

Zitat:

So, das war es jetzt aber wirklich zu diesem Thema. Ich messe und teste korrekt. Klarer kann man das nicht mehr beweisen.

QED (Teil 2)

Wirklich ?

Während bei Dir die Fortschritte von Stockfish in den letzten 4 Monaten im Zickzack verliefen und auch die Version von letzter Woche nicht besser ist als eine Version vom Dezember 2016 deutet der Regressions Test vom Stockfish Framework allerdings im Gegensatz zu Deinem Test in den letzten 4 Monaten auf eine ständige monoton steigende Spielstärke hin:

Elozuwachs seit Sf8 / Datum

15.17 +-1.6 (95%)   20-04-17
10.84 +-1.6 (95%)   09-03-17
8.82 +-1.5 (95%)   29-01-17
5.21 +-1.5 (95%)   31-12-16

By Hauke Lutz Date 2017-04-26 20:24 Upvotes 1

Hallo,

ich kann leider nicht nachvollziehen auf wessen Grundlage sich Frank Brenner und Guenter Stertenbrink darauf versteifen, dass der kontinuierliche Test von Stefan Pohl falsch sein soll.
Der Höchststand von Dezember deckt sich sehr gut mit dem Höchststand von asmFish, was einen Ausreißer noch unwahrscheinlicher macht.
asmFish und Stockfish haben seit Monaten einen ziemlich konstanten Stärkeunterschied. Dieser beruht bei identischen Bedingungen auf 15 Tests mit 7 Engines in 105000 Partien.
Es ist wirklich Bemerkenswert wie man ohne Grundlage und schlüssigen Argumenten mit dieser Überzeugung die seit Jahren gute Testarbeit von Stefan Pohl als falsch bezeichnen kann.

Gruß
Hauke

By Frank Brenner Date 2017-04-26 20:51 Edited 2017-04-26 21:07

Zitat:

Es ist wirklich Bemerkenswert wie man ohne Grundlage und schlüssigen Argumenten mit dieser Überzeugung die seit Jahren gute Testarbeit von Stefan Pohl als falsch bezeichnen kann.

Lerne lieber einmal Lesen und Verstehen, bevor du antwortest.

darüber hinaus: Da du es sicherlich noch immer nicht verstehen wirst: Ich habe nicht gesagt, daß die "gute Testarbeit von S. P" falsch ist.

By Guenter Stertenbrink Date 2017-04-27 11:58 Edited 2017-04-27 12:02

es gibt anscheinend Unterschiede in der Spielstaerke gegen anderen Fish (-->hoehere Remisquote)
oder andere engines. Es kann auch mit der Bedenkzeit zu tun haben oder mit dem Buch, wer weiss.

Ich vermute, dass Stefan Pohl auch eine Spielstaerkesteigerung feststellen wuerde,
wenn er gegen anderen Fish testen wuerde.

By Benno Hartwig Date 2017-04-26 21:48

> deutet der Regressions Test vom Stockfish Framework allerdings im Gegensatz zu Deinem Test in den letzten 4 Monaten auf eine ständige monoton steigende Spielstärke hin:

Ich brauch Nachhilfe, sorry:
Auf welchen Konkreten Elo-Betrag "Spielstärkesteigerung" in den letzten 4 Monaten deutet denn der der Regressionstest des Stockfish Frameworks hin?
Ein Betrag, der als signifikant anzusehen ist?
Ein Betrag, der wirklich im Widerspruch zu der stagnierenden SF-Entwicklung und der dies bestätigenden asmfish-Entwicklung bei SP steht?

Benno

By Frank Brenner Date 2017-04-26 22:40

Hallo Benno,

das kannst du doch in der Tabelle ganz links lesen.

Dort siehst du, daß die aktuelle Beta von SF seit SF8 stets mit jedem zusätzlichen Monat klar an Spielstärke dazugewonnen hat.

Jeder Test basiert auf 40.000 Partien.

Asmfish wird vom Sf framework nicht getestet.

Aber bezüglich Asmfish kann man bei Stefan Pohls Liste auch eine kleine Kuriosität beobachten für die es noch keine zufriedenstellende Begründung gibt:

Stockfish erfährt am 12.12.2016 bei Stefan Pohl einen großen Elo Sprung während bei Asmfish hier nichts zu beobachten ist.

Das gleiche gilt für den Test vom Stockfish Framework: auch hier konnte man den großen Sprung bei Stockfisch nicht beobachten.

Stockfish 161127 x64    : 3393
Stockfish 161212 x64    : 3407
Stockfish 170105 x64    : 3403

asmFish 161207 x64    : 3426
asmFish 161217 x64    : 3425
asmFish 170109 x64    : 3424

By Benno Hartwig Date 2017-04-27 07:05

> Stockfish erfährt am 12.12.2016 bei Stefan Pohl einen großen Elo Sprung...

Bitte?
Dieser "Sprung" ist vermutlich doch nicht mehr als ein statistisches Phänomen. Jedes Ergebnis ist mehr oder weniger Fehlerbelastet. Und wenn bei leidlich gleichmäßiger Entwicklung eine Version zufällig etwas schwächer geratet wird (und davor ja etwas höher) und zufällig die folgende etwas stärker (und danach auch wieder tiefer), dann kommen solche Effekte. Sie sind sogar auf jeden Fall zu erwarten.
Die gab es immer wieder.
Und: wenn die gar nicht kämen, dann(!) wäre zu befürchten, dass die Versuchsreihe getürkt ist!

Aber:
Ich habe immer noch nicht verstanden, welche Spielstärkesteigerung siehtst du durch das Framework bestätigt ganz konkret seit der Version vom 12.12.2016?
Um diesen Zeitraum geht es ja bei der Stagnation.

Benno

By Frank Brenner Date 2017-04-27 07:37

Zitat:

Dieser "Sprung" ist vermutlich doch nicht mehr als ein statistisches Phänomen.

Ja, die einfachen Menschen sagen " das ist einfach ein statistisches Phänomen oder ein Ausreißer".

By Benno Hartwig Date 2017-04-28 07:15 Edited 2017-04-28 07:21

...und andere Menschen verstehen auch, dass das wirklich so ist.
Sie begreifen sogar, dass größere Datenbestände gänzlich ohne solche Phänomene hinsichtlich ihrer Glaubwürdigkeit kritisch zu sehen sind.

By Jörg Oster Date 2017-04-28 10:34

Benno Hartwig schrieb:

Ist das wirklich so schwer, sich das mal auf die Schnelle im Framework anzuschauen?

Hier die letzten Regression Tests.

ELO: 5.21 +-1.5 (95%) LOS: 100.0%
Total: 40000 W: 4256 L: 3656 D: 32088

ELO: 8.82 +-1.5 (95%) LOS: 100.0%
Total: 40000 W: 4595 L: 3580 D: 31825

ELO: 10.84 +-1.6 (95%) LOS: 100.0%
Total: 40000 W: 4817 L: 3569 D: 31614

ELO: 15.17 +-1.6 (95%) LOS: 100.0%
Total: 40000 W: 5175 L: 3430 D: 31395

Also ich kann da keine Stagnation erkennen.

Jörg

By Benno Hartwig Date 2017-04-28 13:08

Es ist nicht schwer zu schauen, wenn man weiß, wohin man schauen muss.
Und Verstehen (und das zu finden, was dort nicht steht) ist dann der nächste Schritt. Darum auch jetzt die Nachfrage:

Die von dir zitierten steigenden Elo-Differenzen
(5.21 / 8,82 / 10,84 / 15,17, anbei: langfristig durchschnittlich benötigte SF für ein 15-Elo-Plus laut SPCC gut 2 Monate)
beziehen sich auf die Stockfische von jeweils welchem Datum?
Es geht halt um die bei SPCC angezeigte Stagnation seit der SF-Version vom 12.12.2016.

Benno

By Frank Brenner Date 2017-05-04 13:46 Edited 2017-05-04 13:51

Zitat:

beziehen sich auf die Stockfische von jeweils welchem Datum?

Vielleicht solltest du aufmerksamer die Postings durchlesen auf die du antwortest:

Jörg Oster hat zwar das Datum nicht dazu geschrieben, aber die gleiche Tabelle habe ich vorher im Thread mit den dazugehörenden Versionsdatum gepostet.

Zitat:

Es geht halt um die bei SPCC angezeigte Stagnation seit der SF-Version vom 12.12.2016.

Es geht darum, daß Stefan Pohl mit einer einzelnen herausgepickten Rosine seine Testmethode auf 100%ige Korrektheit beweisen möchte und dabei übersieht, daß der Kurvenverlauf (also alle Rosinen aneinandergereiht) von seiner Testmethode seit dem 12.12.2016 im Zickzack verläuft und selbst nach über 4 Monaten keinen Fortschritt nachweist, während der Regressionstest des Stockfish Frameworks in den letzten 4 Monaten eine ständig steigende Spielstärke ergibt, also ohne einen einzigen zick-zack Verlauf.

Mit statistischen Fehlern kannst du hier nicht herkommen. Die 40.000 Partien aus dem Stockfish Framework sind so umfangreich, daß hier der Fehler im Bereich von 0 oder einem oder in sehr seltenen fällen 2 Elo beträgt.

Stefan's Testmethode ist natürlich insgesamt trotzdem im großen und ganzen aktzeptabel, aber es gab damals am 12.12.16 ein Testergebnis mit einem Plus von 17 ELO während das Stockfish Framework zur gleichen Zeit (31.12) ein Ergebnis von nur +5.21 ELO attestierte.
Für mich wäre das ein Indiz dafür, daß an dem Testlauf etwas falsch lief oder systematisch falsch läuft. Die lapidare Ausrede "statistischer Zufall" ist in Anbetracht der großen Anzahl an Partien auf beiden Seiten zu bequem.

Und jetzt, 4 Monate später, nachdem die Testergebnisse doch einmal übereinstimmen pickt er sich diese Rosine heraus und will damit die absolute Fehlerlosigkeit seines Testaufbaus nachweisen.

Zu aller Einfältigkeit zieht er sich dann auch noch mit dem Kommentar

Zitat Stefan Pohl:

Zitat:

So, das war es jetzt aber wirklich zu diesem Thema. Ich messe und teste korrekt. Klarer kann man das nicht mehr beweisen.

aus der Diskussion heraus.

By Benno Hartwig Date 2017-05-02 12:30

Oh, jetzt zeigt sich bei bei SPCC doch wieder ein SF-Spielstärkeanstieg.
Immerhin ein Plus von 10 Elo gegenüber dem bislang erfolgreichsten SF (d.h. dem vom 12.12.2016).
Benno

By Stefan Pohl Date 2017-05-02 13:00

Benno Hartwig schrieb:

Oh, jetzt zeigt sich bei bei [url]SPCC [/url]doch wieder ein SF-Spielstärkeanstieg.
Immerhin ein Plus von 10 Elo gegenüber dem bislang erfolgreichsten SF (d.h. dem vom 12.12.2016).
Benno

Na, warten wir mal ab. Erst mal sehen, wie der asmFish mit den gleichen Patches abschneidet. Wenn es auch dort ein solches Plus gibt, dann kann man sicher sein, daß es auch wirklich ein Plus gibt. Nur eine Messung reicht bei einer Errorbar von +/-7 Elo noch nicht, um sich schon über den Elogewinn zu freuen.
Bisher läuft aber auch der asmFish-Testrun sehr erfreulich.
Freitag gibt es das Ergebnis.

Stefan

By Benno Hartwig Date 2017-05-12 07:42

Und nun wieder
"sadly a bad regression..."

Benno

By Stefan Pohl Date 2017-05-12 16:01

Benno Hartwig schrieb:

Und nun wieder
[url]"sadly a bad regression..."[/url]

Benno

Mal sehen. Schaun wir mal, wie der asmFish-Testrun mit den gleichen patches läuft. Ich hoffe ja so im Stillen, daß das letzte Ergebnis ein bißchen zu tief geraten ist. Primär liegt es wohl an der höheren Remisquote, die diese Version hatte.
Generell muß man immer bedenken: die Errorbar ist bei mir +/-7 und Tests gegen andere Engines sind eben nicht genau dasselbe wie Stockfish gegen Stockfish im Framework. Du hast das ja mal sehr schön ausgedrückt: Stockfish "zittert" sich in meinem Diagrammen elomäßig nach oben. Wenn allerdings zwei Testruns (also Stockfish und asmFish des gleichen Entwicklungsstandes) sehr ähnliche Elo-Gewinne zeigen, wie die Tests der beiden Versionen von Ende April, dann kann das schon als recht verläßliches Ergebnis gelten.

Stefan

By Tom Paul Date 2017-05-15 16:35

Das liegt zum Teil daran das Stellungen die Remis sind, oft nicht richtig bewertet werden also mit +0.50, +0.23 usw. anstatt mit 0.00.
Es muss einfach mehr dafür getan werden, dass die Bewertungen eher in Richtung 0.00 gehen.

By Benno Hartwig Date 2017-05-15 17:06

Die aktuelle Verschlechterung soll daran liegen???