LS-Rangliste: Stockfish 131102

By Stefan Pohl Date 2013-11-06 08:34

Tja, bißchen enttäuschendes Ergebnis. Trotz 4 functional changes, die alle recht gut gescored haben, ist das Ergebnis praktisch identisch (Gesamtscore ist 0.1% besser als der von Stockfish 131022).

Stefan

By Benno Hartwig Date 2013-11-06 08:52

[quote="Stefan Pohl"]Tja, bißchen enttäuschendes Ergebnis.[/quote]Wie groß ist eigentlich die 95%-Breite hier? Ggf. war ja die 131022 auch leicht überbewertet, und die 131102 könnte leicht unterbewertet sein.
Benno

By Stefan Pohl Date 2013-11-06 10:31

[quote="Benno Hartwig"]
[quote="Stefan Pohl"]Tja, bißchen enttäuschendes Ergebnis.[/quote]Wie groß ist eigentlich die 95%-Breite hier? Ggf. war ja die 131022 auch leicht überbewertet, und die 131102 könnte leicht unterbewertet sein.
Benno
[/quote]

Die 95%-Errorbar ist doch von bayeselo in meiner Rangliste angegeben (und beträgt bei 10000 Partien +/-5 Elo). Sicher könnte das Ergebnis von 131022 leicht überbewertet und das von 131102 leicht unterbewertet sein. Dann wäre allerdings der Fortschritt von 131022 zu 131008 wiederum geringer...
Im statistisch allerschlimmsten aber auch allerunwahrscheinlichsten Fall könnte also die 131102 +11 Elo besser sein als 131022. Das ist aber wie gesagt sehr unwahrscheinlich. Daß Ergebnisse am Rand der Errorbar liegen ist generell weniger wahrscheinlich als in der Mitte und noch unwahrscheinlicher ist es, daß beide Ergebnisse (131102 und 131022) an den Rändern (und dann auch noch an den entgegengesetzten Rändern) liegen. Aber möglich ist es.
Als ich allerdings seinerzeit die 3 Versionen von Komodo 5.1 (5.1, 5.1r1 und 5.1r2) mit jeweils 10000 Partien voll durchgetestet habe, lagen alle 3 Ergebnisse in einem 2-Elo-Intervall (3079-3081 LS-Elo). Bei so vielen absolvierten Partien ist es wie gesagt eher unwahrscheinlich, daß ein Ergebnis im statistischen Randbereich der Errorbar landet. Sicher sein kann man aber leider nicht.

Stefan

By Stefan Pohl Date 2013-11-06 10:37 Edited 2013-11-06 10:40

Hier noch mal zum Verständnis: Die 95%-Errorbar wird von bayeselo unter dem + und - Zeichen angegeben. Bei Houdini 3 ist sie also z.Zt. bei +/-3 Elo, weil Houdini 3 mittlerweile 53000 Partien absolviert hat und bei einer neu getesteten Engine mit 10000 bzw. 11000 Partien ist die Errorbar +/-5 Elo...Leider muß man die Errorbars zweier Engines oder Engineversionen, die man vergleichen will, addieren, sodaß beim Vergleich von zwei Engines mit jeweils +/-5 Elo Errorbar eben eine Gesamt-Vergleichs-Errorbar von +/-10 Elo herauskommt.

Rank Name                     Elo    +    - games score oppo. draws 
   1 Houdini 3 x64           3150    3    3 53000   67%  3029   41%

   4 Stockfish 131102 x64s   3114    5    5 10000   57%  3064   47%

Stefan

By Simon Gros Date 2013-11-06 10:55

Zitat:
"Leider muß man die Errorbars zweier Engines oder Engineversionen, die man vergleichen will, addieren, sodaß beim Vergleich von zwei Engines mit jeweils +/-5 Elo Errorbar eben eine Gesamt-Vergleichs-Errorbar von +/-10 Elo herauskommt.

Das wiederspricht aber ihrer Aussage weiter oben, also der vom "allerunwahrscheinlichsten" Fall", welchen sie als eben solchen weiter oben so gut wie komplett ausschließen.
Simon Gros

By Stefan Pohl Date 2013-11-06 15:08 Edited 2013-11-06 15:15

[quote="Simon Gros"]
Zitat:
"Leider muß man die Errorbars zweier Engines oder Engineversionen, die man vergleichen will, addieren, sodaß beim Vergleich von zwei Engines mit jeweils +/-5 Elo Errorbar eben eine Gesamt-Vergleichs-Errorbar von +/-10 Elo herauskommt.

Das wiederspricht aber ihrer Aussage weiter oben, also der vom "allerunwahrscheinlichsten" Fall", welchen sie als eben solchen weiter oben so gut wie komplett ausschließen.
Simon Gros
[/quote]

Nein, tut es nicht. Die Gesamterrorbar ist die Summe beider Errorbars, dennoch ist es sehr unwahrscheinlich, daß sich das Ergebnis wirklich am Rand dieser Errorbar befindet. Unwahrscheinlich, aber nicht unmöglich. Eine Gesamtgröße einer Errorbar schließt nicht aus, daß die Ränder der Errorbar sehr viel unwahrscheinlicher sind, als ein Wert in der Mitte.
Noch unwahrscheinlicher, aber ebenfalls nicht unmöglich, wäre es, daß ein Ergebnis auch außerhalb der Errorbar liegt, da diese ja "nur" 95% der möglichen Ergebnisse abdeckt. Letzteres wäre wohl der allerunwahrscheinlichste Fall, das ist wahr. Da habe ich mich wohl etwas zu optimistisch ausgedrückt, weil ich aus Gewohnheit die Errorbar als maximales Ergebnisintervall ansehe. Es kann aber noch schlimmer kommen...

Stefan

By Benno Hartwig Date 2013-11-06 10:56

[quote="Stefan Pohl"]Im statistisch allerschlimmsten aber auch allerunwahrscheinlichsten Fall könnte also die 131102 +11 Elo besser sein als 131022. Das ist aber wie gesagt sehr unwahrscheinlich...[/quote]Prinzipiell sind natürlich auch noch weit 'schlimmere' Fälle möglich, sie sind aber eben sehr unwahrscheinlich.
Auch dass beide Engines um mindestens 5 und zwar entgegengesetzt daneben bewertet wurden, hat nur eine sehr(!) kleine Wahrscheinlichkeit.
Aber dass SF131022 ggf. so 2-3 ELO zuviel bekam, ist gut möglich, und dass SF131102 in dieser Größenordnung zuwenig erhielt auch. Dass die tatsächliche ELO-Differenz also auch ggf. 5 - 7 ELO sein könnte, sollten wir wenigstens im Hinterkopf haben.
(Oder auch, wenn man nur deinen Test betrachtet: dass die neue Version schwächer ist als die alte auch!)

Benno

By Stefan Pohl Date 2013-11-06 11:00

[quote="Benno Hartwig"]
[quote="Stefan Pohl"]Im statistisch allerschlimmsten aber auch allerunwahrscheinlichsten Fall könnte also die 131102 +11 Elo besser sein als 131022. Das ist aber wie gesagt sehr unwahrscheinlich...[/quote]Prinzipiell sind natürlich auch noch weit 'schlimmere' Fälle möglich, sie sind aber eben sehr unwahrscheinlich.
Auch dass beide Engines um mindestens 5 und zwar entgegengesetzt daneben bewertet wurden, hat nur eine sehr(!) kleine Wahrscheinlichkeit.
Aber dass SF131022 ggf. so 2-3 ELO zuviel bekam, ist gut möglich, und dass SF131102 in dieser Größenordnung zuwenig erhielt auch. Dass die tatsächliche ELO-Differenz also auch ggf. 5 - 7 ELO sein könnte, sollten wir wenigstens im Hinterkopf haben.
(Oder auch, wenn man nur deinen Test betrachtet: dass die neue Version schwächer ist als die alte auch!)

Benno
[/quote]

Ja klar, das stimmt natürlich. Diese Unsicherheiten muß man immer im Hinterkopf haben. Und die Errorbar bezieht sich auch nur auf eine 95%-Wahrscheinlichkeit. Daher könnte ein Ergebnis mit geringer Wahrscheinlichkeit auch sehr viel weiter daneben liegen, als die Errorbar breit ist.
Bei statisitschen Berechnungen gibt es immer furchtbare "worst-case"-Ergebnisse, die theoretisch möglich wären.

Stefan

By Dirk TRIEBEL Date 2013-11-06 14:58

Servus,

ich denke man darf die SAche auch nicht überstürzen. Der Anstieg von Stockfish (der zweifellos erheblich war, wie Du auch zugegeben hast und in deiner list auch zu sehen ist) kann nicht dauerhaft exponential sein.
Um die engine zu Verbessern (auf dem Nivieau), müssen ja alle Fehlerpartien (etliche 1000) ausgewertet werden und und so ein systematischer Fehler festgestellt werden. Das stell ich mir schon sehr schwer in nur einem Monat vor. Weiterhin muss ein funtional change dann so ausgeführt werden, das keine neuen bugs entstehen, und somit die engine wieder geschwächt wird. Also aus programmiertechnischer Sicht ist das schon richtig schwer, wenn nicht sogar fast unmöglich in dem Zeitraum.

Ich teste gerad die Stocki develop version 03.11.13 und mir sind im Spiel viele Schwankungen in den Bewertungen im Spiel im Gegensatz zu meiner letzten 29.09. version aufgefallen. Die scheint jetzt risikofreudiger zu sein aber auch anfälliger. Bei Deiner list ist auch zu sehen, dass die draws Quote von 49 auf 47% runter gegangen ist. Er muss ja dann automatisch mehr Verlustpartien gehabt haben - richtig!? Diese auszuwerten u zu vergleichen wäre sicher interessant....

Gruß,
Dirk

By Stefan Pohl Date 2013-11-07 16:53

[quote="Dirk TRIEBEL"]
Servus,

ich denke man darf die SAche auch nicht überstürzen. Der Anstieg von Stockfish (der zweifellos erheblich war, wie Du auch zugegeben hast und in deiner list auch zu sehen ist) kann nicht dauerhaft exponential sein.
Um die engine zu Verbessern (auf dem Nivieau), müssen ja alle Fehlerpartien (etliche 1000) ausgewertet werden und und so ein systematischer Fehler festgestellt werden. Das stell ich mir schon sehr schwer in nur einem Monat vor. Weiterhin muss ein funtional change dann so ausgeführt werden, das keine neuen bugs entstehen, und somit die engine wieder geschwächt wird. Also aus programmiertechnischer Sicht ist das schon richtig schwer, wenn nicht sogar fast unmöglich in dem Zeitraum.

Ich teste gerad die Stocki develop version 03.11.13 und mir sind im Spiel viele Schwankungen in den Bewertungen im Spiel im Gegensatz zu meiner letzten 29.09. version aufgefallen. Die scheint jetzt risikofreudiger zu sein aber auch anfälliger. Bei Deiner list ist auch zu sehen, dass die draws Quote von 49 auf 47% runter gegangen ist. Er muss ja dann automatisch mehr Verlustpartien gehabt haben - richtig!? Diese auszuwerten u zu vergleichen wäre sicher interessant....

Gruß,
Dirk
[/quote]

Sicher ist es schwierig (und wird mit steigendem Niveau immer schwieriger) weitere Verbesserungen durch die Patches zu erreichen, besonders ohne damit die Engine an anderer Stelle zu schwächen. Die Entwicklungsgeschwindigkeit von Stockfish seit das offene Test- und Entwicklungsframework läuft, war bisher schlicht atemberaubend. Es ist klar, daß das nicht ad infinitum so weitergehen kann. Auch hat es schon früher mal einen ganzen Monat Stagnation gegeben (Ende Juni bis Ende Juli, siehe auch dazu die Liste der gelöschten Stockfish-developmentversionen auf meiner Website unter der Rubrik aborted & deleted). Das ist also nichts Ungewöhnliches.
Wenn du Interesse hast, die Verlustpartien der letzten von mir getesteten Stockfishversion zu untersuchen, kannst du mich gerne über das Kontakformular meiner Website anschreiben, dann schicke ich dir schnellstmöglich alle 10000 Partien von Stockfish 131102 zu. Und auf Wunsch auch noch die Partien der davor getesteten Version (131022). Alles kein Problem. Da ich im Schichtbetieb arbeite, kann es aber 24 Stunden dauern, bis ich die Partien schicke...
Allerdings sind die Partien alle ohne Bewertungen, die LittleBliterGUI speichert nur die Züge ab...

Stefan

By Dirk Triebel Date 2013-11-07 20:19

Danke, wenn ich mal mehr Zeit habe komme ich ggf. gern mal darauf zurück.

Gruß,
Dirk

By Dirk Triebel Date 2013-11-06 15:54

Und möglich wäre ja auch, dass diese Versions speziell für die TCEC verbessert wurden, da die ja gerad läuft und das Augenmerk auf dem Turnier liegt. So sind vielleicht Verbesserungen erst bei längeren Rechenzeiten/ -Tiefen erkennbar. Ist nur eine Idee....

By Stefan Pohl Date 2013-11-07 03:36

[quote="Dirk Triebel"]
Und möglich wäre ja auch, dass diese Versions speziell für die TCEC verbessert wurden, da die ja gerad läuft und das Augenmerk auf dem Turnier liegt. So sind vielleicht Verbesserungen erst bei längeren Rechenzeiten/ -Tiefen erkennbar. Ist nur eine Idee....
[/quote]

Nein, soweit ich das auf der Testframework Seite verfolge, ist diese Version eine ganz "normale", die aus dem dort verfolgten Weg der vielen, kleinen Patches hervorgegangen ist.

Stefan

By Stefan Pohl Date 2013-11-07 03:55

[quote="Stefan Pohl"]
[quote="Dirk Triebel"]
Und möglich wäre ja auch, dass diese Versions speziell für die TCEC verbessert wurden, da die ja gerad läuft und das Augenmerk auf dem Turnier liegt. So sind vielleicht Verbesserungen erst bei längeren Rechenzeiten/ -Tiefen erkennbar. Ist nur eine Idee....
[/quote]

Nein, soweit ich das auf der Testframework Seite verfolge, ist diese Version eine ganz "normale", die aus dem dort verfolgten Weg der vielen, kleinen Patches hervorgegangen ist.

Stefan
[/quote]

PeterPan, der einige Stockfish-compiles gemacht hat, hat folgendes im immortal-Forum dazu gepostet:

Yes it's a little disappointing,but not unexpected.
Since 2 of those functional changes proved weaker,in the Stockfish testing framework after they did a re-test.The one wasn't initially even tested.

I am surprised that the Stockfish team didn't revert those changes yet,as i feel without those 2,the rating could be more improved than just the 1 elo we see here.And in my own tests Stockfish without those 2 changes seems stronger than with them.

1.)Tweak bishop pair and knight weight should be reverted to old state or a better tweaked value needed.

2a.)Simplify futility move count formula
2b.)Simplify futility margins formula (these 2a and 2b wasn't even tested intially) and afterwards it proved weaker when tested,why is it kept?

Er denkt also, wie ich auch, daß einige Patches der letzten Zeit fragwürdig waren und auch nur mangelhaft ausgetestet wurden...

Stefan

By Dirk TRIEBEL Date 2013-11-07 15:38

Servus,

hatte das in meiner anderen mail auch schon erklärt (leider nocht nicht freigegeben). Ich denke es ist übelst schwer in so kurzer Zeit (1Mon) systematische Fehler zu erkennen und dann zu korrigieren ohne dabei neue zu bugs zu verursachen u die Engine wieder zu schwächen. Das ist wohl übelst schwer, das aus mehreren 1000 Partien herauszufiltern für die Entwickler. Der Sprung von Stocki kann auch nicht im Monatstakt so weitergehen. Die Remiquote ist ja auch in deiner list abgesunken, sodass die engine mehr Verlustpartien eingefahren haben müsste.

Teste gerad die 05.11.13 version und wenn ich sie mit 29.09.13 vergleiche schwankt die sehr in der Bewertung. Scheint risikofreudiger zu sein u somit auch anfälliger. Aber in manchen Partien verhart er oft in der Stellung und nutzt die Vorteile erst spät (manchmal zu spät). Das sah man auch schon im TCEC gg Gull, wo es dann aber noch gereicht hat.

Gruß,
Dirk