Not logged inCSS-Forum
Forum CSS-Online Help Search Login
CSS-Shop Impressum Datenschutz
Up Topic Hauptforen / CSS-Forum / Stockfish Teststellung Bewertungs- Schwäche/Fehler
- - By Tom Paul Date 2014-02-03 10:37

Neuester Dev.
Schwarz am Zug g5, Tiefe 27, +0.15???
Danach geht Stockfish im Sturzflug mit schwarz den Bach runter.
Parent - By Circular Date 2014-02-03 10:50
Unglaublich!

0,15 / 2 = 0,075 nach üblicher Bewertung???

mir fehlen die Worte....

Circular
Parent - - By Joe Boden Date 2014-02-03 11:08
Da muss ein Fehler dran schuld sein in Deiner Konfiguration. Stocki erwägt diesen Zug bei mir nicht..

r1b1kb1r/pp1n1ppp/1qn1p3/3pP3/3P1P2/5NP1/PP5P/R1BQKBNR b KQkq -

Engine: Stockfish 290114 64 SSE4.2 [new] (128 MB)
von Tord Romstad, Marco Costalba and Joona

16/22  0:02   -0.09    1...Le7 2.Se2 O-O 3.Lh3 Da6 4.O-O Sb6
                       5.b3 Ld7 6.Lb2 Sb4 7.a4 Sd3 8.Lc3 Tac8
                       9.Lg2 (4.815.826) 2113

17/22  0:02   -0.03    1...Lb4+ 2.Kf2 g5 3.fxg5 Sdxe5
                       4.Sxe5 Sxe5 5.Kg2 Sc6 6.Sf3 O-O
                       7.Ld3 Le7 8.b3 Ld7 9.Lb2 Sb4 10.Se5 Sxd3
                       11.Dxd3 (5.761.027) 2121

18/24  0:03   -0.11++  1...Lb4+ 2.Kf2 f6 3.Kg2 g5 4.Sxg5 fxg5
                       5.Dh5+ Kd8 6.Dxg5+ Le7 7.Dg7 Tf8 (7.643.095) 2120

18/25  0:04   -0.19++  1...f6 2.a3 Le7 3.Lh3 fxe5 4.fxe5 O-O
                       5.Lxe6+ Kh8 6.b4 Sxd4 7.Sxd4 Sxe5
                       8.Lxc8 Taxc8 9.Sge2 Dg6 (9.857.620) 2127

18/27  0:05   0.00     1...Le7 2.Se2 O-O 3.Lh3 Db4+ 4.Kf2 Sb6
                       5.b3 Db5 6.Kg2 Ld7 7.Lb2 Sa4 8.Lc1 Sb6 (11.750.539) 2115

19/27  0:06   -0.08++  1...f6 2.a3 Le7 3.Se2 O-O 4.Lg2 a6
                       5.Lh3 fxe5 6.Lxe6+ Kh8 7.Lxd7 Lxd7
                       8.dxe5 Lg4 9.Dxd5 Lxf3 10.Dxf3 Sxe5 (13.927.082) 2120

19/27  0:06   -0.16++  1...f6 2.a3 Le7 3.Se2 O-O 4.Lg2 a6
                       5.Lh3 fxe5 6.Lxe6+ Kh8 7.Lxd7 Lxd7
                       8.dxe5 Lg4 9.Dxd5 Lxf3 10.Dxf3 Sxe5 (14.076.808) 2117

19/27  0:06   -0.28++  1...f6 2.a3 Le7 3.Se2 O-O 4.Lg2 a6
                       5.Lh3 fxe5 6.Lxe6+ Kh8 7.Lxd7 Lxd7
                       8.dxe5 Lg4 9.Dxd5 Lxf3 10.Dxf3 Sxe5 (14.376.158) 2118

19/27  0:07   -0.17    1...f6 2.a3 Le7 3.b4 fxe5 4.fxe5 O-O
                       5.Ta2 Tf7 6.Dd3 a6 7.Lf4 Sf8 8.Se2 Sg6
                       9.Lg2 Sxf4 10.Sxf4 Tf5 (16.319.905) 2112

20/29  0:10   -0.09--  1...f6 2.a3 Le7 3.Se2 O-O 4.Lg2 a6
                       5.Dd3 fxe5 6.fxe5 Scxe5 7.dxe5 Sxe5
                       8.Dc3 Sxf3+ 9.Lxf3 Lf6 10.Dd2 Ld7
                       11.Sc3 (21.619.349) 2105

20/29  0:10   -0.15    1...f6 2.a3 Le7 3.Se2 O-O 4.Lg2 a6
                       5.Dd3 Kh8 6.De3 Sa5 7.O-O fxe5
                       8.fxe5 Sc4 9.Dc3 Sdxe5 10.Sxe5 Sxe5
                       11.Txf8+ Lxf8 12.Lg5 (22.682.517) 2103

21/30  0:20   -0.23++  1...f6 2.a3 g5 3.Lh3 h5 (31.810.212) 1562

21/30  0:35   -0.07--  1...f6 2.Lh3 fxe5 3.fxe5 Lb4+ 4.Kf1 Sdxe5
                       5.dxe5 O-O 6.Kg2 Sxe5 7.Lf4 Sc4 (43.666.217) 1236

21/32  0:46   +0.04--  1...f6 2.Lh3 Lb4+ 3.Kf1 g5 4.Lxe6 fxe5
                       5.fxe5 Sdxe5 6.Lxc8 Sxf3 7.Sxf3 Txc8
                       8.De2+ Le7 9.De6 Tb8 10.Sxg5 Sxd4
                       11.Df7+ Kd8 12.Dxd5+ Kc8 13.Kg2 (52.402.340) 1135

21/35  1:06   +0.04    1...Le7 2.Se2 O-O 3.Lh3 Da6 4.O-O Sb6
                       5.b3 Ld7 6.Ld2 Tfc8 7.Lg2 Lb4 8.a4 Lxd2
                       9.Dxd2 Da5 10.Tfc1 Dxd2 11.Sxd2 a5 (69.695.947) 1042

22/35  1:19   -0.04++  1...f6 2.Lh3 Le7 3.Se2 O-O 4.Lxe6+ Kh8
                       5.exf6 Sxf6 6.Lxc8 Lb4+ 7.Ld2 Lxd2+
                       8.Dxd2 Se4 9.De3 Db4+ 10.Kf1 Taxc8
                       11.Kg2 Dxb2 12.Thb1 Dc2 13.Txb7 Sd6
                       14.Tbb1 Tce8 (80.194.424) 1012

22/35  1:20   -0.05    1...f6 2.Lh3 Le7 3.Se2 O-O 4.Lxe6+ Kh8
                       5.exf6 Lb4+ 6.Ld2 Sxf6 7.Lxc8 Lxd2+
                       8.Dxd2 Se4 9.De3 Db4+ 10.Kf1 Taxc8
                       11.Kg2 Dxb2 12.Thb1 Dc2 13.Txb7 Sd6
                       14.Tbb1 Tce8 (83.331.641) 1032

23/40  1:25   +0.02--  1...f6 2.Lh3 Le7 3.Se2 O-O 4.Lxe6+ Kh8
                       5.exf6 Lb4+ 6.Kf2 Sxf6 7.Lxc8 Taxc8
                       8.Tf1 Da6 9.Kg2 Se4 10.Se5 Db6
                       11.Sd7 (93.435.184) 1095

23/40  1:30   +0.05    1...f6 2.Lh3 Le7 3.Se2 O-O 4.Lxe6+ Kh8
                       5.exf6 Lb4+ 6.Kf2 Sxf6 7.Lxc8 Taxc8
                       8.Tf1 Da6 9.Kg1 Se4 10.Se5 Ld6
                       11.Le3 Sb4 12.Sc3 Sxc3 13.bxc3 Txc3 (104.706.939) 1155

24/40  1:33   -0.02++  1...f6 2.Lh3 fxe5 3.fxe5 Lb4+ 4.Kf1 O-O
                       5.Kg2 (108.325.403) 1162
Parent - By Tom Paul Date 2014-02-03 11:21
Ist alles Standard Konfiguration.
Parent - By Michael Scheidl Date 2014-02-03 11:34
Auch die Version vom 10. Dezember ist vorerst ganz vernarrt in 9...g5. Der Sinn erschließt sich in der Analyse: Falls 10.fxg5 Lb4+ 11.Kf2 wäre Sdxe5 oder Scxe5 möglich, da der Bauer d4 nun gefesselt ist und f4 nicht mehr e5 deckt... Somit wäre Weiß, wollte er den Mehrbauern halten, zu dem unangenehmen Ke2 gezwungen (11.Ld2 ist wegen Sxd4 schlecht).

Doch nach längerer interaktiver Analyse hält die genannte Version 9...Le7 für das beste.

9...g5, selbst falls er nicht das Optimum darstellen sollte, ist sicherlich ein kreativer, aggressiver Zug der einen GM aus den Socken haut!
- - By Alexander S. Date 2014-02-16 04:43
Ich habe gerade herausgefunden, dass der vermeintliche Remis-Versuch von Stockfish in Wirklichkeit ein grober Bewertungsfehler sein muss!

Stockfish sieht einen äußerst schlechten Zug als 0.00 Bewertet. Führt man diesen Zug tatsächlich aus, dann springt die Bewertung plötzlich auf +0.46 für den Gegner.

Es geht um Sg8 in dieser Stellung.


Man beachte wie die Bewertung nach Durchführen des Zuges keineswegs mehr mit 0.00 sondern deutlich schlechter für schwarz angegeben ist!

Wenn diese Art von Fehlbewertung Stocki öfters passiert, geht hier massiv potential flöten!
Parent - - By Michael Scheidl Date 2014-02-16 08:47
In dieser Stellung scheint Weiß zuvor zwei Tempi verloren zu haben. Ich vermute, 6...Sg8 würde eine Stellungswiederholung herbeiführen und daher mit 0.00 bewertet, und erst danach erkennt SF. daß Weiß nicht remisieren muß. Dieses Problem kam hier schon öfter zur Sprache.

Ohne PGN läßt sich das aber nicht reproduzieren:

Engine: Stockfish 040214 (512 MB)
von Tord Romstad, Marco Costalba and Joona

1/01   0:00   -1.08    1...O-O (162) 81
(...)
28/39  1:03   +0.10    1...Sg4 2.O-O Sa5 3.Lb3 Sxb3 4.axb3 O-O
                       5.h3 Sf6 6.Te1 Ld7 7.Le3 Lb6 8.Lxb6 axb6
                       9.Sc3 Te8 10.b4 De7 11.De2 h6 12.Sd2 b5
                       13.Kh1 Ted8 14.Txa8 Txa8 (188.184.357) 2977

Bester Zug: Sh6-g4 Zeit: 1:03.328 min  K/s: 2.977.789  Knoten: 188.184.357


Ich habe eine Zugfolge gebastelt, die zu obiger Stellung führt:

[Event "?"]
[Site "?"]
[Date "2014.02.16"]
[Round "?"]
[White "?"]
[Black "?"]
[Result "*"]

1. e4 e5 2. Bc4 Bc5 3. d3 d6 4. Nf3 Nc6 5. Bd5 Nh6 6. Bc4 *

Und nun:

Engine: Stockfish 040214 (512 MB)
von Tord Romstad, Marco Costalba and Joona

1/01   0:00   -1.08    6...O-O (162) 81
(...)
6/06   0:00   0.00     6...Sg8 (5.000) 500
(...)
28/15  0:10   0.00     6...Sg8 7.O-O (31.134.108) 2902

Bester Zug: Sh6-g8 Zeit: 0:10.797 min  K/s: 2.902.405  Knoten: 31.134.108


Bingo! (Außerdem ist hier 7.O-O seltsam, da es ja eine neuerliche Stellungswiederholung zunichte machen würde.)

Nach Eingabe von 6...Sg8 schlägt die Engine bei mir 7.c3 mit ca. +0,50 vor. Geht man "interaktiv" zurück, verfällt sie wieder auf das irrige 0,00 für 6...Sg8. In Multi-PV ist zu erkennen, daß ansonsten Sg4 oder Sa5 gewählt würde (+0,14).

Von mehreren guten Engines die ich kurz darauf angesetzt habe, fiel nur Rybka 232a genauso auf Sg8 mit Nullbewertung herein. Mehrere andere zeigten sich immun.
Parent - - By Tom Paul Date 2014-02-16 11:13
Und warum zeigen sich schwächere Engines immun dagegen und Stockfish nicht?
Parent - - By Michael Scheidl Date 2014-02-16 12:07
Es muß wohl daran liegen, was den jeweiligen Programmierern wichtig ist oder nicht, bzw. ob sie dem Aufmerksamkeit schenken.

Im einem anderen Thread kam gerade dasselbe Problem zur Sprache, aber mit einem viel drastischeren Beispiel. Dort kostet der Irrtum gleich eine Figur:

http://forum.computerschach.de/cgi-bin/mwf/topic_show.pl?pid=75093

[Event "?"]
[Site "?"]
[Date "2014.02.16"]
[Round "?"]
[White "?"]
[Black "?"]
[Result "*"]

1. e3 d6 2. Nf3 Bh3 3. Ng1 Bc8 4. Nf3 {...und was zieht die
Engine jetzt für Schwarz? } *

Es sind mehrere Engines angeführt die hereinfallen, oder die immun sind (zumindest nach dieser Zugfolge). Immun z.B. Houdini, Critter, Shredder. Herein fallen leider Stockfish, Komodo, Gull und u.U. DF13.
Parent - - By Kurt Utzinger Date 2014-02-16 12:17
Zum Glück kommen solche Vorfälle in der praktischen Partie
nur sehr selten vor.
Mfg
Kurt
Parent - By Alexander S. Date 2014-02-16 12:45
Kurt Utzinger schrieb:

Zum Glück kommen solche Vorfälle in der praktischen Partie
nur sehr selten vor.
Mfg
Kurt

Hast du irgendwelche Zahlen um zu unterlegen, dass das "nur selten" ist? Man sollte mal eine Analyse über Stockis Niederlagen/Remise fahren, ob da nicht im Laufe der Partie genau solche falschen Remisvermutungen dran beteilligt waren.
Also eigentlich müsste man nur nach den 0.00-Bewertungen Parsen und schauen, ob es beim nächsten Zug eine Bewertung gibt, die stark von 0.00 abweicht. Und ich hab' da so den Verdacht, dass das weit weniger selten ist, als du wir hoffen.
Parent - By Alexander S. Date 2014-02-16 12:37
Michael Scheidl schrieb:

Ohne PGN läßt sich das aber nicht reproduzieren:

Ich habe eine Zugfolge gebastelt, die zu obiger Stellung führt:

1. e4 e5 2. Bc4 Bc5 3. d3 d6 4. Nf3 Nc6 5. Bd5 Nh6 6. Bc4 *

Und nun:

<code>Engine: Stockfish 040214 (512 MB)
von Tord Romstad, Marco Costalba and Joona

1/01   0:00   -1.08    6...O-O (162) 81
(...)
6/06   0:00   0.00     6...Sg8 (5.000) 500
(...)
28/15  0:10   0.00     6...Sg8 7.O-O (31.134.108) 2902

Bester Zug: Sh6-g8 Zeit: 0:10.797 min  K/s: 2.902.405  Knoten: 31.134.108 </code>

Bingo! (Außerdem ist hier 7.O-O seltsam, da es ja eine neuerliche Stellungswiederholung zunichte machen würde.)

Nach Eingabe von 6...Sg8 schlägt die Engine bei mir 7.c3 mit ca. +0,50 vor. Geht man "interaktiv" zurück, verfällt sie wieder auf das irrige 0,00 für 6...Sg8. In Multi-PV ist zu erkennen, daß ansonsten Sg4 oder Sa5 gewählt würde (+0,14).

Sehr interessant, dass er aus der FEN heraus zu einer anderen, besseren Bewertung kommt als aus der Partie heraus.

Die Original-Zugreihenfolge, die bei mir reproduzierbar zu der Stellung geführt hat ist übrigens:
Event:
Ort:
Datum:

Weiss:
Schwarz:

Ergebnis
Board

Code:
1. e4 e5 2. Nf3 Nc6 3. Bc4 Bc5 4. d3 d6 5. Ng5 Nh6 6. Nf3


Spielt Stocki natürlich nicht immer so aber kommt in Stockfish DD auf dem Android durchaus vor. Und auch wenn der aktuelle Stocki üblicherweise nicht in diese Stellung gerät, macht er ja bei der Bewertung den gleichen Fehler.

Die Frage ist nun: Wie oft kommt es in Stocki's Spielen zu ähnlich gelagerten Fehlern? Kann es sein, dass gar eine Großzahl von Stocki's Niederlagen auf das Konto eines derartigen Problems geht?

Können wir irgendwie zu den Devs Kontakt aufnehmen und ihnen diese PGN zu Debuggung-Zwecken zeigen, damit sie suchen können, wo hier das Problem liegt?

Ich vermute irgend einen Bug. Und wenn der gefixt würde, sollte ja die Spielstärke nochmal massiv ansteigen. Also sollte es schon sehr in deren Interesse sein.
- - By Alexander S. Date 2014-02-16 13:10
Hab' mir gerade noch die andere Zugfolge angeschaut.
Der Bug ist also ganz konkret:
"Wenn ich eine Stellung schonmal auf dem Brett hatte, und ich irgendwas spielen kann, dass die gleiche Stellung wieder herbeiführt, dann ist diese Stellung als 0.00 zu bewerten."

Mit diesem Wissen sollte man Stocki als Weißer relativ einfach in Remisfallen locken können. Jede Rücknahme eines Zuges, der noch nicht ausreicht, um die Bewertung unter 0.00 zu drücken sollte diesen Effekt hervorrufen.

Vielleicht kann ich in kurzer Zeit ein paar weitere Beispiele dafür finden.

Hier, gerade selber gebastelt:
Code:
1. e4 Nc6 2. d4 e5 3. d5 Nb4 4. Nc3 Be7 5. Nb1

Und Tada: Bf8 wird mit 0.00 bewertet und gespielt, obwohl der Zug -0.96 wert ist und beispielsweise a5 um Welten besser ist.

Gut, das ist kein praxisrelevantes Beispiel aber es zeigt, dass der oben beschriebene Effekt zu 100% reproduzierbar ist.
Parent - By Tom Paul Date 2014-02-16 14:21
Einer der Gründe warum ich gegen Stockfish einen extrem guten Score habe-> nach DWZ Einschätzung unmenschlich
- By Alexander S. Date 2014-02-16 14:14
Habe jetzt Mal im FishCooking-Forum gepostet, dass sie doch bitte den Codeblock:

bool Position::is_draw() const {
[...]
  StateInfo* stp = st;
  for (int i = 2, e = std::min(st->rule50, st->pliesFromNull); i <= e; i += 2)
  {
      stp = stp->previous->previous;

      if (stp->key == st->key)
          return true; // Draw at first repetition
  }
[...]
}

Durch diesen hier ersetzen sollten:

bool Position::is_draw() const {
[...]
  StateInfo* stp = st;
  short sRepeatCount(0);
  for (int i = 2, e = std::min(st->rule50, st->pliesFromNull); i <= e; i += 2)
  {
      stp = stp->previous->previous;

      if (stp->key == st->key)
          ++sRepeatCount;
      if (sRepeatCount>1)
          return true; // Draw at second repetition
  }
[...]
}

Das sollte das Problem eigentlich beheben.
Ich hoffe das liest jemand von den Devs.
- - By Alexander S. Date 2014-02-16 16:30
Sehr interessant:

Der Bug war denen bereits bekannt und einen Fix dafür gab' es auch schon.
Dieser wurde allerdings nicht in den Master übernommen, da er irgendwie -0.9 ELO gegen diesen gespielt hat.
Dass er gegen den Master kein besseres Ergebnis erzielen kann ist ja irgendwie logisch, da Stockfish wohl kaum seinen eigenen Bug ausnutzen wird.

Andere Engines oder Menschen könnten das sehr wohl.
Parent - By Michael Scheidl Date 2014-02-16 18:29
Ich seh's vor allem als lästiges Problem in der Analyse. Aufgrund der Seltenheit hat das wohl kaum praktische Bedeutung, aber es wäre eine schöne "kosmetische Korrektur". Andere Programmierer haben solche Bewertungsirrtümer ja sicher nicht zufällig vermieden.
Parent - - By Tom Paul Date 2014-02-17 07:52
Alexander S. schrieb:

Sehr interessant:

Der Bug war denen bereits bekannt und einen Fix dafür gab' es auch schon.
Dieser wurde allerdings nicht in den Master übernommen, da er irgendwie -0.9 ELO gegen diesen gespielt hat.
Dass er gegen den Master kein besseres Ergebnis erzielen kann ist ja irgendwie logisch, da Stockfish wohl kaum seinen eigenen Bug ausnutzen wird.

Andere Engines oder Menschen könnten das sehr wohl.


1. Ich habe es ja schon immer gesagt, Stockfish soll dort wo es Sinn macht immer 2-Fold Rep spielen, dass bringt ELOs ein, vor allem gegen Menschen. Das beeindruckt Menschen.

2. Ja der Fix wurde nicht übernommen, weil er weniger als -1 ELO gegen den Master einbrachte, stattdessen hatte man sich gedacht, lieber fast einen ELO gegen Master einsparen und dafür gegen mehrere Spieler mit 1000 ELO Remis spielen und da haben wir gleich -500 ELO Verlust.
Jetzt ist Stockfish in Wirklichkeit ohne Fix 499 ELO schwächer!

3. Es kann ja sein dass der Fix +1 ELO und mehr gegen andere Engines einbringt.
Parent - By Tom Paul Date 2014-02-17 11:41
Stockfish findet den besten Zug nicht!!!


Dxh3 +1.57

1)
Sh2 +0.00 Tiefe 44, f5 +0.00 Tiefe 43, Df1 +0.00 Tiefe 42, (Jetzt Dh4 +0.00 Tiefe 41, Dg2 +0.00 Tiefe 40, fxe4 +1.55 Tiefe 28 / Sf4 +1.55 Tiefe 24), oder Dxf1 +0.00 Tiefe 40, Kxf1 +0.00 Tiefe 39, fxe4 +0.00 Tiefe 38, Sxe4 +0.00 Tiefe 37, Sf4 +0.00 Tiefe 36, Tad1 +0.00 Tiefe 35, a5 +0.00 Tiefe 34, Lxf4 +0.00 Tiefe 33, Txf4 +0.00 Tiefe 32, Kg2 +0.00 Tiefe 31, h5 +0.00 Tiefe 30, Td3 +0.00 Tiefe 29, a4 +0.00 Tiefe 28, Sf1 +0.00 Tiefe 27, Taf8 +0.00 Tiefe 26, Sfd2 +0.00 Tiefe 25, Lh4 +0.00 Tiefe 24, Tf3 +0.00 Tiefe 23, Tg4 +0.00 Tiefe 22, Kh3 +0.00 Tiefe 21, Tgf4 +0.00 Tiefe 20, Txf4 +0.00 Tiefe 19, Txf4 +0.00 Tiefe 18, Kg2 +0.00 Tiefe 17 Wenn ich jetzt auf analysieren klicke, erhalte ich auf Tiefe 16 nach 0 Sekunden Tg4 +1.90, Nach 1 Minute erhalte ich auf Tiefe 30 Kf7 +2.80.
Was soll den der ganze +0.00 Scheiß???
Übrigens, so zerstört Stockfish kurzerhand ganze Eröffnungsbücher.

2)
Sd2 +1.45 Tiefe 28

3)
Stockfish findet den besten Zug nicht und das ist hier Sg5!!
Gut er findet ihn im MV-Mode 17!!! da steht er dann ganz unten mit +0.00 bewertet mit der Begründung 1.Sg5 Dh4 2.Sf3 Dh3 und weiter geht es in der Analyse nicht.
Nur
1. Warum muss ich jetzt immer MV-Mode 17 für alle meine Partien verwenden?
2. Warum +0.00.
3. Wo bleibt der 3. Zug für weiß und schwarz?
Und warum findet Stockfish den besten Zug nicht?
Weil Stockfish nicht darauf programmiert ist überall wo es Sinn macht 2-Fold Rep zu spielen.
Und warum ist Sg5 der beste Zug?
Weil es das verlockende Lxg5 gibt was auch in der Partie gespielt wurde und was auch einige Engines spielen würden und wenn man nun mal gerade gegen eine TOP Engine spielt die anstatt Lxg5 Dh4 antwortet, dann kann man immer noch einen anderen Zug spielen wie z.B. Sd2 oder Sh2 usw. und hat nichts verloren, evtl. einen Zeitbonus gewonnen und dem Gegner gezeigt wer Chef im Ring ist.

4) Wenn nun einige der Meinung sind Sh2 ist besser als Sg5 Lxg5 Lxg5 bewertet, gut ich spiele lieber als Zentaur und vertraue nicht zu sehr auf Engine Bewertungen, aber warum will dann Stockfish Dh4 spielen, was mir wieder Sf3-Sh2 erlaubt also die nach Engine Meinung bessere Bewertung?
Parent - - By Alexander S. Date 2014-02-17 12:19
Tom Paul schrieb:

1. Ich habe es ja schon immer gesagt, Stockfish soll dort wo es Sinn macht immer 2-Fold Rep spielen, dass bringt ELOs ein, vor allem gegen Menschen. Das beeindruckt Menschen.

2. Ja der Fix wurde nicht übernommen, weil er weniger als -1 ELO gegen den Master einbrachte, stattdessen hatte man sich gedacht, lieber fast einen ELO gegen Master einsparen und dafür gegen mehrere Spieler mit 1000 ELO Remis spielen und da haben wir gleich -500 ELO Verlust.
Jetzt ist Stockfish in Wirklichkeit ohne Fix 499 ELO schwächer!

3. Es kann ja sein dass der Fix +1 ELO und mehr gegen andere Engines einbringt.

Ich gehe durchaus davon aus, dass der Fix gegen andere Engines zu einer Verbesserung führen würde.

Man könnte das ja sogar rückwirkend an Hand von bereits gespielten Partien analysieren.

Jedes Mal wenn SF im Spiel eine 0.00 gesehen hat, macht man eine FEN draus und setzt ihn nochmals darauf an. Dann sieht man anhand der Diskrepanz direkt, was er so alles eingebüßt hat, weil er eine Stellungswiederholung als besten Zug bewertet hat, obwohl sie nicht der beste Zug war.

Mit solchen Daten könnte man die Entwickler möglicherweise davon überzeugen, dass es keine gute Idee ist, mutwillig einen Bug im Code zu behalten. Die Regel lautet nunmal, dass 3 Mal die selbe Stellung ein Remis ist und nicht schon 2 Mal.
Parent - - By Jörg Oster Date 2014-02-17 13:05
Fakt ist aber auch, die erste Stellungswiederholung im Suchbaum als remis zu bewerten, sich als sehr hilfreich herausgestellt hat. Trotz der Nachteile.
Parent - - By Tom Paul Date 2014-02-17 15:06
Trotzdem ist es falsch, dass ist so als ob Stockfish jedes mal zum Schiedsrichter wegen seinem Remis läuft und dann von diesem ganz kräftig einen auf den Deckel bekommt.

Das mit dem einfach erinnert an die Geschichte: Welchen Weg wirst du wählen?
Den schweren Weg oder den einfachen Weg?
Der einfache Weg ist nicht der beste Weg.

Und nachdem Stockfish seine 5000 ELO erreicht hatte, machten sich die Entwickler noch einmal daran diese Nachteile zu beseitigen, weil sie es beim erstem mal nicht richtig gemacht hatten.

Frage: Inwiefern hat sich das als hilfreich herausgestellt?
Falls es dadurch einfacher war xy zu programmieren, konnte man xy denn nicht auch anders programmieren?
Parent - - By Michael Scheidl Date 2014-02-17 16:15
Ein starkes Argument ist ja, daß Houdini oder Critter dieses Problem offenbar nicht haben.

Ich habe das Gefühl (und mangels Programmierer zu sein nicht die Gewißheit), daß diese Verifizierung nur nahe der Wurzel wichtig ist, wenn es darum geht was eine Engine tatsächlich zieht. Dort muß man überprüfen ob der Gegner wirklich auf das Remis einsteigen muß.

Ansonsten, weiter oben im Suchaum sehe ich ein daß es effizient ist - und somit +0.65 Elo bringt - schon die erste Wiederholung mit 0.00 zu bewerten, was ja in geschätzten 99%+ tatsächlich auf eine Remisposition verweist, und nicht erst die zweite...
Parent - By Tom Paul Date 2014-02-17 16:30
Ja nur ist dann eben der Master +0.65 ELO stärker aber nur gegen die vorherige Stockfish Engine, dafür verliert der Master z.B. 500-1000 ELO an Spielstärke gegen Menschen      
Parent - - By Jörg Oster Date 2014-02-17 16:49
Michael Scheidl schrieb:

Ein starkes Argument ist ja, daß Houdini oder Critter dieses Problem offenbar nicht haben.

Ich habe das Gefühl (und mangels Programmierer zu sein nicht die Gewißheit), daß diese Verifizierung nur nahe der Wurzel wichtig ist, wenn es darum geht was eine Engine tatsächlich zieht. Dort muß man überprüfen ob der Gegner wirklich auf das Remis einsteigen muß.

Ansonsten, weiter oben im Suchaum sehe ich ein daß es effizient ist - und somit +0.65 Elo bringt - schon die erste Wiederholung mit 0.00 zu bewerten, was ja in geschätzten 99%+ tatsächlich auf eine Remisposition verweist, und nicht erst die zweite...

In der Tat ist es derzeit so, dass die Suche bei der ersten Wiederholung einer Stellung einfach abgebrochen wird. Deshalb steht der Test auf eine Remisstellung auch vor den eigentlichen Suchroutinen.
Das spart Zeit, mehr Zeit erhöht die Suchtiefe, das bringt Spielstärke. Dass das mit einem gewissen Risiko verbunden ist, wie bei fast allen Techniken, die den Suchbaum auf irgendeine Weise beschneiden oder reduzieren, ist klar. No risk, no elo! 

Der jetzt im Test befindliche Patch unterscheidet jetzt, ob die erste Stellung einer möglichen Wiederholung aus der schon gespielten Partie entstammt (da wird jetzt erst die zweite Wiederholung als Remis gewertet!), oder ob diese im Suchbaum auftritt, also noch gar nicht geschehen ist! (hier wird aus o. a. Gründen weiterhin die erste Wiederholung als Remis gewertet!)

Ob und wie das ganze sich auf die Spielstärke gegen andere Engines auswirkt, ist noch unklar.
Mein github Repository ist aber jedermann zugänglich. Dort kann man sich die Sourcen downloaden und selber testen. Hier der direkte Link zum Download: https://github.com/joergoster/Stockfish/archive/3fold_fix.zip
Parent - By Michael Scheidl Date 2014-02-17 17:50
Das klingt sehr gut!
Parent - - By Alexander S. Date 2014-02-17 20:07
Das klingt nach einem ausgezeichneten Kompromiss!

Kann man mit Github auch irgendwie automatisch Builds erzeugen, so wie bei Jenkins?
Hätte das ganz gern als compile für Windows-64Bit und Android.
Parent - - By Jörg Oster Date 2014-02-18 12:18
Leider sieht es wieder mal nicht gut aus. 

Nach ungefähr 35k Spielen war der Test fast durch. LLR lag bei ungefähr +2.60.
Dann passierte unter anderem das:
Code:
29   xor12-3cores   15 hours ago   1000 / 1000   131   190   679   0   0   3.166


Allein diese Maschine liefert 59 Verlustpartien! Dann noch ein paar andere leicht negative Ergebnisse dazu, Pech gehabt!
Es ist sehr unwahrscheinlich, dass das wieder gutzumachen ist.

Zu deiner Frage: Github liefert keine Compiles.
Windows-Compiles kann aber mittlerweile doch jeder selbst erstellen. Es gibt dazu einen Thread mit einer Anleitung.
Parent - By Tom Paul Date 2014-02-18 13:40
Wenn ich das richtig sehe hat die Person Residual Rot.
29  xor12-3cores  16 hours ago  1000 / 1000  131  190  679  0  0  3.185
http://tests.stockfishchess.org/tests/view/5301d7ed0ebc5901df50fae4
Warum nehmt ihr nicht einfach die Person raus aus der Wertung, dann wäre der Test 100% durchgekommen.
Wahrscheinlich hat die Person HT verwendet, weil diese einfach nur daran interessiert ist möglichst viele Partien zu absolvieren, um in der Rangliste weiter oben zu stehen.
Diese Person hat ja noch nicht einmal einen Kern freigelassen.

Ich glaube übrigens, dass der Test trotzdem durchkommt, nur werden jetzt doppelt bis dreifach so viele Partien benötigt.
Jetzt muss man sich nur vorstellen, wenn so etwas täglich passiert...dann brauchen wir ewig für einen Test.
Und dann sind Tests durch Residual Rot erfolgreich die eigentlich hätten durchfallen müssen und umgekehrt.

M.M.n sollten alle Maschinen gesperrt werden, wenn Fishtest erkennt, dass die Anzahl der Kerne gerade ist und nicht ungerade.
Bzw. Fishtest sollte nicht starten.

Wer Residual Rot hat, sollte aus dem Test herausgenommen werden.
Parent - By Ai L Date 2014-02-18 15:36
Wie jetzt? Es sieht 35k Partien lang gut aus, dann kommt ein Ausrutscher und es sieht auf einmal schlecht aus?
Gibt es irgendwelche Theorien, wie der Fix, der ja wirklich nur auf tatsächliche Stellungswiederholungen überhaupt einen Einfluss haben kann und ansonsten mit dem Master beim Spiel gegen diesen total identische Ergebnisse erzielen sollte, soetwas auslöst? Vor allem, wenn es vorher 35000 Mal gut ging?

In Arena 3.0 gab es übrigens einen mittlerweile in 3.5 gefixten Bug im Zusammenhang mit der fehlenden automatischen Kernerkennung von SF, der dazu führte, dass bei mehreren Turniepartien irgendwann eine Seite nurnoch auf einem Kern lief und dann mit etwa einem viertel der normalen Rechenleistung spielte. Vielleicht ist ja hier was Ähnliches passiert?
Parent - - By Tom Paul Date 2014-02-19 17:28
Jörg Oster schrieb:

Leider sieht es wieder mal nicht gut aus. 

Nach ungefähr 35k Spielen war der Test fast durch. LLR lag bei ungefähr +2.60.
Dann passierte unter anderem das:
Code:
29   xor12-3cores   15 hours ago   1000 / 1000   131   190   679   0   0   3.166


Allein diese Maschine liefert 59 Verlustpartien! Dann noch ein paar andere leicht negative Ergebnisse dazu, Pech gehabt!
Es ist sehr unwahrscheinlich, dass das wieder gutzumachen ist.

Zu deiner Frage: Github liefert keine Compiles.
Windows-Compiles kann aber mittlerweile doch jeder selbst erstellen. Es gibt dazu einen Thread mit einer Anleitung.


17-02-14  jo  3fold_fix  diff 
LLR: 0.12 (-2.94,2.94) [-4.00,0.00]
Total: 52064 W: 7887 L: 8036 D: 36141
sprt @ 60+0.05 th 1  LTC: Test as simplification/bugfix as vdb proposed.

17-02-14  jo  3fold_fix  diff 
LLR: 0.37 (-2.94,2.94) [-4.00,0.00]
Total: 53002 W: 8043 L: 8182 D: 36777
sprt @ 60+0.05 th 1  LTC: Test as simplification/bugfix as vdb proposed.

Siehst du, habe es doch gesagt, der Test kommt durch, es werden nur doppelt bis dreifach so viele Partien benötigt, was auch ein Ressourcen Verlust ist.
Wegen einer Person kann es also passieren, dass wir in einer bestimmten Zeitspanne nur einen Test schaffen anstatt 3.
Also entwickelt sich Stockfish mit nur 1/3 Geschwindigkeit.
Parent - By Tom Paul Date 2014-02-19 18:13
Evtl. sollte ihr überlegen den Test neu zu starten.
Parent - - By Ai L Date 2014-02-20 02:36
Tom Paul schrieb:

Siehst du, habe es doch gesagt, der Test kommt durch, es werden nur doppelt bis dreifach so viele Partien benötigt, was auch ein Ressourcen Verlust ist.
Wegen einer Person kann es also passieren, dass wir in einer bestimmten Zeitspanne nur einen Test schaffen anstatt 3.
Also entwickelt sich Stockfish mit nur 1/3 Geschwindigkeit.

Was heißt das jetzt? Kommt der Fix in den Master? Werde ich endlich keine Untentschieden nach 8 Zügen mehr gegen die dann stärkste Engine der Welt holen können?
Parent - - By Tom Paul Date 2014-02-20 07:05
Es sieht im Moment nicht danach aus.
Es ist eben nur wichtig, das die Engine gegen den Master keine -0.65 ELO verliert!
Das sie gegen dich und andere Remis spielt und evtl. dadurch 500-1000 ELO verliert spielt keine Rolle, ist denen nicht so wichtig wie -0.65 ELO.
Parent - - By Ai L Date 2014-02-20 10:27
Ich kann diese Vorgehensweise seitens der Entwickler in dieser Hinsicht echt nicht nachvollziehen.
Ist denen die Tragweite der Entscheidung auf den 3-fold-fix zu verzichten überhaupt bewusst?
"Oh die Stellung war schonmal, dann spiel' ich lieber den Zug, den ich normalerweise mit -0.76 bewerten würde als den -0.13 Zug weil der zu einer Stellung führt, die auch schonmal war."

Wer möchte denn so ein Verhalten in seiner Engine dulden?
Parent - - By Tom Paul Date 2014-02-20 11:07
So weit ich weiß möchte Benno das.

Hier kannst du nachschauen, wie der Test läuft:
http://tests.stockfishchess.org/tests
Sieht im Moment gut aus.
Parent - - By Ai L Date 2014-02-20 14:38
Das heißt es hängt mehr oder weniger vom Zufall ab, ob der Fix übernommen wird oder nicht?
Parent - - By Tom Paul Date 2014-02-20 15:49
Sagen wir:
Je besser der Fix ist und je besser im Code implementiert, desto höher ist die Wahrscheinlichkeit das der Fix übernommen wird.
Parent - - By Tom Paul Date 2014-02-21 11:33
Also der Fix schwankt zwischen -1.70 und +2.60.
Jetzt haben wir bereits Total 125000 Partien und es werden mehr.
Aktuell steht der Fix bei -1.30.
Nach 35000 Partien war der Fix eigentlich durch, bis ein Tester mit Residual Rot angekommen ist und seine vielen Verlustpartien mitbrachte.
Das Beste ist, jetzt gibt es viel mehr Tester mit Residual Rot und jetzt frage ich mich langsam ob jemand vorhat die 1000000 zu knacken???

Es macht doch überhaupt keinen Sinn mehrere Instanzen auf einem Rechner zu starten.
Und warum wird nichts gegen Residual Rot und Gelb unternommen?
Ich habe immer Grün.
Parent - - By Jörg Oster Date 2014-02-21 11:55
So wie es ausschaut, kann sich der Test noch hinziehen.
Und da er schon ziemlich lange einen niedrigen p-value hat, wird er am Ende wahrscheinlich noch 'gepurged', also bereinigt werden müssen.

Das Interessante aber ist, dass der Elo-Verlust zu jeder Zeit ca. 1 Elo-Pünktchen betragen hat! Ich habe immer mal wieder zwischendurch die W-D-L Zahlen in einen Online-Calculator eingetragen. Immer das gleiche Ergebnis: -1.

Schaun mer mal ... 
Parent - - By Stefan Pohl Date 2014-02-21 12:31
Jörg Oster schrieb:

So wie es ausschaut, kann sich der Test noch hinziehen.
Und da er schon ziemlich lange einen niedrigen p-value hat, wird er am Ende wahrscheinlich noch 'gepurged', also bereinigt werden müssen.

Das Interessante aber ist, dass der Elo-Verlust zu jeder Zeit ca. 1 Elo-Pünktchen betragen hat! Ich habe immer mal wieder zwischendurch die W-D-L Zahlen in einen Online-Calculator eingetragen. Immer das gleiche Ergebnis: -1.

Schaun mer mal ... 


Wann rechnest du damit, daß der Patch applied wird (falls überhaupt?)? Laut Framework sind doch maximal 128000 Partien vorgesehen. Diese sind ja nun bald durch.
Ich habe im  Moment für die LS-Rangliste nichts zu testen und würde gerne mal einen neuen Testrun mit Stockfish machen, aber eben möglichst mit deinem Patch. Daher wäre ich für alle Zeitangaben oder auch Schätzungen sehr dankbar...

Stefan
Parent - - By Jörg Oster Date 2014-02-21 12:37 Edited 2014-02-21 12:45
Ich habe echt keine Ahnung.
Die Anzahl der Spiele kann manuell verändert werden.

Ich habe jetzt allerdings im Fishcooking-Forum gepostet, dass weiterzuspielen keinen wirklichen Erkenntnisgewinn zeigen wird. Entweder man akzeptiert den kleinen Eloverlust, oder eben nicht.
Ich bin da eher pragmatisch veranlagt.

Edit: Soll ich Marco mal vorschlagen, dass er den Patch übernimmt, und du von abrok.eu das Compile übernimmst und unter LS-Bedingungen testen würdest?
Parent - - By Stefan Pohl Date 2014-02-21 13:16
Jörg Oster schrieb:

Ich habe echt keine Ahnung.
Die Anzahl der Spiele kann manuell verändert werden.

Ich habe jetzt allerdings im Fishcooking-Forum gepostet, dass weiterzuspielen keinen wirklichen Erkenntnisgewinn zeigen wird. Entweder man akzeptiert den kleinen Eloverlust, oder eben nicht.
Ich bin da eher pragmatisch veranlagt.

Edit: Soll ich Marco mal vorschlagen, dass er den Patch übernimmt, und du von abrok.eu das Compile übernimmst und unter LS-Bedingungen testen würdest?


Mach das. Ich stehe quasi in den Teststartlöchern...

Gruß - Stefan
Parent - By Ai L Date 2014-02-21 15:19
Ich bin auch der Meinung, dass ein Test gegen die tatsächliche Konkurrenz zu sehr viel mehr Erkenntnisgewinn führen wird als nochmal 100k Partien gegen den Master. ^^
Parent - By Stefan Pohl Date 2014-02-21 19:34
Stefan Pohl schrieb:

Jörg Oster schrieb:

Ich habe echt keine Ahnung.
Die Anzahl der Spiele kann manuell verändert werden.

Ich habe jetzt allerdings im Fishcooking-Forum gepostet, dass weiterzuspielen keinen wirklichen Erkenntnisgewinn zeigen wird. Entweder man akzeptiert den kleinen Eloverlust, oder eben nicht.
Ich bin da eher pragmatisch veranlagt.

Edit: Soll ich Marco mal vorschlagen, dass er den Patch übernimmt, und du von abrok.eu das Compile übernimmst und unter LS-Bedingungen testen würdest?


Mach das. Ich stehe quasi in den Teststartlöchern...

Gruß - Stefan


Ich sehe gerade, es gibt eine neue Version von DON von heute (Ipman Compile). Da sich bei Stockfish bzgl. des 3fach-Patches von Jörg Oster leider noch immer nichts getan hat, ziehe ich diesen Test vor. Ich starte ihn morgen, sodaß der Test bis Dienstag Nachmittag durch sein sollte...
Danach dann gerne Stockfish, falls der 3fach-Patch es bis dahin in die offizielle Development-Version geschafft hat...
Stay tuned!

Stefan
- - By Horst Sikorsky Date 2014-02-18 19:43
Teststellung, Bitte nicht im Mehrvariantenmodus und keine Parameter verstellen!!

Horst    
Parent - By Günter Müller Date 2014-02-19 17:42
Teststellung

rn2k2r/p4p2/2p1p2b/1bNqN2p/2pP2pP/2Q5/pP2BPP1/R2R2K1 w kq - 0 1

Analysis by Stockfish DD 64 SSE4.2: i7 2600 4GB RAM 4core

21.b3 cxb3 22.Bxb5 cxb5 23.Ne4 Bg7 24.Qc8+ Qd8 25.Nd6+ Ke7 26.Qb7+ Nd7 27.Nc6+ Kxd6 28.Nxd8 Rhxd8 29.Qa6+ Ke7 30.Qa3+ Kf6 31.Qxb3 Nb6 32.Qxb5 Rd5 33.Qb2 Kg6 34.Rxa2 Bf6 35.g3 Kg7 36.Kh2 Nc4

  +-  (2.66)   Depth: 42/65   00:24:14  8969MN

(Mueller,  19.02.2014)
Up Topic Hauptforen / CSS-Forum / Stockfish Teststellung Bewertungs- Schwäche/Fehler

Powered by mwForum 2.29.3 © 1999-2014 Markus Wichitill