Not logged inCSS-Forum
Forum CSS-Online Help Search Login
CSS-Shop Impressum Datenschutz
Up Topic Hauptforen / CSS-Forum / Stockfish sehr hohe Fehlbewertung, 2xSpringer gegen 1xBauer.
- - By Tom Paul Date 2016-02-25 12:51
Gerade auf Fishcooking entdeckt: Stockfish 070216 vs Komodo 9.3 vs Houdini 4 Tactical Mode vs Gull 3.0.1 Part 1

Konkret geht es mir um dieser Partie:
Part 1 game 222 Stockfish vs Houdini.
I love this evaluation:)
It started with 36.+1.51 and instead of winning this position in a normal way Stockfish found a nice variant and gone for NN vs P endgame because he evaluates this as +4.67!! ...and draw.
But maybe this position wasn't winnable and only the evaluation was wrong.
Event:
Ort:
Datum:

Weiss:
Schwarz:

Ergebnis
Board


Wenn Google das jetzt richtig übersetzt hat, dann bewertet Stockfish zwei Springer gegen einen Bauern als gewonnen. Der Fehler dabei ist das Stockfish nicht berücksichtigt wo der Bauer steht und somit eine Remisstellung von einer Gewinnstellung nicht unterscheiden kann = Wissenslücke.
Parent - - By Benno Hartwig Date 2016-02-25 13:00
Es mag zu optimistisch gewesen sein, aber vielleicht ist einfach
https://de.wikipedia.org/wiki/Springerendspiel#Zwei_Springer_gegen_Bauer
der Grund dafür, dass SF sowas nicht ganz grundsätzlich mehr remislich bewertet.

Benno
Parent - - By Tom Paul Date 2016-02-25 13:08
Ok, aber dann wäre eine Bewertung von +2.00 deutlich sinnvoller um in andere Varianten/Endspiele vorher überzugehen. Diese sind vielleicht nur +2.10 aber dafür ist die Wahrscheinlichkeit viel höher das sie gewonnen sind!
Und man könnte auch sagen: Wenn der schwarze Bauer bereits die 3 oder 2 Reihe erreicht hat, dann ist die Stellung immer remis oder?
Parent - - By Benno Hartwig Date 2016-02-25 14:04

> Ok, aber dann wäre eine Bewertung von +2.00 deutlich sinnvoller...


Ja!
Ich denke aber, dass solche Situation selten sind, sodass sich daher bislang niemand darum kümmern wollte.
Außerdem darf eine Implementierung für sowas an anderen Stellen nicht nachteilig wirken, wegen des geringen Nutzens auch auch nicht ein wenig nachteilig!
Die Bearbeitung eines Knotens darf daher auch nur sehr wenig langsamer geschehen.

Mag alles machbar sein, klar, ist in der Spielpraxis aber wohl nur sehr unwichtig, nicht viel mehr als nur "nice".

Benno
Parent - - By Tom Paul Date 2016-02-25 14:52
Ok, dann muss halt erstmal die Bewertung angepasst werden.

Ich denke das dieses zusätzliche Wissen bei Stockfish beim Blitzen schaden könnte und somit im Framework evtl. durchfällt aber beim TCEC sollte dieses Wissen mehr nützen als schaden.
Man sieht ja auch sehr deutlich was passiert wenn Komodo und Stockfish blitzen oder beim TCEC gegeneinander spielen.
Parent - - By Jörg Oster Date 2016-03-03 11:38
Tom Paul schrieb:

Ok, dann muss halt erstmal die Bewertung angepasst werden.

Ich denke das dieses zusätzliche Wissen bei Stockfish beim Blitzen schaden könnte und somit im Framework evtl. durchfällt aber beim TCEC sollte dieses Wissen mehr nützen als schaden.
Man sieht ja auch sehr deutlich was passiert wenn Komodo und Stockfish blitzen oder beim TCEC gegeneinander spielen.

Interessante These.

Hier mal eine Bewertung bei Zug Nr. 69 von meinem ENDGAMES1 branch, den ich aktuell auch im Framework mal testen lasse.
Diese bewertet hier wesentlich zurückhaltender.

Code:
info depth 40 seldepth 54 multipv 1 score cp 150 upperbound nodes 153629152 nps 2784549 hashfull 999 tbhits 0 time 55172 pv g1h1 d2f3
info depth 40 currmove g1h1 currmovenumber 1
info nodes 168041841 time 60001
bestmove g1h1 ponder d2f3
Parent - By Tom Paul Date 2016-03-03 14:11
Wenn dein Test fehlschlägt, dann könnte es an der Veränderung liegen die zu "wesentlich" zurückhaltender führt.
Ich glaube das Stockfish bereits so gut ist, dann man eine Veränderung im Code nur halb so stark machen sollte wie man es eigentlich machen möchte, damit diese besteht.
Denn auch selbst wenn es nicht +1,50 wird, so ist eine Bewertung von z.B. +2,50 oder +3.00 für den Anfang deutlich besser als +4,67!!
Parent - By Tom Paul Date 2016-03-05 13:47
Jörg Oster schrieb:

Tom Paul schrieb:

Ok, dann muss halt erstmal die Bewertung angepasst werden.

Ich denke das dieses zusätzliche Wissen bei Stockfish beim Blitzen schaden könnte und somit im Framework evtl. durchfällt aber beim TCEC sollte dieses Wissen mehr nützen als schaden.
Man sieht ja auch sehr deutlich was passiert wenn Komodo und Stockfish blitzen oder beim TCEC gegeneinander spielen.

Interessante These.

Hier mal eine Bewertung bei Zug Nr. 69 von meinem ENDGAMES1 branch, den ich aktuell auch im Framework mal testen lasse.
Diese bewertet hier wesentlich zurückhaltender.

Code:
info depth 40 seldepth 54 multipv 1 score cp 150 upperbound nodes 153629152 nps 2784549 hashfull 999 tbhits 0 time 55172 pv g1h1 d2f3
info depth 40 currmove g1h1 currmovenumber 1
info nodes 168041841 time 60001
bestmove g1h1 ponder d2f3



Dein erster Test hat aber mit 36000 Partien besser abgeschnitten als dein zweiter Test der schon nach 11000 Partien durchgefallen ist.
Ich weiß jetzt nicht was du verändert hast, aber vielleicht solltest du es in die andere Richtung ändern, damit vielleicht 50000 Partien dabei herauskommen und der Test besteht.
Parent - By Tom Paul Date 2016-03-06 12:02
Und wo ich gerade an KNN vs KP denke, sowas gehört doch eher in die 4 Spielphase also die späte Endspielphase, weil das evtl. in der normalen Endspielphase einfach 1-2 ELO kostet. Während es in der 4 Phase etwas dazu gewinnen würde, weil dort auch weniger Figuren auf dem Brett sind und es dort viel besser hineinpasst.
Parent - - By Michael Scheidl Date 2016-02-25 14:59
Stockfish erkennt KSS-K als remis, was man auch daran siehr daß er in der gezeigten Partie den Bauern nie nimmt, kennt sich aber mit KSS-KB nicht aus. Womit er sicher nicht allein ist. Die Syz.-5er helfen hier logischerweise sehr und waren dort wohl nicht an Bord.

Zitat:
Wenn der schwarze Bauer bereits die 3 oder 2 Reihe erreicht hat, dann ist die Stellung immer remis oder?

Nein, denn falls der sK sehr schlecht steht kann es trotzdem zum Matt kommen, z.B.


99...h2 100.Sg6#

Die Position des Bauern gibt nur Aufschluß darüber, ob bis dort hin ein Gewinn immer erzwingbar ist. Siehe hierzu

https://en.wikipedia.org/wiki/Two_knights_endgame#Second_Troitsky_line

Der Umkehrschluß daß weiter vorgerückte Bauern immer remisieren könnten, gilt aber eben nicht.
Parent - - By Tom Paul Date 2016-02-25 15:09
Michael Scheidl schrieb:

Stockfish erkennt KSS-K als remis, was man auch daran siehr daß er in der gezeigten Partie den Bauern nie nimmt, kennt sich aber mit KSS-KB nicht aus. Womit er sicher nicht allein ist. Die Syz.-5er helfen hier logischerweise sehr und waren dort wohl nicht an Bord.

Zitat:
Wenn der schwarze Bauer bereits die 3 oder 2 Reihe erreicht hat, dann ist die Stellung immer remis oder?

Nein, denn falls der sK sehr schlecht steht kann es trotzdem zum Matt kommen, z.B.


99...h2 100.Sg6#

Die Position des Bauern gibt nur Aufschluß darüber, ob bis dort hin ein Gewinn immer erzwingbar ist. Siehe hierzu

<a class='ura' href='https://en.wikipedia.org/wiki/Two_knights_endgame#Second_Troitsky_line'>https://en.wikipedia.org/wiki/Two_knights_endgame#Second_Troitsky_line</a>

Der Umkehrschluß daß weiter vorgerückte Bauern immer remisieren könnten, gilt aber eben nicht.


OK, wie wäre es damit: 3 oder 2 Reihe und der König darf nicht am Brettrand stehen?
Parent - - By Michael Scheidl Date 2016-02-25 17:33 Edited 2016-02-25 17:40

99...h3 (nichts besseres vorhanden) ergibt +#18. Das findet Stocki 7 "rein rechnerisch" übrigens sehr schnell; hier auf i5/Singlecore und natürlich ohne Syz.:

Engine: Stockfish 7 (512 MB)
von T. Romstad, M. Costalba, J. Kiiski, G.
(...)
27/34   0:01   +5.07   1.Sh2 Kg8 2.Sef3 Kg7 3.Sh4 Kh6 4.Kf6 Kh7 5.Sf5 Kg8 6.Ke7 Kh7 7.Kf7 Kh8 8.Kg6 Kg8 9.Kf6 Kh7 10.Sh4
(...)
30/39   0:02    +M29   1.Sh2 Kg8 2.Sef3 Kh7 3.Kf7 Kh6 4.Kf6 Kh7 5.Sg5+ Kh6 6.Sf7+ Kh7 7.Se5 Kg8 8.Sg6 Kh7 9.Sf4 Kh6 10.Se6 Kh5 11.Sg7+ Kh4 12.Sf5+ Kh5 13.Se3 Kh6 14.Seg4+ (4.263.893) 1702
(...)
39/40   0:10    +M18   1.Sh2 Kg8 2.Sd7 Kg7 3.Sf8 Kh6 4.Kf6 Kh5 5.Sg6 Kh6 6.Se5 Kh7 7.Kf7 Kh6 8.Sef3 Kh5 9.Kf6 Kh6 10.Sg4+ Kh5 11.Sfh2 Kh4 12.Kg6 Kg3 13.Kg5 Kg2 14.Kf4 (27.906.072) 2668

Aber ich denke, es könnte unter Umständen Sinn machen Karsten Müllers zweite Troitzky-Linie einzuprogrammieren, damit die Springerseite schnell bewerten kann ob die Gewinnchance verläßlich vorhanden ist oder nur m.o.w. wahrscheinlich... Elomäßig nachweisbar wird sowas aber wohl nie sein können, umso weniger als in der Praxis hier Fünfsteinertables oft (wenngleich vermutlich nicht immer) aushelfen können.
Parent - - By Tom Paul Date 2016-02-25 17:49
[quote="Michael Scheidl"]

99...h3 (nichts besseres vorhanden) ergibt +#18. Das findet Stocki 7 "rein rechnerisch" übrigens sehr schnell; hier auf i5/Singlecore und natürlich ohne Syz.:

Engine: Stockfish 7 (512 MB)
von T. Romstad, M. Costalba, J. Kiiski, G.
(...)
27/34   0:01   +5.07   1.Sh2 Kg8 2.Sef3 Kg7 3.Sh4 Kh6 4.Kf6 Kh7 5.Sf5 Kg8 6.Ke7 Kh7 7.Kf7 Kh8 8.Kg6 Kg8 9.Kf6 Kh7 10.Sh4
(...)
30/39   0:02    +M29   1.Sh2 Kg8 2.Sef3 Kh7 3.Kf7 Kh6 4.Kf6 Kh7 5.Sg5+ Kh6 6.Sf7+ Kh7 7.Se5 Kg8 8.Sg6 Kh7 9.Sf4 Kh6 10.Se6 Kh5 11.Sg7+ Kh4 12.Sf5+ Kh5 13.Se3 Kh6 14.Seg4+ (4.263.893) 1702
(...)
39/40   0:10    +M18   1.Sh2 Kg8 2.Sd7 Kg7 3.Sf8 Kh6 4.Kf6 Kh5 5.Sg6 Kh6 6.Se5 Kh7 7.Kf7 Kh6 8.Sef3 Kh5 9.Kf6 Kh6 10.Sg4+ Kh5 11.Sfh2 Kh4 12.Kg6 Kg3 13.Kg5 Kg2 14.Kf4 (27.906.072) 2668

Aber ich denke, es könnte unter Umständen Sinn machen Karsten Müllers zweite Troitzky-Linie einzuprogrammieren, damit die Springerseite schnell bewerten kann ob die Gewinnchance verläßlich vorhanden ist oder nur m.o.w. wahrscheinlich... Elomäßig nachweisbar wird sowas aber wohl nie sein können, umso weniger als in der Praxis hier Fünfsteinertables oft (wenngleich vermutlich nicht immer) aushelfen können.
[/quote]

Dann sollte man evtl. der zweiten Troitzky-Linie eine Chance geben.
OK, wie wäre es damit: 3 oder 2 Reihe und der König darf nicht am Brettrand stehen und schwarz ist am Zug?
Parent - - By Michael Scheidl Date 2016-02-25 18:01
Zitat:
3 oder 2 Reihe und der König darf nicht am Brettrand stehen und schwarz ist am Zug?

Genau so eine Situation entsteht in obigem Diagramm nach 99...h3 100.Sh2 mit dem #18. Es ist tricky, und vermutlich in keine einfache Formel zu packen. Im Zweifelsfall einfach komplett durchrechnen
Parent - - By Tom Paul Date 2016-02-26 00:16
Michael Scheidl schrieb:

Zitat:
3 oder 2 Reihe und der König darf nicht am Brettrand stehen und schwarz ist am Zug?

Genau so eine Situation entsteht in obigem Diagramm nach 99...h3 100.Sh2 mit dem #18. Es ist tricky, und vermutlich in keine einfache Formel zu packen. Im Zweifelsfall einfach komplett durchrechnen


Eben nicht weil der Bauer schon auf h3 stehen würde und schwarz wäre am Zug!
Parent - - By Michael Scheidl Date 2016-02-26 09:37
Zitat:
nach 99...h3 100.Sh2

...steht er ja auf h3 und Schwarz ist am Zug.
Parent - - By Tom Paul Date 2016-02-26 10:34
Eben nicht, denn wenn er auf h3 steht und am Zug ist kann schwarz h2 spielen.
Parent - - By Thomas Müller Date 2016-02-26 11:40
auf h2 steht der weiße springer wegen 100.Sh2 nach 99...h3
Wie soll dann 100....h2 gehen ?!
Oder ihr redet vollkommen aneinander vorbei 
Parent - - By Michael Scheidl Date 2016-02-26 13:14
Zitat:
Oder ihr redet vollkommen aneinander vorbei

Damit wollte ich eigentlich schon aufhören aber hier nochmal zur Klarheit: Toms Kritertien sind:

Zitat:
OK, wie wäre es damit: 3 oder 2 Reihe und der König darf nicht am Brettrand stehen und schwarz ist am Zug?


Bitte sehr, Matt in 17.
Parent - - By Roland Riener Date 2016-02-26 16:52
Einzelne Engines glänzen hier mit falschen Mattzugzahlen, z.B.

8/4K1k1/8/4N3/8/7p/7N/8 b - - 0 1

Analysis by Equinox 3.30 x64mp:

100...Kg8 101.Sd7 Kg7 102.Sf8 Kg8 103.Se6 Kh7 104.Kf6 Kh6 105.Sg5 Kh5 106.Sgf3 Kh6 107.Sg4+
  +-  (#15)   Tiefe: 39/39   00:03:33  762MN

Oder

8/4K1k1/8/4N3/8/7p/7N/8 b - - 0 1

Analysis by Gull 3 x64:

100...Kg8 101.Sd7 Kg7 102.Sf8 Kg8 103.Se6 Kh7 104.Kf6 Kh6 105.Sf8 Kh5 106.Sg6 Kh6 107.Sf4 Kh7 108.Se6
  +-  (#12)   Tiefe: 31/45   00:01:53  488MN
Parent - - By 2phil4u Date 2016-07-29 19:35 Edited 2016-07-29 20:00
Ich habe heute auch eine Partie mit Stockfish durchgespielt und es war noch viel früher der Fall, das Stockfish in eine Abwicklung ging, die dann Remis endete.
Das Problem bei weniger als 8 Steinen lässt sich sicher mit genug hardware lösen.
Bei
Ich hatte heute eine Stellung wo weiss 2 Freibauern hatte und einen davon vorstiess, der gegnerische Läufer konnte sich beide schnappen und war weg, aber es blieb dann Turm + 4 bauern gegen Turm + Sprnger + 3 Bauern mit 2.48 Bewreung, die sich nicht änderten.
Aber ein Zwischenzug hat gereicht, das dieser Tausch nicht mehr ging ohne zu verlieren, nur bis die engine das sieht, denn dieser Zug wurde 0.4schlechter bewertet hätte sie lange rechnen müssen und genau das Gleiche passiert oft im Mittelspiel, wo es noch viel länger geht und wo auch lange Bedenkzeiten nichts nutzen, also dieses Tauschen mit marginalen Gewinnen statt Nichttauschen mit noch marignaleren Gewinnen, die aber zunehmen, da ist Stockfish 7 nicht so gut.
Wie man sowas in den Code implementieren kann, das wenn 10 Züge rein gar nichts geschieht ausser hin und her geschiebe die Stellung massiv abzuwerten, das habe ich noch nicht gesehen und ich weiss auch nicht ob das Priorität hat, weil es wohl einfacher ist in der Anfangszeit einfach besser zu sein, bzw öfters in Stellungen zu kommen die rein ohne Schachwissen halt zu 70-80% gewonnen snd.
Parent - By Thomas Plaschke Date 2016-07-29 20:29
Ich verstehe irgendwie das Problem nicht.

Stockfish oder irgend ein anderes Schachprogramm spielen oder berechnen eine Variante, die mit 0,00 bewertet wird. Das Programm soll dadurch auf den Siegespfad gebracht werden, dass diese Variante/Abspiel, weil sie für eine gewisse Anzahl Züge die Remisbewertung zeigt, einen kräftigen Malus erhält.

Die Folge müsste doch sein, dass das Programm eine Variante wählt/anstrebt, die aus Sicht des Programms <=0,00 und >=Malus zu bewerten ist. Also eine andere Remisvariante oder ein schlechteres Abspiel. Wenn ich mich recht erinnere, ist das hier immer wieder diskutiert worden.

Mir leuchtet ünbrigens nicht ein, warum nicht einfach der contempt-Wert verändert werden kann und stattdessen bestimmte Spielabläufe, die zu bestimmen einen gewissen zusätzlichen Aufwand erfordert, Voraussetzung für den Malus sind. Der Vorteil des contempt-Faktors ist namlich außer meiner Sicht, dass die Bewertungsfunktion im Übrigen schlüssig bleibt.

Der vorgeschlagene Weg würde analog 3facher Stellungswiederholung und 50-Züge-Regel zu berücksichtigen sein, hat aber keine "endgültigte" Kraft wie diese Spielregeln, d.h. sein Ergebniswert ist nicht vergleichbar eindeutig und wird das Programm daher schwächen - es sei denn der Beweis kann geführt werden, dass Remispartien auf diese Weise gewonnen werden können (und das nicht nur, weil man gegen schwächere Gegner spielt).

Viele Grüße
Th. Plaschke
Up Topic Hauptforen / CSS-Forum / Stockfish sehr hohe Fehlbewertung, 2xSpringer gegen 1xBauer.

Powered by mwForum 2.29.3 © 1999-2014 Markus Wichitill