Walter Eigenmann schrieb:
Wie man sieht, ist gemäss "Informator"-Symbolik und Centipawn-Output alles vertreten: Von "praktisch remis" bis zu "Weiss gewinnt klar".
Die Interpretation dieses Ergebnisses ist nicht ganz trivial.
Ist nun die Stellung wirklich für Weiss gewonnen?
In guter (?

) Absicht hast du eine Stellung genommen, bei der die Frage, die du anknüpfst, durch eine einzelne Eval von einer Engine allein nicht gleich klar wird.
Würde ich einer der vielen Stellungstest- Kritiker um der Stellungstestkritik wegen sein, wäre meine Gegenfrage, und was ist mit dem vielen vielen Stellungen, bei denen die Engines sofort genau wissen, sagen und in Züge umsetzen, was gespielt wird?
Und sind hingegen nicht eigentlich sowieso diejenigen Stellungen mit bei allen Engines deutlich niedrigeren Evals die schwer zu beurteilenden?
Die Interpretation einer Eval von 0.25 in der Eröffnung ist auch nicht ganz trivial.
Wenn im Endspiel ein Vorteil einer Seite wie in deiner Stellung ausgewiesen wird, was tut's, wenn Unklarheit herrscht, einige Züge vorwärts gespielt und schon wird's klarer, in der Eröffnung reichen oft viele viele Züge nicht und das zu erwartende Ergebnis hat in der Regel eine viel höhere Remiswahrscheinlichkeit als solche schon viel weiter fortgeschrittene Stellungen, an Zugzahl und Materialschwund.
Und wie geht jetzt also der im Umgang mit Engines und mit dem Schach als solchem nicht ganz unerfahrene Spieler vor?
Er folgt den Output- Lines seiner Lieblingsengines ein paar Züge weit vorwärts und schaut sich die Evals, die dann herauskommen, im Vergleich zu denen an, die zuerst da waren.
Bleiben sie gleich hoch?
Werden sie höher?
Sinken sie gar?
Um bei deinen Beispiel zu bleiben:
SF weist zuerst eine Eval aus, die nach einer Weile Standrechnen doch schon deutlich im +- ist:
8/1k6/1p1rbn2/4N2R/1p6/3P1P2/PK1B4/8 w - - 0 1
Analysis by Stockfish 100222:
48.Th6 Lf5 49.Lxb4 Te6 50.d4 Sd5 51.Th5 Tf6 52.Ld2 Lc8 53.a4 Ka6 54.Th8 Lb7 55.Kc2 Te6 56.Lg5 Td6 57.Kd3 Sc7 58.Le3 Tf6 59.Ld2 Td6 60.Th7 Sd5 61.Kc4 Sf6 62.Th8 Ld5+ 63.Kd3 Le6 64.a5 bxa5 65.Ta8+ Kb7 66.Txa5 Td5 67.Ta1 Td6 68.Tc1 Lf5+ 69.Ke3 Sd5+ 70.Kf2 Sc7 71.Le3 Sd5 72.Tc5 Le6 73.Sc4 Td7 74.Lg5 Lg8 75.Tb5+ Ka6 76.Ta5+ Kb7 77.Se3 Td6 78.Tb5+ Ka6 79.Tb8 Le6 80.Sxd5 Lxd5 81.Le3
+- (2.05) Tiefe: 54/86 00:03:31 6394MN, tb=30934234
Aber, oh Wunder, springt man zum Ende der Output- Line, ist die Eval niedriger:
1R6/8/k2r4/3b4/3P4/4BP2/5K2/8 b - - 0 1
Analysis by Stockfish 100222:
81...Tf6 82.f4 Lb7 83.Kg3 Te6 84.Lf2 Le4 85.Tf8 Tg6+ 86.Kh3 Ld5 87.Lg3 Tg8 88.Tf6+ Kb5 89.f5 Kc4 90.Le5 Kd3 91.Tg6 Lf7 92.Ta6 Ke4 93.Kh4 Ld5 94.Ta5 Lf7 95.f6 Kf5 96.Tc5 Tg4+ 97.Kh3 Tg8 98.Tc7 Ld5 99.Ta7 Le6 100.Ta1 Lf7 101.Tf1+ Kg5 102.Tf4 Ta8 103.Kg2 Ta7 104.Kf3 Ld5+ 105.Ke3 Ta3+ 106.Kf2 Kg6 107.f7 Ta2+ 108.Kg3 Lxf7 109.Tf6+ Kg7
+/= (0.61) Tiefe: 49/64 00:00:37 1470MN, tb=16713713
Also war die am Anfang falsch?
Oder ist es die am Ende?
Oder sind es die Züge zwischen der Ausgangsstellung und der am Ende des Outputs?
Ah, Erkenntnis, die Evals sagen nichts ohne die zugehörigen Stellungen und Züge, und zusätzliche Erkenntnis: es kommt auch nicht unwesentlich darauf an, wieviel Züge zwischen den Stellungen liegen, die evaluiert werden!
Folgt man dann den Vorschlägen (hier ist die Frage, wieviele Züge übernimmt man auf einmal aus dem Output, wie lange lässt man pro Zug rechnen, welcher Engine traut man am meisten) so weit, bis die Eval wieder sinkt oder bis sie in noch deutlichere Höhen steigt, dann ist dabei außer den numerischen Evals vor allem auch von Interesse, über wie viele Züge steigt oder sinkt sie wie schnell, oder wie viele Züge muss oder kann man machen (lassen), ohne, dass sich an der Eval viel ändert.
Schauen wir uns einmal dieses Abspiel an:
8/1k6/1p1rbn2/4N2R/1p6/3P1P2/PK1B4/8 w - - 0 48
48.Rh6 Bf5 49.Bxb4 Re6 50.d4 Nd5 51.Rh5 Rf6 52.Bd2 Bc8 53.a4 Bf5 54.Ng4 Rf8 55.Nh6 Be6 56.Re5 Nc7 57.f4 Bd7 58.f5 Bxa4 59.Bg5 Bd7 60.f6 Kc6 61.f7 Be6 62.Bf4 Kd7 63.Rg5 Nd5 64.Bd2 Rxf7 65.Nxf7 Bxf7 *
17 Züge der Output- Line gefolgt, immer so weit, bis eine Änderung im Output kam, dann dort abgebogen, wenn ein Alternativzug eine bessere Eval hatte als der zuerst angebotene, auf diese Art flott interaktiv vorwärts: es ist das Material weniger geworden und der Output schaut jetzt dann dort so aus:
8/3k1b2/1p6/3n2R1/3P4/8/1K1B4/8 w - - 0 1
Analysis by Stockfish 100222:
66.Kc2 Ke6 67.Le1 Kd6 68.Kd3 Ke6 69.Lg3 b5 70.Kd2 Kd7 71.Tg7 Ke6 72.Ld6 Sf6 73.Le5 Sd5 74.Th7 Le8 75.Th6+ Kf5 76.Th1 Lc6 77.Tc1 Ld7 78.Lg7 Ke4 79.Te1+ Kf3 80.Te5 Lc6 81.Lh6 Lb7 82.Kc1 Kf2 83.Ld2 Kg2 84.Kc2 Kf2 85.Kd3 Kf3 86.Tf5+ Kg4 87.Tg5+ Kf3 88.Te5 Lc6 89.Tf5+ Kg4 90.Tf1 Lb7 91.Tc1 Kf3 92.Tc5 Sb6 93.Tf5+ Kg4 94.Tf4+ Kg3 95.Tf8 Sd5 96.Tb8 Lc6 97.Tc8 Lb7 98.Tc5
+- (2.86) Tiefe: 57/89 00:04:21 11049MN, tb=86409716
Deutlicher im +-, für sich immer noch nicht beweisend (wenn man bedenkt, wie weit das Endspiel schon fortgeschritten ist, die absoluten Werte müssen ja außer zu den zugehörigen Zügen auch immer zur Zugzahl, die schon gesamt in der Partie gespielt sind, relativiert werden, nicht nur der 50- Züge- Regel wegen, sondern weil Evals in der Eröffnung einfach an und für sich mehr zählen bei gleicher Höhe).
Würde man jetzt aber einfach ans Ende dieser Output- Line springen, hätte man zwar immer noch gleich viel Material, aber hier steigt jetzt die Eval, wenn man ein bisschen wartet, bis zur "Schmerzgrenze" im Wert einer Dame (9 Bauern) Vorteil.
Aber dazwischen liegen wieder 30 Züge einer Output- Line, dass der Fortschritt da vom Ende der interaktiven Line dann nach den 65 dramatisch schnell weiter gegangen ist, kann man eigentlich auch nicht wirklich sagen.
Jetzt haben wir immer noch die Wahl, den 30 Zügen im letzten Output zu glauben, ganz egal, ob die Eval da jetzt zum Schluss schon eine DTM oder wieder remislich wäre, weil die Frage bleiben ja wieder hauptsächlich die 30 unüberprüften Züge.
So what?
Wir kommen zu dem Schluss, dass es nicht an der numerischen Höhe der Evals an der Ausgangsstellung liegt, dass die "nicht leicht zu interpretieren" sind, sie sind unter den verschiedenen Engines verschieden hoch und auch bei denen, bei denen sie im +- sind, für den Partiefortschritt, der schon stattgefunden hat, immer noch schwer zu interpretieren, weil die Stellung halt immer noch ein unklare ist.
Was man oft nicht wahrhaben will: es ist das Material schon so reduziert, und es ist immer noch nicht auf den ersten Blick klar, wer gewinnt, oder ob's Remis ist.
Ja, ärgerlich, aber was können da die Engines und ihre Evals dafür? Liegt's nicht eher am menschlichen Interpreten, dass er nicht imstande ist, die Zahlen mit den Zugzahlen, der Stellung und den Zügen zu vergleichen?
Schaut man sich den Fortschritt der Evals an (und da kommt's eben, wenn die Züge stimmen, nicht so sehr auf die absolute Höhe an, sondern darauf, ob sie so hoch bleiben oder niedriger werden oder gleich bleiben, völlig unabhängig davon, wie hoch sie absolut sind) wird's klar, der Fortschritt ist zu sehen oder nicht, hier ist er zu sehen, wenn er auch sehr zäh ist und überhaupt nur dabb, wenn man nicht zu vielen Zügen aus den Output- Lines zu weit traut.
Ein Ausdruck, der in dem Zusammenhang auch nicht ungebräuchlich ist: der der Dynamik einer Stellung, definieren wir den doch einfach anhand der Engine- Evals als Änderung der Eval- Höhe über die Zahl der Züge hinweg, in der sie (die Eval- Änderung) auftritt.
Eval- Ende minus Eval- Anfang dividiert durch Zugzahl der zu betrachtenden Abspiel- Varianten = Dynamik der Stellung.
Im anderen Thread hast du gerade das entsprechende Feature der Fritz- Backward- Analyse erwähnt, da geht's auch nicht nur um jeweils eine einzelne Stellung von Interesse, sondern um die Änderungen der Evals über den Verlauf einer Partie oder einer Variante einer bestimmten Länge oder auch nur zwischen zwei Stellungen vor und nach einem einzelnen Zug.
Extrembeispiel Stellungen mit taktisch forciertem single best move als "Lösung", ein game changer, wie man so schön sagt: die Eval nach einem Zug ist sehr viel höher als nach allen anderen an der Stellung in Frage kommenden Kandidatenzüge, sehr erfreulich sowas, man sieht gleich, welcher der beste ist.
Extrembeispiel Eröffnungsstellung (oder andere "stille, positionelle, ausgeglichene" Stellung mit unforcierten Abspielen): die Eval bleibt, wenn die Eröffnungsstellung nicht schon ausnahmsweise, weil schon gepatzt wurde, ungewöhnlich hoch ist, über viel Züge hinweg ungefähr gleich hoch, das sowohl in die Tiefe gespielt wie in die Breite an ungefähr gleich guten Verzweigungen analysiert. Mag sein, das wird dann halt auch einfach wieder mal Remis, was ja im Computerschach mittlerweile bei ausgeglichenen Eröffnungssstellungen sowieso das Ergebnis mit einer sehr sehr hohen Wahrscheinlichkeit ist, mag aber auch sein, es wird noch beliebig viel im weiteren Verlauf von Menschen oder Maschinen gepatzt, und schwupps, ändert sich der Stellungscharakter von jetzt auf dann.
Und dann mal ein weiteres erfreuliches Beispiel: frühe Mittelspielstellung, Anzugsvorteil aus der Eröffnung wurde von Weiß etwas ausgebaut oder von Schwarz nicht nur ausgeglichen, sondern ins Minus verkehrt, und jetzt kommt eine Seite in Angriff und die Evals klettern rasch über wenige Züge, von denen ein paar sogar forciert sind, hier kann man sich auf die Evals vielleicht auch nicht in ihrer absoluten Höhe verlassen (wozu denn auch, gerade da schon unnötig und wozu eigentlich auch überhaupt? Wer kommt eigentlich je wirklich auf die Idee, Evals allein nach ihrer numerischen Höhe zu interpretieren, völlig unansichtig der Stellung, der Züge, die auch gleich ein- und auffallen dazu und im Output stehen), aber darauf, dass die Dynamik der Stellung eine hohe ist, darauf kann man dann schon bauen anhand der Evals, bei solchen Stellungen hoher Dynamik.
Und dann halt auch mal die Endspiele, die sich noch hinziehen ohne Entscheidung, weil der Vorteil knapp (noch) nicht reicht, damit es schneller geht, oder weil es die Seite im Vorteil halt noch sehr lang mit einem Rest Hoffnung probieren kann, ihn (den Vorteil) entscheidend zu machen. So ein Beispiel hast du hier gewählt, lieber Walter, und ich bin mir ziemlich sicher, dass du das sehr wohl in weiser Voraus- und Absicht gemacht hast.
Es gibt aber halt überhaupt viele Stellungen, die schwierig zu interpretieren sind in ihren Gewinnwahrscheinlichkeiten, aber dass das durch Zahlenwerte, die die Engines ausgeben, schwieriger werden kann als ohne sie, da sitzt dann das Problem in so einem Fall halt doch wieder mal mehr vor dem Bildschirm als dahinter, würde ich sagen.

Die "unklaren" Stellungen:
Hier ist es wie anderswo, nichts Genaues weiß man nicht, aber dieses ebenso.
Man kann man sich dann damit zufrieden geben (bei der Grundstellung jammert man ja auch nicht dauernd rum, dass man da noch so gar nicht genau sagen kann, wie die Partie ausgehen wird), dass diese und jene (z.B. auch die im Beispiel hier) eine Stellung ist, in der der weiße Vorteil bei perfektem Spiel beider Seiten wahrscheinlich (hier nach einem noch ziemlich lang dauernden zähen Endspiel) irgendwann gewonnen sein wird, wenn Schwarz sich nicht irgendwie über die 50 Züge retten kann oder in ein Dauerschach, oder man spielt halt so lange weiter (wie auch immer, automatisch, Eng-Eng, interaktiv, mit welchem Zeitaufwand man das auch immer für notwendig hält) bis man zum Schluss einen ganzen oder einen halben Punkt hat.
Oder man sagt, "Schwarz muss sehr genau spielen, um den Verlust noch zu vermeiden", oder "Weiß hat den Vorteil in ein Endspiel gebracht, der, wenn nicht überhaupt schon zwingend entscheidend, das weiße Spiel aber jedenfalls sehr viel aussichtsreicher und leichter macht als das von Schwarz", oder "Schwarz kann noch ums Remis kämpfen" oder gibt andere derartige wohlklingende "menschliche" Evalulierungen von derlei Stellungen zum Besten, weil man sich zu irgendwelchen Zahlenwerten einfach nicht durchringen (-kämpfen, -rechnen) will oder kann, beispielsweise zu der einzig wirklich schlüssigen Antwort, das ist in soundso vielen Zügen gewonnen. Und "was weiß ich, wie das ausgeht", ist auch für den Meister wie den Schüler unbefriedigend, obwohl ein klares "man kann's noch nicht sicher sagen" hin und wieder auch Schachspielern ganz gut täte und zu Gesicht stünde, rein so emotional betrachtet, man reibt sich sonst leicht auf an der Überforderung, der schachlichen und oder der verbalen.
Dass alle solchen mehr oder weniger blumigen menschlichen "Urteile" mehr als die cp oder Prozent Gewinnwahrscheinlichkeit der Engine- Evals sagen, das würde ich auch eine Frage der Interpretation nennen wenn nicht eine der mehr oder weniger guten Ausreden, nennt das