Nebenlösungen bei HTC 114

By Peter Martan Date 2023-12-14 18:02 Edited 2023-12-14 18:24

Lothar Jung schrieb:

Die Wahrscheinlichkeit ist sehr hoch, dass diese Positionen von LC0 gewonnen werden.

Den Unterschied zwischen single best move und game changer kennst du aber schon ja?
Dass etwas im Sinne einer Teststellung mit ausreichend guter Diskrimination zum nächst besten Zug einen single best move hat, heißt nicht, dass der auch der einzige sein muss, der gewinnt.
Wenn du nur single best moves zulassen willst, die auch single game changing moves sind, kriegst du noch schwerer Stellungen zusammen, die auch im Schwierigkeitstgrad und vielleicht noch thematisch zusammenpassen, wenigstens dahingehend, ob sie taktisch knifflig sind oder positionell (die haben dafür wieder weniger forcierte Abspiele in der Regel), ob aus Eröffnung (warum nicht auch das?) Mittel- oder Endspiel, wenn wir nur die großzügigsten Einteilungen beachten wollen.

Und was erhoffst du dir vom Banksia GUI? Gib einfach die Lösungen, die dir auch gut genug erscheinen, irgendwie im Vergleich zu den best moves gezählt zu werden, in MEA mit entsprechend vielen Punkten weniger ein. Sie gleich gut zu zählen wie die best moves (um solche handelt es sich nämlich schon) halte ich für schachlichen und vor allem auch statistischen Unsinn, du entwertest sie damit einfach als Teststellungen, da schmeiß sie lieber raus (hast du schon mal gehört von mir in der letzten Zeit, dass es, was die HTC- Suite angeht, für den, der sie zusammengestellt hat, nur mehr 108 sind?

) und bastel dir deine eigene Suite.
Wenn du fertig bist, schick' sie mir per Mail. Einzelne Stellungen können wir gerne auch hier diskutieren, aber nicht mit Evals ohne Output- Lines und ohne Vergleich zu den Output- Lines der Alternativzüge.
Wie sind die Output- Lines deiner Lc0- Installation bei den Stellungen, die du auflistest, im MultiPV- Mode?

Edit: am ehesten kann man noch über die Nr. 22 diskutieren, aus Kasparov- Karpov Sevilla 1987, da ist das 38.h5 schon eher knapp am Sc3 dran, aber besser ist der Lösungszug 38.Sc3 immer noch. Übrigens hab' ich die in meinen adäquaten Sammlungen (dieser Größe für diese Hardware- TC) ohnehin nicht drin, bei den 108, die Vincent zusammengestrichen hat aus den 114, ist sie auch raus, ebenso wie 80, die hab' ich hingegen bei einer meiner Suiten noch drin.

By Lothar Jung Date 2023-12-14 19:33

Ein Ergebnis einer Suite muß schachlich interpretiert werden:
Zufallstreffer bei niedriger Bewertung, Gamechangertreffer, beste und zweitbeste Bewertung ohne Auswirkungen auf das Endergebnis.
Jedenfalls mit dem Schema gelöst / nicht gelöst kann man keine schachliche Bewertung einer Position vornehmen.
Manche Studien sind für die Bewertung des praktische Spiels wertlos.
Ganz grass: 16 Bauern, 2 Könige = sinnfrei.
Ein Punktesystem wäre sinnvoll.

By Peter Martan Date 2023-12-14 19:57 Edited 2023-12-14 20:02

Lothar Jung schrieb:

Jedenfalls mit dem Schema gelöst / nicht gelöst kann man keine schachliche Bewertung einer Position vornehmen.

Kann man natürlich schon, wenn's single best move- Stellungen sind, bei denen eine einzelne alleinige Lösung um so viel besser ist als alle Alternativen, dass man von der Engine in einer bestimmten Hardware- Zeit verlangen kann, dass sie den Lösungszug favorisiert und stabil drauf bleibt.
Wenn du diesem Prinzip nichts mehr abgewinnen kannst, warum machts du dann ständig Tests mit single best move- Suiten?
Komponierte Studien sind in aller Regel diejenigen Stellungen, bei denen die Lösung eine einzelne unumstritten beste ist, meistens sind das dann auch game changer in dem Sinn, dass das angestrebte Ergebnis (kann ja auch Remis sein) nur mit diesem Zug erreicht wird. Schon deshalb, weil nichts weniger gern bei solchen Studien vom Autor gesehen wird wie Duale, da hat dieser Begriff noch einmal eine deutlich engere Bedeutung als bei den Engine- Teststellungen.
Wenn du keine komponierten Studien willst, weil sie dir zu realitäsfern sind (da gibt's aber schon auch Unterschiede, bei den Preisrichtern zählt das z.B. sehr wohl auch) und nur game changer andererseits, bin ich auf deine nächste eigene Suite gespannt

Im Ernst, Lothar, wie schon öfter geschildert, hast du natürlich die Möglichkeit, beliebige Lösungsschemata auch automatisiert ablaufen zu lassen, MEA von Ferdinand Mosca ist modern, das Punktesystem für Stellungen mit multiplen Lösungen ist viel älter, STS von Swaminathan und Corbit hat das auch mit Hilfsprogrammen zu automatischer Auswertung schon vor Jahren gehabt.
Du bist doch der Python- Spezialist, schreib dir ein kleines Script ähnlich dem von MEA (das ist ja nur eine batch- Datei, nicht einmal ein Script, die Binary der mea.exe ist natürlich ein bisschen aufwändiger, damit's mit den Einstellungen, die der User dann im batch file vornimmt, funktioniert) das Punktesystem ist halt Sache der Syntax im .epd- String, und das ist die eigentliche schachliche Aufgabe, welcher Stellung gibst du im Vergleich zu welcher und wievielen anderen wieviele Züge unter bm ein, wie bewertest du diese Züge alle in Punkten und wieviele andere, die nicht unter bm laufen, aber trotzdem Punkte bekommen, nimmst du pro Stellung noch in die .epd, die die Grundlage der Bewertung der Stellung darstellt.

Bevor du an solche Aufgaben herangehst, rate ich dir, einfach die Stellungen, die dich interessieren und die du für selektiv und aussagekräftig hältst, Engine- Performances damit zu beurteilen, interaktiv mit verschiedenen Engines, die dich im Vergleich reizen, zum Testen zu verwenden, automatische Beurteilung durch GUIs und Skripte sind immer nur so gut, wie du weißt, was du damit wie machst und können nie so genau sein im Hinblick auf die Beurteilung der einzelnen Stellung und der einzelnen Engine anhand ihrer, wie interaktiver Output- Vergleich.
Da kannst du auf time to solution(s), time to best line, time to best eval, mit und ohne Forward- Backward achten, das gibt beliebig viele Kriterien und Möglichkeiten der Diskrimination her, so kannst du jede beliebige Stellung verwenden, wenn du sie gut durchanalysierst und die besten Abspiele genau kennst.
Und nur so. Alles andere sind Kompromisse, wenn du eine ausreichende Zahl von vergleichbaren Stellungen auch statistisch auswerten willst, musst du dir einfach im Klaren sein, was du wie testest und wie du die Ergebnisse zu interpretieren hast.
Und wenn dir eine einzelne Suite nicht für alles, was dich interessiert, reicht (kann's ja nicht, so eine Suite gibt's nicht, ebensowenig wie es ein einzelnes Eng-Eng-Match gibt, das alle Fragen in einer Hardware- TC, mit einem Eröffnungstestset und einem Engine- Pool übertragbar beantwortet) dann nimm halt entsprechend viele verschiedene Suiten her, die adaptierst du dir alle für deine GUIs, deine Skripts, deine Analysen.
So what, ans Werk, ich hab' für meine persönlichen Bedürfnisse eigentlich Suiten, Teststellungen und Methoden für Stellungstests fast schon genug, jedenfalls so viele, dass ich immer nur ein paar für bestimmte Anforderungen hernehme. Und wenn mich eine Suite für einen Eng-Eng-Vergleich nicht zufrieden stellt, baue ich sie um, nehm eine der anderen zusätzlich und lasse Eng-Eng-Matches spielen, das kann man auch sehr verschieden selektiv machen.

By Lothar Jung Date 2023-12-15 07:57 Upvotes 1

Ich werde ERET und HTC114 zur Einschätzung der Netze nicht mehr einsetzen. Zu einfach und zu viele Nebenlösungen bei HTC114.
Es gibt gute Test auf Discord.
Ich werde mein Eröffnungsbuch mit SF/Lc0 Partien auffrischen.
Dabei sehe ich vielleicht eine Tendenz nach mehr als 100 Partien.

By Peter Martan Date 2023-12-15 08:42 Edited 2023-12-15 08:54

Lothar, es ist dir unbenommen, diese und jene Suite nicht mehr zu verwenden, aber wodurch genau kommst du jetzt bitte wirklich zu diesem Schluss mit den vielen "Nebenlösungen"? Weil du jetzt erst draufgekommen bist, dass single best move nicht dasselbe ist wie game changer?
Auch bei denen ist es ja eine reine Definitionsfrage, wie sehr ein Zug den weiteren Partieverlauf beeinflusst oder bedingt. Genauso gut könnte man sagen, wenn nach einem Zug die Partielänge kürzer ist als nach einem anderen, ist er ein game changer. Bei den Stellungen, die Matt in x- puzzles darstellen, ist das sogar namentlich genau so, wenn ein # in 10 gefordert ist, gilt nur jeder Zug mit genau 10 Zügen zum Matt als Lösung, # in 11 ist ein game changer (es sei denn, noch länger geht's vielleicht sowieso nicht

) mit weniger guter Bewertung relativ zum game changer # in 10, wenn das # in 10 ein einzelnes ist, ist's ein single best move.
Genauer als die statistische automatische Beurteilung von Suiten ist sowieso die interaktive Analyse jeder einzelnen Stellung, die Zahl der Stellungen, die man so in bestimmter Zeit zum Testen verwenden kann, ist hingegen der Unterschied in die andere Richtung.
Wenn du wirklich über die Stellungen, die du aufgelistet hast, diskutieren willst (und wie gesagt, außer der Nr. 22 sind das nach allgemein üblichen Definitionen lauter single best move- Stellungen) zeig Output, welcher Engine auch immer. Output zum einen Zug und zum anderen, Lc0 hat hier gegenüber SF in der Regel halt auch den Nachteil, dass die Eval- Unterschiede zwischen Zügen mit ähnlicher Aussicht auf Erfolg oft weniger groß sind als bei SF. Forward- Backward bewirkt weniger als bei SF, aber mittlerweile gibt es das Pendant zum Hashlernen bei Lc0 schon auch, vielleicht könnte man es NN- Cache- Lernen nennen, es funktioniert aber jedenfalls, wenn auch wie gesagt nicht so gut wie bei SF.
Aber wenn du dir die Stellungen, an denen du zweifelst, interaktiv genau anschaust, bleibt von deinen Einwänden einfach nicht viel übrig, sag' ich dir.
Ich will nicht von mir aus jede einzelne (wieder einmal, die sind ja alle schon mehrmals durch verschiedene Foren gegangen) hier allein vor mich hin analysieren, wir können's auch überhaupt per Mail machen, wenn du willst oder per PN.
Und MEA- artige .epd- Definitionen der Stellungen, die du für nicht ausreichend singulär in den Lösungen hältst, können wir auch gern gemeinsam machen. Ein paar single best move- Stellungen hab' ich sehr wohl auch bereits in solcher Syntax, einfach weil man sie damit auch mit solchen Stellungen mit multiplen Lösungen mischen kann und der eine single best move auch schon durch mehr oder weniger Punkte in der Bewertung relativ zu anderen best moves unterscheidbar ist, das macht Sinn bei Zügen mit verschieden großem Schwierigkeitsgrad angeht, was die Hardware- Zeit zur Lösung angeht, aber was daran halt wieder mangelt, sind die Extra- Halbzüge und ist ein Programm wie EloStatTS. Die Elo, die MEA berechnet, sind reine Umrechnungen der Performances relativ zum möglichen Gesamt- Score.
Ich find's wirklich schade, dass Fritz 19 keinen der Vorschläge, die ich vor Monaten an Herrn Wüllenweber geschickt habe per Mail, auch nur ansatzweise aufgegriffen (bekommen) hat, es wäre wirklich nicht so viel, was diesem GUI fehlt, das sonst so viele Meriten in Hinblick auf die Suiten hat.
Alternativzüge mit Kommentarsymbolen in die Bewertung des Zuges als Lösung einer Suite einzubauen, würde außer mit ?, das es ohnehin als Definition des avoid move gibt, mit ?!, !?, ! schon 3 weitere Ratings bieten, dann wäre noch das kommentarlose Gleichstellen, das jetzt auch schon wirkt, und eventuelle noch die Hierarchie der Züge mit und ohne Kommentar eine weitere, das "äquivalent ist" gibt's ohnehin auch jetzt schon als vorangestelltes = unter den RR- Kommentaren. Würde das GUI solche Symbole mit Punkten in der Auswertung umrechnen, hätte man schon so ziemlich alles, was man bei MEA hat, mehr als 6 Alternativen nehme ich dort praktisch auch nie auf.
Mehrere Instanzen gleichzeitig laufen lasse zu können und die Lösungen dann in eine gemeinsame .cbh zu verschmelzen wäre meine nächster großer Wunsch, bei Shredder geht das mit mehreren Protokolldateien problemlos, mehrmals starten kann man Fritz auch, aber mehrere Lösungsfiles in eine .cbh zu bringen, geht zwar, verliert aber Einträge, die einander überschreiben.
Und dann wäre natürlich ein Feature wie das schöne EloStatTS von Frank Schubert automatisiert durchs GUI durchgeführt, eine weitere zusätzliche Feinheit, dass dieses Programm überhaupt (und nur) mit den Fritz- Lösungs- .cbh- Dateien funktioniert, ist schon toll, aber der Umweg über die .pgn ist etwas mühsam und stellt auch eine zusätzliche Quelle von Bedienerfehlern dar.
So, ich bin mal wieder still mit dieser meiner neverending story zu einem meiner Nr.1- Themen schlechthin.
Wenn ich dir irgendwas praktisch helfen kann, gerne, in diese Dingen hab' ich doch auch schon ein bisschen Übung und Erfahrung nach all den Jahren, die ich mich damit beschäftige.

By Max Siegfried Date 2023-12-15 10:07

Lothar Jung schrieb:

Ich werde ERET und HTC114 zur Einschätzung der Netze nicht mehr einsetzen. Zu einfach und zu viele Nebenlösungen bei HTC114.

Eben.
Deshalb wurde auch die Stockfish Test Suite 2022 erfunden. Da sind aus allen Testsuites nur die Stellungen drin, welche Stockfish zu der Zeit nicht lösen konnte bei einer Sekunde pro Zug.
Die Größe der Testsuite sagt doch schon alles aus über das Spielstärke Niveau von Stockfish bzw. den Top 3 Engines. Kürzer/Kleiner ging es nicht.
Endlich hast du Jahre später auf mich gehört.

https://www.mediafire.com/file/dg8q0qcf2ccstdl/Stockfish_Test_Suite_2022.pgn/file

By Daniel Reist Date 2023-12-16 09:14

Meiner Meinung nach sind die
Engines noch weit entfernt davon,
gewisse schwierige Stellungen
in einer Sekunde zu lösen!
Solche Lösungen können wohl
meistens nur gefunden werden, wenn
sie schon im zu Grunde liegenden Netz
trainiert wurden. Deswegen ist wohl auch
Stockfish gegenüber Leela vorne.

By Max Siegfried Date 2023-12-16 14:06

Daniel Reist schrieb:

Und was sind deiner Meinung nach "die" Engines? 1400 ELO?
Das Fritz 19 und Co. Schwächlinge nicht in der Lage sind gewisse schwierige Stellungen in einer Sekunde zu lösen stimmt.
Aber selbst LC0 ist in der Lage viele gewisse schwierige Stellungen in 1er Sekunde zu lösen.
Selbst KomodoDragon kann man dazuzählen.
Und Stockfish spielt wahrscheinlich mindestens 1-3 Ligen über LC0.

Siehe aktuell TCEC Stockfish vs LC0 +4 =3 -0.
1
Stockfish
dev-20231116-7970236e
37 26 70.27% 15 [15/0] 0 [0/0] 22 [3/19] 25.977 [-0.023] 444 3726 11 [3737]
2
LCZero
0.31-dag-a487796-BT3-2860000
37 22.5 60.81% 14 [14/0] 6 [0/6] 17 [5/12] 22.547 [0.047] 367 3714 3 [3717]
3
KomodoDragon
3.3
37 18 48.65% 7 [7/0] 8 [0/8] 22 [12/10] 18.052 [0.052] 310.75 3680 -12 [3668]
4
Berserk
20231118
37 16 43.24% 5 [5/0] 10 [0/10] 22 [13/9] 16.088 [0.088] 281.25 3586 25 [3611]
5
Ethereal
14.25-frc
37 14.5 39.19% 3 [3/0] 11 [0/11] 23 [16/7] 14.457 [-0.043] 270 3638 -14 [3624]
6
Caissa
1.14.1
37 14 37.84% 3 [3/0] 12 [0/12] 22 [15/7] 13.879 [-0.121] 265.5 3599 -10 [3589]

Interessant ist auch das LC0 2 Niederlagen gegen Caissa hat aber nicht gegen die anderen (von Stockfish abgesehen)!

By Daniel Reist Date 2023-12-19 01:10

Hallo Max

Ich wollte mit meiner Aussage die Engines nicht
schwächer machen als sie wirklich sind.
Aber wenn man nur schon bei Enginepartien
zuschaut, sieht man wieviel Zeit diese nach dem
ersten Zug nach verlassen des Buches benötigen!
Daher kann ich mir nicht vorstellen, dass die
Engines einfach alle Stellungen so mir nichts dir nichts
in 1 Sekunde lösen können.

Und je mehr Zeit eine Engine sie hat, desto besser spielt
sie auch. Das habe ich jetzt schon des öfteren gesehen.

By Peter Martan Date 2023-12-19 08:47 Edited 2023-12-19 09:04

Daniel Reist schrieb:

Und je mehr Zeit eine Engine sie hat, desto besser spielt
sie auch.

Genau so ist das, wobei sie halt weniger als keine Fehler nicht machen kann und je nach Hardware, Gegner und Stellungen irgendwann der Punkt erreicht ist, wo die Unterschiede einfach nicht mehr sichtbar werden, weil auch die schwächeren gegen die stärkeren nur mehr Remis erspielen.

Ganz recht hast du auch, den Vergleich mit den Eröffnungsstellungen zu ziehen, eigentlich sind das ja die "schweren" Stellungen, bei denen es keine forcierten Abspiele gibt, sondern viele ähnlich gute Abspiele, die schon in den ersten Zügen breit auffächern im Spielbaum und auch in größeren Tiefen in großer Zahl zu Stellungen mit ähnlicher Bewertung führen.

Ich habe hier

https://forum.computerschach.de/cgi-bin/mwf/topic_show.pl?pid=167448#pid167448

mit Frank schon etwas off topic eine Unterhaltung über Elo bei verschiedenen TCs geführt am Beispiel SF- Dragon, von dem er meinte, der könnte SF bei entsprechend langer Bedenkzeit vielleicht sogar überholen. Das sehe ich nicht, aber wie sehr der Abstand zwischen zwei Engines davon abhängt, in welchem Teilnehmerfeld, mit welcher Hardware- TC und mit welchen Eröffnungsstellungen man spielt, das hab' ich da jetzt mal wieder genauer sehen wollen und erlaube mir, um nicht dafür eigens einen neuen Thread aufzumachen, es jetzt auch hier noch einmal off topic zusammenzufassen, weil man die Ergebnisse im direkten Vergleich quantitativ doch vielleicht erstaunlich finden mag.

Noch einmal aus dem Posting vom Link die Ergebnisse mit den UHO- Stellungen 6mvs 110-119cp:

25'+5":

Score of stockfish_23120210 vs dragon-3.3: 86 - 14 - 150 [0.644]
Elo difference: 103.0 +/- 26.5, LOS: 100.0 %, DrawRatio: 60.0 %
250 of 500 games finished.

Mit denselben UHO- Stellungen mit 3'+1":

Score of stockfish_23120210 vs dragon-3.3: 191 - 24 - 285 [0.667]
Elo difference: 120.7 +/- 19.3, LOS: 100.0 %, DrawRatio: 57.0 %
500 of 500 games finished.

Jetzt hab' ich dann noch 2 weitere Matches spielen lassen, selbe Hardware (single thread 3.5GHz) TC einmal 25'+5" (das war beim Vorversuch auch so, das mit 30'+5" im zitierten Posting war ein Tippfehler), einmal 3'+1
aber diesmal aus 125 Stellungen, die aus der am häufigsten gespielten Theorie von Spanisch, Italienisch, QGD und Sizilianisch zwischen 3 und 6 Züge lang den Anzugsvorteil noch nicht ausgeglichen, aber auch nicht vergrößert haben, also aus 125 Stellungen, wie sie am häufigsten gespielt werden, sozusagen ausgeglichen (wenn man die Grundstellung auch noch als ausgeglichen betrachtet, was sie ja eben nicht wirklich ist).
Das ist mit 3'+1" so ausgegangen:

    Program                             Score     %    Av.Op.  Elo    +   -    Draws

  1 Stockfish_23120210             : 134.5/250  53.8   3487   3513   13  10   92.4 %
  2 Dragon-3.3                     : 115.5/250  46.2   3513   3487   10  13   92.4 %

und mit 25'+5" so:

    Program                             Score     %    Av.Op.  Elo    +   -    Draws

  1 Stockfish_23120210             : 127.5/250  51.0   3497   3503    9   4   98.0 %
  2 Dragon-3.3                     : 122.5/250  49.0   3503   3497    4   9   98.0 %

Man kommt mit nur 250 Partien bei solchen Stellungen, besonders mit der längeren TC nicht mehr aus der error bar, das war ja klar, aber nachdem die ja auch kleiner wird mit dem Abstand gemeinsam, hab' ich mich damit zufrieden gegeben, mit der längeren TC bräuchte man soviel mehr Hardware- Zeit insgesamt, das mir das für eine Spaß- Messung zuviel Aufwand wurde. Man muss ja auch bedenken, dass das trotzdem nur ein einzelnes head to head match ist und bleibt und es auf anderer Hardware, vor allem mit mehr als einem einzelnen thread und gegen mehr als einen einzelnen Gegner schon wieder ganz anders ausschaut. Wieviel Anteil aber die Eröffnungsteststellungen allein schon haben, das wollte ich doch mal wieder etwas genauer sehen.

By Max Siegfried Date 2024-02-28 15:52

Lothar Jung schrieb:

Ich werde ERET und HTC114 zur Einschätzung der Netze nicht mehr einsetzen. Zu einfach und zu viele Nebenlösungen bei HTC114.

Da bekommen selbst deine beiden RTX 5090 zusammen kein besseres Ergebnis hin:

File name : Top Chess Engines Testsuite 2024 v2.pgn
Total test items   : 115
Test for    : best moves
Total engines : 1
Timer : movetime: 15
Expand ply    : 1
Elapsed : 19:58
Laps    : 1
Total tests : 115
Total corrects    : 11 (9%)
Ave correct elapse : 6140 ms
Status    : completed

Correct/Total:
Lc0 v0.31.0-dev+git.unknown: 11/115

Failed tests (hit *):
1. Lc0 v0.31.0-dev+git.unknown:
1, 2, 3, 4, 5, 6, 7, 9, 10, 11, 13, 14, 15, 16, 17, 19, 20, 21, 22, 23, 24, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 47, 49, 50, 51, 52, 53, 54, 55, 56, 57, 59, 60, 61, 62, 64, 65, 66, 67, 68, 69, 70, 71, 72, 73, 74, 75, 76, 77, 78, 79, 81, 82, 84, 85, 86, 87, 88, 89, 90, 91, 92, 93, 94, 95, 96, 97, 98, 99, 100, 101, 102, 103, 104, 105, 106, 107, 108, 109, 110, 111, 112, 113, 114

Successful tests:
1. Lc0 v0.31.0-dev+git.unknown:
0, 8, 12, 18, 25, 46, 48, 58, 63, 80, 83

By Peter Martan Date 2023-12-16 09:55 Edited 2023-12-16 10:11 Upvotes 1

Lothar Jung schrieb:

Bei einem Test mit LC0 T3 Netz (RTX 4070ti, 30 sec.) werden folgende 9 Nebenlösungen erkannt:
Position 2 La7 +2.45

Nach etwas Forward- Backward der 3 in Frage kommenden Kandidatenzüge mit SF def., 30 Threads der 16x3.5GHz- CPU, 32G Hash im MultiPV=3- Modus in Tiefe 45

Analysis by Stockfish dev-20231202-08cdbca5:

1. +- (9.04): 1.Dxf6+! Kxf6 2.Le5+ Kg5 3.Lg7 Lxe4 4.f4+ Kh5 5.Lxe4 g5 6.Se5 Dc6 7.g4+ Kh4 8.Lf6 h6 9.fxg5 Sg8 10.Lxd8 Ta8 11.Lxc6 Txd8 12.Tg1 Kxg5 13.Sxf7+ Kf6 14.Sxd8 Sc3 15.Lxb7 cxb4 16.Te1 e5 17.Sc6 Sb5 18.Sxb4 Kg7 19.Txe5 Sd6 20.Lc6 Sf7 21.Te2 Sf6 22.d4 Sd6 23.Sd3 Sc8 24.b4 Sh7 25.h4 Sf6 26.b5 Sxg4 27.Kg1 h5 28.Te6 Sh6 29.Le8 Sf5 30.c3

2. +- (4.22): 1.bxa4 Lxe4 2.Dxf6+ Kxf6 3.Le5+ Kg5 4.axb5 Lxg2+ 5.Kxg2 Sd5 6.bxc5 Ta2 7.Sd6 Td7 8.Tb1 Txc2 9.c6 Txd6 10.Lxd6 b6 11.Te1 Kf5 12.Kf3 g5 13.Te5+ Kf6 14.Te4 h5 15.h3 Kg6 16.Tc4 Tb2 17.c7 Sxc7 18.Lxc7 Txb5 19.Ke3 Tb1 20.Ld6 Th1 21.h4 f6 22.Tb4 Te1+ 23.Kd2 Ta1 24.Txb6 gxh4 25.gxh4 Ta4 26.Lc5 Ta2+ 27.Ke3 Tc2 28.Lb4 Kf7 29.Ld6 Tc1 30.Lg3 Te1+ 31.Kd2 Ta1 32.Ke2 Ta4 33.f4 Ta1 34.Tb5 Ta2+ 35.Ke3 Kg6 36.Kf3 Ta3

3. +- (2.75): 1.Lxa7 Lxe4 2.dxe4 e5 3.Ta1 Dxb4 4.De3 b5 5.bxa4 Dxc4 6.Lf1 Dxc2 7.axb5 c4 8.De2 Dxe2 9.Lxe2 c3 10.Le3 h6 11.h4 g5 12.h5 g4 13.Tc1 Tc8 14.Lxg4 Tc4 15.b6 Sc6 16.Le2 Tb4 17.Txc3 Sd4 18.Lc4 Txb6 19.Ld5 Lg5 20.f4 Tb1+ 21.Kg2 Sb5 22.Tc6 exf4 23.gxf4 Le7 24.Lc4 Tb4 25.Kf3 Sa3 26.Ld5 Sb5 27.Kg4 Lf8 28.Tc8 Le7 29.Te8

Nicht nur ist 1.Df6 ein eindeutig bester Zug (das Rufzeichen macht das F19- GUI hier im Output, nicht ich), auch ist 1.La7 nicht der zweit-, sondern nur der drittbeste Zug, 1.La7 verdient sich so gesehen ein ? relativ zu 1.Df6 (zu absolut zu vermeidenden noch einmal viel schlechteren Zügen also echten avoid moves vielleicht nur ein ?!), 1.bxa4 ein ?! (bis !?).

In MEA- Syntax wäre ein Vorschlag, wollte man da außer an den bm auch noch an andere Züge Punkte vergeben, ein wenigstens 50faches an Punkten zwischen Df6 und bxa4, noch einmal um den Faktor 10 weniger als an den zweitbesten an das La7, womit sich die Sinnlosigkeit, die beiden inferioren Züge überhaupt zu belohnen, sofort zeigt. Sagen wir das Niveau der bms ist in einem Sample von 1000 Stellungen 100 Punkte für die singulär besten, dann fallen die 2 für den hier zweitbesten einfach statistisch schon nicht mehr ins Gewicht relativ zu gar keinen Punkten bei einer von 1000 Stellungen, und der drittbeste bekäme sowieso keine mehr im ganzzahligen Bereich.
Erst recht, wenn das Niveau der übrigen Stellungen eher schwieriger ist als das dieser einen (ist ja heutzutage keine Stellung mehr, die viel Hardware- Zeit von guten Engines verlangt) also die Maximalpunkte, die hier für den bm vergeben werden, schon deutlich weniger sein sollten als die bei den schweren, hätte man 100 als oberes Niveau, wären's für diesen bm hier vielleicht 50-75, je nachdem für welche Hardware- TC und welche Engines die Suite als solche gedacht ist und aus welchen anderen Stellungen sie besteht.

In einer 256er- Suite, in der die Stellung auch drin ist, und die ich im Lauf der Zeit schon viel verwendet habe, zuletzt in der Regel mit 5"/Stellung, lösen das die Engines, die gut abschneiden, also zumindest so ziemlich alle aktuellen SF- Branches, im Bereich um 1" herum, Dragon braucht z.B. 3", dass Lc0 das nicht in 5" mit der 3070ti schafft, das kann man der Stellung höchstens als Lc0- Fan ankreiden

By Peter Martan Date 2023-12-16 12:22 Edited 2023-12-16 12:24

Peter Martan schrieb:

dass Lc0 das nicht in 5" mit der 3070ti schafft, das kann man der Stellung höchstens als Lc0- Fan ankreiden

Engine neu geladen, Netz 2790M, 2 CPU- threads und die 3070ti- GPU:

Analysis by Lc0 v0.31.0-dag+git.e429eeb:

1.Lxa7 Lxe4 2.dxe4 e5 3.Ta1 Dxb4 4.De3 b5 5.bxa4 Dxc4 6.Lf1 Dxc2 7.axb5 c4 8.De2 Dc3 9.Ta2 Td3 10.Le3 Db4 11.Dc2 Tc3 12.Dd2 h5 13.Kg2 Tb3 14.Lh6+ Kh7 15.Dxb4 Txb4 16.Ld2 Txb5 17.Lxc4 Tb7 18.Lxf7 Kg7 19.Le6 Tb6 20.Lc4 Tc6 21.Ta4 g5 22.Lb5 Tc2 23.Le3 Sc6 24.Ta6 Sd4 25.Le8 h4 26.Ta7+
+- (2.60)   Tiefe: 22/57   00:03:00 909kN, tb=1

Etwas Forward- Backward nach dem richtigen Lösungszug 1.Df6, ich empfehle, wenn's jemand auch probieren will, wenigstens 5, 6 Züge einer guten HV (siehe SF) vorwärts, weil Lc0 sonst spätestens das 4.f4 5.Le4 nicht selbst findet und zunächst krass unterbewertet, teilweilse sogar zuerst mit schwarzem Vorteil, erst wenn die Eval spätestens nach 6.Se5 eine klare Weiß gewinnt geworden ist (das geht dann allerdings auch bald mal an die +20 heran, hier z.B. Output nach

1B1r4/rp2npkp/2b1pbp1/1qp5/nPN1R3/1P1P1QP1/2P2PBP/5R1K w - - 0 1

1.Dxf6+ Kxf6 2.Le5+ Kg5 3.Lg7 Lxe4 4.f4+ Kh5 5.Lxe4 g5 6.Se5 Dc6, noch ein bisschen weiter und dann zurück zu der Stellung nach diesen Zügen, hat Lc0 den Ernst der Lage endlich erkannt:

3r4/rp2npBp/2q1p3/2p1N1pk/nP2BP2/1P1P2P1/2P4P/5R1K w - - 0 1

Analysis by Lc0 v0.31.0-dag+git.e429eeb:

7.g4+ Kh4 8.Lf6 Dxe4+ 9.dxe4 h6 10.fxg5 Sg8 11.Lxd8 f6 12.gxf6 Ta8 13.Lc7 Sxf6 14.Txf6 Sc3 15.Kg2 Kg5 16.Tf7 Sxe4 17.bxc5 h5 18.h4+ Kh6 19.Kf3 Sg5+ 20.hxg5+ Kxg5
+- (17.90)   Tiefe: 19/38   00:00:49 283kN
)

Nach der Rückkehr zu Ausgangsstellung:

1B1r4/rp2npkp/2b1pbp1/1qp5/nPN1R3/1P1P1QP1/2P2PBP/5R1K w - - 0 1

Analysis by Lc0 v0.31.0-dag+git.e429eeb:

1. +- (7.80): 1.Dxf6+ Kxf6 2.Le5+ Kg5 3.Lg7 Lxe4 4.f4+ Kh5 5.Lxe4 g5 6.Se5 Dc6 7.Lf6 h6 8.Lxe7 Dxe4+ 9.dxe4 Td2 10.g4+ Kh4 11.fxg5 b5 12.Lf6 hxg5 13.Sf3+ Kxg4 14.Sxd2 Sb6 15.bxc5 Sd7 16.Ld4 Sb8 17.Tf6 Sc6 18.Le3 Se5 19.Th6 Sg6 20.Kg2 Sf4+ 21.Kf2

2. +- (3.04): 1.Lxa7 Lxe4 2.dxe4 e5 3.Ta1 Dxb4 4.De3 b5 5.bxa4 Dxc4 6.Lf1 Dxc2 7.axb5 c4 8.De2 Dc3 9.Ta2 Td3 10.Le3 Db4 11.Dc2 Tc3 12.Dd2 h5 13.Kg2 Tb3 14.Lh6+ Kh7 15.Dxb4 Txb4 16.Ld2 Txb5 17.Lxc4 Tb7 18.Lxf7 Kg7 19.Le6 Tb6 20.Lc4 Tc6 21.Ta4 g5 22.Lb5 Tc2 23.Le3 Sc6 24.Ta6 Sd4 25.Le8 h4 26.Ta7+
Weiß steht klar auf Gewinn

Zuerst kann kurz noch einmal das La7 im single primary output kommen, weil Hashlernen, wie das von SF, bei Lc0 halt leider auch immer noch nicht ganz etwas Vergleichbares mit dem NN- cache schafft, zumindest nicht bei dieser Stellung) wenn das der Fall ist, ein bisschen MultiPV=2, damit der richtige bm wieder aufgesucht wird)

Danach single primary:

1B1r4/rp2npkp/2b1pbp1/1qp5/nPN1R3/1P1P1QP1/2P2PBP/5R1K w - - 0 1

Analysis by Lc0 v0.31.0-dag+git.e429eeb:

1.Dxf6+ Kxf6 2.Le5+ Kg5 3.Lg7 Lxe4 4.f4+ Kh5 5.Lxe4 g5 6.Se5 Dc6 7.Lf6 h6 8.Lxe7 Dxe4+ 9.dxe4 Td2 10.g4+ Kh4 11.Sf3+ Kxg4 12.Sxd2 Sc3 13.fxg5 hxg5 14.Sc4 f6 15.Txf6 Kh5 16.Se5 Ta1+ 17.Kg2 Tc1 18.Tf7 Txc2+ 19.Kf3 g4+ 20.Ke3 Sd1+ 21.Kd3 Tc3+ 22.Kd2
+- (7.78)   Tiefe: 32/68   00:00:23 1733kN

Und hier jetzt noch eimal der Vergleich zum Output nach 1.La7?!:

3r4/Bp2npkp/2b1pbp1/1qp5/nPN1R3/1P1P1QP1/2P2PBP/5R1K b - - 0 1

Analysis by Lc0 v0.31.0-dag+git.e429eeb:

1...Lxe4 2.dxe4 e5 3.bxc5 Sxc5 4.Dc3 Se6 5.Lb6 Ta8 6.Dd2 Ta2 7.Le3 Da6 8.Lh3 h5 9.Kg1 Dc6 10.Td1 h4 11.Lxe6 Dxe6 12.Dd7 Ta1 13.Kg2 Txd1 14.Dxd1 h3+ 15.Kf3 b5
+- (1.96)   Tiefe: 16/42   00:00:29 152kN

By Klaus S. Date 2023-12-16 13:42 Edited 2023-12-16 13:45

Peter Martan schrieb:

Peter, sehr gute Widerlegung dass 1.Lxa7 keine wirkliche Nebenlösung ist, sondern 1.Dxf6+! der eindeutig beste Lösungszug ist.

By Reinhold Stibi Date 2023-12-16 11:28 Upvotes 1

Der HTC 114 Test ist gut um die taktische Fähigkeit einer Engine zu ermitteln auch wenn es
bei dem Test einige Nebenlösungen gibt.

Eine Engine sollte den besten Zug einer Partie finden nicht wie früher nur den Zweit-oder Drittbesten wie
früher bei Lc0; Lc0 hatte früher damit einige Partien umständlich gewonnen. Denke dass dieses Manko
inzwischen bei Lc0 weitgehend behoben ist, habe dies aber nicht getestet und kann deshalb nicht viel
dazu sagen.
Mag sein, dass es auf Discord gute Tests gibt nur hat man damit wenig Vergleichsmöglichkeiten.

Der ERET ist inzwischen zu leicht.

Für Bewertungen für das praktische Spiel sind die Stellungstests nur sehr bedingt geeignet.

Da sind viele Spiele notwendig; am besten mit Vorgabestellungen wie bei TCEC.

By Peter Martan Date 2023-12-16 12:03

Reinhold Stibi schrieb:

Der HTC 114 Test ist gut um die taktische Fähigkeit einer Engine zu ermitteln auch wenn es
bei dem Test einige Nebenlösungen gibt.

Welche, bzw. was verstehst du darunter?
Wie gesagt, sehen wir mal von der Nr.22 ab, die Vincent Lejeune in der letzten Fassung (108 statt 114) auch nicht mehr drin hat.

By Lothar Jung Date 2023-12-16 22:49

Ja, das stimmt.
Auf Schach.de ist das spielen ziemlich uninteressant.
Natürlich kann ich meine Ryzen 7950X CPU gegen eine oder zwei RTX 4070ti spielen lassen.
Aber was bringt das, was nicht längst auf Discord besser getestet wird.
Zur Zeit sehe ich keine sinnvolle Betätigung von Lc0 beim Maschinenschach.
Natürlich sind die neuen Engines spannend.
Vielleicht ist dies ein Betätigungsfeld.

By Max Siegfried Date 2023-12-16 14:12

Lothar Jung schrieb:

Ich werde diesen Test auf der BanksiaGUI wiederholen.

Lass doch einfach mal Stockfish/LC0 den Test 1000x am Stück über Nacht durchlaufen und du wirst überrascht sein.

By Reinhold Stibi Date 2023-12-16 17:44 Upvotes 1

Den Test von Eduard Nemeth ENET 2023 finde ich sehr gut.

Dürfte nicht so viele Nebenlösungen wie HTC 114 haben
und die paar ungeeigneten Stellungen von HTC 114 sind wahrscheinlich
nicht übernommen worden.

Anstelle von HTC könnte man als geeigneten Taktik-Test den ENET 2023 nehmen.

An dieser Stelle bringe ich noch ein dass seine hervorragende private Engine
Sun Light 14.1 von der Stärke gleich sein dürfte wie Cool Iris 11.80.

By Peter Martan Date 2023-12-16 17:49 Upvotes 1

Reinhold Stibi schrieb:

und die paar ungeeigneten Stellungen von HTC 114 sind wahrscheinlich
nicht übernommen worden.

Welche da wären?

By Reinhold Stibi Date 2023-12-16 18:00

Peter, du selber (oder von jemanden Anderen festgestellt) hast doch, wie ich in Erinnerung habe, die 114 Stellungen bei HTC 114 um ein paar reduziert.

Ob die angeführten Nebenlösungen von Lothar Jung stichhaltig sind habe ich nicht überprüft.
Nur dass mit einem anderen Zug auch gewonnen werden kann ist nicht stichhaltig.
Bei einem Stellungstest ist der beste Zug maßgeblich.

By Peter Martan Date 2023-12-16 18:59 Edited 2023-12-16 19:04

Vincent Jejeune hat seine letzte Version vom HTC von 114 auf 108 gekürzt, aber die Stellungen, die Lothar aufgelistet hat, sind allesamt single best move- Stellungen, die einzig echt diskutable ist die Nr.22, und die hat Vincent selbst zuletzt nicht mehr drin gehabt.

Hier

https://talkchess.com/forum3/viewtopic.php?p=915515#p915515

hat er leider noch die alten Nummerierungen des HTC verwendet, in dem's noch 200 waren.

Aber bleiben wir bei Lothars Liste, die nächste nach der Nr.2, die ich schon interaktiv mit SF und Lc0 untersucht habe, ist die Nr.7, aus einer WM- Partie Carlsen- Caruana 2018, bei der kann man schon sagen, der zweitbeste Zug ist ein bisschen nahe am besten dran, aber nach etwas Forward- Backward der Haupt- Abspiele sagt SF dev. mit 30 Threads im MultiPV=2 in Tiefe 45:

Analysis by Stockfish dev-20231202-08cdbca5:

1. +- (4.50): 23.g4 Ld7 24.d6 Lc6 25.dxe7 Dxe7 26.Dd3 De3+ 27.Dxe3 fxe3 28.Txf8+ Txf8 29.Tf1 Td8 30.Te1 Te8 31.Sc4 e2 32.Sd6 Te6 33.Sf5 Ld7 34.Kf2 Lb5 35.Sg3 Th6 36.Sh5 Kf7 37.Ld2 Td6 38.Lxg5 Tg6 39.Ld2 Txg4 40.Sf4 Th4 41.Kg3 Th6 42.Sxe2 Tg6+ 43.Kf2 Td6 44.Lc3 Th6 45.Kg1 Ke6 46.Sf4+ Kd6 47.Kg2 Kc6 48.Te7 b6 49.Lg7 Td6 50.Le5 Td2+ 51.Kg3 bxa5 52.Txh7 La4 53.Lc3 Tc2 54.Th8 Lb3 55.h4 a4 56.Le5 Td2 57.h5 Kb5 58.Ta8

2. +- (3.09): 23.Tad1 Ld6 24.Dh5 De8 25.Dxg5+ Dg6 26.Dxg6+ hxg6 27.Sc4 Tbd8 28.Sxd6 Txd6 29.Txf4 Lc2 30.Txf8+ Kxf8 31.Le5 Td8 32.Td2 Lb3 33.Tf2+ Ke8 34.d6 Kd7 35.Tf6 g5 36.Tg6 Tg8 37.Lg7 g4 38.Txg4 Kxd6 39.h4 Ke6 40.h5 Ld1 41.Te4+ Kf7 42.h6 Td8 43.Tf4+ Kg8 44.Kh2 Td7 45.g4 Kh7 46.Kg3 Lb3 47.Kh4 Kg6 48.Tf6+ Kh7 49.Tf5 Kg6 50.Tg5+ Kh7 51.Txc5 Kg6 52.Tf5 Kh7 53.Tf3 Ld5 54.Tf8 Kg6 55.Le5 Te7 56.Tf6+ Kh7 57.Lf4 Td7 58.Kg5 Lb3 59.Ld6 Tf7 60.Tf5 Td7 61.Le5 Te7 62.Lg7 Tf7

Geht sich knapp (bzw. eigentlich knapp nicht) aus, dass eine für mich gültige Faustregel, dass der bm wenigstens eine um die Hälfte (von der niedrigeren aus gerechnet) höhere Eval haben sollte als der next best move, erfüllt ist.
Diese Regel muss wie jede Engine- Eval sehr an die Stellung angepasst werden, vor allem, ob's Eröffnung, Mittelspiel oder Endspiel ist, aber welche Engine man verwendet, sollte nicht die große Rolle spielen, vorausgesetzt, die Output- Lines, aus denen die Evals stammen, stimmen. Wie hoch die Eval numerisch ist, ist auch weniger wichtig, als das Verhältnis der beiden Output- Evals der beiden Züge, die verglichen werden. Ob's zwei Züge sind, die beide sicher gewinnen oder einer im +- ist und der andere im +/-, das ist natürlich nicht egal, aber das mit dem single game changer ist einfach nicht das Kriterium, das man an alle single best move- Stellungen anlegen kann, wenn man überhaupt genug finden will, über die's keinerlei Diskussionen gibt, und die eben auch sonst noch vom Schweregrad und der Thematik zusammenpassen. Und man müsste game changer auch erstmal genauer definieren, das Beispiel der Matt in x- puzzles hab' ich schon gebracht, wenn man Partielängen bis zum Matt schon als game change gelten lässt, ist auch jeder Zug mit einer kürzeren DTM ein game changer relativ zum nächst schlechteren mit einer DTM um einen Zug länger, weil er den Partieausgang in Hinblick auf die Partielänger verändert

Überspitzt formuliert, natürlich sollte ein single game changer als einziger ein anderer Ergebnis in Hinblick auf gewonnen oder Remis haben, aber das im Einzelfall zu beurteilen, wenn's an der Grenze einer Teststellung ist, die mehr zum Ausspielen als zum nicht ausgespielten Stellungstest gedacht ist, viel Spaß beim Bewerten, kann ich nur sagen, wenn man das alles dann so wörtlich nimmt, wie man könnte, wir kommen wieder zu dem, was der Schweizer einen Tüpflischisser nennt.

Um die Diskrimination, die im MultiPV oft ein bisschen darunter leidet, dass der Hash nicht ganz für beide zu primaries erhobene Lines reicht und oder die time to depth und es auch drauf ankommt, welchen der beiden Züge man zuletzt im Backward hatte, macht man da dann noch am besten Output nach Extra- Backward (zum entsprechenden Kandidatenzug) und nach dem Ausspielen des einen, hier zuerst des 23.Tad1(!?):

Analysis by Stockfish dev-20231202-08cdbca5:

23...Tf7 24.Tfe1 Df8 25.Sc4 Td8 26.h4 Dh6 27.d6 Lxd6 28.hxg5 Df8 29.Lf6 Le7 30.Txd8 Dxd8 31.Td1 De8 32.Se5 Txf6 33.gxf6 Lxf6 34.Te1 Dd8 35.Dxf4 Dd4+ 36.Dxd4 cxd4 37.Tf1 d3 38.Sxd3 Ld4+ 39.Kh1 Lxd3 40.Td1 Lxb2 41.Txd3 Lf6 42.Kh2 Lh4 43.Te3 Lf2 44.Te8+ Kf7 45.Tb8 Le1 46.Txb7+ Kg8 47.Tb6 Lxa5 48.Tf6 Kg7 49.Txa6 Le1 50.Kh3 Kg8 51.Ta8+ Kf7 52.Kg4 Kg7 53.Kf5 Kf7 54.Ta7+ Kg8 55.Ta2 Lc3 56.g4 Ld4 57.Td2 Lc3 58.Td8+ Kf7 59.Tb8 Kg7 60.Tb7+ Kg8 61.Tb3 Ld4 62.Td3 Lb2
Weiß hat entscheidenden Vorteil.
+- (3.03) Tiefe: 43/81   00:06:09 6560MN
...
23...Ld6 24.Dh5 De8 25.Dxg5+ Dg6 26.Dxg6+ hxg6 27.Sc4 Tbd8 28.Sxd6 Txd6 29.Txf4 Lc2 30.Txf8+ Kxf8 31.Le5 Td8 32.Td2 La4 33.Lc7 Td7 34.Lb6 c4 35.Td4 Kg7 36.h4 Kf6 37.d6 Ke5 38.Txc4 Lb5 39.Tg4 Kxd6 40.Txg6+ Ke5 41.h5 Ld3 42.Tg3 Kf6 43.Le3 Td5 44.h6 Lg6 45.Tf3+ Ke6 46.b4 Tf5 47.Th3 Lh7 48.Tg3 Td5 49.Kf2 Td7 50.Tg5 Td5 51.Tg4 Td7 52.Kf3 Td5 53.Kf4 Td8 54.Th4 Td5 55.Kg3 Te5 56.Kf3 Td5 57.g3 Tf5+ 58.Ke2 Td5 59.Kf2 Td7 60.Kf3 Kf7 61.Tf4+ Kg8 62.Tg4+ Kf7 63.Tg7+ Ke6
Weiß hat entscheidenden Vorteil.
+- (3.07) Tiefe: 46/89   00:11:52 12221MN

und dann des anderen Kandidatenzuges, hier 23.g4:

Analysis by Stockfish dev-20231202-08cdbca5:

23...Ld7 24.d6 Lc6 25.dxe7 Dxe7 26.Dd3 De3+ 27.Dxe3 fxe3 28.Txf8+ Txf8 29.Tf1 Td8 30.Te1 Te8 31.Sc4 e2 32.Sd6 Te6 33.Sf5 Ld7 34.Kf2 Lb5 35.Sg3 Th6 36.Sh5 Kf7 37.Ld2 Te6 38.Lxg5 Tg6 39.Ld2 Txg4 40.Sf4 Ke7 41.Sxe2 Kd6 42.Sf4 Ld7 43.Tc1 Tg5 44.Tc3 Tf5 45.Kg3 Tg5+ 46.Kf3 Te5 47.h4 Lc6+ 48.Kf2 Te4 49.h5 Td4 50.Le3
Weiß steht auf Gewinn.
+- (4.20) Tiefe: 44/83   00:07:11 7592MN, tb=1023092
23...Ld7 24.d6 Lc6 25.dxe7 Dxe7 26.Dd3 De3+ 27.Dxe3 fxe3 28.Txf8+ Txf8 29.Tf1 Td8 30.Te1 Te8 31.Sc4 e2 32.Sd6 Te6 33.Sf5 Ld7 34.Kf2 Lb5 35.Sg3 Th6 36.Sh5 Kf7 37.Ld2 Te6 38.Lxg5 Tg6 39.Ld2 Txg4 40.Sf4 Th4 41.Kg3 Th6 42.Sxe2 Tg6+ 43.Kf2 Td6 44.Lc3 Th6 45.Kg1 Ke6 46.Sg3+ Kd5 47.Sf5 Tg6+ 48.Kf2 Kc4 49.Te7 b6 50.axb6 Txb6 51.Txh7 a5 52.Th5 a4 53.Se3+ Kb3 54.Txc5 Le8 55.Ta5 Th6 56.Kg3 Tg6+ 57.Kf4 Th6 58.Ta8 Lf7 59.Kg3 Tg6+ 60.Sg4 Le6 61.h3 Tg5 62.Ta6 Ld7 63.Kh4 Tf5 64.Ta7
Weiß steht klar auf Gewinn.
+- (4.32) Tiefe: 45/90   00:09:22 9781MN, tb=1603636

Ok, hat hier leider auch nicht viel mehr Aufschluss gebracht, wenn ich's jetzt aber schon abgewartet und kopiert habe, soll's auch dastehen.

Lc0 kommt wieder erst in einem zweiten Posting, damit es nicht zu viel auf einmal wird, außerdem muss ich da sowieso auch erst wieder Rechenzeiten zusammenbekommen.

By Peter Martan Date 2023-12-16 20:00 Edited 2023-12-16 20:13

Zitat:

Lc0 kommt wieder erst in einem zweiten Posting, damit es nicht zu viel auf einmal wird, außerdem muss ich da sowieso auch erst wieder Rechenzeiten zusammenbekommen.

Zuerst wieder MultiPV=2 nach etwas Forward- Backward (neu geladen, hat die Engine das 1.(23.) g4 nicht dabei):

Analysis by Lc0 v0.31.0-dag+git.e429eeb:

1. +- (3.35): 23.Tad1 Ld6 24.Sc4 g4 25.Df2 f3 26.Tfe1 Tc8 27.g3 Tf7 28.Dd2 Le7 29.Kf2 Lf6 30.d6 Ld4+ 31.Lxd4 cxd4 32.Dxd4 Df6 33.Se5 Tc2+ 34.Td2 Txd2+ 35.Dxd2 Tf8 36.Dd4 h5 37.d7 Td8 38.Td1 De7 39.Td2 Kh7 40.De3 Db4 41.b3 Da3 42.Sc4 Df8 43.Sb6 Df6 44.Sd5 Dg7 45.De8 Dg5 46.Df7+ Kh6 47.Se3 Lg6 48.Td6

2. +- (2.63): 23.g4 Lg6 24.Tad1 Ld6 25.Tfe1 Dc7 26.Te6 Tbe8 27.Sc4 Txe6 28.dxe6 Td8 29.Sb6 c4 30.Sd5 Dc6 31.h4 Ld3 32.Kh2 Te8 33.Txd3 Txe6 34.Td1 h6 35.Te1 Lf8 36.Txe6 Dxe6 37.Sf6+ Kf7 38.Dxb7+ Le7 39.hxg5 hxg5 40.Se4 Dxg4 41.Sd6+ Kg6 42.De4+

Schon unterwegs beim Backward sieht man wieder, das Lc0 die besten Züge von Weiß einfach nicht von selbst findet, gibt man aber z.B. die ersten 3 Züge der Output- Line nach dem g4 ein, 23.g4 Lg6 24.Tad1 Ld6 25.Tfe1, schaut's gleich ganz anders aus mit der Eval und dem Output single primary:

Analysis by Lc0 v0.31.0-dag+git.e429eeb:

25...Dc7 26.Te6 Tbe8 27.Sc4 Txe6 28.dxe6 Td8 29.Sb6 c4 30.Sd5 Dc6 31.h4 Ld3 32.Kh2 Te8 33.Txd3 Txe6 34.Td1 h6 35.Te1 Lf8 36.Txe6 Dxe6 37.Sf6+ Kf7 38.Dxb7+ Le7 39.hxg5 hxg5 40.Se4 Dxg4 41.Sd6+ Kg6 42.De4+
Weiß steht klar auf Gewinn.
+- (7.57) Tiefe: 23/46   00:00:00 149kN
...
25...Dc7 26.Te6 Tbe8 27.Dh3 Te7 28.Dh6 f3 29.Txg6+ hxg6 30.Dxg6+ Tg7 31.Lxg7 Dxg7 32.Dxd6 Dh7 33.De5 Dh4 34.Dg3 Dh7 35.Df2 Tf4 36.Kh1 Txg4 37.Dxf3 Tf4 38.Dg2 Df5 39.d6 Td4 40.Tf1 Tf4 41.Txf4 Dxf4 42.d7 Dc1+
Weiß steht klar auf Gewinn.
+- (6.77) Tiefe: 24/67   00:05:49 2019kN, tb=12

Da ist natürlich schon vorher längeres Backward von SF- Lines eingegangen, aber bis da her behält's Lc0 auch im NN- cache, wenn das der richtige Ausdruck als Pendant zum Hashlernen von SF ist, jetzt einen Halbzug wieder zurück:

Analysis by Lc0 v0.31.0-dag+git.e429eeb:

25.Tfe1 Dc7 26.Te6 Tbe8 27.Dh3 Te7 28.Dh6 f3 29.Txg6+ hxg6 30.Dxg6+ Tg7 31.Lxg7 Dxg7 32.Dxd6 Dh7 33.De5 Dh4 34.Dg3 Dh7 35.Df2 Tf4 36.Kh1 Txg4 37.Dxf3 Tf4 38.Dg2 Df5 39.d6 Td4 40.Tf1 Tf4 41.Txf4 Dxf4 42.d7 Dc1+
Weiß steht klar auf Gewinn.
+- (5.82) Tiefe: 30/71   00:01:30 542kN, tb=33

Nächster Halbzug zurück

Analysis by Lc0 v0.31.0-dag+git.e429eeb:

24...Ld6 25.Tfe1 Dc7 26.Te6 Tbe8 27.Dh3 Te7 28.Dh6 f3 29.Txg6+ hxg6 30.Dxg6+ Tg7 31.Lxg7 Dxg7 32.Dxd6 Dh7 33.De5 Dh4 34.Dg3 Dh7 35.Df2 Tf4 36.Kh1 Txg4 37.Dxf3 Tf4 38.Dg2 Df5 39.d6 Td4 40.Tf1 Tf4 41.Txf4 Dxf4 42.d7 Dc1+
Weiß steht klar auf Gewinn.
+- (4.95) Tiefe: 31/72   00:00:39 241kN, tb=10

Aber beim nächsten Rückwärts bleiben zwar die schon vorgegebenen im Output, aber die Eval sinkt im Sprung:

Analysis by Lc0 v0.31.0-dag+git.e429eeb:

24.Tad1 Ld6 25.Tfe1 Dc7 26.Te6 Tbe8 27.Dh3 Te7 28.Dh6 f3 29.Txg6+ hxg6 30.Dxg6+ Tg7 31.Lxg7 Dxg7 32.Dxd6 Dh7 33.De5 Dh4 34.Dg3 Dh7 35.Df2 Tf4 36.Kh1 Txg4 37.Dxf3 Tf4 38.Dg2 Df5 39.d6 Td4 40.Tf1 Tf4 41.Txf4 Dxf4 42.d7 Dc1+
Weiß hat entscheidenden Vorteil.
+- (2.73) Tiefe: 33/76   00:01:48 693kN, tb=88

Noch einmal das 24.Tad1 eingegeben:

Analysis by Lc0 v0.31.0-dag+git.e429eeb:

24...Ld6 25.Sc4 Te8 26.Tfe1 Txe1+ 27.Txe1 Dd7 28.Te6 Lc7 29.Txg6+ hxg6 30.d6 Lxd6 31.Dd5+ Kh7 32.Kf2 Te8 33.Dxd6 Dxd6 34.Sxd6 Te7 35.Sc4 Te6 36.Se5 Td6 37.Kf3 Tf6 38.Sd7 Tc6 39.Sf6+ Kh6 40.Se4 b6 41.Lf6 bxa5 42.Lxg5+ Kg7 43.Lxf4 a4 44.Le5+ Kg8 45.Kf4 c4 46.Ld4 Tc7 47.Ke5 Tf7 48.Sf6+ Kf8 49.Kd5 Tc7 50.Lc3 Kf7 51.Se4 Td7+ 52.Kxc4 Td1 53.Sc5 Tg1 54.h3 Th1 55.Sxa4 Txh3 56.g5 Th4+ 57.Kb3 Tf4 58.Lf6 Tf5 59.Kb4 a5+ 60.Kc4
Weiß steht auf Gewinn.
+- (4.09) Tiefe: 35/76   00:00:47 2461kN, tb=89

Wieder etwas mehr Eval, aber ist das 25.Sc4 wirklich besser als das 25.Tfe1, das vorher als Knotenstellung die >7 Bauern- Eval hatte, probieren wir's aus und geben noch einmal das 25.Tfe1 ein und nehmen's wieder zurück, also noch einmal dieselbe Stellung wie beim letzten Output:

Analysis by Lc0 v0.31.0-dag+git.e429eeb:

25.Tfe1 Dc7 26.Sc4 Tbe8 27.Te6 Txe6 28.dxe6 Td8 29.Sb6 c4 30.Sd5 Dc6 31.h4 Kf8 32.hxg5 Ke8 33.Lf6 Tc8 34.Kh2 Lc5 35.Te1 Le3 36.Lc3 Td8 37.Sf6+ Ke7 38.Lb4+ Td6 39.Sd5+ Ke8 40.Lxd6 Dxd6 41.Kh3 Dc6 42.Kh4 Dd6 43.Td1 Ld3 44.b3 De5
Weiß steht klar auf Gewinn.
+- (7.50) Tiefe: 33/71   00:00:36 242kN, tb=55

Uups

Was bedeutet das jetzt also?
Dass man sich an der ursprünglichen Teststellung auf den Output von Lc0 halt nicht so verlassen kann, wie bei SF

Sorry, ist aber doch eindeutig so, wenn die Engine ihrem eigene Output folgend mit etwas weiterem Forward- Backward 2 Züge später eine doppelt so hohe Eval hat, wie dieselben 2 Züge vorher.
Wer das jetzt so halt nicht glaubt, muss die Engine gegen SF ausspielen lassen, einmal mit dem einen Zug und einmal mit dem anderen, dann sieht man, ob der eine eher als der andere ein game changer im head to head match SF- Lc0 ist.

Und MultiPV-Modus ist halt für Lc0 auch überhaupt nicht das, was er für SF ist. Bei letzterem werden dadurch mehr Varianten von non primaries zu primary lines erhoben und haben damit andere Einstellungen der Suche, z.B. was Pruning- und LMR- Parameter angeht, Lc0 untersucht immer alle in Frage kommenden Züge mit der puct- Suche mehr oder weniger gleich, Jörg Oster wird's uns bald mal wieder genauer erklären, hat er angekündigt.

Ich lasse das hier jetzt mal wieder gut sein, es läuft ohnehin wieder auf Monologe hinaus, gerne schaue ich mir aber auf Anfrage weitere Stellungen (oder auch diese hier noch weiter) aus dieser und aus anderen Suiten an.

By Reinhold Stibi Date 2023-12-16 20:05

Das ist nichts Neues.
Stockfish ist viel besser als Lc0 zum analysieren einer Partie geeignet auch besser wie
mancher Stockfish-Abkömmling.

By Lothar Jung Date 2023-12-16 22:52 Upvotes 1

Sehe ich nicht so.
Mit Nibbler ist eine tiefe Analyse möglich.
Warten wir erstmal den neuen Ceres ab.

By Max Siegfried Date 2023-12-17 00:43

Lothar Jung schrieb:

Mit Nibbler ist eine tiefe Analyse möglich.
Warten wir erstmal den neuen Ceres ab.

Inwiefern?

By Lothar Jung Date 2023-12-17 08:26

https://github.com/rooklift/nibbler