Der korrekte Zug alleine ohne den korrekten Score (z.B. < 1.0 oder noch besser 0.0) ist keine Lösung.
Hallo Thomas
Hier hat endlich jemand auf eine (grosse) Schwäche von automatisiereten Teststellungen hingewiesen.
Die vorliegende, sehr schwierige Stellung, ist ein gutes Beispiel dafür. Die Engine spielt zwar den besten
und richtigen Zug, aber hat noch keine Ahnung vom Remis, wie die Stellungsbewertung zeigt und auch
nach langer Zeit noch zeigen wird. Das Patt-Motiv liegt noch in weiter Ferne und ich gehe davon aus,
dass momentan keine Engine diese Aufgabe in annehmbarer Zeit und mit korrekter Bewertung lösen wird.
Ich habe neuerdings begonnen, die Tests händisch durchzuführen, natürlich ein Riesenaufwand. Und
hier bekäme auf der üblichen Vorgabezeit von 60s keine Engine einen Punkt für die Lösung. Trotz
dieser Einwände darf nicht vergessen werden, dass (fast) jede Engine diese Teststellung, wenn nach
1.Txh1 weiter analysiert wird, korrekt bis zum Remis behandeln wird. Rems M-091024 natürlich
einiges schneller als Stockfish 17, so dass der Nutzen dieses Derivats eben doch gut spürbar ist.
Gruss
Kurt
Hallo Thomas
Zum Glück ist die überwiegende Anzahl aller Teststellungen eindeutig. So müssten statt
114 Startstellungen nur wenige ausgespielt werden. Aber auch hier wäre der Aufwand
wohl grösser als die händische Weiteranalyse.
Gruss
Kurt
> das ist doch totaler Quatsch was da Thomas Mally geschrieben hat.
Hallo Max
Auch dieser Test hat seine Mängel, u.a. Stellungen mit Nebenlösungen, völlig praxisfremde und sinnlose Stellungen.
Nur schon in der ersten Stellung 4rr1k/pQ4pp/8/7q/2B2BbP/P1P2nP1/5PK1/R6R b - - 0 1 gewinnen 1...Txf4 wie
auch 1...Se5 kinderleicht.
Und eines zeigt auch dieser Stellungstest: Er kann die praktische Spielstärke nicht abbilden. So schneidet Stockfish 17
im Vergleich zu den besten Lösern ("top Engines") derart grottenschlecht ab, dass man davon ableiten müsste, dass
Stockfish 17 gegen diese top Engines keine Chance hätte. Das ist aber bekanntermassen überhaupt nicht der Fall,
steht doch Stockfish 17 in praktischen Partien den fraglichen top Engines in nichts oder nur derart geringfügig nach,
dass die Differenzen vernachlässigbar sind.
Unten eine kleine Liste meiner TCE-Tests mit 3 unterschiedlichen Computern.
Gruss
Kurt
TCE 2024 v2 Test (Rangliste Leistung per 02.11.2024)
Total
Resultat Prozent Progamm CPU Zeit all CPUs
84 73.0% Light 29 MPV AMD Ryzen 7 6800H 60s 221
70 68.8% Light 29 MPV i7-8750H 60s 221
67 58.2% Light 29 MPV i7-1065G7 60s 221
75 65.2% Rems 150824, MultiPV=2 (2VM) AMD Ryzen 6800H 60s 215
74 64.3% Rems 150824, MultiPV=2 (2VM) i7-8750H 60s 215
66 57.3% Rems 150824, MultiPV=2 (2VM) i7-1065G7 60s 215
75 65.2% Rems M-091024 AMD Ryzen 7 6800H 60s 208
69 60.0% Rems M-091024 i7-8750H 60s 208
64 55.6% Rems M-091024 i7-1065G7 60s 208
66 57.3% MagicKnight i7-8750H 60s 194
66 57.3% MagicKnight AMD Ryzen 7 6800H 60s 194
62 53.9% MagicKnight i7-1065G7 60s 194
33 28.6% Stockfish 17 AMD Ryzen 7 6800H 60s 90
31 26.9% Stockfish 17 i7-1065G7 60s 90
26 22.6% Stockfish 17 i7-8750H 60s 90
TCE 2024 v2 Test (Rangliste Leistung per 02.11.2024)
Total
Resultat Prozent Progamm CPU Zeit all CPUs
84 73.0% Light 29 MPV AMD Ryzen 7 6800H 60s 221
70 68.8% Light 29 MPV i7-8750H 60s 221
67 58.2% Light 29 MPV i7-1065G7 60s 221
75 65.2% Rems 150824, MultiPV=2 (2VM) AMD Ryzen 6800H 60s 215
74 64.3% Rems 150824, MultiPV=2 (2VM) i7-8750H 60s 215
66 57.3% Rems 150824, MultiPV=2 (2VM) i7-1065G7 60s 215
75 65.2% Rems M-091024 AMD Ryzen 7 6800H 60s 208
69 60.0% Rems M-091024 i7-8750H 60s 208
64 55.6% Rems M-091024 i7-1065G7 60s 208
66 57.3% MagicKnight i7-8750H 60s 194
66 57.3% MagicKnight AMD Ryzen 7 6800H 60s 194
62 53.9% MagicKnight i7-1065G7 60s 194
33 28.6% Stockfish 17 AMD Ryzen 7 6800H 60s 90
31 26.9% Stockfish 17 i7-1065G7 60s 90
26 22.6% Stockfish 17 i7-8750H 60s 90
TCE 2024 v2 Test (Rangliste Leistung per 02.11.2024)
Total
Resultat Prozent Progamm CPU Zeit all CPUs
84 73.0% Light 29 MPV AMD Ryzen 7 6800H 60s 221
70 68.8% Light 29 MPV i7-8750H 60s 221
67 58.2% Light 29 MPV i7-1065G7 60s 221
75 65.2% Rems 150824, MultiPV=2 (2VM) AMD Ryzen 6800H 60s 215
74 64.3% Rems 150824, MultiPV=2 (2VM) i7-8750H 60s 215
66 57.3% Rems 150824, MultiPV=2 (2VM) i7-1065G7 60s 215
75 65.2% Rems M-091024 AMD Ryzen 7 6800H 60s 208
69 60.0% Rems M-091024 i7-8750H 60s 208
64 55.6% Rems M-091024 i7-1065G7 60s 208
66 57.3% MagicKnight i7-8750H 60s 194
66 57.3% MagicKnight AMD Ryzen 7 6800H 60s 194
62 53.9% MagicKnight i7-1065G7 60s 194
33 28.6% Stockfish 17 AMD Ryzen 7 6800H 60s 90
31 26.9% Stockfish 17 i7-1065G7 60s 90
26 22.6% Stockfish 17 i7-8750H 60s 90
Aus dir spricht kein praktischer Schachspieler. Für solche sind zweit- und drittbeste Züge durchaus wichtig. Lieber gewinne ich mit einem drittbesten Zug, den ich berechnen/verstehen kann, als mit dem besten Zug, der menschliche Fähigkeiten übersteigt, bis am Ende den richtigen Gewinnweg zu finden.
Ich verstehe nicht, weshalb man mit völlig praxisfremden Stellungen irgendwelche Tests aufbauen soll. Da ist jemand nur zu faul, um im unendlichen Dschungel von Schachpartien etwas Passendes zu finden.
Eine sinnlose Stellung ist z.B. die Nr. 7: Weiss steht noch in der Grundstellung mit 8 Figuren und 8 Bauern, der Gegner (Schwarz) hat noch König und 2 Bauern. Gefordert ist ein lächerliches Matt in 7, was heutige Programme à tempo ausspucken. Und soll ein Programm bestraft werden, das sofort ein Matt in 9 sieht und dann weitere Berechnungen abbricht nach dem Motto: Matt ist Matt? Sinnloser geht es nicht.
Gerade das kann der Test eben nicht, die praktische Spielstärke abbilden, vor allem nicht im Vergleich der verschiedenen Engines. Wenn dieser, dein Massstab gelten würde, müsste ShashChess 34.6 High Tal MultiPV=3 gegen LC0 v0.31.0 BT4 6147500 auf 100 Partien also mit mindestens 80 : 20 gewinnen.
TCE 2024 v2 Test (Rangliste Leistung per 02.11.2024)
Total
Resultat Prozent Progamm CPU Zeit all CPUs
84 73.0% Light 29 MPV AMD Ryzen 7 6800H 60s 221
70 68.8% Light 29 MPV i7-8750H 60s 221
67 58.2% Light 29 MPV i7-1065G7 60s 221
75 65.2% Rems 150824, MultiPV=2 (2VM) AMD Ryzen 6800H 60s 215
74 64.3% Rems 150824, MultiPV=2 (2VM) i7-8750H 60s 215
66 57.3% Rems 150824, MultiPV=2 (2VM) i7-1065G7 60s 215
75 65.2% Rems M-091024 AMD Ryzen 7 6800H 60s 208
69 60.0% Rems M-091024 i7-8750H 60s 208
64 55.6% Rems M-091024 i7-1065G7 60s 208
66 57.3% MagicKnight i7-8750H 60s 194
66 57.3% MagicKnight AMD Ryzen 7 6800H 60s 194
62 53.9% MagicKnight i7-1065G7 60s 194
33 28.6% Stockfish 17 AMD Ryzen 7 6800H 60s 90
31 26.9% Stockfish 17 i7-1065G7 60s 90
26 22.6% Stockfish 17 i7-8750H 60s 90
Wenn man bei einem Test eben Äpfel mit Birnenkernen vergleicht, kann natürlich nichts Gescheites herauskommen.
Ich wiederhole mich an meinem gebrachten Beispiel:
Wenn ich also auf meinem AMD Ryzen 7 6800H diese beiden Gegner mit derart stark unterschiedlichen Testergebnissen (Light = sau stark, Stockfish schwach) einen Wettkampf auf 100 Partien austragen lasse, müsste somit etwa ein Resultat von 70 : 30 für den Light 29 MPV herausschauen, da ja der Test gemäss deiner Aussage die praktische Spielstärke abbildet. In der Realität würde dieses Match aber wohl etwa ausgeglichen enden. Mehr brauche ich dazu nicht zu sagen.
Gruss
Kurt
Hallo Peter
Danke für diesen Hinweis, der mir bestätigt, dass der Testsuite TCE 2024 v2 eine Palette von
Verbesserungen gut tun würde. Eine Testsuite, die zwischen fast gleich starken Engines eine
derart riesige Differenz der Leistungen aufzeigt und oftmals genug Lösungszüge angibt, die
fast gleichwertig mit dem zweitbesten Zug sind, gefällt mir gar nicht. Je länger ich mich mit
Testsuites beschäftige, desto mehr tendiere ich zur Ansicht, dass es keine gibt oder geben
kann, die ein realistisches Abbild bezüglich Stärkevergleich der Engines geben. Dies auch
deshalb, weil die stärksten Engines vermutlich nicht wegen der Trefferquote von so genannten
Bestzügen (was in Testsuites meistens verlangt wird) an der Spitze liegen. Vielmehr sind es wohl
die ganz kleinen positionellen Dinge: Jeder 3. - 5. Zug ist um 0.03 - 0.10 besser als der gegnerische,
was dann am Ende eine Gewinnstellung ergibt, die dann meistens auf verschiedenen Wegen zu
gewinnen ist. Eine Testsuite zu erstellen, die solche Feinheiten unterscheidet, dürfte ein Ding
der Unmöglichkeit sein. In diesem Sinne können die heutigen Testsuites nur einen groben
Eindruck zur realen Stärke von Engines aufzeigen - wenigstens beim Vergleich von etwa gleich
starken Programmen. Und für einen Vergleich zwischen Crafty 23.05 mit Stockfish 17 geht es
auch ohne Testsuite, um Klarheit der Verhältnisse zu schaffen.
Gruss
Kurt
Hallo Peter
Nein, mit MEA Tools habe ich mich noch nie beschäftigt. Du meinst damit Werkzeuge, die bei der Bewertung von Zügen helfen?
Von solchen Werkzeugen verspreche ich mir nicht viel, weil der Bewerter eine Engine sein müsste, die weit stärker ist als die
heutigen Top Engines. Denn was bringt es, wenn Stockfish die Züge von Lc0 oder umgekehrt bewertet?
Gruss
Kurt
Powered by mwForum 2.29.3 © 1999-2014 Markus Wichitill