TCEC Balanced Lines Bonus

By Stefan Pohl Date 2024-08-04 08:33 Edited 2024-08-04 08:52

Keine Ahnung, warum man diesen "Balanced Line Bonus" überhaupt gespielt hat, denn die Ausführung dieses Turniers zeigt ja nur dessen Sinnlosigkeit: 97% Remisquote. Natürlich nicht überraschend, sondern nur die unvermeidliche Bestätigung, daß balanced openings im Top-Bereich mausetot sind. Und das ist ja nun kaum eine Neuigkeit.

Habe neulich ein schönes Zitat von Emanuel Lasker im Netz gefunden: “Without error there can be no brilliancy”
https://www.goodreads.com/quotes/102362-without-error-there-can-be-no-brilliancy
Das ist genau der Punkt: Top-Engines machen heutzutage einfach keinen "error" mehr, also muß man einen (menschlichen) "error" (oder zumindest eine ernsthafte Ungenauigkeit (was nach Maschinenmaßstab aber natürlich schon ein error ist)) eben schon in den Eröffnungsvorgaben unterbringen. Und das ist genau das, was UHO macht... andernfalls hat man nur noch steriles Hin- und Hergeschiebe, bis es dann irgendwann Remis ist. Zwar auf extrem hohen Niveau und ohne "error", aber wer will das sehen?

Treffenderweise ist die einzige Partie, die mein IWS-Tool als interesting win erkennt, eine 3-Züge Vorgabe der minderwertigen, skandinavischen Eröffnung, an deren Ende KomodoDragon einen Vorteil von ca. +0.90 anzeigt, diese Vorgabe ist also de facto eine UHO-Eröffnung und gar keine balanced opening. Ein Schelm wer Böses dabei denkt.

By Peter Martan Date 2024-08-04 09:12 Edited 2024-08-04 09:18

Stefan Pohl schrieb:

Habe neulich ein schönes Zitat von Emanuel Lasker im Netz gefunden: “Without error there can be no brilliancy”
<a class='ura' href='https://www.goodreads.com/quotes/102362-without-error-there-can-be-no-brilliancy'>https://www.goodreads.com/quotes/102362-without-error-there-can-be-no-brilliancy</a>
Das ist genau der Punkt: Top-Engines machen heutzutage einfach keinen "error" mehr, also muß man einen (menschlichen) "error" (oder zumindest eine ernsthafte Ungenauigkeit (was nach Maschinenmaßstab aber natürlich schon ein error ist)) eben schon in den Eröffnungsvorgaben unterbringen.

Der Satz vom Zitat ist sehr wahr, die Fehler sind es, die die schönen Gegenzüge möglich machen und die Spannung in die Partie bringen. Ein umkämpftes Remis kann ebenso spannend sein wie ein schöner Sieg, ein Start- Ziel- Sieg, der keine Fehler mehr zum ganzen Punkt braucht (und ev. auch seinerseits unnötig bis unmöglich macht auf entsprechend hohem Niveau), ist meiner Meinung nach (ist natürlich Geschmackssache, wie "Schönheit" an und für sich) meistens noch langweiliger als ein Remis ohne Fehler.
Nun ist es halt ebenso eine Definitionsfrage, was alles als Fehler zu gelten hat und wie schwer er sein muss, damit er noch als "schöner" Fehler durchgeht im Auge des Betrachters. Irgendwo muss im Partiepaar, das ich oben eingefügt habe, auch SF Fehler gemacht haben und nun ist natürlich der Aufwand dieser Hardware- Zeit für 100 Partien, um 3 Partien zu bekommen, die nicht remis ausgegangen sind, ein gewaltiger, dafür könnte man ja auch mit den vielen Remis erst recht noch viel mehr Aufwand treiben, herauszufinden, wo vielleicht doch in der Eröffnung oder sonstwo noch bessere Züge bessere Chancen auf ganze Punkte gebracht hätten.
Die Frage ist einfach, womit will der einzelne User wieviel Zeit selbst verbringen (lassen, was die Hardware- Zeit der Analyse angeht) um Engine- Züge zu verstehen.
Das Schöne an den Fehlern sind nicht die ganzen Punkte (die können wie gesagt immer noch sterbenslangweilig sein), sondern, dass man sie als Mensch nachvollziehen kann, die Fehler nämlich, egal, ob mit oder ohne Engine- Unterstützung.

Schauen wir uns z.B. mal die 1-0- Partie von Lc0 oben an, bis zum 5. Zug (von denen 4 vorgegeben sind) verlaufen sie parallel, beim 9. hat Lc0 den ersten kleinen Eval- Sprung (siehe am einfachsten auf der TCEC- site im Archiv der Partie, das Kopieren und Einfügen von TCEC- Output ist mühsam und kaum vom Blatt lesbar, man muss zumindest von Zug zu Zug Leerzeilen in den Text einfügen und die Evals hervorheben), dort hat die Engine 9...cxd4 als Ponder- Zug erwartet, hätte eine Eval von 0.64 gehabt, es kam 9...Dh4 und die Eval von Lc0 ging auf 1.03, die von SF war vor dem Gegenzug 0.43 mit dem Ponderzug 10.Se2 und ging nach dem Lc0- Zug von 10.Dd2 auf 0.94. Der Verdacht, dass hier ein schwarzer suboptimaler Zug passiert ist, liegt nahe, aber wie wollen wir's beweisen?
Und sollen wir's überhaupt versuchen?

By Stefan Pohl Date 2024-08-04 09:20 Edited 2024-08-04 09:22

Naja, letztlich war wie gesagt, eine Eröffnung, die nicht zum Remis führte, per Definition eine UHO-Eröffnung (ca. +0.90 Eval von KomodoDragon, das ist eine UHO-Punktlandung). Diese Eröffnung als balanced opening zu bezeichnen, ist also eine glatte Falschinformation seitens TCEC.

Damit sind es nur noch 2 Gewinnpartien aus 98 gespielten. Und somit eine Remisquote von sogar 98%

By Peter Martan Date 2024-08-04 09:28 Edited 2024-08-04 09:34

Was derlei Definitionen angeht, hängt man von einzelnen Engine- Evals ab (du bringst selbst Dragon als Beispiel, warum gerade den, könnte man fragen?), und dass SF und Lc0 nur UHOs deiner (oder einer anderen) Definition zu ganzen Punkten ausspielen, widerlegen die beiden Nicht-1:1- Paare, die SF gewonnen hat, auch schon für sich allein ansonsten hätten das auch 2 Remis werden müssen, und wenn du das Partiepaar, das Lc0 gewonnen hat, als UHO- Eröffnung durchgehen lässt, muss man da eben auch noch zwischen UHOs unterscheiden, die bei solcher Hardware- TC 1:1- Paare erbringen, und solchen, die das (noch) nicht tun, so gesehen, wäre der Franzose da sogar nicht nur eine UHO, sondern eine für die beiden Engines auf dieser Hardware- TC sogar ausgesprochen gute UHO, abgesehen davon, dass 4 Züge halt aus dem UHO- Schema als Vorgabe- Länger herausfallen. Aber das ist die nächste heikle Definitionsfrage, wieso gerade 6 oder 8, wieso nicht auch 1, 2, 3, 9, 15, 25? Kann immer noch Eröffnung sein (die Bücher reichen heutzutage weiter als das meistens).

Übrigens, ich habe persönlich gar nichts gegen Elo aus Eval und dagegen, die Engines beim Eval- Wort auch schon in der Eröffnung zu nehmen, aber dann müsste man sich halt viel mehr Output dazu genauer anschauen, nicht nur die ersten Halbzüge, nicht nur von einer einzelne Engine allein und nicht ohne wenigstens ein bisschen Forward- Backward relevanter Abspiele neben den Output- Lines allein herzunehmen, die man bei kurzem Standrechnen bekommt.
Aber wie auch schon gesagt, dass die Remis als solche keine Spannung und keine Aufschlüsse über Unterschiede im Spiel der Engines brächten, so ist es nicht. Auch sind es nicht primär die 2-drawn-game pairs, die die Statistik der eng-eng-games belasten, das sind die 1:1-drawn game pairs gleichermaßen und was die error bars angeht, eigentlich noch mehr.

By Stefan Pohl Date 2024-08-04 09:34 Edited 2024-08-04 09:36

Peter Martan schrieb:

Ersteres sollte doch nun klar sein: Alle meine UHO- oder sonstigen Eröffnungen habe ich immer und ausschließlich mit Komodo(Dragon) evaluiert, daher ist eben eine +0.90 Bewertung von Dragon genau UHO.
Letzteres habe ich nie behauptet. Natürlich kann es auch bei balanced openings mal einen seltenen Gewinn geben. Besonders gegen Lc0, der taktisch (logischweise, wenn man Faktor 1000-2000 langsamer rechnet als die Konkurrenz) immer mal wieder einen Aussetzer produzieren kann... was aber nichts daran ändert, daß balanced openings im Top-Bereich mausetot sind. Weil es mit so wenigen Siegen unmöglich ist, in realer Zeit mit noch realen Partiemengen, irgendein Ergebnis aus der Errorbar zu bekommen.

By Peter Martan Date 2024-08-04 09:42 Edited 2024-08-04 09:48

Stefan Pohl schrieb:

Peter Martan schrieb:

Ja, Stefan, du sagst es, nach genau deiner UHO- Definition (übrigens auch erst seit 2024, oder? Hast du für das 2022- Set auch schon denselben Dragon genommen, wie jetzt? Mir scheint, ich hab' das auf deiner site mal anders gelesen).
Und du hast natürlich jedes Hoheits- Recht der Definition eines Begriffes, der von dir stammt und von dir als Fachausdruck deiner Messungen verwendet wird, aber dass der Ausdruck balanced opening von Anderen auch anders als von dir verwendet werden kann, darf und wird, damit musst du dich halt auch abfinden.

Versteh' mich nicht falsch, es ist gut, dass du so genaue Definitionen für genau deine Messungen hast und dokumentierst, just for the fun of other one's different pov..
Ich lasse mir ja z.B. meine eigenen Definitionen von relevanten Eval- Unterschieden bestimmter Engines und bestimmter Höhen für meine ureigenen Stellungstests (ausgespielter oder nicht ausgespielter Art) auch nicht von Anderen vorschreiben

By Stefan Pohl Date 2024-08-04 09:53 Edited 2024-08-04 09:56

Peter Martan schrieb:

Es war immer Komodo, später dann KomodoDragon. Es stimmt, bei UHO 2022 waren die Evals höher, weil KomodoDragon 2.6 damals extremer evaluierte. Ich habe mich jetzt bei dem eval-Wert von ca. +0.90 auf mein aktuelles UHO2024 bezogen und KomodoDragon 3.3, um genau diese Verwirrung zu vermeiden

Peter Martan schrieb:

Und du hast natürlich jedes Hoheits- Recht der Definition eines Begriffes, der von dir stammt und von dir als Fachausdruck deiner Messungen verwendet wird, aber dass der Ausdruck balanced opening von Anderen auch anders als von dir verwendet werden kann, darf und wird, damit musst du dich halt auch abfinden

Es geht doch nicht um Hoheits-Rechte, oder womit ich mich "abfinden kann". Sondern schlicht darum, daß die fragliche Eröffnung (mit der KomodoDragon 3.3 Eval von ca. +0.90), eben meiner UHO-Definiton perfekt entspicht, welche in UHO 2024 angewendet wurde. Und was per Definition in den Begriff "UHO" reinpaßt, kann nun mal nicht zur selben Zeit eine balanced opening sein (sonst bräuchte man UHO ja nicht). Da geht es nicht darum, daß ich mich damit "nicht abfinden kann" oder so, sondern es ist schlicht und einfach eine falsche Einordnung seitens TCEC.

UHO 2024 (unterste 2 Stufen):
Eval [+0.85;+0.94] 6mvs: 6696 lines 8mvs: 19303 lines 8mvs_big: 37622 lines
Eval [+0.90;+0.99] 6mvs: 6292 lines 8mvs: 17145 lines 8mvs_big: 33559 lines

By Peter Martan Date 2024-08-04 10:05 Edited 2024-08-04 10:50 Upvotes 1

Stefan Pohl schrieb:

Und was per Definition in den Begriff "UHO" reinpaßt, kann nun mal nicht zur selben Zeit eine balanced opening sein.

Naja, Stefan, nur der Diskussion halber, eben schon nach der Definition von jemand Anderem als dir

Sorry, aber wie ich schon versucht habe zu erklären, es ist gut, dass du für dich deine exakte Definition deines Begriffes UHO hast, sie erläuterst und dokumentierst, balanced ist aber halt ein Begriff, den verschiedene Leute (auch aber erst recht nicht nur auf Schach beschränkt) verschieden verwenden. Allein schon, wenn du ihn nicht nur auf Eröffnungsstellungen (wie weit die an Zugzahl als solche zu gelten haben, definierst du ja für deine UHOs auch genau willkürlich und es ist wieder genau gut so für die Reproduzierbarkeit und Nachvollziehbarkeit deiner Messungen, aber da hast du auch immer schon 2 Sets an Zugvorgabelängen gehabt, eines mit 6mvs und eines mit 8mvs), dass alle Schachspieler den Begriff opening mit genau 6 oder genau 8 Zügen definieren, wirst du auch nicht ernsthaft erwarten.
Und wenn deine Dragon 3.3- Eval (einer Engine also, die übrigens nicht mehr entwickelt wird, ich sag's nur) bei einer besimmten Eröffnung in dein UHO 6mvs- Schema passt, muss sie das nicht auch nach 4 Zügen, passt sie nach 4 Zügen, entspricht sie schon von der Vorgabelänge her nicht deiner Definition von UHO, und dass eine 0.90- Dragon 3.3- Eval nicht auch mal gerade noch balanziert im weitesten Sinn sein kann, was das zu erwartende (oder bei einer Endspielstellung sogar ev. beweisbare) Ergebnis angeht, darüber werden wir auch nicht wirklich lange streiten, oder?

Wie schon beim Begriff "Aggressiveness" und dem EAS- Score unnötig wortreich von mir hinterfragt, man kann unter Aggressivität im Schach durchaus viel mehr verstehen als die statistische Auswertung bestimmter Daten mit einem bestimmten Tool und unter balanced bei Schachstellungen mehr als was es in der Eröffnung allein bedeutet und mehr als das genaue Gegenteil von dem, was genau deine Definition von UHO ist.

Edit: Und nur noch der Eval- Glauberei halber (doppelsinning, man kann Wortglauberei mit ihr betreiben, und man kann ihr für eine bestimmte Stellung und Engine eben mehr oder weniger Glauben schenken): unmittelbar nach der Vorgabe von 4 Zügen hat SF eine Eval von 0.48 und Lc0 von 0.35 in der Partie gehabt, nach 6 Zügen (was die kürzeste UHO- Vorgabe gewesen wäre, aber hier nicht mehr die Vorgabe ist, weil schon 2 Züge von den Engines gekommen sind) hat SF 0.44 und Lc0 0.40, also wenn Dragon da 0.90 hat, müssten wir überlegen, welche Engine sich mehr irrt (davon ausgehend, dass da jede cp- Einheit beim Wort zu nehmen ist und eine von 2 Evals, wenn nicht gleich, mehr oder weniger richtig sein muss).

Übrigens hat Dragon 3.3. mit 30 threads und 8G hash bei mir nach dem 4...c5 eine Eval von 0.61 nach 3 Minuten in Tiefe 37 und nach dem 6...Se7 wieder nach 3 Minuten (ohne den Hash aus der Stellung davor eigens zu löschen) von 0.67, diesmal in Tiefe 38, hier beginnt sie langsam noch etwas zu steigen, immer noch in Tiefe 38 nach fast 5 Minuten sind's kurz 0.77, dann geht's aber wieder runter:

Analysis by Dragon 3.3 by Komodo Chess 64-bit:

7.Dg4 Sf5 8.Sf3 Da5 9.Ld2 c4 10.h4 Sc6 11.h5 h6 12.Df4 Ld7 13.Le2 Sfe7 14.g4 Tg8 15.a4 0-0-0 16.De3 Tdf8 17.Sh4 f5 18.gxf5 Sxf5 19.Sxf5 Txf5 20.Lg4 Tf7 21.Dh3 Te8 22.f4 Kb8 23.Tf1 a6 24.Ke2 Ka8 25.Lc1 b5 26.La3 b4 27.Lxb4 Sxb4 28.cxb4 Dxb4 29.Da3 a5 30.f5 Dxa3 31.Txa3 exf5
Weiß steht etwas besser.
+/= (0.56) Tiefe: 39 00:08:57 8595MN, tb=21

So what?

By Kurt Utzinger Date 2024-08-04 17:19

Stefan Pohl schrieb:

Keine Ahnung, warum man diesen "Balanced Line Bonus" überhaupt gespielt hat, denn die Ausführung dieses Turniers zeigt ja nur dessen Sinnlosigkeit: 97% Remisquote. Natürlich nicht überraschend, sondern nur die unvermeidliche Bestätigung, daß balanced openings im Top-Bereich mausetot sind. Und das ist ja nun kaum eine Neuigkeit.

Habe neulich ein schönes Zitat von Emanuel Lasker im Netz gefunden: “Without error there can be no brilliancy”
<a class='ura' href='https://www.goodreads.com/quotes/102362-without-error-there-can-be-no-brilliancy'>https://www.goodreads.com/quotes/102362-without-error-there-can-be-no-brilliancy</a>
Das ist genau der Punkt: Top-Engines machen heutzutage einfach keinen "error" mehr, also muß man einen (menschlichen) "error" (oder zumindest eine ernsthafte Ungenauigkeit (was nach Maschinenmaßstab aber natürlich schon ein error ist)) eben schon in den Eröffnungsvorgaben unterbringen. Und das ist genau das, was UHO macht... andernfalls hat man nur noch steriles Hin- und Hergeschiebe, bis es dann irgendwann Remis ist. Zwar auf extrem hohen Niveau und ohne "error", aber wer will das sehen?

Treffenderweise ist die einzige Partie, die mein IWS-Tool als interesting win erkennt, eine 3-Züge Vorgabe der minderwertigen, skandinavischen Eröffnung, an deren Ende KomodoDragon einen Vorteil von ca. +0.90 anzeigt, diese Vorgabe ist also de facto eine UHO-Eröffnung und gar keine balanced opening. Ein Schelm wer Böses dabei denkt.

Hallo Stefan Das UHO (Unbalanced Human Openings 2024) Konzept von Stefan Pohl ist meiner Meinung nach grossartig und eine der besten Ideen im Computerschach der letzten Jahre, um die Stärke von Engines zu messen. Nach meiner Erfahrung gibt es keine Testsuite, die zuverlässige Ergebnisse liefert. Das liegt zum einen daran, dass diese Tests viel zu wenige Stellungen enthalten, und zum anderen daran, dass diese Tests nicht in der Lage zu sein scheinen, die reale Stärke der Engines zu messen. Die einzige zuverlässige Testmethode schein daher, so viele Partien wie möglich zu spielen. Und da bei "normalen" Eröffnungsbüchern fast 99% aller Partien remis enden, ist die Methode von Stefan Pohl einfach genial. Denn hier werden die Stärkeunterschiede zwischen den Engines sehr deutlich. Stärkere Engines sind viel eher in der Lage, bessere Eröffnungsstellungen zum Sieg zu führen. Solche Unterschiede lassen sich mit Teststellungen allein nicht messen. Das zeigt sich insbesondere auch bei Testsuites, wo Stockfish 16.1 relativ schlecht abschneidet. Lässt man dann jedoch Stockfish mit UHO-Vorgaben gegen die Engines spielen, die bei Tests ganz vorne liegen, ist von dieser (testmässigen) Überlegenheit kaum mehr etwas zu spüren. Vielen Dank an Stefan Pohl für seine grossartige Arbeit, denn beim ganzen Projekt steht nämlich wirklich ein Riesenaufwand dahinter. Viele Grüsse Kurt

By Peter Martan Date 2024-08-04 17:54 Edited 2024-08-04 18:21

Kurt Utzinger schrieb:

Nach meiner Erfahrung gibt es keine Testsuite, die zuverlässige Ergebnisse liefert. Das liegt zum einen daran, dass diese Tests viel zu wenige Stellungen enthalten, und zum anderen daran, dass diese Tests nicht in der Lage zu sein scheinen, die reale Stärke der Engines zu messen. Die einzige zuverlässige Testmethode schein daher, so viele Partien wie möglich zu spielen. Und da bei "normalen" Eröffnungsbüchern fast 99% aller Partien remis enden, ist die Methode von Stefan Pohl einfach genial. Denn hier werden die Stärkeunterschiede zwischen den Engines sehr deutlich. Stärkere Engines sind viel eher in der Lage, bessere Eröffnungsstellungen zum Sieg zu führen. Solche Unterschiede lassen sich mit Teststellungen allein nicht messen. Das zeigt sich insbesondere auch bei Testsuites, wo Stockfish 16.1 relativ schlecht abschneidet. Lässt man dann jedoch Stockfish mit UHO-Vorgaben gegen die Engines spielen, die bei Tests ganz vorne liegen, ist von dieser (testmässigen) Überlegenheit kaum mehr etwas zu spüren. Vielen Dank an Stefan Pohl für seine grossartige Arbeit, denn beim ganzen Projekt steht nämlich wirklich ein Riesenaufwand dahinter.

Du bist dir aber schon im Klaren, Kurt, dass die UHOs auch Teststellungen sind, ja?
Wenn du meinst, du müsstest Stellungstests immer komplett ausspielen lassen und es kämen nur Eröffnungsstellungen in Frage, ok., dass die Auswahl der Eröffnungs- Teststellungen fürs eng-eng-match aber auch immer mehr Einfluss darauf nimmt, was du für Ergebnisse bekommst, ist auch evident, schon allein dadurch, dass du mit ausgeglichenen Eröffnungsstellungen nur mehr Remis als Ergebnis bekommst. Nun könntest du natürlich auch diese Ergebnisse nach beliebig vielen Partien, die dann halt als Ergebnis hätten, die Engines wären alle innerhalb der error bar gleich stark, als die einzig richtigen betrachten

Und übrigens habe ich MEA- Testsuiten auch aus UHOs schon verschiedene gebaut, 1001 davon hab' ich auch schon mehrmals (in verschiedenen Versionen) veröffentlicht, interessiert aber halt keinen.
Von alledem abgesehen, hat niemand bisher in diesem Thread am stimmigen Konzept der UHOs gezweifelt für genau die genau dokumentierten und publizierten Ergebnisse, die sie eben ergeben. Dass Stefan selbst mehr als ein Set davon hat, erwähne ich aber dennoch auch noch einmal nur so am Rande.
Und die "Diskussion" die ich in dem Zusammenhang mit Stefan hatte, ging einzig und allein darum, ob jetzt die Vorgabestellung des Partiepaares aus dem TCEC- Turnier eine balanced line (dem Titel des Matches entsprechend) oder eine UHO nach Stefans Definitionen davon sei. Was meinst du zu dieser Frage?

https://forum.computerschach.de/cgi-bin/mwf/topic_show.pl?pid=170470#pid170470

Peter Martan schrieb:

Übrigens hat Dragon 3.3. mit 30 threads und 8G hash bei mir nach dem 4...c5 eine Eval von 0.61 nach 3 Minuten in Tiefe 37 und nach dem 6...Se7 wieder nach 3 Minuten (ohne den Hash aus der Stellung davor eigens zu löschen) von 0.67, diesmal in Tiefe 38, hier beginnt sie langsam noch etwas zu steigen, immer noch in Tiefe 38 nach fast 5 Minuten sind's kurz 0.77, dann geht's aber wieder runter:

Analysis by Dragon 3.3 by Komodo Chess 64-bit:

7.Dg4 Sf5 8.Sf3 Da5 9.Ld2 c4 10.h4 Sc6 11.h5 h6 12.Df4 Ld7 13.Le2 Sfe7 14.g4 Tg8 15.a4 0-0-0 16.De3 Tdf8 17.Sh4 f5 18.gxf5 Sxf5 19.Sxf5 Txf5 20.Lg4 Tf7 21.Dh3 Te8 22.f4 Kb8 23.Tf1 a6 24.Ke2 Ka8 25.Lc1 b5 26.La3 b4 27.Lxb4 Sxb4 28.cxb4 Dxb4 29.Da3 a5 30.f5 Dxa3 31.Txa3 exf5
Weiß steht etwas besser.
+/= (0.56) Tiefe: 39 00:08:57 8595MN, tb=21

So what?

Der Vollständigkeit halber noch einmal dazu: die Vorgabestellung, um die's ging, endet noch 2 Züge vor der vom Diagramm und Output, also nach dem 4. Zug der Französisch- Partie, nicht nach dem 6., was die kürzeste Länge von UHOs nach Stefan Pohls Definition davon wäre (an der als seiner ureigenen ich auch nie gezweifelt habe, ich habe mir nur erlaubt zu hinterfragen, ob es wirklich die einzig mögliche Definition von Teststellungen ist, die einzig mögliche von Teststellungen aus der Eröffnung und die einzig mögliche Definition von balanced und unbalanced positions und lines an und für sich

)

By Kurt Utzinger Date 2024-08-04 20:48

Peter Martan schrieb:

Kurt Utzinger schrieb:

Du bist dir aber schon im Klaren, Kurt, dass die UHOs auch Teststellungen sind, ja?

Hallo Peter Eine Teststellung im Schach ist für mich eine spezifische Position auf dem Schachbrett, die verwendet wird, um die Fähigkeiten eines Spielers oder einer Schach-Engine zu bewerten. Ist der Spieler oder die Engine in der Lage, in dieser konkreten Stellung die gestellte Aufgabe (taktisch, strategisch, usw.) zu meistern. Wenn ich jedoch eine bestimmte Eröffnungsstellung ausspielen lasse, ist das für mich keine eigentliche Teststellung, sondern nur eine Ausgangsstellung. Hingegen könnte man die in den nächsten 30 - 50 Zügen entstehenden Positionen für jeden zu findenden Zug als 60 - 100 Teststellungen betrachten, gilt es doch hier, jeweils den besten Zug zu finden. So gesehen müssten die Engines mit z.B. den Eröffnungen UHO_2024_6mvs_+105_+114 (4'125 Stellungen) zwischen 222'750 und 387'750 Teststellungen absolvieren. Und dass bei dieser Vielzahl von Stellungen ungleich viel mehr Motive abgedeckt werden als in üblichen Schachstellungen ist klar. Und da die Ausgangsstellung eben wirklich "unbalanced" daherkommt, wird sich in diesen Partien bezüglich Spielstärke automatisch der Spreu vom Weizen trennen. Bei meinen Tests habe ich übrigens festgestellt, dass die Eröffnungen UHO_2024_8mvs_+100_+109 wohl etwas zu wenig "unausgeglichen" sind, um wirkliche Unterschiede genügend klar zu erkennen. Viele Grüsse Kurt

By Peter Martan Date 2024-08-04 21:36 Edited 2024-08-04 21:50

Kurt Utzinger schrieb:

Bei meinen Tests habe ich übrigens festgestellt, dass die Eröffnungen UHO_2024_8mvs_+100_+109 wohl etwas zu wenig "unausgeglichen" sind, um wirkliche Unterschiede genügend klar zu erkennen.

Das ist ja eben der Knackpunkt, Kurt, wie ausgeglichen ist ausgeglichen und wie unausgeglichen ist unausgeglichen.
Stefan nimmt verschiedene Evalgrenzen und 2 Vorgabelängen für verschiedene Engines und bestimmte Hardware- TC. Nimmst du andere Engines und andere Hardware- TC, ist es deinem Interesse und Versuch und Irrtum überlassen, was für Teststellungen (wie auch immer du sie nennen willst) dir die Ergebnisse bringen, die dich am meisten interessieren und die dann vielleicht auch noch zusätzlich mit anderen Ergebnissen mehr oder weniger vergleichbar sind.

Das mit dem Ausspielen und den Unmengen mehr an Stellungen, die dadurch aufs Brett kommen, als du es mit (herkömmlichen nicht ausgespielten) Stellungstests sonst vorgibst, hinkt halt als Vergleich, weil die Engines, je näher sie einander an Spielstärke und Spielanlage kommen und je weniger die verschiedenen Arten von Fehlern werden, die sie gemeinsam machen, einander halt auch immer mehr ähneln in den Stellungen, die sie selbst im Spiel bei bestimmter praktikabler Hardware- TC aufs Brett bringen, das ist ja auch der Grund für den Remistod. Und was hindert dich daran, wie's z.B. auch Ed Schröder mit dem Nachfolge- Tool von MEA namens Temere macht, ganze Datenbanken verschiedener Partiesammlungen zum nicht ausgespielten Stellungstest zu verwenden? Das Ganze ist immer eine im Wesentlichen rein quantitative Frage, wieviele Partien du ausspielen lassen musst, um wieviel Diskrimination zwischen welchen Engines zu bekommen und wie übertragbar sind die Ergebnisse dann noch auf andere Ergebnisse, wie auch immer du sie bekommst. Würdest du mit nicht ausgespielten Stellungstests dieselben Ergebnisse haben wollen wie mit ausgespielten, müsstest du sie einfach entsprechend gleich aufwändig an Hardware- Zeit dafür machen und dann wäre halt die brennende Frage, wozu noch beides? Ich persönlich mache Stellungstests der verschiedensten Arten ausgespielt und nicht ausgespielt, um eben nicht nur eine Art von Ergebnissen zu bekommen, weil mich verschiedene halt mehr interessieren als immer dieselben, aber das alles ist natürlich Frage des persönlichen Interesses. Außerdem haben wir ja, wofür wir froh und dankbar sind, für eine bestimmte genau definierte Art von Tests große Ranglisten, in denen wir nur nachschauen müssen, was bei genau diesen Tests rauskommt, danke an Leute wie Stefan Pohl mal wieder dafür, dass ich dann nicht auch noch selbst genau dieselben Arten von Tests machen muss, sei mir auch irgendwie gegönnt.
Vor allem ist es immer wieder eine Frage der Vergleichbarkeit verschiedener Testmethoden und Ergebnisse, sind sie gleich, bestätigen sie einander höchstens, immer wieder von vorn anzufangen mit der Grübelei, welche die Elosion der "overall playing strength" am ehesten abbilden, je selektiver wir auch bei den Eröffnungs(test)stellungen vorgehen, um überhaupt noch Unterschiede in dem zu sehen, was Engines an Performance bieten, umso müßiger scheint mir die Überlegung, ob Testergebnisse immer schon eine Frage der Teststellungen waren und ob man sich nicht endlich damit abfinden könnte, dass Spielstärkemessungen immer nur stellungsabhängig gesehen werden können. (Bei Menschen ja auch, selbst Carlsen spielt sein eigenes Eröffnungsrepertoire lieber als das, was sich Andere unter overall balanced oder unbalanced openings vorstellen, und hier handelt es sich wirklich um human openings, etwas, was man von Engines ja auch nicht unbedingt verlangen müsste, so sehr es von zusätzlichem Interesse für bestimmte, genau definierte aber dafür halt auch wieder weniger auf andere übertragbare Ergebnisse sein mag, aber auch das nur so am Rande.)

Und ist jetzt deiner Meinung nach die Eröfffnungsstellung (um sie nicht wieder Teststellung zu nennen) um die's bisher im Thread ging, die eine, die ich als Partiepaar- Beispiel gebracht habe unter dem Titel des TCEC- Matches "Balanced Lines Bonus", ist diese 4- zügige Eröffnungsstellung aus Französisch jetzt balanced oder unbalanced? Und wenn balanced, ist sie jetzt dann zu balanced, obwohl sie eine von ohnehin nur 3en war, die nicht nur 2drawn draws in 100 Partien gebracht hat, oder, wenn unbalanced, war sie jetzt damit schon zu unbalanced für den Titel des Matches und oder doch schon so unbalanced, dass sie auch als UHO durchgegangen wäre?

By Stefan Pohl Date 2024-08-05 06:28

Kurt Utzinger schrieb:

Bei meinen Tests habe ich übrigens festgestellt, dass die Eröffnungen UHO_2024_8mvs_+100_+109 wohl etwas zu wenig "unausgeglichen" sind, um wirkliche Unterschiede genügend klar zu erkennen.

Bist du dir da sicher, Kurt? Das ist die dritte UHO-Eval-Stufe in UHO 2024, das ist schon ziemlich hoch. Nicht zu hoch, wenn man sich auf Tests von Stockfish und der allerobersten Spitze konzentriert, aber auf jeden Fall sollte das mehr als ausreichend sein. Hast du das vielleicht mit UHO 2022 verwechselt? Dort sind die UHO-Eval Stufen alle deutlich höher, weil UHO2022 mit Dragon 2.6 evaluiert wurde, der +0.25 bis +0.30 höhere Evals als Dragon 3.3 (UHO 2024) anzeigt. In UHO 2022 ist +100 bis +109 die unterste UHO-Eval Stufe, hier kann es gut sein, daß diese Stufe zu niedrig ist (ich selbst nehme ja die zweite Stufe von UHO2022 für meine UHO-Top15 Rangliste)...

By Kurt Utzinger Date 2024-08-06 08:20 Upvotes 1

Stefan Pohl schrieb:

Kurt Utzinger schrieb:

Bei meinen Tests habe ich übrigens festgestellt, dass die Eröffnungen UHO_2024_8mvs_+100_+109 wohl etwas zu wenig "unausgeglichen" sind, um wirkliche Unterschiede genügend klar zu erkennen.

Hallo Stefan Da ich bislang nur UHO 2024 verwendet habe, kann keine Verwechslung vorliegen. Absolut sicher bin ich (noch) nicht und mein Text hätte eher so lauten müssen: (Bei meinen Tests habe ich übrigens festgestellt, dass die Eröffnungen UHO_2024_8mvs_+100_+109 vielleicht etwas zu wenig "unausgeglichen" sind, um wirkliche grosse Unterschiede genügend klar zu erkennen.) Es kann natürlich an noch zu wenigen Partien liegen. Ferner am Umstand, dass meine Reference-Engine eben Stockfish 16.1 ist, die ich zu vergleichen suche mit verschiedenen top Derivaten, die in meinen Stellungstests ganz massgeblich stärker punkten als Stockfish 16.1. Und diese grossen Unterschiede haben sich bislang bei UHO_2024_8mvs_+100_+109 fast nicht ausgewirkt. Deshalb habe ich zu UHO_2024_6mvs_+105_+114 gewechselt, wo es bislang besser aussieht. Aber natürlich auch hier noch zu wenige Partien. Mich reizt es einfach zu "beweisen", dass Ergebnisse von Stellungstests mit dem Spielen von Partien bezüglich Resultaten nur schwerlich bis gar nicht vergleichbar sind. Allerdings frage ich mich, was mir diese Untersuchungen bringen. Ich brauche die Engines ja meistens nur für meine Analysen ... und wenn ein Stockfish-Derivat in der Analyse eben (viel) schneller eine bessere Einschätzung der jeweils analysierten Stellung bringt, dann brächten mir meine Untersuchungen keinen praktischen Nutzen. Viele Grüsse Kurt

By Max Siegfried Date 2024-08-06 11:31

Kurt Utzinger schrieb:

Stefan Pohl schrieb:

Kurt Utzinger schrieb:

Bei meinen Tests habe ich übrigens festgestellt, dass die Eröffnungen UHO_2024_8mvs_+100_+109 wohl etwas zu wenig "unausgeglichen" sind, um wirkliche Unterschiede genügend klar zu erkennen.

<code>Hallo Stefan
Da ich bislang nur UHO 2024 verwendet habe, kann keine Verwechslung vorliegen. Absolut sicher bin ich (noch) nicht und mein Text hätte eher so lauten müssen: (Bei meinen Tests habe ich übrigens festgestellt, dass die Eröffnungen UHO_2024_8mvs_+100_+109 vielleicht etwas zu wenig "unausgeglichen" sind, um wirkliche grosse Unterschiede genügend klar zu erkennen.) Es kann natürlich an noch zu wenigen Partien liegen. Ferner am Umstand, dass meine Reference-Engine eben Stockfish 16.1 ist, die ich zu vergleichen suche mit verschiedenen top Derivaten, die in meinen Stellungstests ganz massgeblich stärker punkten als Stockfish 16.1. Und diese grossen Unterschiede haben sich bislang bei UHO_2024_8mvs_+100_+109 fast nicht ausgewirkt. Deshalb habe ich zu UHO_2024_6mvs_+105_+114 gewechselt, wo es bislang besser aussieht. Aber natürlich auch hier noch zu wenige Partien. Mich reizt es einfach zu "beweisen", dass Ergebnisse von Stellungstests mit dem Spielen von Partien bezüglich Resultaten nur schwerlich bis gar nicht vergleichbar sind. Allerdings frage ich mich, was mir diese Untersuchungen bringen. Ich brauche die Engines ja meistens nur für meine Analysen ... und wenn ein Stockfish-Derivat in der Analyse eben (viel) schneller eine bessere Einschätzung der jeweils analysierten Stellung bringt, dann brächten mir meine Untersuchungen keinen praktischen Nutzen.
Viele Grüsse
Kurt
</code>

Der normale Stockfish ist doch schon lange die stärkste Engine, wenn Partien gespielt werden und das wird auch so bleiben.
Es sind kaum noch Teststellungen übrig, welche der normale Stockfish nicht löst.
Es ist nur noch eine Frage der Zeit, bis der normale Stockfish genauso viele Teststellungen löst wie ShashChess und Co.
8-Steiner Syzygy Endspieldatenbanken werden auch eine große Hilfe sein und da greift Stockfish selbst auf den neuesten langsamsten CPUs in der Grundstellung auf die Endspieldatenbanken zu (TB Hits) ->
Der Festplattenspeicher wird sich demnächst wieder verdoppeln: https://www.heise.de/news/Die-ersten-M-2-SSDs-mit-16-TByte-Kapazitaet-in-Aussicht-9750868.html

By Kurt Utzinger Date 2024-08-06 14:12

Max Siegfried schrieb:

Der normale Stockfish ist doch schon lange die stärkste Engine, wenn Partien gespielt werden und das wird auch so bleiben.

Das könnte durchaus zutreffen.

Zitat:

Es sind kaum noch Teststellungen übrig, welche der normale Stockfish nicht löst.

Solche gibt es durchaus schon noch. Vor allem von Festungen hat der Stockfish wenig bis Null Ahnung.

Zitat:

Es ist nur noch eine Frage der Zeit, bis der normale Stockfish genauso viele Teststellungen löst wie ShashChess und Co.

Das wird sich weisen. Mir geht es weniger darum, ob eine Engine alle Teststellungen löst, sondern mehr darum, ob eine Stellung auf
einem Rechner von Otto-Normalverbraucher innert max. 60s den Durchblick hat. Es gibt also diesbezüglich schon noch recht
grosse Unterschiede wie die Menge an gefundenen Lösungen und Lösungen in % bei einem Test von 110 Stellungen zeigt.

Code:

104    94.5%  Light 29 MPV-avx2
103    93.6%  Beast 15 MPV-avx2
98    89.0%  Cool Iris 11.80
92    83.6%  Stockfish 16.1
78    70.9%  Dragon 3.1 by Komodo Chess 64-bit
72    65.4%  Berserk 13
37    33.6%  Deep Shredder 13

Gruss
Kurt

By Stefan Pohl Date 2024-08-07 05:49

OK, wenn es um Stockfish und seine diversen Clone geht, ist man natürlich auf einem extremen Remis-Level, dann kann diese hohe UHO Stufe schon passen.
Und wichtig ist ja nur, daß es funktioniert. Genau für solche Fälle habe ich ja so viele verschiedene UHO Stufen in UHO realisiert: Es gibt einfach kein UHO Set, das für alle Tests und alle Hardware (und auch in der Zukunft) immer funktioniert. Man muß probieren, welche UHO Stufe für das eigene Test-/Turniersetup "paßt", also wo man Remisquoten im Bereich von 45-60% erhält.
Ich z.B. nutze für mein Super 3 Turnier die allerunterste UHO Stufe von UHO 2024, weil in diesem Turnier 3 maximal unterschiedlich spielende und denkende Engines teilnehmen, die noch dazu "nur" ca. 3450 Elo haben. Und das paßt perfekt. Remisquote nach knapp 4000 Partien ist 49.4%.
Das ist ja gerade das Brillante an UHO: Durch das Eval-Stufen System bietet UHO für jedes Setup und für die Zukunft das passende UHO Eröffnungsset.

Das Super 3 Turnier könnte dich vielleicht interessieren, Kurt, da es wirklich absolut faszinierende Partien generiert, die man so im Computerschach sonst nie zu sehen bekommt.
Eben weil die 3 Engines so völlig unterschiedlich konstruiert sind (weswegen alle 3 Engines völlig unterschiedliche Stärken und Schwächen haben), und so unterschiedlich spielen, wie man es sich nur vorstellen kann...
https://www.sp-cc.de/super3_tournament.htm

By Kurt Utzinger Date 2024-08-08 19:35

Stefan Pohl schrieb:

[...]
Das Super 3 Turnier könnte dich vielleicht interessieren, Kurt, da es wirklich absolut faszinierende Partien generiert, die man so im Computerschach sonst nie zu sehen bekommt.
Eben weil die 3 Engines so völlig unterschiedlich konstruiert sind (weswegen alle 3 Engines völlig unterschiedliche Stärken und Schwächen haben), und so unterschiedlich spielen, wie man es sich nur vorstellen kann...
<a class='ura' href='https://www.sp-cc.de/super3_tournament.htm'>https://www.sp-cc.de/super3_tournament.htm</a>

Hallo Stefan
Interessiert mich und deshalb habe ich alle Partien heruntergeladen.
Viele Grüsse
Kurt

By Stefan Pohl Date 2024-08-09 06:40

Kurt Utzinger schrieb:

Stefan Pohl schrieb:

[...]
Das Super 3 Turnier könnte dich vielleicht interessieren, Kurt, da es wirklich absolut faszinierende Partien generiert, die man so im Computerschach sonst nie zu sehen bekommt.
Eben weil die 3 Engines so völlig unterschiedlich konstruiert sind (weswegen alle 3 Engines völlig unterschiedliche Stärken und Schwächen haben), und so unterschiedlich spielen, wie man es sich nur vorstellen kann...
<a class='ura' href='<a class='ura' href='https://www.sp-cc.de/super3_tournament.htm'>https://www.sp-cc.de/super3_tournament.htm</a>'>https://www.sp-cc.de/super3_tournament.htm</a>

Hallo Stefan
Interessiert mich und deshalb habe ich alle Partien heruntergeladen.
Viele Grüsse
Kurt

Schön. Updates gibt es alle 7-10 Tage. Das hängt davon ab, wann ich dazu komme...

By Stefan Pohl Date 2024-08-05 06:35 Edited 2024-08-05 06:52 Upvotes 1

Kurt Utzinger schrieb:

Das UHO (Unbalanced Human Openings 2024) Konzept von Stefan Pohl ist meiner Meinung nach grossartig und eine der besten Ideen im Computerschach der letzten Jahre, um die Stärke von Engines zu messen. Nach meiner Erfahrung gibt es keine Testsuite, die zuverlässige Ergebnisse liefert. Das liegt zum einen daran, dass diese Tests viel zu wenige Stellungen enthalten, und zum anderen daran, dass diese Tests nicht in der Lage zu sein scheinen, die reale Stärke der Engines zu messen. Die einzige zuverlässige Testmethode scheint daher, so viele Partien wie möglich zu spielen. Und da bei "normalen" Eröffnungsbüchern fast 99% aller Partien remis enden, ist die Methode von Stefan Pohl einfach genial. Denn hier werden die Stärkeunterschiede zwischen den Engines sehr deutlich. Stärkere Engines sind viel eher in der Lage, bessere Eröffnungsstellungen zum Sieg zu führen. Vielen Dank an Stefan Pohl für seine grossartige Arbeit, denn beim ganzen Projekt steht nämlich wirklich ein Riesenaufwand dahinter.

Danke sehr, es ist immer schön, positives Feedback zu bekommen.

Daß UHO einen solchen "Siegeszug" in der Computerschachwelt angetreten hat, ist für mich natürlich toll. Besonders, daß Fishtest seit Ende August 2021 alle Patches für die Weiterentwicklung von Stockfish (und mittlerweile auch die Progression-Tests) mit UHO macht. Das war schon eine krasse Umstellung, immerhin gab es Fishtest damals ja schon fast 10 Jahre und es wurden bis dahin immer normale, ausbalancierte Eröffnungen als Vorgabe benutzt. Da war es natürlich eine große Überraschung, ja eine regelrechte Zeitenwende, als Vondele (Stockfish Maintainer) seinerzeit Fishtest quasi über Nacht auf UHO umgestellt hat. Aber Vondele hat das natürlich erst nach einem ausführlichen Test von UHO im Vergleich mit den althergebrachten Eröffnungen gemacht:

A 10% time odds test (60+0.6 vs 66+0.66) je 60000 Partien:

Altes 8moves_V3 balanced book:
Elo: 3.94 ± 0.7 (95%) LOS: 100.0%
Total: 60000 W: 3144 L: 2463 D: 54393
Ptnml(0-2): 13, 1692, 25913, 2365, 17
nElo: 14.97 ± 2.8 (95%) PairsRatio: 1.40

Mein UHO:
Elo: 10.94 ± 1.3 (95%) LOS: 100.0%
Total: 60000 W: 16069 L: 14180 D: 29751
Ptnml(0-2): 18, 5221, 17662, 7052, 47
nElo: 24.05 ± 2.8 (95%) PairsRatio: 1.36

Dieses Ergebnis ließ in seiner Eindeutigkeit nun wirklich nicht zu wünschen übrig... Wie man sieht, ist die Elo-Spreizung mit UHO fast 3x größer, wobei die Errorbar nicht mal 2x größer ist. Und die nElo (normalized Elo) hat sich mit UHO fast verdoppelt. Daß sich die Remisquote mit UHO ca. halbiert, ist auch noch zu nennen.

Riesenaufwand steckt in der Entwicklung von UHO allerdings dahinter. Insbesondere, wenn man bedenkt, daß ich vor UHO noch 5 andere AntiDraw-Eröffnungskonzepte (u.a. Drawkiller) erdacht und fertig entwickelt habe. Und UHO 2024 die insgesamt 5. (komplett neu erstellte und evaluierte) Vollversion von UHO ist... Ich kann gar nicht beziffern, wieviele Arbeitsstunden und wieviele Monate Evaluierungen durch einen PC, insgesamt in meinen Eröffnungsprojekten stecken. Das möchte ich auch lieber gar nicht wissen.

By Frank Quisinsky Date 2024-08-05 06:54 Edited 2024-08-05 07:42

Hallo Kurt,

es gibt eine Excel Datei mit ca. 400 verschiedenen Formeln (insgesamt 1.6 Millionen Formeln) die alle spielbaren Züge, 3 Züge nach ECO-Code Ende, durchgetestet hat. Schimpft sich FEOBOS. Die schwächeren Lines sind im FEOBOS Bewertungssystem weiter unter zu finden. Sprich, die Varianten von Bewertungsnummer 30.000 - 41.... noch irgendetwas sind im Grunde vergleichbare UHU Lines. FEOBOS ist nicht komplett, weil im Jahr 2016 bei ca. 3200 ELO auf höchstes Niveau einiges durch die vielen Filter gegangen ist, was dann vielleicht auf noch höherem Niveau spielbar gewesen wäre.

Die Eröffnungstheorie beginnt ja im Grunde meist erst so richtig nach 3 Züge nach ECO-Code Ende und sollte nach FEOBOS offen sein. Aber darüber gibt es eine 60 Seiten Doku.

Ich bin nicht der Meinung, dass mit ungleichen Eröffnungsystemen Turniere ausgetragen werden sollten.
Auch bin ich nicht der Meinung, dass für ein Rating mehr als grob gesagt 1.400 Partien notwendig sind.
Das sieht man an den größeren Turnieren, von denen ich ja schon einige gespielt habe.
Zwar wird logischerweise das Rating genauer, aber wenn es nicht genug Fälle gibt wo ein Rating 5-10 Elo abweicht von mehr als 1.400 Partien steht der Stromverbrauch nicht mehr im Verhältnis zum Nutzen der Auswertungen. Bei vielen Gegner, ich habe ja immer 40, wird auch ein Rating bei weniger Partien genauer (natürlich im Verhältnis wer da gegen wen spielt). 40 stark unterschiedliche Engines produzieren leicht andere ELO-Ausgaben, egal wie viele Partien im Vergleich zu z. B. 40 Engines die vieles gleich machen.

Man kann den Weg gehen, den Stefan geht.
Viele verschiedene Wege führen zu interessanten weiteren Eindrücken.
Um Rätsel zu lösen, sollte immer jede Spur nachgegangen werden, schreibe ich als großer Oak Island Fan.

Grundsätzlich denke ich eher, dass die hohen Remisquoten auch darin die Wurzel finden, dass viele Programme vieles gleich machen.
Lässt man stark unterschiedliche Ansatzpunkte von Spielstilen gegeneinander antreten senkt sich die Remisquote automatisch stärker ab, auch bei Engines die auf einem sehr hohen Spielstärkeniveau spielen.

Auch das ist heute nicht mehr so wichtig, weil selbst Engines die heute auf Platz 100 in den Ratinglisten stehen sind rund 200 Elo stärker als der stärkste menschliche Spieler.

Herauszufiltern, welche Engines eher einen Spielstil pflegen, den Menschen seit so langer Zeit als fantastisch ansehen, wenn Feuer auf dem Brett ist, ist nach wie vor für mich das spannendere Thema.
Allerdings liefern die Ansatzpunkte von Stefan hierzu schnellere Informationen, wenn es um die aggressiven und oft auch schnell gewinnbringenden Züge bei vielen Figuren auf dem Brett geht.

Selbst versuche ich genau das schon seit der Winboard Aera.
Klar, das sind für mich die spannenderen Schachprogramme, gerade weil mich die Eröffnungssysteme interessieren und deren Vielfalt an Möglichkeiten, die sich aus den ECO-Codes ergeben können.
Um das dann wieder herauszufinden, sollten natürlich alle ECO-Codes immer wieder neu (bei steigender Spielstärke ... umso besser) untersucht werden.

Viele Grüße
Frank

Grundsätzlich haben die Eröffnungsbücher oder Vorgaben tatsächlich nur minimale Einflüsse auf Partieausgängen. Es sei denn die bis zum Start der Partie gegebenen Vorteile habe zu große Auswirkungen. Aber dann macht der Zweikampf keinen wirklichen Sinn mehr.
Es gibt viele Eröffnungssysteme deren Bauernstrukturen bei sehr hohem Niveau zu viele Remise produzieren.
Das Salz in der Suppe ist es aber auch die Eröffnungstheorie immer wieder in Frage zu stellen, um herauszufinden, welche Systeme auf höchstes Niveau die wirklich interessanten sind.
Gerade im Computerschach auf höchstes Niveau macht das heute Sinn und Computerschach leistet einen ganz erheblichen Beitrag dazu.

By Frank Quisinsky Date 2024-08-05 07:06 Edited 2024-08-05 07:38

Wenn wir früher von Engine-Forschung gesprochen haben, so spreche ich heute eher von ECO-Theorie Forschung, wenn die mittlerweile sehr vielen Programme, die sich auf Spitzen-Niveau befinden gegeneinander antreten. Ich schätze mal, dass in gut 50% der Fälle die Bauernstrukturen den Vorteil ausgeben, daher macht die Forschung nach wie vor Sinn. In den anderen 50% der Fälle, wenn es zu 1:0 oder 0:1 Entscheidungen kommt, finden sich dann noch die Stärken und Schwächen der TOP-Engines. Die auszuwerten ist fast unmöglich und eine Herkules Aufgabe, die heute wahrscheinlich nur noch mit sehr starken Statistik-Programmen geht, die es im Grunde nicht gibt, weil weit über menschliches Level. Insofern ist es heute schon fast wie die Nadel im Heuhaufen beim Spielstil ab spätes Mittelspiel etwas herauszufinden. Dafür benötigt man dann viele Partien, nicht unbedingt so viele wie eine Elo die halbwegs den Ansprüchen genügen sollte zu messen. Elo-Messung ist im Grunde langweilig auf diesem Niveau geworden. Der Mensch bewertet etwas, was er nicht aus eigener Kraft bewerten kann. Nicht die Spielstile oder jeder Ansatzpunkt neues in den ECO-Codes zu finden.

So, ist es zukünftig dann doch leider so, dass viele Partien notwendig sind, um mehr herauszufinden.
Wir sprechen eh schon seit Jahren über Dinge die so weit über unser Niveau gehen, dass wir eigentlich nicht drüber sprechen dürften.

Das Salz in der Suppe sind die Spielstile, ob eine Engine nun 3000 oder 3600 Elo hat, ist im Grunde für uns unerheblich, wenn wir auf dem Fun-Faktor unterwegs sind.
Ich denke das sind die meisten von uns die unser Hobby realistisch betrachten.

Schnelle Gewinnpartien auszuwerten ist sehr simple.
Tiefe Mittelspiele oder gar die meist entscheidenden Partien bei 1:0, 0:1 Ergebnisse (Übergang ins Endspiel) auszuwerten ist aus statistischer Sicht eine absolute Herkules Aufgabe. Wo kommen die Vorteile her und wo wurden die Vorteile genau erzielt? Bei Vorgaben mit zu hohen Vorteilen / Nachteilen werden daher keine wirklichen Erkenntnisse gezogen wenn es um das späte Mittelspiel oder wenn es um den wichtigen Übergang zum Endspiel geht. Wenn Engines das besser machen als andere Engines wäre eine genauere Bewertung bei den Schwächen und Stärken möglich und mithin ein Spielstil realistischer zu beschreiben. Wobei Spielstile menschlich hausgemacht sind und unterschiedlich bewertet werden. Eine aggressive Engine muss nicht unbedingt den schönsten Spielstil haben wenn denn die Fehlerquote aus menschlicher noch messbarer Sicht zu hoch ist. Wichtig bei dem Niveau was wir haben ist also eher auszuwerten welche Engines möglich wenige Partien schnell verlieren, nicht welche Engines nur immer viele schnelle Partien gewinnen. Haben wir Engines, die viele schnelle Partien gewinnen aber auch verlieren können wir beim Spielstil z. B. spekulativ nach der Eröffnungsphase schreiben, mehr aber auch nicht. Interessant ist nach wie vor ... spekulativ findet. Wie früher Fizbo (spreche vom späten Mittelspiel). Nur wie gesagt, solche Dinge auszuwerten ... eine Herkules Aufgabe.

By Kurt Utzinger Date 2024-08-06 16:08

Frank Quisinsky schrieb:

[...]
Ich bin nicht der Meinung, dass mit ungleichen Eröffnungsystemen Turniere ausgetragen werden sollten.

Hallo Frank
Man muss ja nicht immer derselben Meinung sein. Wenn in einem Turnier starke Engines und (relativ) schwache Programme (-300 - 500 Elo) mitspielen, dann mag es vielleicht weniger Sinn machen, UHO Vorgaben zu verwenden. Aber in einem Turnier der nur Besten unter sich sehr wohl, will man nicht die bekannte Remisquote von 98% sehen und das Gefühl haben, alle Engines sind gleich stark. So oder so scheinen mir aber UHO Vorgaben die beste Wahl, um wenigstens resultatmässig noch spürbare Unterschiede in der Rangierung/Spielstärke feststellen zu können.
Viele Grüsse
Kurt

By Frank Quisinsky Date 2024-08-06 18:04

Hi Kurt,

wenn viele Engines zu einer gleichen Spielstärke kommen, heißt das nicht das die Remisquote bei 95% liegen muss.
Das heißt, dass viele Programme vieles gleich machen oder besser gesagt, mit fast gleichen Mitteln diese Spielstärke erreichen.

Nehmen wir die Winboard Zeit und z. B. einen Crafty Clone.
Da gab es auch Remisquoten die gegen 90% tendierten.

Spielte Crafty gegen ein anderes Programm welches auf ganz andere Ideen beruhte waren die Remisquoten völlig normal.

Daran endert die Tatsache nichts, dass generell die Spielstärke ansteigt.

Wenn wir hingehen und absichtlich durch Vorgaben Nachteile für eine Seite generieren dient das nicht für einen Vergleich.
Vergleichen kann man immer nur etwas was unter gleichen Voraussetzungen startet.
Auch dienen solche Vergleiche nur sehr eingeschränkt für neue Erkenntnisse.

Beispiel:
Wir lassen die zweite Bundesliga gegen Bayern spielen, allerdings spielen die Bayern mit 10 Spielern.
Wir lassen die dritte Bundesliga gegen Bayern München spielen, allerdings spielen die Bayern mit 9 Spielern.

Daraus können wir dann erkennen welches Team der 2 oder 3 Liga dann gegen die Bayern die meisten Tore schießt oder die meisten Punkte holt.
Nur wenige Erkenntnisse sind daraus zu gewinnen.

Viele Grüße
Frank

PS: Aus meinen Turnieren kann ich z. B. folgendes generieren:
Ich nehme keine Engines die ca. 3.400 Elo oder größer sind und lasse die gegeneinander spielen, sondern nehme 3.300 Elo - 3.400 Elo.
Nun schaue ich auf die Remisquoten der 40 Engines im Test. Nehme 20 Engines heraus mit zu hohen Remisquoten und betrachte nun wieder die Remisquote der verbliebenen 20 Engines.

Ups, die Remisquote liegt ja plötzlich nur noch bei 68% und ich habe das Gefühl, dass die Ideen dieser 20 Enginges im Detail unterschiedlicher sind als die der anderen 20 Engines die ich herausgenommen habe.
Das ist immer das gleiche, ob beim Testen in Winboard Zeit oder heute!

By Frank Quisinsky Date 2024-08-06 18:18

Was ich sagen will ist ...
Es ist völlig unerheblich wie viele Programme über 3600, 3500, 3400, 3300 Elo lliegen oder eine genaue Spielstärkeeinordnung.
Je höher die Elo, desto mehr machen die Engines gleich weil diese Programme am aktuellen Wissen stehen. Dieses Wissen heute weitergeben und andere
dieses Wissen nutzen und nur stark minimal verändern. Wäre es anderes wäre Stockfish nicht so lange so weit oben.

Interessant ist eher die Kombination, welche Programme machen bei 3500 oder 3400 oder 3300 mit anderen Ansatzpunkten etwas anders.
Diese Programme können finden, weil spekulativer. Es ist nicht unwahrscheinlich, dass nur 3600 Elo immer das beste Ergebnis, je nach Stellung, abliefert.

Aus einem Pool von Engines, die dann herauszufiltern, ist nicht uninteressant.
Wir haben derzeit ca. 100 Engines die über 3200 Elo liegen (auf einem Core).
Bedeutet 300 Elo über menschlich maximales Level.

Das ist Bestandteil der Engineforschung und der Theorieforschung bei den wir uns auf Statistik verlassen müssen.
Die Eröffnungstheorie wurde über Jahrhunderten entwickelt und ist niemals so weit das das Ende der Fahnenstange erreicht ist.

Remisquoten von 95% bei Engines die über 3500 oder 3600 stehen interessierne mich daher kaum.
Die dienen eher dazu den Entwicklungsstand zu erkennen.

By Kurt Utzinger Date 2024-08-06 22:08

Frank Quisinsky schrieb:

[...]

Wenn wir hingehen und absichtlich durch Vorgaben Nachteile für eine Seite generieren dient das nicht für einen Vergleich.
Vergleichen kann man immer nur etwas was unter gleichen Voraussetzungen startet.
Auch dienen solche Vergleiche nur sehr eingeschränkt für neue Erkenntnisse.

Hallo Frank Hier machst du meines Erachtens einen Denkfehler. Bei den UHO-Eröffnungen wird jede Stellung einmal mit Weiss und einmal mit Schwarz gespielt. Es herrschen also die gleichen Bedingungen. Und wegen der Ungleichheit der Ausgangsstellung zeigt sich eben viel klarer, welche Engine wirklich stärker spielt. Schwächere Engines können den Vorteil oftmals nicht nutzen, weil die stärkeren Engines gegen das ungenügende Agieren der Gegner den vorhandenen Nachteil langsam ausgleichen können. Solche Unterschiede lassen sich in Partien mit ausgeglichener Ausgangsstellung viel seltener feststellen, zumal auch diese "schwächeren" Engines auf einem Niveau spielen, wo sie dann durch die stärkeren Programme nur noch ausnahmsweise überspielt werden können. Viele Grüsse Kurt

By Frank Quisinsky Date 2024-08-07 01:33 Edited 2024-08-07 02:03

Hallo Kurt,

leider nein Kurt!
Denkfehler liegt nicht bei mir!

Wenn eine schwächere Engine, mit klar deutlich besserer Stellung startet (wird ja wie Du schreibst jede Stellung mit Stellungswechsel gespielt) ist die Chance ein Remis zu erzielen deutlich höher.
Bei einer ausgeglichenen Vorgabe gibt es diesen hausgemachten Vorteil nicht.

Du kannst UHU Ergebnisse durchaus miteinander vergleichen, sofern es sich um UHU Ergebnisse handelt.
Du kannst diese UHU Ergebnisse nicht mit Ergebnisse von ausgeglichenen Vorgaben vergleichen.

Das heißt, durch die UHU Vorgaben ist die schwächere Engine bei 2 Partien zumindest bei einer Partie immer im Vorteil.

Dieser Vorteil wiegt mehr als der Vorteil der stärkeren Engine, wenn behauptet wird, die Stärkere wird ja auch mehr Partien gewinnen als Remis zu spielen.
Dies, weil die Wahrscheinlichkeit höher zu bewerten ist das die schwächere Engine bei starker Vorgabe evtl. noch ein Remis erreicht im Vergleich zu das die stärkere Engine anstatt ein 1:0 vielleicht doch nur Remis spielt.

Logisch, weil erneut ...
Es ist nichts vergleichbar was nicht gleich ist.
Thema: Äpfel mit Birnen, oder UHU-Ratingliste mit einer anderen Ratingliste

Mehr oder weniger wäre UHU meines Erachtens eher so eine Art "Schachvariante" wie z. B. Fischer-Random Chess / Chess 960. Auch dort wird mit Vorgaben gestartet.

Auch nicht notwendig!
- Persönliche Meinung -

Es gibt reichlich Eröffnungssysteme, die auch bei minimal anders spielenden TOP-Programmen auf höchstes Niveau die kleinen Nuancen ermitteln.
Nur diese entstehen leider meist nicht durch Eröffnungsvorgaben, sondern eher durch späte Mittelspiele und Übergänge in Endspiele bzw. ausschlaggebend sind sehr oft die Bauernstrukturen, auch nur begrenzt durch das Entstehen durch Eröffnungsvorgaben. OK, es gibt Eröffnungssysteme die sehr remislich sind. Warum sind die remislich? Weil meist auf keiner Seite eine Bauernschwäche ausgemacht werden kann, Bauern meist synchron stehen. Vorteile schwierig zu erzielen sind, weil weniger Fehler gemacht werden.

Ferner, wie beschrieben, durch 95% offener Sourcen heute im Vergleich zu 10% offenen Sourcen im Winboard Zeitalter.
Thema: Viele Programme machen vieles gleich, sehr gleich oder weniger gleich.
Durch freie Sourcen wird genau das enorm beschleunigt, siehe meine anderen Kommentare hierzu.

Tja, Schach ist sehr komplex, erst recht, wenn selbst die Nummer 100 in der Welt über 300 Elo besser ist als der Schachweltmeister der Menschen.
Nur weil Du von schwachen Engines gesprochen hast ... was ich so natürlich nicht stehen lassen kann.

Thema: Beeinflussungsfaktoren beim Schach (Eröffnungsbücher, Endspieldatenbanken, Hash-Tables, Bedenkzeiten etc.).
UHU ist kein Beeinflussungsfaktor, weil hausgemacht.

Hatte diese ellenlange Datei über 20 Jahre online, heute ja nicht mehr.

Viele Grüße
Frank