Stockfish 15 ist erschienen, Anmerkungen dazu.

By Frank Quisinsky Date 2022-04-19 06:52 Edited 2022-04-19 07:08

Hi Reinhold,

ich denke das durch immer mehr Programme, die auf NN beruhen, der Abstand von Stockfish eher geringer wird.
Das geht aus Milliarden oder Billionen von Blitzpartien bei der verwendeten Testmethodik leider nicht hervor.

Verzehrt etwas die Tatsachen, weil hierdurch der Test im Framework an Aussagekraft verliert.

Denke zwar auch das Stockfish unumstritten seit vielen Jahren die Nummer 1 ist aber die Abstände zur Konkurrenz sich stets verringern.

Remispartien gegen deutlich schwächer nehmen drastisch zu.
Gibt einige Anzeichen dafür.
z. B. wird der Zügedurchschnitt deutlich höher!

Das kann z. B. sehr schön anhand Datenbanken festgestellt werden.
Nehmen wir an, Stockfish würde nur gegen NN Gegner spielen oder die TOP-40 wären alles NN Engines, würde die Elo nochmals um 15-20 Elo zur Konkurrenz abfallen.
Sehr leicht zu simulieren!

Betroffen ist nicht nur Stockfish, sondern im Spiel untereinander alle NN Engines.

Die stetigen Verbesserungen gerade auf diesem Gebiet aller Programmierer führen ein wenig zur Regression der tatsächlichen Spielstärke.

Noch krasser wird es wenn immer mehr Bedenkzeit eingesetzt wird.
Der Zügedurchschnitt ohne Aufgabefaktor steigt und steigt und die Remispartien gegen andere NN Engines steigen mit.

Im Computerschach ist es leider so, dass kaum Personen mal längere Bedenkezeiten einsetzen und fast alle mehr oder weniger Blitz spielen lassen.
Auch werden eher selten schwächere Gegner gegen die TOPs eingesetzt.

Persönlich denke ich heute, dass es immer schwieriger wird Leistung in Elo aufgrund der vielen unterschiedlichen Test-Methoden gut darzustellen.
Neural Network ist an einem Punkt angelangt wo es augescheinlich komplizierter wird zu testen!

Persönlich denke ich also, dass Neural Network zunächst zwar enorme Zugewinne brachte aber langfristig ausbremst.

Stelle das mal zur Diskussion ohne jetzt speziell die erbrachte Leistung vom Stockfish Team angreifen zu wollen.
Würde gar noch deutlicher hervorstellen, dass Stockfish seit vielen Jahren animiert und das absolute Ausshängeschild ist.
Nicht mein Thema!!

Wie gesagt, ich denke langfristig werden alle NN Engines betroffen sein.

NN Files optimieren sich gegenseitig zu Tode!!

Viele Grüße
Frank

So wirklich eine Idee dagegen zu steuern habe ich nicht.
Vielleicht im Framework eher ohne NN parallel zu testen.
Spielstärke-Verbesserungen dann anschließend mit NN files zu testen.
Das hatte sich vor der NN Zeit bewährt!!

By Peter Martan Date 2022-04-19 19:43 Edited 2022-04-19 20:02

Frank Quisinsky schrieb:

So wirklich eine Idee dagegen zu steuern habe ich nicht.

Ich schon

Es hat sich gezeigt, dass die 222 Stellungen, die ich in der letzten Zeit meistens genommen hatte, weniger Elo- Unterschied zwischen dem oberen und unteren Teil der Liste erbringen mit meiner Hardware- TC von 30 Threads der 16x3.5GHz- CPU bzw. der 3070ti- GPU und 15"/Stellung, als das kleinere Subset von 128, die ich hier

https://forum.computerschach.de/cgi-bin/mwf/topic_show.pl?pid=153648#pid153648

aufgelistet hatte. Wenn's mehr Diskrimination bringt und doch noch etwas weniger Hardware- Zeit kostet, nehm ich jetzt mal eine Weile die 128 allein, bis sich zeigt, wieviele Engines mehr es sein müssen, damit die error bar relativ zu den Elo- Abständen wieder sinkt. Nur auf dieses Verhältnis kommt es mittlerweile überhaupt bei Elo- Messungen an. Rating/Error ist der Punkt, eigentlich unabhängig von den Maßzahlen, in denen die Performances berechnet werden, ob in Elo oder Prozent oder was auch immer, z.B. nur Ranglistenplätzen und natürlich auch abgesehen davon, dass die Übertragbarkeit sowieso nur in miteinander vergleichbaren Tests bestehen kan.


    Program                                    Elo   +/-  Matches  Score   Av.Op.   S.Pos.   MST1    MST2   RIndex

  1 Crystal251221                            : 3583   10   1218    63.5 %   3486    93/128    2.8s    6.1s   0.67
  2 ShashChess21.1-GoldDigger                : 3573   10   1234    62.3 %   3486    94/128    3.4s    6.5s   0.63
  3 Stockfish15                              : 3568   10   1146    61.2 %   3489    87/128    3.0s    6.8s   0.66
  4 Ceres0.97RC3-ap-mish-2000000             : 3560   10   1143    60.0 %   3490    83/128    3.1s    7.3s   0.64
  5 Lc0v0.30.0-dev-mish-2000000              : 3545   11   1070    57.1 %   3495    74/128    2.7s    7.9s   0.60
  6 CorChess3150422                          : 3543   10   1100    57.2 %   3492    80/128    3.7s    7.9s   0.55
  7 Stockfish120422                          : 3520   11   1038    53.4 %   3496    71/128    3.9s    8.8s   0.46
  8 Dragon2.6byKomodoChess64-bit             : 3494   12    994    48.7 %   3503    61/128    4.3s    9.9s   0.42
  9 Koivisto8.4                              : 3435   13    889    38.3 %   3518    37/128    4.1s   11.9s   0.30
 10  Koivisto8.6                              : 3429   13    879    37.4 %   3518    37/128    4.1s   11.8s   0.27
 11  RubiChess20220223(bmi2)                  : 3418   12    899    36.0 %   3518    38/128    5.8s   12.3s   0.20
 12  Fritz15                                  : 3356   13    837    27.2 %   3527    18/128    4.8s   13.6s   0.14
 13  Wasp5.50                                 : 3336   13    817    24.8 %   3528    14/128    4.3s   13.8s   0.12

MST1  : Mean solution time (solved positions only)
MST2  : Mean solution time (solved and unsolved positions)
RIndex: Score according to solution time ranking for each position

Obwohl die error bar mit weniger Stellungen zuerst natürlich höher ist, lässt sich das ja durch mehr einzelne Runs (Engines, Versionen, Netze) teilweise aufholen. Gerade dort, wo's drauf ankommt und Engines knapp beisammen liegen. Schön sieht man das z.B. an der Verlaufskontrolle von SF und Koivisto. Bei ersterem dürfte das für meine Hardware bessere Compile von der offiziellen SF- site relativ zu dem vom 120422 von der abrok site eine Rolle spielen, bei Koivisto heißt gleich viele Lösungen aber ein etwas größeres Netz, dass das die Spur Zeit kosten dürfte, die die Elo (natürlich weit innerhalb der error bar) ein bisschen drücken.

By Frank Quisinsky Date 2022-04-19 20:01 Edited 2022-04-19 20:07

Hallo Peter,

ja, das ist das was ich meine ...
Viele unterschiedlichen Ansätze beim Testen sind immer gut.

Bin wirklich mal wieder mit dem Latain am Ende.
NN setzt mich einfach Matt.

Ich meine es ist ja schon krass 41 Engines immer wieder in einem Turnier gegeneinander antreten zu lassen.
Daraus lasssen sich z. B. auch Ergebnisse anderer simulieren, die deutlich weniger Gegner haben.

Aber ich kann drehen und wenden wie ich will.
Mit mehr Zeit steigt der Zügedurchschnitt und die Remisquoten.
Die Spielstärke der Stärkeren nimmt schleichend zu den meisten Verfolgern gar ab.

Wenn z. B. im Stockfish Framework festgestellt wird +40 mag das durchaus mit der Testmethodik so sein, aber wenn z. B. bei mir später -10 raus kommt?

Derzeit mache ich folgenden Test ...
Ich nehme Gegner mit klaren Stockfish Ergebnissen (schaue nach geringere Remisquote) gegen einen Pool von 20 Gegnern bei 40 in 20.
Teste die gleiche Anzahl an Partien auf einem anderen System mit 40 in 40.

Zügedurchschnitt geht ohne Aufgabefaktor um 2.7 nach oben.
Obwohl gleiche Gegner verliert Stockfish aber auch Komodo ca. 12 Elo durchschnittlich!
Das heißt, die Verfolger sind nochmals 12 Elo näher dran.
Gleiches Buch, alles gleich ... 5-Steiner, Gegner.

Der Unterschied zwischen Stockfish 31122021 und Wasp 5.30 NN dev beträgt keine 285,36 Elo (40 in 20), sondern bei diesem Vergleich plötzlich "nur" noch 271,48 Elo (40 in 40).
Habe hier noch nicht genug Partien aber es bildet sich genau das ab was ich vermute.

Wie würde es bei 40 Züge in 120 Minuten ausschauen?
Das läßt sich dann sehr simple simulieren ... das müssten dann noch 253 Elo sein.

Testen wird mal wieder zur Farce, nutzlos weil die Beeinflussungsfaktoren um NN reicher geworden sind.
Meine Nerven ...

Habe auch ein paar Ideen wie ich für mich spannender testen kann.
Allerdings muss ich einige TOP-60 Engines wirklich aussortieren aus diversen Gründen.
Sortiere ich aus, werde ich nicht mehr offiziell auf meinen Webseiten publizieren.

Keine Ahnung ...
Selbst das bewährte Test-System "jeder gegen Jeden" stößt irgendwie an seine Grenzen.

Es muss etwas komplett neues her!
Und kopieren werde ich nicht, z. B. aus Deiner Methodik.

Viele Grüße
Frank

By Frank Quisinsky Date 2022-04-19 20:15 Edited 2022-04-19 20:22

Was auch total krass ist ...

Wenn stärkere Engines durch mehr Zeit im Vergleich zu dem Durchschnitt der anderen abfallen ... steigen zwei der stärken Engines komischer Weise.
Das sind Slow und Koivisto. Die werden also im Vergleich zu den anderen TOP-Engines eher stärker wenn ich die Zeit verdopple.

Das passt irgendwie überhaupt gar nicht zusammen!
Kann mit Spielstil-Klamotten nicht mehr erklärt werden, weil diese beiden Engines unterscheiden sich im Spielstil wie Petrosjan und Shirow.

Wie gesagt, bin ein wenig mit dem Latein am Ende!
Frustet gewaltig!

Viele Grüße
Frank

By Frank Quisinsky Date 2022-04-19 20:27

Werde mal den 40/40 Test abwarten und John als Klagemauer nutzen.
Der hat irgendwie immer einen passenden Kommentar auf Lager.

By Peter Martan Date 2022-04-19 20:17 Edited 2022-04-19 20:29

Da überschneiden wir uns mit deinem Thread über die Elo aus Eval.
Ich fürchte halt, dass das Festlegen der Eval- Ranges der Teststellungen zum Vergleich mit denen im Output einer größeren Engine- Zahl die Schwachstelle bleiben wird, egal, wie auch immer du sie machst und wieviele Stellungen es sind.
Schau dir vor allem die Unterschiede bei den LC0- artigen Engines an (Ceres, Scorpio, Stoofvlees) relativ zu denen der A-B-Sucher, was die numerische Höhe von Stellungen angeht, die nicht eindeutig gewonnen sind.
Entweder du nimmst eine so breite Range, dass irgendwie alle, die nicht total daneben liegen, drin sind, dann hast du de facto wieder dieselbe Remisflut wie jetzt, oder eine kleine, dann bekommst du das Äquivalent zu den 1:1- Paaren im Eng-Eng-Match.
Ich glaube, der einzige Weg, komplett ausgespielte Partien zu sparen, bzw. mehr Info aus der gleiche Zahl von Partien zu bekommen, wäre, die Eval- Verläufe über die Lines zwischen den Engines zu vergleichen, wie ich das ja z.B. hier

https://forum.computerschach.de/cgi-bin/mwf/topic_show.pl?pid=152202#pid152202

unnötig wortreich skizziert habe.
Die anderen Gelegenheiten, bei denen ich das z.B. aus TCEC- Partien durch das Einfügen der Kommentar- Evals anhand von Beispielen erklärt habe, sind meistens informativer, ich mag jetzt nur nicht die ganzen eigenen Postings dazu suchen, um mich damit selbst zu zitieren.

Gar so kompliziert wäre das gar nicht, es sei denn, man streitet über die Details, das hätte ich in meinen Postings dazu nicht gleich mit mir selbst auch immer abwickeln sollen, diesen Streit.
Nähme man einfach Partien, wie man sie jetzt auch ausspielen lässt, und würde die einzelnen Abschnitte zwischen den Gegnern zusätzlich dahingehend vergleichen, ob die Evals bei beiden gleichermaßen steigen oder sinken oder ob sie gleich bleiben innerhalb von bestimmten Relationen und Ranges, die man als richtig oder falsch anhand des Ergebnisses festlegt, hätte man gleich mal aus einem einzelnen Remis entweder einen zusätzlichen ganzen Punkt für die eine Seite oder einen für die Gegenseite, wenn eine der beiden Engines gegenüber der anderen "irrt", oder noch ein zusätzliches Remis als Outcome, für den Eröffnungsabschnitt allein, dasselbe in zumindest noch 2 weiteren Abschnitten, wenn man Eröffnung, Mittelspiel und Endspiel für sich bewertete. Also aus einem einzelnen ganzen oder halben Punkt 3 halbe oder ganze zusätzliche gewonnen. Remis senken die error bar, spielen also im Test gar nicht die böse Rolle, die ihnen zugeschrieben werden, wenn die Gesamt- Daten groß genug sind, um die Engines, die nahe beisammen liegen im Rating, zu unterscheiden. Und sei's mit Centielo, wenn die Elo, die wir haben, nicht ausreichen.
So what?

By Frank Quisinsky Date 2022-04-19 20:39 Edited 2022-04-19 20:51

Hi Peter,

Eval Verläufe vergleichen ist extrem schwierig.
Schon alleine wegen NN.

Wenn völlig ausgeglichene Eröffnungsstellungen mit +1.5 bewertet werden aber die Gewinnwahrscheinlichkeit typisch zur Eröffnungsvariante bleibt kann +1.5 zunächst mal in Frage gestellt werden.

Das heißt, diese krassen Aussetzer bei den Eval-Verläufen müssten statistisch mit belegbaren Material durch ein Bewertungssystem ausgeglichen werden.
Das ist sicherlich machbar aber das erfordert einen wahnsinnigen Aufwand an Hardware, Strom, Zeit und Nerven.

Gestern z. B.:
Schaute bei einer Engine-Engine Partie zu (nichts neues).
Eine Stellung auf dem Brett bei dem 2 NN Engines mit durchschnittlich +3 - +4 bewertet haben.
Tatsächlich eine Stellung nach über 80 Zügen bei vielen Figuren auf dem Brett.
Ein einziger Bauer auf einer Seite war noch zu bewegen (Zug des Bauern wäre direkter Verlust gewesen). Die 7 Bauern auf jeder Seite blockierten die kompletten Stellung nach allen Richtungen.
Ein totes Remis! Hätten die alten Ägypter das gesehen ... die wären direkt mit dem Einbalsamierungszeug um die Ecke gekommen.

Dennoch verloren, weil eine Engine ein Springeropfer übersehen hat.
Hätte doch alles sehr einfach Remis gehalten werden können.
Für einen Menschen so simple und logisch!

Ich muss die Partie raussuchen, kann mich nicht mehr an die beteiligten Engines erinnern.
Schaute von der Ferne zu, lag gemütlich auf der Couch.

Hier wäre es interessant zu sehen ob irgend ein Programm in der Lage ist ein 0,00 auszugeben!

Kotzt mich derzeit vieles an.
Spielte gestern ein Komodo gegen Stockfish.
KS-KL und Beide überlegten sich zu Tode, anstatt die Züge direkt auszuspielen.
Das ging dann über eine Stunde hin- und her bis nach 50 Zügen ...
Was für ein Dünnschiss ... die alten Ägypter hätten in der Zeit ne Pyramide gebaut.

Diese langweiligen Remisgurken und die viele Zeit die ohne Aufgabaktor drauf geht.

Allerdings bleiben die vielen schönen Mattführungen in der Datenbank und Engines die einfach nicht können obwohl sie müssten werden bestraft (wie z. B. Minic 3.18 mit den bekannten Bugs).

Je stärker die Engines werden desto mehr macht es Sinn nach neuen Wegen in der Engine-Forschung zu suchen.
Muss man viele Ansätze über Board schmeißen und mal so langsam in die Puschen kommen!

Viele Grüße
Frank

By Peter Martan Date 2022-04-19 21:04 Edited 2022-04-19 21:26

Frank Quisinsky schrieb:

Eval Verläufe vergleichen ist extrem schwierig.

Überhaupt nicht. Sie steigen oder sie fallen oder sie bleiben gleich.
Damit's nicht zu streng wird, betrachtet man das innerhalb einer Prozent- Range.
Man kennt das Ergebnis der Gesamt- Partie, hat man nicht einen eindeutigen Fehler durch Betrachtung der Evals beider Seiten im Verlauf festgestellt, ist das Ergebnis der Gesamtpartie dasjenige, an dem man sich orientiert, ansonsten an der Eval im Sinn von =, +- oder -+ bis dorthin, wo der Fehler passiert, also bis dorthin, wo sich die Engines auf den "Eval- Sprung" geeinigt haben.

Innerhalb der fesgelegten Prozent- Range, sagen wir 10%, (= centipawn praktischer Weise, weil über 10 Bauern Unterschied ist's sowieso gewonnen, der einzelne Bauer ist mit 100 Prozent also eine gute Richtschnur) verlaufen die Evals der beiden Engines, um die's geht und die gerade gegeneinander spielen, gleichermaßen gleichbleibend, heißt bei Gesamt- Outcome Remis ein zusätzliches Eröffnungs- Remis wird gezählt, oder die eine steigt relativ zu anderen mehr als 10% und sinkt im nächsten Abschnitt wieder, heißt, diese Engine hat sich geirrt und bekommt einen (ganzen oder halben) Punkt abgezogen oder dazu (darüber könnten man noch streiten, lass es nicht wieder zu kompliziert werden für den Anfang), genau so im Mittelspiel- Abschnitt und im Endspielabschnitt.

Noch einmal das eine Beispiel insgesamt: ein Remis wird ausgespielt, in der Eröffnung meint die eine Engine mit ihrem Eval- Verlauf mehr als Remis erreichen zu können (ihre Eval steigt um 10% mehr als die der anderen), die Engine, die richtiger (relativ zum Gesamt- Outcome) liegt, bekommt für die Eröffnungsphase einen (z.B.) halben Punkt dazu oder dien andere abgezogen.
Im Mittelspiel wieder dasselbe, die Eval der einen steigt im Verlauf (nicht im einzelnen Messpunkt) 10% höher als die der Gegnerengine, bekommt wieder einen halben Punkt abgezogen, im Endspiel "einigen" sich die beiden Engines innerhalb der betrachteten Zugzahl mit der Eval, beide bekommen noch einen halben Punkt zu dem dazu, was sie an Gesamtergebnis sowieso erspielen.
Wir haben aus einem Remis ein Ergebnis von 1:2 (Engine Weiß hat einen halben Punkt aus dem Endspiel und einen weiteren aus dem Gesamtergebnis, Engine Schwarz zusätzlich einen halben in der Eröffnung, einen halben im Mittelspiel und einen halben im Endspiel zusätzlich zum halben aus dem Gesamtergebnis Remis) statt einem von 0.5:0.5 bekommen.
Again, so what?

By Frank Quisinsky Date 2022-04-19 22:38 Edited 2022-04-19 22:58

Wenn das so einfach wäre wie es scheint.
FEOBOS läßt Grüßen!

Wie bekomme ich 10 verschiedene Engines so unter einen Hut, dass ich nicht zu Unrecht Stellungen ausselektiere.
Waren ca. 300 E-Mails alleine zu diesem Thema, bis mal eine Lösung erarbeitet wurde die ansatzweise befriedigt hat ... ich spreche nicht davon das wir etwas perfektes neues erfunden haben.

Alleine die extrem hohen Bewertungen von Houdini oder auch Booot in den Griff zu bekommen um diese vergleichbar zu machen.
Das geht im übertragenen Sinne nur mit einer Schablone über x tausend Stellungen!

Das alles wird durch NN sehr viel komplizierter.
Ich würde das nicht schreiben wenn ich mir nicht bewusst wäre welche Arbeit dahinter steckt.
Mir graut es davor FEOBOS 2 mit NN Engines anzugehen um in Teamwork von z. B. 10 Engines nicht ausgegelichene Stellungen zu selektieren.

Willst Du evals vergleichen musst Du zunächst auch wieder mit Mittelwerten arbeiten.

Aber grundsätzlich sehe ich schon Substanz in Deinem Beitrag und auch logische Gedankengänge.
Denke wird sind grundsätzlich schon auf dem gleichen Weg.

Was mich bei einer Partiebewertung von 1:0, 0:1 oder Remis ankotzt ist der teils oft auf dem Kopf gestellte Partieverlauf.
Wenn eine Engines sich wirklich eine vorteilhafte Stellung erkämpft hat und viele gute Züge dafür verantwortlich waren muss das belohnt werden.
Wenn diese Engine dann durch einen übersehene Kombination in ein Remis läuft ist die Bewertung von 0.5 : 0.5 einfach nicht zeitgemäß.

Ein 1:0 ist nicht unbedingt ein 1:0.
Wenn eine Engine schleichend verliert OK.
Wenn durch einen sehr groben Fehler eine Partie verloren wird ist es meines Erachtens eher ein 2:0.

Das Torverhältnis im Fussball fehlt beim Computerschach.
Wenn die SG Wattenscheid 09 auswärts (also mit schwarz) einen Sieg gegen FC Bayern München einfährt ist das kein 0:1 sondern aufgrund des heute enormen Anzugsvorteils ein 0 : 1.5
Und wenn die SG Wattenscheid 09 auswärts mit 7:0 gegen Bayern gewonnen hat wäre das anders zu werten als ein Sieg mit 1:0.

Tatsächlich könnten wir anderes bewerten und sollten im Computerschach auch neue Wege gehen.
Wenn nicht der Computerschachbereich aufzeigt wie z. B. statistisch ausgewertet werden könnte welcher Bereich denn dann?

Wir haben unbegrenzte Mittel zur Verfügung.

Gerade bei den Remispartien schreit es nach Veränderung!
Aber auch mit Mattenscheidungen.
50 Züge Regel im Computerschach müsste bestraft werden.
Dreifache Stellungwiederholung zu Beginn einer Partie müsste bestraft werden.

Möchte mal gerne Auswertungen von Turnieren sehen die nach solch simplen und logischen Methoden erfolgen.

By Peter Martan Date 2022-04-19 22:51 Edited 2022-04-19 22:58

Frank Quisinsky schrieb:

Wenn das so einfach wäre wie es scheint.
FEOBOS läßt Grüßen!

Was scheint dir kompliziert? Mit Feobos oder anderen Büchern oder Datenbanken hat es primär nichts zu tun.
Der Vorteil meiner Methode wäre eben, dass sie nicht eröffnungsabhängig wäre, nämlich halt, was die Auswertung angeht, natürlich ist es trotzdem nicht egal, welche Eröffnungen zum Ausspielen verwendet werden, aber die Auswertung ist von der Ausgangssstellung und der Ausgangs- Eval unabhängig.
Es werden ja die Relationen betrachtet, nicht die absoluten Höhen. Auch nicht die Relationen zwischen den Absolutwerten der einen und der anderen Engine, sondern nur das Verhältnis vom Verlauf der einen Engine- Eval zum Verlauf der anderen.
Das einzige, was zählt, ist: Engine- Eval von Engine A steigt (der einen Engine im Verlauf der betrachteten Zugfolge), Engine- Eval der Engine B steigt, oder beide oder eine davon nicht. Das wieviel ist Prozent- und Range- Frage. Und wie hoch in Punkten du "Irrtum" oder "richtige Einschätzung" relativ zum weiteren Verlauf bewertest.

Frank Quisinsky schrieb:

Wie bekomme ich 10 verschiedene Engines so unter einen Hut, dasa ich nicht zu Unrecht Stellungen ausselektiere.

Siehe oben, es kommt auch nicht auf die einzelne Engine und ihre einzelne Eval an, sondern auf den Verlauf ihrer ureigenen Eval über eine bestimmte Zugzahl.

Frank Quisinsky schrieb:

Willst Du evals vergleichen musst Du zunächst auch wieder mit Mittelwerten arbeiten.

Nein, wenn's um die Verläufe (Relationen) geht, nicht um den Vergleich der Werte der einen und der anderen Engine für sich oder relativ zu einem Mittelwert, wie auch immer du den bestimmen wolltest.

Frank Quisinsky schrieb:

Was mich bei einer Partiebewertung von 1:0, 0:1 oder Remis ankotzt ist der teils oft auf dem Kopf gestellte Partieverlauf.
Wenn eine Engines sich wirklich eine vorteilhafte Stellung erkämpft hat und viele gute Züge dafür verantwortlich waren muss das belohnt werden.
Wenn diese Engine dann durch einen übersehene Kombination in ein Remis läuft ist die Bewertung von 0.5 : 0.5 einfach nicht zeitgemäß.

Das ist mein Punkt. Das Ergebnis der Gesamtpartie wird ja trotzdem weiter auch gerechnet, aber halt nicht nur, sondern auch noch die zumindest 3 weiteren der einzelnen Abschnitte.

By Frank Quisinsky Date 2022-04-19 23:05 Edited 2022-04-19 23:09

Gehe mal davon weg das FEOBOS Evals von Buchzügen bewertet hat.
Ob ich Evals von Eröffnungszügen bewerte oder Evals über eine ganze Partie hinweg macht keinen Unterschied.

Die erste Frage wird sein was möchten wir überhaupt mit einer Eval tun?

Bewerten wir die z. B. evals einer gespielten Partie oder aus Partiefragmenten oder aus einer Sammlung von x beliebigen Stellungen.

https://www.amateurschach.de/main/_bench.html

Schaue Dir das bitte mal an!
Ich habe schon über 200 von diesen Auswertungen aber es aufgegeben daran zu tüfteln wie ich bewerten soll.
Immer mal wieder eine neue Idee die dann für die Tonne ist.

Was genau soll bewertet werden.
Die Eval in Verbindung mit der Zugtiefe?

Sage ja, dass wir grundsätzlich schon gleiches im Kopf haben, auch wenn bei der Ausführung dann teils Meinungen auseinander gehen.
Das ist aber nicht schlimm ... ich kann nur sagen ... das Thema ist sehr kompliziert je länger man drüber nachdenkt.

Und bevor man irgend etwas wirklich in Angriff nimmt muss das Konzept sehr klar sein!
Kann selbst von mir nicht behaupten etwas klares im Kopf zu haben.
Meine Rübe hat sich Ruhe verdient ist eher den Tenor.

By Peter Martan Date 2022-04-19 23:21 Edited 2022-04-19 23:31

Frank Quisinsky schrieb:

Was genau soll bewertet werden.
Die Eval in Verbindung mit der Zugtiefe?

Sage ja, dass wir grundsätzlich schon gleichen im Kopf haben, auch wenn bei der Ausführung dann teils Meinungen auseinander gehen.
Das ist aber nicht schlimm ... ich kann nur sagen ... das Thema ist sehr kompliziert je länger man drüber nachdenkt.

Leider sind wir überhaupt nicht (mehr) in derselben Richtung unterwegs, Frank.
Ich hatte ja die Idee, Elo (oder irgendein anderes Spielstärkemaß) direkt aus der Eval von "geeichten" Stellungen abzuleiten, auch lange überlegt, ich glaube nur halt mittlerweile, dass es noch viel mehr Arbeit machen würde, genug Stellungen mit ausreichend genauer Eval- Range zu bewerten und diese Bewertung dann für die Unzahl verschiedener Engines und Engine- Evals in einen Leistungs- Schlüssel umzusetzen, als es Arbeit machte, einfach den Verlauf der jeweiligen Eval der jeweiligen einzelne Engine mit ihrer unmittelbaren Gegner- Engine über die Partie- Abschnitte zu vergleichen und mit Punkten zu bewerten, weil das am jetzigen Prinzip praktisch nichts änderte, sondern nur zusätzliche Auswertungs- Punkte brächte.

Macht ja nix, macht mal jeder weiter wie bisher, und wer zuerst herzeigbare Ergebnisse hat, zeigt sie her.
Ich hab' ja immerhin schon ein bisschen was an ausgespielten Ergebnissen gebracht, in meinem Testsinn,

https://forum.computerschach.de/cgi-bin/mwf/topic_show.pl?pid=152245#pid152245

und ff in diesem Thread und in anderen, in denen's um Evalverläufe ging. Ob ich es mir wirklich antun werde, das für mehr Engines und mehr Stellungen allein weiter zu verfolgen, weiß ich halt nicht wirklich.

Ein Stellungstest wie der von Swaminathan und Corbit wäre eigentlich immer noch der einfachste Alternativ- Weg. 1500 Stellungen aus den Datenbanken, von denen man wenigstens (mehr wären eigentlich besser) 3 bessere Abspiele kennt als von den anderen möglichen Zügen, innerhalb dieser 3 bis 5 bis wieviel auch immer in der Theorie mit Statistik bekannten Lösungszügen werden mit verschieden vielen Punkten wie gewohnt gelöst oder nicht gelöst bewertet, Hardware- Zeit pro Zug ruhig minimal, was die Eröffnungsstellungen angeht, weil ohnehin die statische Eval mehr als die dynamische bewertet wird, Punkte werden wie mit dem für STS auch eigens bekannten Programm ins Ranking umgerechnet.
So what?
Die taktischen single best move- Stellungen haben wir ohnehin aus Mittel- und Endspiel zusätzlich, in Summe gibt's mit den Eröffnungsstellungen positionell bewertet ein ganz gutes Ranking, Rating war ohnehin gestern.

By Frank Quisinsky Date 2022-04-19 23:35 Edited 2022-04-19 23:42

Das erinnert an das Lebenswerk von Gurewitsch im ChessBits Forum.

Viele glaubten in der Vergangenheit das durch einen Test gesammelter wilder Stellungen etwas deutlich schneller festgestellt werden kann.
Prima, wird AnMon bei 3200 Elo liegen wenn taktische Stellungen untersucht werden.

Selbst stehe ich gar nicht so ablehend dem Thema gegenüber.
Ich schrieb Gurewitsch (hoffe ich habe den Namen noch richtig im Kopf) immer und immer wieder das er seinen Test logischer aufbauen muss.

Themenbereiche wie Läuferopfer, Bauernkette etc.
Was wir kennen muss systematisch mit Teststellungen aufgebaut werden.
Das macht mehr Sinn als wilde Best-Move Stellungen ausfindig zu machen.

Auch halte ich Teststellungen für interessanter, bei denen es mehrere gute Lösungen gibt.
z. B. drei unterschiedliche Züge zu Vorteilen führen.
Oder ein bzw. auch zwei Züge einen langfristigen Vorteil verhindern.

Aber genau das sprengt im Grunde unser Wissen und ist dann wirklich eine Lebensaufgabe.
Genau das müsste automatisiert werden!!

Das Geheimnis liegt wie so oft greifbar vor uns!
Nach dieser Logik steckt mehr Potential in einer einzigen Schachpartie als wir denken!

Bewertungen einzelner Züge einer Schachpartie über ein Muster laufen zu lassen hört sich simple an.
Dabei kann ausgewertet werden wie gut die Partie gespielt wurde und wie angemessen dann neu bewertet wird.

Lassen wir ganze Schachpartien über solche Muster laufen können ganz beiläufig besondere Stellungen gesammelt werden bzw. extern gespeichert werden.
Aus diesen kann man dann wieder sehr einfach eine effektiven Stellungstest kreieren ohne wild auf die Suche gehen zu müssen.

Auf diese Aussagen komme ich immer wieder zurück wenn ich abwegig über unlogisches nachdenke um zu einem logischen Ergebnis zu kommen.
Ich meine ich komme immer wieder darauf zurück gespielte Partien über ein Bewertungsmuster laufen zu lassen.

Aber dieses Bewertungsmuster muss zunächst mal ins Leben berufen werden.

Die Möglichkeiten die sich hieraus ergeben könnten sind unendlich.
Wie stark war Karpow im Jahr x ... etc.

Wie gesagt ich bleibe dabei.
Die Ansätze die es gibt sind sehr zeitaufwendig und wirklich kompliziert!
Vieles ist denkbar, sicherlich auch machbar aber lohnt sich der Aufwand der enorm sein wird.

By Frank Quisinsky Date 2022-04-19 23:44

So genug ...
Lanz läuft!

By Peter Martan Date 2022-04-20 01:36 Edited 2022-04-20 02:05

Frank Quisinsky schrieb:

Themenbereiche wie Läuferopfer, Bauernkette etc.
Was wir kennen muss systematisch mit Teststellungen aufgebaut werden.
Das macht mehr Sinn als wilde Best-Move Stellungen ausfindig zu machen.

Auch halte ich Teststellungen für interessanter, bei denen es mehrere gute Lösungen gibt.

STS (Strategic Test Suite) ist in 15 Subsets unterteilt, nach strategischen Themen (daher der Name) geordnete Hunderter- Blöcke.

https://sites.google.com/site/strategictestsuite/

Keine taktischen single best moves, kaum Rechenzeit, Engines sollen aus der statischen Eval heraus wählen, bevor sie überhaupt noch so richtig zu rechnen anfangen.
Die meisten Stellungen haben 3 bis 5 Lösungszüge, je nachdem ob einer davon und welcher gewählt wird, werden mehr oder weniger oder keine Punkte vergeben, der Reihung der Züge folgend (ist ja kein Problem mehr, wenn du sogar die "richtige" Eval kennst), die Punkte werden zum Schluss summiert, danach wird das Ranking erstellt, ein Programm zum Umrechnen in Elo gibt's auch, wenn man's gern klassisch will.

Und dazu zusätzlich machst du die Suiten mit den "wilden best move"- Stellungen, die halt möglichst auch nicht nur wild, sondern wirklich schwer und mit korrekten single best moves ausgesucht sein müssen, für die ist die Hardware- Zeit wichtiger, je nach Schwierigkeitsgrad relativ zum Teilnehmerfeld.
So what? Who can ask for anything more?

Genug gute Stellungen mit den richtigen Lösungszügen (eigentlich je mehr Züge pro Stellung du in der Reihenfolge ihrer "Richtigkeit" kennst, desto besser für die Selektivität des Ergebnisses, und du musst immer noch nicht einmal die "richtige" Eval kennen, es genügt zu wissen, welcher Zug der beste ist, einen solchen muss es ja immer geben, auch in nicht- taktischen Stellungen, und einen zweitbesten und einen drittbesten, du musst sie nur als solche kennen, noch immer nicht einmal die richtige Eval jedes einzelnen).
Alles, was du brauchst, ist die richtige Zahl an Stellungen und das richtige Ranking ihrer Züge, wenn du die hast, kannst du auf die Evals auch wieder verzichten. Kennst du nicht einmal die richtige Rangordnund der Züge deiner Stellungen, dann kannst du die Evals auch vergessen, weil du dann nicht weißt, wie du die Eval der einen Engine mit der der anderen vergleichen sollst, wenn die eine in deiner Teststellung einen anderen Zug wählt als die andere. Du brauchst also auch für deine Eval- Teststellungen von jeder Stellung einen best move, egal, ob wild und single- oder positionell und multi- lösbar, und wenn du mehr als den einen besten finden bzw. evaluieren lassen willst, brauchst du noch einen zweitbesten, einen drittbesten, also leichter wird die Aufgabe der Stellungs- Auswahl nicht, wenn du nicht nur single best move nimmst, und dabei ist das alles von der Methode, mit der du dann auswertest (wenn du nicht doch wieder ausspielen lassen willst) noch völlig unabhängig.

Ich fürchte, ich werde wieder etwas zu ausführlich, vor allem, weil du ja eh wieder nur das lesen wirst, worauf du dir schon vorher eine Antwort überlegt hast.

Gute Nacht.

By Frank Quisinsky Date 2022-04-20 19:31

Hallo Peter,

also ich bekomme keine Struktur in Best-Move Partiesammlungen bzw. kann nicht erkennen das ich damit etwas aussagekräftiges zur Spielstärke aufbauen kann.
Das liegt daran, dass ich auch nur Stellungen mit möglich vielen Figuren auf dem Brett im Detail prüfe. Erkennen kann ich in diesem Fall, dass einige der bekannt
guten Angreifer sehr gute Ergebnisse produzieren. Aber auch nur einige und nicht alle! In meiner Datenbank habe ich ca. 200 Stellungen.

Wie gesagt, wenn ausgewogen zu Themenbereichen aufgebaut wird sind Spielstärkeeinschätzungen besser möglich.

Derzeit suche ich eher nach Stellungen bei denen positionell gute Züge bewertet werden können, vielleicht auch mehr als ein guter Zug möglich ist.
Das sprengt mein Wissen daher prüfe ich in Secrets of Postional Sacriefice. Buch was mich derzeit begeistert. Habe schon einiges gefunden was man einsetzen könnte.

Das sind dann immer so Momente wo es einfach genial ist auf eine große Bibi zugreifen zu können.

Primär arbeite ich aber an FEOBOS und einer neuen Struktur bzw. Abschluss vom bisherigen FEOBOS Projekt.
Zu 35.000 der über 41.000 Startpositionen habe ich nun fast 400.000 Partien mit mittleren Bedenkezeiten.
Ich kann sehr einfach sehen welche Eröffnungssysteme remis-anfälliger sind.

Sehr einfach lässt sich nun ein Buch erstellen, welches die Remisquote bei ausgeglichenen Stellungen drastisch senkt.
Das brauche ich auch um einen zweiten Test-run von einem privaten 40/40 Test zu starten.

In das Thema Stellungen suchen, stecke ich dann eher 1-2x in der Woche ein wenig Zeit.
In den letzten Monaten eher mit spannenden Büchern aus dem Bereich Problemschach.

Du siehst, bin immer an vielen Fronten aktiv und muss ja auch die Webseite aktuell halten beim dem laufenden 40/20 KI-Turnier.

Viele Grüße
Frank

By Benno Hartwig Date 2022-04-19 20:47

> ich denke das durch immer mehr Programme, die auf NN beruhen, der Abstand von Stockfish eher geringer wird.

Ich denke, zu AB-Zeiten war der Vorsprung der AB-SF zu den AB-Houdini und AB-Komodo auch nur knapp.
Hat SF diesen Abstand zur Konkurrenz nicht auch unter NN-Bedingungen halten können? Doch, ich denke, das gelang schon.

Und die Zukunft wird zeigen, was die Zukunft bringt.

By Frank Quisinsky Date 2022-04-19 21:02

Nur, wenn plötzlich und unerwartet NN files aus der Vergangenheit, NN files aus der Gegenwart fragwürdige Gedankengänge flektieren, werden zukünftige NN files zu einer Fata morgana auf dem Schachbrett führen.
Dann können wir nicht mehr lange unbeaufsichtigt in unsere Gemächer schreiten, wissen am Ende des Tages noch weniger als zu Beginn des Tages. Liegen irgend wann mit der Zwangsjacke im Bett.
So zu sagen bewiesen zwieträchtig in der Eintracht.

By Benno Hartwig Date 2022-04-19 22:01

Ich muss gestehen, lieber Frank, dass mir dein Posting einfach zu kompliziert, womöglich zu durchgeistigt oder zu metaphernreich war.

By Frank Quisinsky Date 2022-04-19 22:14

Nun ja, um auszudrücken wo es hinlaufen könnte!
Das hat dann weniger mit Logik zu tun!

By Peter Martan Date 2022-04-19 21:11 Edited 2022-04-19 21:28

Der Witz ist, Benno, dass auch die Abstände (in Elo oder Zentimeter auf der Rangliste gemessen, je nachdem wie kurz oder lang sie ist) relativ zum Test und zum Teilnehmerfeld sind, nicht nur die Absolutwerte der Elo, auch ihre Abstände untereinander.
Die größere Zahl an Stärkeren allein sollte die Eloabstände, von denen du ausgehst, durch das Dividieren, was du aber jetzt "in Wirklichkeit" einfach weniger viele Engines mitspielen lässt, weil du sonst erst recht für die einzelne(n) Engine(s) of interest zu wenige Partien zusammenbringst, um sie statistisch relevant diskriminieren zu können, heißt außerhalb der error bar überhaupt Abstände zu bekommen.
Sonst müsstest du nämlich alle SF- Branches und alle möglichen Kombinationen mit ihren einzelnen Netzen eigens mitttesten und von LC0 und von Ceres jedes einzelne neue Netz und die Kombis zumindest dieser beiden Engines mit allen Netzen, die sie gemeinsam nutzen können, das ist die Schwachstelle, die Frank meint.

By Frank Quisinsky Date 2022-04-19 21:27 Edited 2022-04-19 21:31

Von der ErrorBar halte ich persönlich recht wenig, zu ungenau und zu viele nicht berücksichtige Abhängigkeiten!
Die Elo Formel ist sicherlich gut aber nicht perfekt.

Partien mit 1:0, 0:1 und Remis zu bewerten erscheint bei den angekommenen Spielstärken auch nicht unbedingt zeitgemäß zu sein.
Ein Remis ist noch lange kein Remis nur weil es ein Remis ist!

Die Bewertung der Engines bewerten!
Ich bleibe dabei, das macht Sinn!

Ferner müssen Schachpartien und Abfolgen zu Themenbereichen unterteilt werden.
Damit ist der Mensch zunächst mal zu 100% überfordert.
Insofern, machen wir einfach so weiter wie bislang und stellen und blöd.

Je stärker die Engines werden, desto hilfreicher für den Menschen wird es sein die Stärken und Schwächen der Engines zu kennen.
Beim Computerschach denke ich immer mehr müssen wir uns trennen von Altertümchen wie 1:0, 0:1 und Remis.
So schockierend sich das im ersten Moment anhört, desto logischer wird es je länger man drüber nachdenkt.
Einfacher ist es gar nicht drüber nachzudenken!

Gerade im NN Zeitalter wo herkömmliche Messungen von Spielstärke zu stark abhängig sind von Zeit und Raum.

By Peter Martan Date 2022-04-19 21:34 Edited 2022-04-19 21:37

Frank Quisinsky schrieb:

Von der ErrorBar halte ich perönlich recht wenig.

Um die geht's aber.
Du kannst die Elo spreizen wie und wie stark auch immer du willst, es zählen 100 Elo Differenz bei einer error bar von 200 einfach nur halb so stark an Aussage von der bei einer solchen von 100.
Drum sag ich ja, Rating(egal in welchen Einheiten gemessen)/Error müsste immer angegeben werden, dann spielt's nämlich eben keine Rolle, wie groß die Einheiten sind.
Dasselbe gilt leider auch für Ranking statt Rating, wenn du eine Rangliste von 1000 Engines hast, ist Platz 100 nicht nur nicht dasselbe wie in einer von 100 Engines, der Unterschied zwischen Platz 100 und 200 zählt im 1000er- Ranking auch nur so viel, wie Engines mit realen statistisch gesicherten Abständen dazwischen gereiht sind, also danach, wieviel Partie mit welchen Ergebnissen dafür gespielt wurden.
Ranking/Error, du kommst nicht drum herum, die Ergebnisse zu relativieren, Test- abhängig bleiben sie sowieso zusätzlich.

By Frank Quisinsky Date 2022-04-19 21:59 Edited 2022-04-19 22:23

Das sehe ich anders!
Mathematisch gesehen zwar logisch aber irreführend und mithin nicht zielführend.

Es gibt keinen wahren Mittelwert!!

Mittelwerte als Aufhänger zu nehmen um durch tausende Partien zu versuchen genauer darzustellen ist zwangsläufig unlogisch.

Es wird auch nicht dargestellt was gewünscht wird darzustellen.
Passt nicht!

Stockfish - Dragon 100.000 Partien ... schaue auf die ErrorBar die zwar mathematisch weitesgehend OK ist aber die Info die sich im Hirn einbrennt hat keinen größeren Mehrwert als zu wissen wie viele Grashalme stehen auf einer Wiesenfläche.

Nun nehme Stockfish, Dragon und Lc0 und alle spielen 100.000 Partien .... schaue auf die ErrorBar.

Es macht keinen Sinn Zeit zu vergolden, um etwas festzustellen, was durch den kleinsten Einfluss einer neuer Gegebenheit komplett auf dem Kopf gestellt werden könnte.

Zwar ein recht guter Anhaltspunkt aber niemals zielführend für das was wir eigentlich wissen möchten.

Nun haben wir aber nichts besseres!
Nur auf ErrorBar zu achten macht keinen Sinn.
Mit der ErrorBar hat man der Computerschachgemeinde meines Erachtens keinen Gefallen getan.
Da bilden sich Zwangsneurosen!

Da ist jede andere Informationen wie z. B. der Zügedurchschnitt der Gewinnpartien interessanter.

Weil der Gehalt aus diesen Informationen informativer ist!

Du weißt doch wie durchtrieben wir alle sind.
Lesen Stockfish ist 40 Elo besser!

Im Selbstspiel unter irgend welchen Bedingungen.
Unter anderen kann es wieder ganz anderes aussehen und diese anderen scheinen statistisch nicht ungenauer zu sein.
Flippt ja keiner von uns aus wenn wir lesen ...

Magnus gegen Magnus +38,47 in 6 Monaten nach 10.000 Partien bei einer ErrorBar von xyz
Da würden wir dem guten Magnus alle den Vogel zeigen!
Die Ägypter würden Magnus eher nicht zum Pharaon ... es sei denn die hätten sich auch mit Computerschach beschäftigt.