s22 - Superfinale: Stockfish vs. Dragon

By Max Siegfried Date 2022-04-11 08:23

Ingo Althöfer schrieb:

Nichts neues im Partiepaar 29/30: Remis in 29, und in Spiel 30
laviert Stockfish so lange, bis Komodo "die Nerven verliert" und
sich mit 30... b5 selbst ruiniert. Neuer Stand: 9:0 für Stockfish.

9:0 für Stockfish und nur 15x Remis ist sehr beeindruckend.

By Peter Martan Date 2022-04-11 08:41 Edited 2022-04-11 08:55

9:0 oder 12:3 bei 15 Remis, das ist aber nicht egal bei gleicher Partiezahl, was die Elo angeht.

Tatsächlich ist der 9- Punkte- Vorsprung nach 30 Partien ziemlich derselbe Elo- Abstand von guten 100 (108 jetzt statt 106 nach 25) wie er nach 25 Partien und 8 Punkten Vorsprung war.
Man klammert sich immer wieder an einzelne Punkte, hingegen hat Komodo ja auch einen ganzen solchen geholt in der 27., die 1:1-Paare belasten die Statistik viel stärker als die Remis (die die error bar nicht steigern sondern senken), was beim "Elo- Spreizen" immer wieder gern übersehen wird, mit dem, was gespreizt wird, spreizt man auch die error bar mit, weil bei entsprechend (zu) großem Eröffnungsvorteil die 1:1- Paare anstelle der Remis treten.

Dass sich das bei diesen beiden Engines und dieser Hardware- TC so gut ausgeht, dass immer wieder ganze Punkte für SF und nur halbe für Komodo herausschauen, ist einfach ein besonders günstiges (für Komodo ungünstiges) Ausmaß an einseitigem Vorteil, immer so um die 1.10 bis 1.30 herum nach SF- Eval. Und das bei meistens sehr kurzzügigen Vorgaben, bei denen jeder Centipawn natürlich noch mehr zählt als 5, 10 Züge später. Noch einen Bauern mehr als Vorteil und wir hätten natürlich vermutlich lauter 1:1- Paare, eine ganz andere Elo- Differenz und eine noch viel höhere error bar. Jeroen Noomen hat wieder mal genau die richtigen Vorgaben für genau die richtigen 2 Engines und diese Superhardware- Zeit gewählt, um die Elo möglichst weit zu spreizen, ich finde halt, man sollte das dann auch wirklich als den ausgespielten Stellungstest sehen, der es ist.

Eigentlich verstehe ich den Sinn der Sache (Elo aus Eval, mehr Anzugsvorteil für weniger Remis) statistisch betrachtet ohnehin immer noch nicht wirklich. Wenn man Elo beliebig spreizen darf, wozu misst man sie dann überhaupt? Bei so einem Spaß- Match muss man's ja nicht machen, aber dann darf man gar keine quantitative Bewertung des Unterschieds zwischen den Engines anschauen. Dass SF hingegen gewinnen würde, war ohnehin schon vorher klar, so what?

Aber auch für entsprechend große Partiezahlen und für Ranglisten, was das Prinzip der draw killers, UHOs (was soll denn daran "human" sein, wenn man absichtlich in die aus der menschlichen Turnierpraxis bekannten Varianten Fehler einbaut, die sogar Menschen als solche erkennen, dann ist das menschlich, weil das Typische am menschlichen Spiel die Fehler sind?

) oder wie immer man sie nennen will, betrifft:
Wenn nicht einmal mehr die Abstände zwischen den Engines relevant sind, sondern nur mehr die Reihenfolge ihres Einlaufs im Rennen, würden doch wirklich Plätze genügen als Messergebnis, es wäre ja auch das einzig verbleibend Vergleichbare, die Abstände werden ohnehin möglichst weit gespreizt

By Ingo Althöfer Date 2022-04-11 08:54

Lieber Herr Martan,

Peter Martan schrieb:

9:0 oder 12:3 bei 15 Remis, das ist aber nicht egal bei gleicher Partiezahl, was die Elo angeht.

In der aktuellen Situation ist Elo-Messung nicht angebracht.

Ist bekannt, ob Jeroen Noomen schon die Eröffnungen für die restlichen Partiepaare festgelegt hat?
Falls ja, biete ich dem ersten Einschlagenden (mit seriösem Standing hier im Forum) eine
50-Euro-Wette (mit Quote 1:1) an: In den restlichen 35 Partiepaaren wird Komodo kein
einziges Partiepaar mit 1,5 - 0,5 für sich entscheiden.

Wie gesagt: Wenn Noomen die Eröffnungen schon gewählt hat und nicht jetzt
aus Komodo-Mitleid irgendwie anpasst...

Ingo Althöfer.

By Peter Martan Date 2022-04-11 09:03 Edited 2022-04-11 09:18

Ingo Althöfer schrieb:

Peter Martan schrieb:

9:0 oder 12:3 bei 15 Remis, das ist aber nicht egal bei gleicher Partiezahl, was die Elo angeht.

In der aktuellen Situation ist Elo-Messung nicht angebracht.

Mag sein, weil die Partiezahlen für statistische Signifikanz zu gering sind, aber wenn man die error bar (die derzeit ungefähr gleich hoch ist wie der Elo- Abstand) dazu angibt, dann ist der Sinn der Elo- Formel mit einzelnen Partien (dazu war sie nämlich eigentlich gedacht) genau so oder mehr erfüllt als nach tausend Partien, für die man sie überhaupt nicht mehr brauchen würde, weil dann Vorhersagen (wozu sie dient) schon allein aus der ohnehin signifikanten Statistik, egal in welchem Maß gemessen, genau genug sind.
Hingegen ist das, was ich meine, und nur dazu reite ich auf den Elo herum, dass bei diesen Eröffnungsvorgaben auch nach tausend Partien eine Elo- Messung in ihrem eigentlichen Sinn, die Abstände zwischen den schachlichen Leistungen der Teilnehmer zu messen, erst recht ad absurdum geführt, weil ganz andere Abstände herauskommen als beim Spiel von ausgeglichenen Eröffnungsstellungen oder auch nur buchlos von der Grunstellung, die ja auch einen Anzugsvorteil hat, aber nicht im Ausmaß ganzer Bauernvorteile.
Das "Spreizen der Elo", das hier so mustergültig funktioniert, ist der Ranglistenbetreiber liebstes Kind mittlerweile, ich frage bei solchen schönen Beispielen wie diesem Match hier halt hin und wieder gern mal nach, was für einen Sinn es hat, gespreizte Elo überhaupt zu messen?
Wenn der Abstand zwischen den Engines ohnehin auch nicht mehr zählt oder nur, wenn man einen "Umrechnungsfaktor" je nach Eröffnungsstellungen dazu angibt, dann würde ich doch wirklich lieber gleich nur mehr Elo aus Eval berechnen, man vergleicht nur mehr die Outputs der Engines bei den Eröffnungsstellungen (eventuell noch, um der Statistik die Ehre zu erweisen, die wdl- Wahrscheinlichkeit der Evals mit der aus der Statistik großer Eröffnungsdatenbanken hoher Partiequalität für die entsprechenden Züge) und erspart sich das Strom- und Hardwarezeit- Verschwenden des Ausspielens.

By Ingo Althöfer Date 2022-04-11 09:18 Upvotes 1

Peter Martan schrieb:

Mag sein, weil die Partiezahlen für statistische Signifikanz zu gering sind, ...

Es ist anders: Das Elo-System ist für viele Einzelpartien gegen
viele unabhängige Gegner gedacht und nicht für lange Matches
gegen einen identischen Gegner.

By Peter Martan Date 2022-04-11 09:21 Edited 2022-04-11 10:01

Herr Professor, dass Arpad Elo eine bestimmte Mindestanzahl von Partien angegeben hätte, die eine bestimmte Anzahl von Menschen gegeneinander spielen mussten, damit sie daraus eine Elo- Wertung bekommen durften, das kenne ich so nicht, und wie hoch müsste diese Anzahl an Teilnehmern und an Partien dann sein, ihrer Meinung nach?

Wenn zwei Menschen 30 Partien gegeneinander gespielt haben, dann darf man diesem für menschliche Verhältnisse Marathon- Turnier keine Turnierperformance in Elo beimessen?

Und wenn man diesen beiden armen Spielern jetzt ihre Elo vorenthalten wollte, weil oder obwohl sie sich als Menschen das redlich verdient hätten, sie zu bekommen, warum darf man es bei 2 Maschinen noch weniger in Elo messen als bei Menschen? Wo doch die Konstanz der Leistungen von Maschinen angeblich und vermutlich wirklich viel höher ist als die von Menschen?
Wenn der Sinn der Formel der sein soll, dass sie Vorhersagen erlaubt über die Spiele von Gegnern, die nicht direkt gegeneinander in beliebig hoher Zahl tatsächlich spielen, dann muss das auch für nur 2 Gegner gelten, egal, ob Menschen oder Maschinen, und wenn's bei 30 Partien noch nicht gilt, dann gilt's bei 100 und bei 1000 auch nicht.
Dann muss man Einzelmessungen head to head überhaupt anders bewerten, aber wozu dann in Elo? Und wie viele Teilnehmer müssen's sein, damit's in Elo sinnvoll wird zu messen? 3, 10, 20, 100?
Wenn man auf die Übertragbarkeit von Ergebnissen von Einzelmatches verzichtet, hört sich die Elosion als solche, was das Computerschach angeht, einfach auf, sagt ja eh schon lange immer wieder nur:

By Chess Player Date 2022-04-11 11:48

Du, Peter bist kein Schachspieler!

By Lothar Jung Date 2022-04-11 12:14

Du, Chess Player, da du so heißt, bist der beste Schachspieler im Forum.
Ich kann mich vor lachen kaum halten.

By Ingo Althöfer Date 2022-04-11 12:59

Lieber Herr Martan,

eine "komplette" Antwort gebe ich später.
Hier aber schon mal einige Anmerkungen, die die Richtung
zeigen.

Peter Martan schrieb:

... dass Arpad Elo eine bestimmte Mindestanzahl von Partien angegeben hätte,
die eine bestimmte Anzahl von Menschen gegeneinander spielen mussten, damit
sie daraus eine Elo- Wertung bekommen durften, das kenne ich so nicht, und wie
hoch müsste diese Anzahl an Teilnehmern und an Partien dann sein, ihrer Meinung nach?

Ich beziehe mich auf das Buch "The Rating of Chessplayers" von Arpad E. Elo von 1978,
in der zweiten Auflage von 2008.

Elo machte einige Grundannahmen:
* Es gibt nur Sieg und Niederlage, keine Unentschieden.
* Es wird nicht zwischen Weiß- und Schwarz-Seite unterschieden.
* Spielergebnisse sind wie "biased" Münzwürfe, wobei der Bias aus den
Spielstärken kommt.
* Verschiedene Partien sind unabhängig voneinander.

Insbesondere machte Elo die Grundannahme, dass Spielstärke durch
einzelne positive Zahlen dargestellt werden können. Wenn dann Spieler
A mit Stärke a gegen Spieler B mit Stärke b gegeneinander spielen,
gewinnt A mit Wahrscheinlichkeit a/(a+b) und B mit Wahrscheinlichkeit
b/(a+b). [Deshalb müssen Spielstärken auch durch positive Zahlen dargestellt
werden.]

Aber diese Darstellung von Spielstärken durch einzelne positive Zahlen ist
eine grobe Vereinfachung, die nicht passt, wie z.B. vor einiger Zeit Herr
Brenner in langen Serien mit drei verschiedenen starken Schachprogrammen
nachgewiesen hat. insbesondere gilt die Transitivität nicht.

Später mehr. Ingo Althöfer.

By Peter Martan Date 2022-04-11 13:23 Edited 2022-04-11 14:14

Und wo steht jetzt, dass man Einzelmatches nicht in Elo messen darf?
Tatsächlich macht man ja nichts anderes, wenn man 2 Spielern vor und nach einem einzelnen Kräftemessen ihre Elo, die sie vor und nach einem solchen einzelnen Turnier oder auch einem 1:1- Match, im Extremfall sehr wohl auch einer einzelnen Partie als alte und neue Momentan- Performance anpasst.
So what?
Tatsächlich spielen beim Schach eigentlich in aller Regel immer nur 2 Seiten gegeneinander, wo sie jetzt da rein willkürlich die Grenze dessen ziehen wollen, was nicht gilt, weil's zu wenige solche Einzelpartien zwischen wem und wem auch immer sind, bin ich, in ihren weiteren Ausführungen zu erfahren, gespannt.
Dass die statistische Verlässlichkeit oder Signifikanz von der Zahl der Partien und den Ergebnissen abhängt, ist ja nicht vom Maß abhängig sondern vom Spiel. Dass man für eine verlässliche Aussage über die Spielstärkenverhältnisse von 2 oder mehreren Gegnern für ein bestimmtes Spiel, dessen Match- Bedingungen und das Kollektiv, in dem gespielt wird, eine bestimmte Menge an bestimmten Daten braucht, was hat das mit der Maßeinheit der Ergebnisse zu tun? Ob das nur die Punkte sind, die man zählt, oder sie in Prozent umrechnet oder in Elo, das ändert an der statistischen Aussagekraft just nix, oder? Gibt man eine error bar zur Messung an, sollte der Frage, ob die Messung "gültig" ist oder nicht, eine Quantifizierung mehr als eine Erlaubnis im Sinn von ja oder nein erteilt werden, und ich sage ja eben auch, dass es bei der Anzahl der Partien auch auf die Matchbedingungen wie z.B. die Eröffnungs(test)stellungen ankommt, jedenfalls mehr als auf das Maß, in dem das Ergebnis ausgewertet wird, das ist genau mein Punkt.

Edit: Dass die Elo, die man im Computerschach auf die verschiedensten Arten ausspielen lässt, und wie man die Ergebnisse eben genau fälschlich meint, miteinander vergleichen zu können, nur weil Elo dabei steht, eben nicht alle "dieselben" sind und schon gar nicht, was ihre Transitivität angeht, das ist ja seit Jahr und Tag mein Thema, sehr geehrter Herr Professor, vielleicht bin ich nur dahingehend bei allem Wortreichtum wieder unklar geblieben, ich habe sowieso von Anfang an den Verdacht gehabt, sie meinen im Wesentlichen auch nichts anderes als, die Elo, die man hier berechnen könnte (wenn man's denn wagte, weil's einem noch keiner erfolgreich verboten hätte) wären mit denen, die man sonst so gerne zur Aufrechterhaltung der allgemeinen Elosion als gute Elo lobt, "unangebrachte", böse Elo.

Oder anders formuliert, ob es Arpad wirklich nur recht gewesen wäre, Elo, wie er sie verstand, möglichst weit zu "spreizen", und sei es selbst mit vielen vielen Teilnehmern und vielen vielen Partien, und sei es nur mittels möglichst genau definierter (zum Teilnehmerfeld und den übrigen Matchbedingungen passender) Eröffnungsvorteile einer Seite, wenn nicht gar mittels Stellungstests, ausgespielt oder nicht ausgespielt, oder ob er nicht doch auch irgendwann gesagt hätte, das spreizt mir jetzt meine Elo doch zu weit, das sind jetzt dann schon mehr böse als gute Elo?

Edit, edit, edit: weil sie Frank Brenner erwähnt haben, von ihm stammt (soweit ich mich erinnere, jedenfalls habe ich den Begriff mal von ihm das erste Mal gelesen) ja auch der hier mal wieder so gut passende Begriff der "Themenelo".

By Andreas Mader Date 2022-04-14 09:02

Ingo Althöfer schrieb:

Peter Martan schrieb:

Mag sein, weil die Partiezahlen für statistische Signifikanz zu gering sind, ...

Es ist anders: Das Elo-System ist für viele Einzelpartien gegen
viele unabhängige Gegner gedacht und nicht für lange Matches
gegen einen identischen Gegner.

Das Elo-System ist für Menschen gedacht, deren Spielstärke von derart vielen teils zufälligen Faktoren abhängig ist, dass sie niemals gleich sein wird. Computerprogramme haben für gewöhnlich eine ziemlich gleichbleibende Spielstärke, was eine Berechnung von Elo-Unterschieden meines Erachtens erlaubt und sogar sinnvoll macht. Außerdem gibt es im Elo-System keine "Partiepaare", die zur Wertung herangezogen werden, sondern nur einzelne Partien.

By Ingo Althöfer Date 2022-04-14 09:59 Upvotes 1

Lieber Herr Mader,

Andreas Mader schrieb:

... Außerdem gibt es im Elo-System keine "Partiepaare",
die zur Wertung herangezogen werden, sondern nur einzelne Partien.

Daraus kann man zwei verschiedene Schlüsse ziehen. Ich leite es
mit einem Bild ein:
"Für einen Hammer besteht die Welt nur aus Nägeln."

Ein "echter" Fan des Elo-Systems wird Elo immer anwenden,
auch wenn es z.B. für Matches mit Partiepaaren nicht gemacht wurde.

Ich wende es nicht immer an, konstatiere im aktuellen Fall nur:
12 Paare mit Ergebnis 1:1,
11 Paare mit Ergebnis 1,5 : 0,5 für Stockfish.
Kurzversion: 11 : 0 für Stockfish

Ingo Althöfer.

PS. Partie 46 mit ihren 193+ Zugpaaren ist ein Musterbeispiel
für Lavieren.

By Andreas Mader Date 2022-04-14 22:20

Vollkommen richtig, ich bin ein "Fan" des ELO-Systems. Einer der Gründe ist die Konsistenz, man kann valide Vergleiche ziehen. Wenn ich mir bei jedem Wettkampf ein anderes Zähl- oder Wertungs-System ausdenke, ist das nicht gegeben. Da nimmt dann jeder ein System, das seine eigene Botschaft am besten stützt.

Schöne Grüße
Andreas Mader

By Peter Martan Date 2022-04-14 22:51 Edited 2022-04-14 23:03

Ingo Althöfer schrieb:

Ein "echter" Fan des Elo-Systems wird Elo immer anwenden,
auch wenn es z.B. für Matches mit Partiepaaren nicht gemacht wurde.

Ich beginne besser zu verstehen, warum Ihnen das so wichtig ist, Herr Professor, aber ich insistiere meinerseits, dass es (das Elo- System) auch nicht ausdrücklich für Nicht-Partiepaar- Schach gemacht wurde, weil das würde bedeuten, dass, wenn immer 2 Spieler eine Eröffnung gegeneinander wiederholen, das Elo- System "außer Kraft" gesetzt werden müsste.
Wer sollte das machen und warum genau?
Arpad Elo hat es jedenfalls nicht ausdrücklich nur mit (irgendwelchen oder genau solchen) Ausnahmen "freigegeben".

Von solche Spitzfindigkeiten abgesehen, ist es nicht bei Turnieren von Menschen (gerade auch unter den Spitzenspielern) ebenfalls üblich, dass sich 2 Kontrahenten gegeneinander auf ein Turnier mit einem bestimmten Eröffnungs- Repertoire vorbereiten und es dann gegeneinander, was die einzelnen Varianten einzelner Eröffnungssysteme angeht, auch wiederholt einsetzen? Meistens mit weit engerer Beschränkung auf wenige Varianten als z.B. im TCEC?
Das sind dann keine Partiepaare im Sinn von Farbwechsel derselben Vorgabestellungen, aber Wiederholungs- (Themen-) Elo, was die Eröffnungen angeht, werden es dabei erst recht, nein?

By Ingo Althöfer Date 2022-04-11 11:34

Ingo Althöfer schrieb:

Ist bekannt, ob Jeroen Noomen schon die Eröffnungen für die restlichen Partiepaare festgelegt hat?
Falls ja, biete ich dem ersten Einschlagenden (mit seriösem Standing hier im Forum) eine
50-Euro-Wette (mit Quote 1:1) an: In den restlichen 35 Partiepaaren wird Komodo kein
einziges Partiepaar mit 1,5 - 0,5 für sich entscheiden.

Wie gesagt: Wenn Noomen die Eröffnungen schon gewählt hat und nicht jetzt
aus Komodo-Mitleid irgendwie anpasst...

Konkretisierung:
Mein Wettangebot gilt nur, wenn sich der Gegenwetter
bis heute 18:00 Uhr hier im Forum gemeldet hat.

Ingo Althöfer.

By Chess Player Date 2022-04-11 11:49

Da wird sich niemand finden.

By Stefan Pohl Date 2022-04-11 12:31 Edited 2022-04-11 12:38 Upvotes 2

Peter Martan schrieb:

Aber auch für entsprechend große Partiezahlen und für Ranglisten, was das Prinzip der draw killers, UHOs (was soll denn daran "human" sein, wenn man absichtlich in die aus der menschlichen Turnierpraxis bekannten Varianten Fehler einbaut, die sogar Menschen als solche erkennen,

Wenn man keine Ahnung hat, einfach mal still sein. Ich baue in UHO gar nix ein. Meine UHO Eröffnungen enthalten ausschließlich Partien (also Partieanfäge bis Zug 8 von Schwarz) aus der MegaBase und nur von guten Spielern (beide müssen 2300+ Elo haben). Alle UHO Varianten wurden von starken Spielern in realen Partien gespielt und sind 100% unverändert. Steht auch so in der ReadMe-Dokumentation im UHO-Download. Müßte man nur mal lesen:

The UHO 2022 opening sets, are filtered out of the Megabase 2022 (by ChessBase). And the only filter, I am using, is the eval of KomodoDragon 2.6 in the endposition of each opening-line.
So the Unbalanced Human Openings contain:
- 100% moves played by humans, only. Both players had at least 2300 Elo.
- opening lines played by the stronges players are at the beginning of the pgn/epd-files.
- no manually constructed openings (like my Drawkiller openings)
- no manually added moves to make castling impossible (like my NBSC openings)
- no selection of piece-patterns

Auch sind in den pgn-UHO-Files alle wesentlichen TAGs der Partien noch vorhanden: Spieler-Namen, Datum der Partie, Turnier etc.

Beispiel: 1. Eröffnung aus dem UHO_2022_8mvs_+110_+119-file

[Event "Candidates FIDE f1"]
[Site "Sanghi Nagar"]
[Date "1995.??.??"]
[Round "6"]
[White "Karpov, Anatoly"]
[Black "Gelfand, Boris"]
[Result "1/2-1/2"]
[ECO "A59"]
[WhiteElo "2765"]
[BlackElo "2700"]
[Annotator "depth=29 eval=+114"]
[PlyCount "16"]
[EventDate "1995.??.??"]

1. d4 Nf6 2. c4 c5 3. d5 b5 4. cxb5 a6 5. bxa6 g6 6. Nc3 Bxa6 7. e4 Bxf1 8.
Kxf1 d6 1/2-1/2

Ich glaub ja eher nicht, das Boris Gelfand absichtlich Fehler in seine Eröffnungszüge einbaut, wenn er gegen Karpov spielt. Und gewisse schachliche Grundkenntnisse sollten zwei Spieler mit 2700+Elo ja auch haben... (Facepalm) Und es war ein Kandidatenturnier. Also eher keine Spaßveranstaltung.

Naja, jetzt weiß ich wieder, warum ich aus dem Forum hier ausgestiegen war. Zu dem Niveau hier fällt mir echt nix mehr ein. Bin dann wieder weg.

By Lothar Jung Date 2022-04-11 12:37

Herr Pohl,

ziemlich überheblich!

Jung

By Stefan Pohl Date 2022-04-11 12:42 Upvotes 2

Lothar Jung schrieb:

Herr Pohl,

ziemlich überheblich!

Jung

Mag schon sein. Aber, wenn man nicht nur dauernd Links zu der Arbeit anderer postet (wie Sie), sondern wirklich mit viel Aufwand selbst etwas für das Computerschach erarbeitet (so wie ich), und dann so einen kompletten Unfug über diese Arbeit zu lesen bekommt, von Leuten, die offensichtlich nicht mal die ReadMe gelesen haben, dann kann man schon mal angefressen reagieren. Das nehme ich mir einfach mal heraus.
Wenns den Moderatoren sauer aufstößt, kann man mich gern sperren, bin jetzt sowieso wieder weg.

By Ingo Althöfer Date 2022-04-11 12:46

Leute,

dieser Streit ist völlig unnötig. Jeder hat seine Gaben
und bringt diese dann auch ein.

Es lohnt bei unserer überschaubaren Community nicht,
sich zu streiten.

Lasst das Ganze erst mal eine Nacht sacken, um es dann
gelassener zu sehen.

Ingo Althöfer.

PS. Wegen des mangelnden Andrangs auf mein Wettangebot bin ich
etwas enttäuscht. Ich wäre auch bereit, den Wett- Betrag von 50 auf 15 Euro
abzusenken. Oder ist Komodo in diesem Match wirklich abgeschrieben?

By Lothar Jung Date 2022-04-11 12:50

Arrogant und Anmaßend.

Bleiben sie auf ihrer eigenen Webseite, mit ihren AntiSchachEröffnungen.

By Stefan Kleinert Date 2022-04-11 13:06 Upvotes 1

Stefan Pohl schrieb:

Lothar Jung schrieb:

Herr Pohl,

ziemlich überheblich!

Jung

Ich bin also nicht der einzige, den die ständigen Links und das Kopieren anderer Texte nerven!

By Peter Martan Date 2022-04-11 12:59 Edited 2022-04-11 13:07 Upvotes 1

Ist ja alles gut, Stefan.
Die Rede war ja aber primär von den Eröffnungen des laufenden TCEC- Sufis, und sorry, dass ich das, was dort so mit einem guten Bauern Vorteil einer Seite und teilweise nur 4 Halbzügen Länge, um den Vorteil noch gravierender zählend zu machen, verwendet wird, mit UHO, wie du's für dich persönlich und deine Tests nennst, in einen Topf geworfen habe, aber auch damit hast ja eigentlich du angefangen, weil du UHO als Sammelbegriff für auch solche Eröffnungen, wie sie Jeroen Noomen jetzt SF und Komodo vorsetzt, selbst verwendet hast. Den Begriff als solchen hast du in diesem Thread hier ins Spiel gebracht, nicht ich, ich habe ihn dann nur etwas unreflektiert missbraucht, ehrlich gesagt durchaus in rhetorischer Absicht.

Und die Kernfrage, was von der Übertragbarkeit von Elo- Messungen noch übrigbleibt, wenn man nicht einmal die Abstände zwischen Engines mehr als irgendwie verbindlich als Zahlenwerte, sondern auch einfach als möglichst weit zu spreizendes Ergebnis betrachtet, damit die Reihungen der Teilnehmer weniger umstritten werden, diese Kernfrage stellt sich halt trotz allem Verständnis für die Notlagen, in denen sich Schachcomputertester heutzutage befinden mit den vielen Engines und der großen Spielstärke.
Dass die Zahlenwerte in ihrer absoluten Höhe belanglos sind, hat sich herumgesprochen (hat auch lang genug gedauert), dass man die Abstände mittlerweile auch mit möglichst viel Testset- Kunstverstand auch möglichst weit "spreizen" soll, muss man sich halt, finde ich, durchaus auch als Kritikpunkt an der Sache gefallen lassen, weil da Viele ja auch noch nicht die volle Tragweite dessen erfasst haben, was man da eigentlich macht. Man lässt schlicht und einfach willkürlich ausgesuchte Vorteilsstellungen ausspielen, so verpönt das früher auch immer war, weil es immer hieß, ja, ausgeglichen müssen die Eröffnungen schon wenigstens sein, weil sonst kann man ja gleich single best moves zum Testen nehmen.

Danke aber jedenfalls für deine rastlosen Bemühungen und die feinen Ergebnisse, mit denen du die Community immer wieder versorgst, ein (und es ist ja bei Weitem nicht nur eines, das du erstellst hast) Testset, das man kennt, nachvollziehen kann und das gut dokumentiert ist, ist an sich natürlich etwas sehr Nützliches und genau das, was man braucht in Zeiten wie diesen.
Ich betrachte aber halt die Elo- Messungen, die damit vorgenommen werden, als Ergebnisse für sich, so wie andere Ergebnisse, z.B. die von nicht ausgespielten Stellungstests, wenn man sie auch mit guten Teststellungen in ausreichender Zahl sauber vergleichbar durchführt, sorry, das musste jetzt noch sein, weil etwas anderes als ausgespielte Stellungstests sind für mich Eng-Eng-Matches sowieso noch nie gewesen.

Ich betrachte diese Uralt- Diskussion, der kaum noch neue Argumente hinzugefügt werden können, für mich jetzt dann auch wieder als abgeschlossen, es sei denn, du willst sie schon noch etwas weiterführen, wie oft hab ich selbst schon gesagt, ich bin dann jetzt wieder raus, nur um gleich wieder meinerseits mit demselben Sch...marrn daher zu kommen. Verspricht (wieder mal) sich zu bessern:

By Stefan Pohl Date 2022-04-11 14:43 Upvotes 1

Hallo Peter,

danke für die Klarstellung und Anerkennung meiner Arbeit. So eine Reaktion ist heutzutage sehr selten und daher rechne ich dir das hoch an! Also möchte ich mich hiermit bei dir entschuldigen.

Zum Thema Elozahlen und Spreizung habe ich immer gesagt, es geht (mir) nicht primär um Ratings, sondern um Rankings, also welche Engine ist besser?! Und für die statistische Sicherheit der Rankings kann die Elospreizung gar nicht hoch genug sein!
Zum Zweiten gebe ich zu bedenken, daß die mittlerweile extrem hohen Remisquoten im Highend Computerschach (bei Nutzung ausbalancierter Eröffnungen) ja eigentlich die Eloabstände auf Menschen-Schach untypische Weise stauchen. Benutzung von UHO Eröffnungen mit angepeilten Remisquoten um 50% macht diese Stauchung eher rückgängig. So könnte man es ja auch sehen?!?
Dann wäre es eher ein "zurückspreizen" auf Normalniveau? Think positive, sozusagen.
Generell empfehle ich, bei Nutzung von UHO oder UHO-ähnlichen Eröffnungen eine Auswertung nach Gamepairs, also Hin- und Rückspiel als Gesamtwertung. Das hat bei einer Eloauswertung allerdings eine nochmalige Verdoppelung der Elospreizung zur Folge...
siehe meine Stockfish UHO Regression Testseite (runterscrollen).

https://www.sp-cc.de/stockfish-regression.htm

By Andreas Mader Date 2022-04-11 13:40

Ingo Althöfer schrieb:

Nichts neues im Partiepaar 29/30: Remis in 29, und in Spiel 30
laviert Stockfish so lange, bis Komodo "die Nerven verliert" und
sich mit 30... b5 selbst ruiniert. Neuer Stand: 9:0 für Stockfish.

Es gibt keinen "zu Null"-Stand für Stockfish, auch wenn Sie das immer wieder schreiben. Ist wissenschaftliche Genauigkeit schon wieder passe?

By Max Siegfried Date 2022-04-12 10:30

Ingo Althöfer schrieb:

Nichts neues im Partiepaar 29/30: Remis in 29, und in Spiel 30
laviert Stockfish so lange, bis Komodo "die Nerven verliert" und
sich mit 30... b5 selbst ruiniert. Neuer Stand: 9:0 für Stockfish.

Es steht 10:0 für Stockfish und 20x Remis aus 30 Partien.
1/3 der Partien gewinnt Stockfish und der Rest endet Remis.

By Rainer Maikowski Date 2022-04-12 13:02 Upvotes 3

Steht es nicht! Es steht jetzt 23,5:13,5 (13:3 Siege, 21 Remis).

By Andreas Mader Date 2022-04-12 15:52

Rainer Maikowski schrieb:

Steht es nicht! Es steht jetzt 23,5:13,5 (13:3 Siege, 21 Remis).

Danke! Wenigstens einer, der noch normal argumentiert.

By Reinhold Stibi Date 2022-04-18 07:38

Denke dass Lc0 etwas besser ist als der Dragon besonders mit schwächerer Hardware;
obwohl sich Lc0 auch mit dem Gewinnen gegen Stockfish schwer tut.

Interessant wäre deshalb ein Anschlussturnier Stockfish - Lc0.

Die Eröffnungen von TCEC haben sich bestens für die Ermittlung der
Spielstärke der Engines bewährt; ohne Vorgabeeröffnungen würde es
viel zu viele Remis geben.

By Benno Hartwig Date 2022-04-18 07:50

> Die Eröffnungen von TCEC haben sich bestens für die Ermittlung der Spielstärke der Engines bewährt...

JA, finde ich auch: Wir bekommen viele spannend durchgekämpfte Partien zu sehen
und wir bekommen signifikant Spielstärkeunterschiede gezeigt.

Dass die aus dem Ergebnis errechnetet Elo-Differenz nicht wirklich die Elo-Differenz ist, die sich in normaleren Events ergäbe, muss man dann eben einfach akzeptieren.

By Stefan Pohl Date 2022-04-18 13:04 Edited 2022-04-18 13:11

Benno Hartwig schrieb:

Ja, J.Noomen (und GM Sadler) haben dazugelernt. Die Eröffnungen haben sich in dieser Season sehr dem UHO-Konzept meiner Wenigkeit angenähert (es gibt mehr Vorteil für Weiß (manchmal auch für Schwarz) aus der Eröffnung heraus, als in früheren Seasons). Das sieht man auch deutlich in der niedrigeren Remisquote (die war früher ja so um die 80%, trotz der handverlesenen Eröffnungen mit möglichst scharfen Varianten). Jetzt - nach 70 von 100 Partien - liegt die Remisquote bei 58.5%

Elo-Differenz mit "normalen" (also ausbalanierten) Eröffnungen gäbe es mittlerweile im Superfinal meiner Meinung gar nicht mehr. Seit die NeuralNetze auch in den AlphaBeta-CPU-Engines Einzug gehalten haben, wäre hier eine Remisquote von mindestens 95% zu erwarten, weil die Engines jetzt nicht nur taktisch unfaßbar gut spielen, sondern auch positionell. Auch 100% Remisen würde mich bei dieser schnellen Hardware und der langen Bedenkzeit nicht wundern. Vieleicht gäbe es eine oder 2 Gewinnpartien in den 100 Partien. Das könnte man aber nun nicht ernsthaft als Elo-Differenz betrachten, selbst wenn eine Engine 2 Siege einfahren würde. Das wäre ja grotesk.

Als Beispiel: Die letzten offiziellen Release-Versionen von Stockfish (14.1) und KomodoDragon (2.6) haben in meiner SPCC-Rangliste in den 1000 Partien gegeneinander (ausbalancierte Eröffungen (HERT-Set)) eine Remisquote von 87.7% produziert (!!!) Und das mit der vergleichsweise lächerlichen Bedenkzeit von 3min+1sec auf singlethread-Modus (TCEC nps sind hier locker 75x höher). Rechnen wir hier die berechneten Knoten pro gespieltem Zug aus (nur das ist ja wirklich relevant) ergibt sich (in etwa) 25x mehr Bedenkzeit und 75x schnellere Hardware, also insgesamt ca. 1875x mehr berechnete Knoten pro Zug. Da kann man sich ja denken, wie die Remisquote dann nochmals durch die Decke gehen würde (verglichen mit den schon hohen 87.7%)...

By Peter Martan Date 2022-04-18 08:08 Edited 2022-04-18 08:22

Reinhold Stibi schrieb:

Interessant wäre deshalb ein Anschlussturnier Stockfish - Lc0.

Leider ist ausgerechnet das, trotzdem es ohnehin 3 Finali insgesamt werden sollen, soviel ich weiß, nicht geplant. Nach dem Infrafinal, das LC0 gegen rofChade gespielt hat und dem Sufi, sollte es jetzt dann ein Subfinal zwischen den Verlierern vom Infra- und vom Superfinal geben, also rofChade- Komodo, auch nicht ganz uninteressant, aber einen Bonus SF- LC0 würden sicher auch Viele gern sehen, denke ich.
Und zwar natürlich möglichst mit denselben Eröffnungen wie jetzt zwischen SF und Komodo.
Wünscht sich was:

By Klaus S. Date 2022-04-20 19:24

Die 84 Partie wird wieder SF gewinnen, ein weiterer Sieg für SF mit Weiß!

insgesamt 26 Siege mit Weiß für SF
und nur 8 Siege mit Weiß für Komodo.

Noch kein einziger Schwarzsieg.

By Benno Hartwig Date 2022-04-20 20:17

...und es stellt sich die Frage, ob sich Lc0 besser gehalten hätte.

By Hauke Lutz Date 2022-04-21 00:35

Ich fürchte, dass bei den Stellungsvorgaben auch Lc0 nur Verfolger und kein ernsthafter Konkurrent ist.
In den nächsten Saisonfinals Platz 2 von Komodo-Dragen und Lc0 ausspielen zu lassen wäre auf jeden Fall interessanter.

By Benno Hartwig Date 2022-04-21 07:12 Edited 2022-04-21 07:15

Ja, eine Dragon-Lc0-Begegnung kann interessant sein.
Noch mehr interessiert mich aber eine Lc0-SF-Begegnung, auch wenn es solche schon unzählige Male gab.
Man könnte so einen Eindruck gewinnen, wie sehr der Fisch aktuell jetzt gerade eigentlich an der Spitze steht.

Aus meiner Sicht könnten solche extra-Begegnungen aber auch gern mit Zeiten ausgetragen werden, die unter einer Stunde je Engine liegen.
Der Aufwand dafür bliebe vielleicht erträglich, und solche Partien sind dann auch angenehmer live zu verfolgen, finde ich.

By dkappe Date 2022-04-21 07:37 Upvotes 1

Bei CCC läuft gerade bullet. Lc0 liegt hinter SF an zweiter Stelle. Ein sf-lc0 SuFi ist gut möglich. Danach blitz und rapid (und FRC?). Seitdem der Autor von Seer das übernommen hat, läuft das ganz gut.

By Ingo Althöfer Date 2022-04-21 09:45 Upvotes 1

Benno Hartwig schrieb:

Noch mehr interessiert mich aber eine Lc0-SF-Begegnung,...

Aus meiner Sicht könnten solche extra-Begegnungen aber auch gern mit Zeiten
ausgetragen werden, die unter einer Stunde je Engine liegen.

Ich wünsche mir auch ein Vergleichs-Match Lc0-SF mit den
Eröffnungen des aktuellen SuFi, bei moderat verkürzter Bedenkzeit.

Ingo Althöfer.

By Max Siegfried Date 2022-04-21 13:10

Ingo Althöfer schrieb:

Benno Hartwig schrieb:

Ich wünsche mir auch ein Vergleichs-Match Lc0-SF mit den
Eröffnungen des aktuellen SuFi, bei moderat verkürzter Bedenkzeit.

Ingo Althöfer.

Ich wünsch mir folgendes:

Match wie beim TCEC Finale, die gleiche Hardware, Bedenkzeit, Stellungsvorgaben…
Natürlich nicht der langsame Stockfish, sondern der 33% schnellere CFish (ggf. ASMFish)
CFish vs Ceres
CFish vs LC0
CFish vs KomodoDragon
CFish vs Fritz 18
Jede Partie/Stellungsvorgabe fängt zur gleich Zeit an!! Damit lassen sich die Partien und die Unterschiede gleichzeitig verfolgen.

By Hauke Lutz Date 2022-04-21 14:01

Sich so auf Fishe zu versteifen macht für mich keinen Sinn... ob Stockfish mit 60% oder 65% gewinnt spielt keine Rolle.

Die Begegnung SF-Lc0 hätte meiner Meinung nach nur einen Reiz, wenn Lc0 spürbar stärker als Dragon wäre, aber diese Zeiten sind seit Dragon 2.5 vorbei.
Solange Lc0 und Dragon nicht deutlich aufholen stellt sich für mich die Frage nach Platz 1 nicht und die nächsten Finals mit 2 Kandidaten um Platz 1 werden annähernd uninteressant bleiben. Egal wer sich abfertigen lässt. Ein Kampf um Platz 2 wäre deutlich attraktiver!
Eine attraktive Lösung wäre für mich ein Finale im Rundensystem von den Top3. So wäre zumindest jede dritte Begegnung ein Duell auf Augenhöhe und es würde sich kontinuierlich belastbar feststellen lassen wer aktuell die Nr. 2 ist und welche Engine sich gegen Stockfish besser hält.

By Andreas Matthies Date 2022-04-21 18:44

Max Siegfried schrieb:

Natürlich nicht der langsame Stockfish, sondern der 33% schnellere CFish (ggf. ASMFish)

33% schneller? Verglichen womit? Was soll das bringen? Es gibt noch viel schnellere Engines aber Geschwindigkeit ist nicht alles.
Cfish ist seit Juni 2021 nicht mehr aktualisiert worden und hätte vermutlich trotz etwas höherer Geschwindigkeit keine Chance gegen den aktuellen Stockfish. Der ist übrigens auch langsamer geworden mit den letzten Änderungen an der Netzarchitektur. Aber eben auch besser.
Und ASMFish wurde schon seit gefühlt der Steinzeit nicht mehr aktualisiert, der hätte sowas von gar keine Chance.

Grüße, Andreas