Benno Hartwig schrieb:
Meiner Meinung nach taugen diese Eröffnungen also ganz wunderbar dazu, Spielstärkereihenfolgen zu ermitteln. ("Wer ist eigentlich stärker?")
Sie taugen aber nicht, die Spielstärke-Differenz in Elo zu beziffern.
Dann muss man aber eigentlich auch wieder fragen, Spielstärkenreihenfolgen bei welchem Teilnehmerfeld und welcher Hardware- TC und genau welchen Eröffnungsstellungen?
Und wenn Elo nicht einmal mehr als Differenzwerte etwas taugen an Übertragbarkeit, wozu dann die Messung in Elo überhaupt?
Oder wenn nicht in Elo sondern nur in Performance- Prozent, wenn die auch überhaupt nicht übertragbar sind, wozu dann in extenso und mit irgendwelchen quantitativen Messungen verbunden überhaupt?
Ich weiß, wir hatten das Thema schon öfter in der letzten Zeit, aber am Beispiel TCEC und den vielen Zusatzfinali, die wir da jetzt gemeinsam mit diesem Blitz- NotsoSTC- Selfplay- Experiment sehen durften, was haben wir davon, wenn wir wissen, dass bei genau dieser Hardware und genau diesen Eröffnungen (das mit dem "taugen diese Eröffnungen" lässt die Frage nach dem "diesen" schon auch etwas ungenau beantwortet erscheinen, denn es könnte ja durchaus sein, dass es mit Eröffnungen mit ähnlich großem Vorteil aber nicht genau diesen Stellungen gleich wieder komplett anders aussähe, z.B. auch einfach erst später in der Partie zählt der eine Bauer Eval- Differenz viel weniger als ganz am Anfang, ) genau dieses TC- (Miss-)Verhältnis bei genau dieser Engine im Selfplay genau so ausgeht.
Die einzige Frage, welche Engine-TC da besser abschneiden wird, braucht keinen so aufwändigen Test und wenn das das einzige ist, was man dann aus ihm dann ableiten kann...
Hier
Benno Hartwig schrieb:
Es gibt vielleicht eine Ahnung davon, wie die LF-Dragon-Überlegenheit und auch die Lc0-Dragon-Überlegenheit im Vergleich zu der Überlegenheit dastehen, die eben durch eine vierfache Zeit entsteht.
Ist es mehr? Ist es weniger?
warst du auch noch deutlich anspruchsvoller, da wolltest du nicht einfach nur wissen, ob SF/4 gegen SF auf genau den Sufi- Eröffnungen mit dieser Hardware verlieren wird. Du wolltest sehr wohl die Performance des SF-SF/4-Selfplays mit den Performanes des Sufi und des LC0-Dragon-Bonus vergleichen.
Der Irrtum (die Elosion) ist nicht die Angabe der Verhältnisse in Elo, der Irrtum ist, man könnte solche Messungen überhaupt irgendwie miteinander vergleichen, das mit dem Ranking statt Rating scheitert ja schon allein daran, dass du automatisch ein anderes Ranking erst recht hast, wenn du aus deiner einen fertigen Liste einen Teilnehmer herausnimmst. Es ändern sich vordergründig die Platznummern dadurch unterhalb des Ausfalls, und wenn du Pech hast, die oberhalb auch, daher: du müsstest das Ganze auch dann schon von vorn anfangen, wenn du nur am Ranking interessiert bist, aber zur Kenntnis genommen hast, dass es auch nicht übertragbar ist. Nicht einmal bei genau gleichen Bedingungen aber nicht dem genau gleichen Teilnehmerfeld.
Merke: die fehlende Transitivität ist nicht dadurch verursacht, dass man ausgerechnet in Elo misst. Die wohnt dem Spiel in allen seinen Spielarten inne, nicht der Maßzahl.
Sorry, could schon wieder mal not resist