Jede Rangliste ist eine Momentaufnahme, Stefan Pohl hat wenigstens die 1000 Partien aus dem direkten SF- Lc0- Vergleich und weil das relativ zu den 15000 der übrigen weniger ist, steht die Engine in diesem Top- 15- Vergleich nur in Klammer und die error bar ist höher, steht aber auch dabei. In der NN vs. SF- Liste vom anderen Link wird nur momentan pausiert
Zitat:
NN-testing had to be suspended, because the PC is needed for the evaluation. Estimated time needed: around 75-80 days from today (2023/11/14
Und jede Rangliste hat mit Lc0 dasselbe Problem, jede einzelne GPU kann nur eine Instanz gleichzeitig spielen, die RTX 2080 von CCRL ist hingegen im Vergleich zu 8CPU- Kernen nicht ganz so ausgeglichen an "Leele- ratio" heutzutage, finde ich halt, Lc0 hat dort auch "nur" 2924 Partien gespielt für die Liste, dass es mehr Gegner sind, macht das Rating auch wieder zu einem anderen, als wenn nur die besten unter sich sind, und dann kommen noch die Eröffnungsstellungen, die bei Stefan UHO sind, bei CCRL ausgeglichenere.
Das alles macht die Momentaufnahmen, die beide Listen darstellen, zu 2 verschiedenen, die man nur bedingt vergleichen kann, da hast du recht, das gilt aber für alle anderen Arten der Spielstärkemessungen gleichermaßen, welche einem mehr sagt und welche man für die aussagekräftigere hält, bleibt dem Betrachter überlassen.
Statistisch belastbar müssen sie sein, möglichst die error bar auch angeben (die ist übrigens für Lc0 in der CCRL- Liste von deinem Link ziemlich ähnlich wie die von Lc0 in der Top 15 von SPCC, 10 in der einen, 15 in der anderen) , und es muss einem klar sein, wo die Unterschiede zu suchen sind.