Du glaubst immer noch an eine absolute Wahrheit bei so eng beisammen liegenden Engines, du bist ein alter Elosionist, Benno
Ich tippe in beiden parallel laufenden Matches (TCEC und CCC) zwischen den beiden Engines auf LC0 knapp vorne, bei TCEC ist's noch ein bisschen mehr Zufall, weil nur 100 Partien (CCC 200), die Hardware- TC noch etwas höher und somit der Unterschied (statistisch) noch geringer zählend und die Eröffnungen bei TCEC mit noch etwas mehr einseitigem Vorteil im Schnitt (es sind in diesem Bonus wieder die Eröffnungen aus dem letzten Sufi offenbar), womit die Remisrate noch etwas niedriger und die error bar noch etwas höher sein wird als beim CCC- Turnier mit Uhos, soviel ich weiß, bei denen wird der Unterschied in Elo etwas kleiner sein und die error bar daher auch bei einer etwas höheren Remisrate. Wobei die natürlich auch vom Teilnehmerfeld abhängt, und wenn das auch gleich ist, wenn dieselben Engines auf doch wieder etwas anderer Hardware mit etwas anderer TC spielen, ist es eben doch nicht dasselbe. Kann durchaus sein, dass der Unterschied klein genug ist, dass im einen Fall mit entsprechend günstigem Zufall die eine Engine die Nase vorn hat und im anderen die andere.
Was wäre dann in so einem Fall der "wahre" Zweite, Benno? Da müsstest du dann doch (wie man's immer machen sollte, wenn einen das Ergebnis überhaupt interesssiert, und sei's "nur", was das Ranking angeht), schauen, wie groß ist der gemessene Unterschied relativ zur Irrtums- Wahrscheinlichkeit, auch bei Spaß- Turnieren, weil wenn bei denen auch nicht einmal mehr eine Rolle spielt, wer gewinnt, könnte man sie ja auch gleich immer mit vielen Teilnehmern, um die Partien bunter zu machen, und mit kurzer TC spielen, damit der Unterschied mehr zählt, mehr Fehler gemacht werden, die Ergebnisse signifikanter werden und schneller mehr Partien zusammen kommen.
Die Ergebnisse würde dann schneller statistisch aussagekräftig werden, aber jetzt kommt's Benno: sie würden trotzdem (oder gerade bei einem größeren Feld mit größeren Unterschieden, einer kleinen Remisrate und durch die Eröffnungen möglichst weit gespreizten Elo- Abständen) immer alle für sich allein stehen, so what?
Eine Gesamtsicht, wie die Engines of Interest (deines persönlich solchen) zueinander stehen, bekommst du nur, wenn du die vielen Einzelergebnisse wieder in Relation zueinander siehst, wie wichtig dir dabei welche Messung ist, musst du auch subjektiv entscheiden, eigentlich kannst du da genau so gut (nein, viel besser) lauter einzelne Stellungen hernehmen, die möglichst genau an allen relevanten Parametern mit allen Engines, die dich interessieren, zum Vergleich heranziehen (time to depth zählt z.B. schon auch, weil sie ein Maß für die Größe des Suchbaums für die jeweilige Engine ist, ebenso die Knotenzahlen/Zeit innerhalb einer einzelnen Engine- Hardware- Kombi ist nicht völlig irrelevant für die Bewertung der Stellung als solcher, die Evals im Verhältnis zu den Alternativzügen und den Folgezügen, die Länge der best lines, die du zur definitiven best eval brauchst, die Zahl der Züge, die zu ihr geführt hat (schon allein der distance to 50 moves wegen) und die zu erwartende Partielänge beim Ausspielen, zusätzlich zum erwarteten Ergebnis und natürlich und vor allem die time to solution, wo du eine einzelne eindeutig beste (Lösung) hast, für diese eine, wo du mehrere annähernd gleichwertige hast, für die alle, time to eval wäre ein Begriff für mich, der am ehesten das universellste Meßkritierium wäre, wenn man sie entsprechend genau definiert und misst). Die vielen Einzelergebnisse aus Postions of Interest (je mehr und je breiter gefächert, umso besser, vor allem sollten aber sowohl Eröffnungs-, Mittelspiel- und Endspielstellungen in ausgewogenem Verhältnis dabei sein und nicht immer nur Eröffnungsstellungen wie für die Matches, die ja dann doch mitbedingen, welche Mittel- und Endspielstellungen überhaupt in der Folge von den Engines am Brett gespielt und zugelassen werden) ergeben dann, jedes einzelne natürlich wieder streng stellungsabhängig für sich allein betrachtet, ein genaueres und relevanteres Abbild der "Wahrheit", wie du sie vermutlich auch meinst. Solche Summen an Abbildern, wenn man so will, Wirklichkeiten, wie sie der Buddhist relativ zur Wahrheit sieht, kämen der Wahrheit, die du vermutlich meinst, weitaus näher.
Früher sprach man auch gerne von "overall playing strength", der Begriff ist seltener geworden mit dem zusehends Schwinden der Gläubigkeit an Wahrheit, sei sie denn auch in Elo als einem vorgeblich transitiveren Maß ausgedrückt, was für ein Unsinn auch das immer schon, die Transitivität wohnt ja nicht der Maßzahl inne oder der Formel, nach der sie ermittelt wird, sondern dem Spiel, dem Match, der Stellung, der Einzel- Messung, und sei sie noch so aufwändig anhand eines einzelnen Engine- Engine- Matches ermittelt.
Ich fand, das sollte mal wieder gesagt werden