Naja, da fehlt mir halt die wirkliche statistisch- mathematische Bildung. Aus der Grenzwissenschafts-Vorlesung weiß ich noch dunkel, dass es eine Menge einzelner Rechenarten gibt, so nebulöse Begriffe, die sich noch im Hinterkopf herumtreiben (hab' mir jetzt natürlich doch schnell mal die Skripten von damals rausgesucht) sind Anova (Analysis of variance), T-Test, Chi-Square, Correlation Spearman's, C. Pearson's, besonders nett fand ich so vom Klang her immer Mann- Whitney U und Wilcoxon Signed Ranks.
Und für bestimmte Parameter aus der Anwendungspraxis "Studie", haben wir damals als kleine Übung auch so ein bisschen rumgerechnet, was da hingegen für so ein Sample of Chess Engines und die Merkmalsdifferenz "Spielstärke" aus dem Versuch "Ranking im Engine- Engine- Match" einer bestimmten Testumgebung die statistisch korrekte Art der Berechnung wäre, hätte ich keine Ahnung, dass es absolut nicht ausgerechnet Elo sein müsste, könnte, sollte, dürfte, wenn es ausschließlich darum geht, für die Reihung von einer bestimmten Engine- Anzahl eine Partienzahl für eine bestimmte Signifikanz oder Errorbar zu bestimmen, bin ich mir aber sicher.
Den Spielstärkenunterschied zu quantifizieren, ist es natürlich der Weg, der im Schach üblich ist, wenn es sich aber um so geringe Merkmalsdifferenzen handelt (nur an Performance in ganzen und halben Punkten gemessen, was ja sowieso eine minimalistisch genaue Methode dazu ist, einem Statistiker müsste sowas direkt peinlich sein), die ja nicht von Natur aus in "Elo" bestehen, sondern in Unterschieden im Source- Code und oder einem oder mehreren neuronalen Netzen, sehen wir deutlicher und deutlicher, dass die Partienzahlen explodieren mit der Zahl an Teilnehmern im direkten Vergleich und mit einer ganzen Reihe von einzelnen Variablen, die, je kleiner der wirkliche Spielstärkeunterschied wird, umso mehr, jeder für sich, die Ergebnisse immer wesentlicher beeinflussen. Und die Remisquote ist dafür nicht primär verantwortlich, die ist hingegen auch einfach eine Auswirkung der geringen Merkmalsdifferenz.
Die Eröffnungsstellungen sind eines dieser Kriterien, sie willkürlich so zu wählen, dass die Remisquote sinkt, erhöht nur scheinbar die Merkmalsdifferenz Spielstärke selbst, es sei denn, man beschränkt sich in deren Definition völlig auf das eine Testset.
Man muss sich im Klaren sein, die Ergebnisse stimmen quantitativ und qualitativ ausschließlich für ein einzelnes Sample und ein einzelnes Testset, für ein anderes eventuell völlig, aber sicher irgendwie, anders.
Nun kann man Rückschlüsse aus dem Vergleich mit anderen Eröffnungstestsets und anderen Engine- Pools, anderen TCs usw, auf die zu erwartende Partiezahl ziehen, die man für eine bestimmte statistische Signifikanz braucht, wenn's aber allein um die Errorbar eines Rankings von 1-x für x Teilnehmer geht, darf man nicht erwarten, die Elowertung, die man von den Teilnehmern aus anderen Testumgebungen kennt, und die man mit dem einzelnen Testet spreizt, sei in Hinblick auf die Errorbar (des Ratings sowieso nicht, sonst müsste man ja gar nicht mehr testen) aber auch nicht in Hinblick auf die Errorbar des Rankings 1:1 übertragbar. Wie viel man sie spreizt, ist die Frage, nicht die Antwort.
Es wäre sonst einfach eine self fulfilling prophecy, mit einer Elospreizung durch ein bestimmtes Eröffnungstestset eine bestimmte Elorelation zu ermitteln in einem bestimmten Sample, und aus der dann nicht nur das einzelne Ranking im einzelnen Pool abzuleiten (das kann man natürlich machen, Performance in Prozent täte aber denselben Dienst), sondern auch, obwohl man die Elo willkürlich gespreizt hat, aus den so gespreizten Relationen außer dem Ranking im einen einzelnen Versuch, irgendwie in absoluter Höhe und oder in Relation zueinander mehr oder weniger ähnliche Versuche im Ergebnis vorherzusagen. Ist der Sinn von Elo, aber nicht, wenn man die Punkte als solche durch die Selektivität des einzelnen Matches willkürlich spreizt.
Das sagt ja Stefan selbst auch immer wieder, es kommt ihm nicht auf die Elo- Zahlenwerte an, dann kann man sie aber auch nicht (quantitativ in irgendeiner Genauigkeit) als direktes Maß für die Errorbar des Rankings verwenden, sondern man müsste diese (Errorbar) gesondert und nur für den einzelnen Pool und das einzelne Testset immer wieder neu berechnen, mit welcher statistischen Methode auch immer.
Period.