Benno Hartwig schrieb:
Wenn die Transitivität entsprechend der ELO-Formel bestätigt ist, auch für Computer, dann erscheint mir die ELO-Angabe schon sehr sinnvoll.
Dann ist ja letztlich bestätigt, dass es egal ist, gegen welche Gegnerspielstärke, gegen welchen Gegnermix man antritt, sofern es denn wenigstens ausreichend viele verschiedene sind.
Eben genau nicht, Benno.
Die Transitivität ist eine dem jeweiligen Spiel, wenn es sich um ein solches handelt, immanente Größe, die du mit keinem Ratingsystem bestätigst oder widerlegst, du ignorierst sie einfach, wenn du ein Ranking erstellst, was auch keine Rolle spielt, so lange es sich um ein und dasselbe Spiel handelt, das scheint beim Menschen- und beim Maschinenschach eben immer weniger der Fall zu sein.
Nun könnte man sich ja auch einfach im Klaren darüber sein, dass die Elo, die man im Menschenschach bestimmt, immer weniger mit denen des Computerschachs zu tun haben, aber ist man sich das?
Worauf ich hinaus will, ist, dass du eine komplizierte Formel wie die von Arpad Elo fürs Computerschach nie gebraucht hättest, hättest du nicht Vergleiche zur Spielstärke von Menschen damit herstellen wollen, je mehr Partiemengen du sowieso brauchst, um die Unterschiede in den oberen Regionen noch statistisch erfassen zu können, umso weniger sinnvoll ist es, an der Formel festzuhalten, womit natürlich auch nicht gesagt ist, dass sie schlechter als eine andere wäre, sie ist nur unnötig kompliziert und suggeriert immer fälschlicher, dass es sich um etwas der menschlichen Spielstärke Vergleichbares handelte, was gemessen wird.
Und egal, gegen welche Gegnerspielstärke selbst ausschließlich innerhalb der engines du vergleichst, ist es auch umso weniger, je weiter oben du das Ranking wie genau erstellen willst.
Dass du zwischen Zappa und Stockfish große und daher leichter reproduzierbare Unterschiede hast als zwischen Stockfish und Komodo ist das eine, was deine Elosion von den fixen Abständen zerstört, und dass du Zappa und noch viele andere Underdogs (ich rede nur von den Ranglistenunterschieden genannt Elo) mitspielen lassen musst, um ganz oben überhaupt noch was in vernünftigen Partiemengen unterscheiden zu können, ist das andere.
Das wirkliche Dilemma ist dabei das: je mehr die engines werden und je mehr sie einander ähneln, je mehr "verschiedene" es im Spitzenbereich werden, die in Wirklichkeit immer weniger verschieden sind, umso mehr Oldies und Newbies musst du zusätzlich als Gegengewicht mitspielen lassen, die nicht mehr oder noch nicht so recht mithalten können (wieder nur mit den Ranglistenplätzen und den Celo wie gesagt, das sagt eben auch immer weniger über "echte" immer weniger leicht messbare Spielstärke aus, je mehr sich der Ranglistensport innerhalb des Computerschachs innerhalb des Schachs verselbständigt und vom Rest abhebt).
Der Irrtum, dass die Celo übertragbar wären, könnte durchaus innerhalb deines geschlossenen Systemes als völlig irrelevant betrachtet werden und fiele so lange absolut nicht auf, so lange dein System ein wirklich geschlossenes wäre, ist es das aber?
Dass systemimmanente Fehler nicht zum Tragen kommen, so lange du mit deinen Beobachtungen systemimmanent bleibst, das ist ein sogenanntes NoNa. Es handelt sich um das typische Beispiel einer self fulfilling prophecy.