Frank Quisinsky schrieb:
denke es wird kompliziert wenn wir bei den Engines versuchen Elo in ein Verhältnis zur menschlichen Spielstärke zu bringen.
Auch spielen Engines teils unterschiedlich stark bei der verwendeten Bedenkzeit. Je mehr Zeit spielschwächere Engines haben desto dichter rücken diese an TOP Programmen auf.
Ratinglisten muss man wirklich lesen können um Schlussfolgerungen zu ziehen.
Eigentlich wär's ganz einfach: Eine virtuelle Rangliste von momentan so 1000 Plätzen, auf die ersten 3 kommts genauer an, dann bleiben ohnehin so 15 Plätze frei, (jetzt mal von einer Liste ausgehend, in der man Branches und einzelne Dev.- Versionen und Netze nicht einzeln wertet, ansonsten verschiebt sich das Ganze einfach um den Faktor 10-50, je nach Anspruch an "Eigentständigkeit" von Entwicklungen) danach tummeln sich dann so die nächsten 50, die immer gerade hauptsächlich am zweitmeisten gegeneinander spielen, weil sich an ihrer Reihung gerade am meisten ändert, dann bleiben wieder 100 Plätze frei, dann kommen die nächsten Newcomer und noch nicht so alten Oldies und ganz am Ende wieder 50 Experimental- Engines, die noch ganz am Anfang der Entwicklung stehen und die ganz alten Oldies.
Innerhalb der 1000 Plätze können sich, wenn sie nicht gut genug anhand einer statistischen Mindestanforderunge inform von Likelihood of Superiority unterscheidbar sind anhand des Datenmaterials, mehrere Engines einen Platz teilen, weil wenn 2 gleich stark sind, warum soll man das dann nicht auch so nennen dürfen mangels genauerer Daten.
Auf der anderen Seite können Plätze zwischen Engines frei bleiben, wenn der Punkteabstand zwischen ihnen entsprechend groß ist, er ergibt sich einfach aus dem Gesamtpool an Performance- Unterschieden pro Gesamtzahl erspielter Punkte und der Anzahl von zu vergebenden Plätzen.
Anders formuliert, die Abstände zwischen den Plätzen, die besetzt werden, ergibt sich aus der Zahl der Punkte, die die Platzhalter direkt oder indirekt gegeneinander gespielt haben und so ersetzen die Ranglistenplätze in beliebig großer oder kleiner Zahl (je nachdem, wie groß das Kollektiv ist, in dem mit gemeinsamen Teststellungen und Hardware- Zeiten tatsächlich gespielt wird) jedwede andere Wertung.
So ein Ranking ersetzt das Rating, das jetzt (z.B. in Elo gemessen) ja auch reine Relationssache ist und nur vom Pool und den Matchbedingungen abhängt.
Frank Quisinsky schrieb:
Die Stellungsbewertung der Engines müsste bewertet werden.
Ja, Elo aus Eval oder Eval statt Elo.
Für die Teststellungen (vorzugsweise Eröffnungsstellungen mit gut abgesicherter Datenbank- Statistik) wird aus der WDL- Statistik der Züge mit ausreichender hochklassiger Partiezahl eine Eval- Range berechnet, innerhalt derer werden direkt die Abweichungen der Engine- Evals anstelle von Punkten oder Elo gezählt, wieder wird nur ein Ranking zwischen verglichenen Engines erstellt, die Centipawn oder WDL- Prozent Unterschied können innerhalb bestimmte Teststellungs- Teilnehmer- und Hardware- Zeit- Pools natürlich auch als relatives Rating- Maß verwendet werden als direkter Elo- Ersatz.
Übrigens machen das auf diese Art die Schachspieler selbst für den Engine- gestützten Eigenbedarf an Analyse- und Theorie- Beurteilung sowieso schon lange ständig. Sie zählen nur nicht die cp (oder moderner WDL- Prozent), sondern schätzen auch einfach das Ranking der Engines, denen sie in der entsprechenden Stellung Outputs abverlangen.
Je nachdem, wie sie die Engines für die jeweilige Stellung einschätzen, messen sie den numerischen Evals mehr oder weniger Aussagekraft zu.
Man schaut, welche Eröffnung gespielt wird oder werden soll und nimmt sich dann als Anhaltspunkt für die Aussichten des einen oder anderen Zuges die eine oder die andere Engine her, deren Evals in den Abspielen man am besten traut.
Absolut nichts neu an allen diesen Methoden und eigentlich haben sie alle mit Elo überhaupt nichts notwendiger Weise oder direkt zu tun.