Guenter Stertenbrink schrieb:
Naja, NNs sind etwas anders, da haengt es stark von der Bedenkzeit ab.
Aber sonst ?! hast du ein konkretes Beispiel, wo Elo nicht klappt ?
Du meinst das rhetorisch, nachdem du dir zuerst selbst die momentan aktuellste Antwort gegeben hast, ok., ich rede dann mit dir einfach so weiter wie mit Benno in solchen Fällen, der für mich der Meister in rhetorischen Fragen schlechthin ist.
Elo klappt, jede andere Maßzahl hätte im grundlegenden Problem der Intransitivität dasselbe zu leisten, wenn's ums Design der Statistik geht. Wieviele Partien du aber für genau welchen Testfall (Engine- Pool, vor allem in der Stärke- Range der Teilnehmer, jetzt zusätzlich in der Programm- Art "AI" und "A-B") wirklich für eine definierte Power, für ein Konfidenz- Intervall brauchst, hängt davon ab, wie du die Statistik berechnest.
Ob du von einer Normverteilung überhaupt ausgehen kannst, ob die Standardabweichung überhaupt in allen betrachteten Gruppen gleich ist, ob die Variablen voneinander abhängig oder unabhängig sind, usw., usf.)
Elo wird deshalb verwendet, weil man hartnäckig immer weiter so tun will, als ob das mit dem Maß, das an menschliche Schachspieler angelegt wird (natürlich auch bei denen je nachdem, ob's Fern- oder Nahschach ist, und in welcher Spielstärkegruppe untereinander überhaupt direkt gegeneinander angetreten werden darf...) noch irgendwas zu tun hätte.
Hat es nicht, weiß man längst, wie auch immer du im Computerschach weiter messen und zählen willst, dass die Elo, die du im Blitzschach von der Grundstellung aus LC0 gegen SF allein ausspielen lässt, nichts mehr mit den Elo, die du einen bunten Engine- Pool einer definierten Stärkerange mit einem bestimmten Eröffnungstestset deiner Wahl mit 20 NN- Engines und 20 SF- artigen Engines mit langen TCS ausspielen lässt, weißt du und ich und die meisten Anderen, die sich damit beschäftigen.
Was aber keiner weiß, ohne es zuerst mal wieder einfach auszuprobieren mit Unmengen von Partien, ist, wieviele Partien werde ich vermutlich brauchen, um 95% Konfidenz zu haben.
Wusste ich bei anderen Fragen mit mehr Relevanz, die man nicht einfach mal eine Weile ausprobieren kann, um dann drauf zu kommen, das Design ist einfach Sch...lecht, fangen wir von vorne an. Und dann ging man eben doch wieder lieber vorher zum Statistiker, der einem das dann ausgerechnet hat und auch noch gleich die richtige Formel dazu gesagt.
Nun könnte man dann wieder mal, um den unnötig viel strapazierten Vergleich mit dem halbleeren Glas neuerlich zu strapazieren, natürlich sagen, so what, klappt ja trotzdem, man könnte aber auch sagen, man gibt sich einer Elosion hin.
Illusionen müssen nicht schaden, in unserem Fall machen sie aber die Berechnung einer Errorbar für eine bestimmte Partienzahl unnötig kompliziert, weil immer wieder Viele glauben, man müsste die nach Elo einschätzen, die von anderen Anwendungsfällen 1:1 übernommen werden und wundert sich dann, dass man bei entsprechend weit auseinander liegenden Engines in ihrer Spielstärke und mit entsprechend stark eine Seite bevorteilenden Teststellungen, viel weniger bis gar keine Partien braucht, weil man schon am Output sieht, die eine Engine findet einen "Lösungszug", die andere nicht. Oder auch nur, die eine Engine hat die korrekte +- Eval, die andere hält es fälschlich für Remis.
Sowas brauchst du nicht ausspielen zu lassen, oder, wenn du's tust, brauchst du dich nicht zu wundern, dass die Ergebnisse genau so falsch sein können wie die Evals.