Rainer Neuhäusler schrieb:
Somit ist die EAS gleich in doppelter Hinsicht gegen vorzeitige Remisen gesichert. Wenn ich dazu komme, werde ich mal die CCRL, die CEGT und die EAS hinsichtlich der Remiszahlen und der durchschnittlichen Länge der Partien vergleichen, oder gibt es die Vergleiche schon?
.
Du warst noch nicht oft auf meiner Seite, oder? (das solltest du ändern!)
Die EAS-Liste ist eine Auswertung (mittels meines EAS-Tools (=Engines Aggressiveness Statistics Tool)) der gespielten Partien für meine eigentliche UHO-Top15 Rangliste. Die EAS-Liste zeigt die Spielweise der Engines anhand einzelner Parameter (Opferquote, Kurzsiege, Vermeidung schlechter Remisen (Remisen noch bei vollem Brett oder nach materiellem Vorteil)) und eines daraus errechneten EAS-Scores.
Die eigentlich Rangliste ist aber die UHO-Top15 Liste auf meiner Hauptseite, sowie die direkt darunter befindliche Gamepair-Auswertung/Rangliste. Denn UHO-Eröffnungen, die ja bei mir immer Weiß bevorteilen, müssen natürlich mit vertauschten Farben wiederholt werden, sonst wäre das Ganze unfair. Insofern ist ein Gamepair-rescoring eigentlich sogar die viel bessere Auswertungsmethode. Denn zum einen ist das Gamepair die "natürliche" Auswertungsmethode für UHO-Partien, zum anderen erhöht sich die Spreizung der Celo-Abstände nochmals deutlich. Das wiederum ist gut für die statistische Ergebnissicherheit der Patzierungen der Engines in den Top15, und die Platzierung ist ja letzlich das, was man wissen will. Alle Arten von Celos sind sowieso virtuell und haben mit menschlichen Elos nichts aber auch gar nichts mehr gemein. Man beachte dafür den CFS-Wert, den ORDO in meiner Gamepair-Auswertungs Liste zeigt. CFS heißt Chance for superiority (Wahrscheinlichkeit der Überlegenheit) = wie sicher ist es, daß die Engine auf ihrem Platz in der Rangliste wirklich vor der dahinterliegenden Engine liegt. Und dieser CFS-Wert ist in meiner UHO-Gamepair Rangiste 12x = 100%. 1x 92%, 1x 64% und 1x 82%. Ergo: Nur zwei CFS-Werte liegen unter 90% (!). Obwohl die Abstände in der klassischen Elo-Auswertung oft sehr gering sind.
Code:
# PLAYER : Celo Error Pairs W D L (%) CFS(%)
1 Stockfish 240519 avx2 : 3866 13 7500 6242 1129 129 90.8 100
2 Stockfish 16.1 240224 : 3833 ---- 7500 6062 1235 203 89.1 100
3 Torch 2 popavx2 : 3703 12 7500 5206 1716 578 80.9 100
4 Berserk 13 avx2 : 3542 12 7500 3903 2290 1307 67.3 100
5 KomodoDragon 3.3 avx2 : 3519 12 7500 3675 2411 1414 65.1 100
6 Ethereal 14.38 avx2 : 3423 12 7500 2755 2729 2016 54.9 100
7 Obsidian 12.0 avx2 : 3406 12 7500 2589 2779 2132 53.0 100
8 Caissa 1.18 avx2 : 3367 12 7500 2272 2756 2472 48.7 100
9 RubiChess 240112 avx2 : 3321 12 7500 1874 2760 2866 43.4 100
10 PlentyChess 1.0 avx2 : 3264 13 7500 1351 2809 3340 36.7 100
11 Alexandria 6.1.0 avx2 : 3220 12 7500 1066 2642 3792 31.8 100
12 Seer 2.8.0 avx2 : 3204 12 7500 976 2564 3960 30.1 100
13 CSTal 2.0 avx2 : 3181 13 7500 843 2465 4192 27.7 82
14 Rebel 16.3 avx2 : 3177 12 7500 779 2524 4197 27.2 64
15 Uralochka 3.41a avx2 : 3175 13 7500 767 2520 4213 27.0 92
16 Titan 1.0 avx2 : 3169 13 7500 742 2467 4291 26.3 ---
-------------------------------------------------------------------
--- Number of all Gamepairs : 60000
--- Number of drawn Gamepairs overall: 18898 (= 31.50%)
--- Number of 1:1 drawn Gamepairs : 8948 (= 14.91%)
--- Number of 2-draws drawn Gamepairs: 9950 (= 16.58%)
-------------------------------------------------------------------
Im Vergleich dazu die LOS-Werte (meint dasselbe wie CFS bei ORDO) der Top15 der CCRL-Blitzliste:
85.3%, 99.1%, 72.5%, 96.9%, 78.4%, 49.2%, 69.1%, 51.0%, 87.4%, 79.5%, 62.3%, 51.5%, 57.0%, 47.8%, 68.9%
In meiner UHO-Gamepair Auswertung liegen 2 von 15 CFS-Werten unter 90%. In der CCRL sind es 13 von 15. Und in meiner UHO-Gamepair-Liste sind 12 von 15 CFS-Werten = 100%. In der CCRL kein einziger...
Das ist ein statisitscher Qualitäts-Unterschied wie Tag und Nacht.
Versteht mich nicht falsch, die CCRL und CEGT-Listen sind schon hilfreich, ganz besonders aber eben dabei, wenn es darum geht, viele Engines in allen Spielstärkebereichen halbwegs brauchbar zu testen (mehr ist das leider auch nicht). Aber im Top15-Bereich, auf den ich mich ja konzentriere, ist meine UHO-Top15 Rangliste meilenweit überlegen. Aber CEGT/CCRL sind für mich hilfreich, um eine Auswahl der Engines zu treffen, die ich testen könnte bzw. sollte.
Prinzipielles Problem bei CEGT und Ipman ist aber leider, daß man die Partien nicht herunterladen kann (in der CCRL geht es zum Glück). Ipman bietet es gar nicht an und bei der CEGT kann man nur Unmengen kleiner Partiepakete herunterladen, die man dann händisch zusammenfügen müßte - unzumutbar.
Und das ist für mich ein großes Problem: Ich habe schon zu IPON-Zeiten immer gesagt, wenn man das Partienmaterial, auf dem eine Rangliste fußt, nicht zum Download anbietet, nehme ich eine solche Rangliste nicht wirklich ernst. Denn dann muß ich die Ergebnisse der Ranglistenbetrieber einfach glauben, weil ich sie nicht verifizieren kann. Und das ist einfach unwissenschaftlich und daher indiskutabel für eine seriöse Rangliste, bzw. eine die sich dafür hält.
Bei mir kann man selbstverständlich alle Partien herunterladen, wobei die Partien der UHO-Top15 Rangliste und der Full-UHO-Top15 Rangliste (wo auch ältere Engineversionen erhalten bleiben etc.) natürlich jeweils als eine einzige pgn-Datenbank vorliegen, die man sofort selber durch ORDO jagen kann, wenn man meine Ergebnisse prüfen will. Warum das nicht bei allen Ranglisten selbstverständlich funktioniert, ist mir schleierhaft. Zumal man für eine eigene Auswertung mittels ORDO, Elostat, Bayeselo ja sowieso eine große pgn-Datenbank seiner Ranglistenpartien benötigt, sonst kann man diese Tools ja gar nicht nutzen. Man müßte also diese pgn-Dateien einfach nur zum Download anbieten, was mit GoogleDrive sowohl problemlos als auch gratis ist. Das verstehe wer will.
https://drive.google.com/drive/folders/166wG-5OZKc4RL5qlbKHYd3yjfrdepJOv