Not logged inCSS-Forum
Forum CSS-Online Help Search Login
CSS-Shop Impressum Datenschutz
Up Topic Hauptforen / CSS-Forum / Wer viel mißt, mißt viel Mist
- - By Stefan Pohl Date 2024-05-27 11:06 Edited 2024-05-27 11:08 Upvotes 1
Peter Martan wirds freuen...

Nach einer längeren Debatte mit A.Grant, habe ich nun ein detailliertes Experiment gemacht, um nachzumessen, ob Stockfish gegen schwächere Gegner wirklich schwächer scored als Torch (im Verhätlnis zur Gesamtspielstärke), weil Stockfish einen deutlich höheren EAS-score als Torch 2 hat und somit deutlich aggressiver spielt.

Ich habe aber echt keine Lust, hier alles noch mal auf Deutsch wiederzukäuen, daher hier der Link zu talkchess...

https://talkchess.com/viewtopic.php?t=83829

Celo-Gap Stockfish 16/Torch 2:

strongest 5 opponents list : 32 Celo
Full 15 opponents list : 20 Celo
weakest 5 opponents list(s): 9 Celo

Auf jeden Fall zeigt das Experiment sehr klar, daß es unbedingt empfehlenswert ist, eine Rangliste als RoundRobin Turnier aufzuziehen, so wie ich das ja auch seit Umstellung auf UHO auch mache (Ipman macht das auch), denn die Verzerrungen bei nicht identischen Gegnern können sehr erheblich sein!
Parent - - By Rainer Neuhäusler Date 2024-05-27 13:59 Upvotes 1
Stefan Pohl schrieb:

Peter Martan wirds freuen...

Nach einer längeren Debatte mit A.Grant, habe ich nun ein detailliertes Experiment gemacht, um nachzumessen, ob Stockfish gegen schwächere Gegner wirklich schwächer scored als Torch (im Verhätlnis zur Gesamtspielstärke), weil Stockfish einen deutlich höheren EAS-score als Torch 2 hat und somit deutlich aggressiver spielt.
Ich habe aber echt keine Lust, hier alles noch mal auf Deutsch wiederzukäuen, daher hier der Link zu talkchess...
<a class='ura' href='https://talkchess.com/viewtopic.php?t=83829'>https://talkchess.com/viewtopic.php?t=83829</a>
Celo-Gap Stockfish 16/Torch 2:
strongest 5 opponents list : 32 Celo
Full 15 opponents list : 20 Celo
weakest 5 opponents list(s): 9 Celo

Auf jeden Fall zeigt das Experiment sehr klar, daß es unbedingt empfehlenswert ist, eine Rangliste als RoundRobin Turnier aufzuziehen, so wie ich das ja auch seit Umstellung auf UHO auch mache (Ipman macht das auch), denn die Verzerrungen bei nicht identischen Gegnern können sehr erheblich sein!

Interessant, schätze da lauern, außer dem Turniermodus, noch einige selektive Variablen und unterschiedlicher Parametereinstellungen, nebst statistischen Artefakten, wenn man die Ranglisten einer genaueren Prüfung unterzieht. Ich hatte vor einiger Zeit mal eine gängige Rangliste in Bezug auf Remispartien gecheckt und musste überraschenderweise feststellen, daß z.b jede Menge "kampfloser" Kurzpartien darunter waren. Remis bzw. Aufgeben ist meist ein einstellbarer Parameter. So sind z.B. viele Statistiken über die durchschnittliche Länge von Engine-Partien gar nicht vergleichbar und die Elozahl und der Rangplatz einer Engine wird durch diese Einstellung mit beeinflusst. 

Hier die deutsche Übersetzung des Beitrages auf talkchess (ohne Tabellen)

Ich habe einen Re-Testlauf von Stockfish 16 gemacht. Ziel war es, herauszufinden, ob Stockfish gegen schwächere Gegner messbar schwächer abschneidet als Torch 2 (das war meine Vorhersage, da Stockfish 16 (im Vergleich zu Torch 2) eine viel höhere EAS-Wertung hat - wenn man sehr aggressiv spielt, wird man gegen schwächere Gegner einige Punkte mehr verlieren (z.B. wenn ein riskantes Opfer schief geht))
Hier die Testergebnisse:

Celo-Gap Stockfish 16/Torch 2:
Stärkste 5-Gegner-Liste: 32 Celo
Volle 15-Gegner-Liste: 20 Celo
Schwächste 5-Gegner-Liste(n): 9 Celo

Der von mir erwähnte Effekt, dass Stockfish gegen schwächere Gegner schwächer punktet als Torch, ist hier sehr deutlich zu sehen. Das bedeutet, dass ich den Effekt unterschätzt habe, wenn ich meine vollständige UHO-Ratingliste betrachte, in der Torch 2 3 Elo vor Stockfish 16 liegt. Denn in dieser vollständigen UHO-Ratingliste hat Stockfish 40000 Partien gespielt und Torch 2 nur 24000. Stockfish hat also gegen viel mehr schwächere Engines gespielt als Torch 2. Die Bewertung von SF 16 in meiner vollständigen Bewertungsliste ist hier also schwächer als in meinen Experimenten unten.
Und wir lernen, dass eine Ratingliste, die kein RoundRobin-Turnier ist (alle Engines haben die gleichen Gegner), sehr anfällig für Verzerrungen ist (eine weitere schlechte Nachricht für CCRL/CEGT). Insbesondere, wenn Engines mit einer hohen EAS-Wertung teilnehmen. Glücklicherweise ist meine UHO-Top15-Ratingliste ein RoundRobin-Turnier, aber meine vollständige UHO-Ratingliste, in der alle gespielten Partien/Engines gesammelt werden, kann ebenfalls von diesem Effekt betroffen sein (siehe oben).

.
Parent - - By Stefan Pohl Date 2024-05-27 14:36 Edited 2024-05-27 14:41 Upvotes 1
Rainer Neuhäusler schrieb:


Interessant, schätze da lauern, außer dem Turniermodus, noch einige selektive Variablen und unterschiedlicher Parametereinstellungen, nebst statistischen Artefakten, wenn man die Ranglisten einer genaueren Prüfung unterzieht. Ich hatte vor einiger Zeit mal eine gängige Rangliste in Bezug auf Remispartien gecheckt und musste überraschenderweise feststellen, daß z.b jede Menge "kampfloser" Kurzpartien darunter waren. Remis bzw. Aufgeben ist meist ein einstellbarer Parameter. So sind z.B. viele Statistiken über die durchschnittliche Länge von Engine-Partien gar nicht vergleichbar und die Elozahl und der Rangplatz einer Engine wird durch diese Einstellung mit beeinflusst. 


Zum Glück ist meine Rangliste von diesen Problemen nicht betroffen. Denn bei mir wird ohne Aufgabe oder Remis durch die GUI gespielt. Nur, wenn 5 Steine auf dem Brett erreicht sind, wird anhand der Tablebases die Partie gewertet und beendet. Und ganz frühe Remisen sind bei mir kein Problem, weil ich ja mit UHO Eröffnungen teste: Da Weiß am Ende der UHO-Eröffnungsvorgabe immer meßbar besser steht, läßt sich natürlich keine Engine mit Weiß auf ein frühes 3fach-Remis oder Dauerschach ein (einer der vielen Vorteile von UHO Eröffnungen...), es sei denn, die Weiß spielende Engine vergeigt den Vorgabevorteil schon in den ersten selbstberechneten Zügen - und das kommt nur sehr selten vor.
Parent - - By Rainer Neuhäusler Date 2024-05-27 15:24 Upvotes 1
Stefan Pohl schrieb:

Rainer Neuhäusler schrieb:


Interessant, schätze da lauern, außer dem Turniermodus, noch einige selektive Variablen und unterschiedlicher Parametereinstellungen, nebst statistischen Artefakten, wenn man die Ranglisten einer genaueren Prüfung unterzieht. Ich hatte vor einiger Zeit mal eine gängige Rangliste in Bezug auf Remispartien gecheckt und musste überraschenderweise feststellen, daß z.b jede Menge "kampfloser" Kurzpartien darunter waren. Remis bzw. Aufgeben ist meist ein einstellbarer Parameter. So sind z.B. viele Statistiken über die durchschnittliche Länge von Engine-Partien gar nicht vergleichbar und die Elozahl und der Rangplatz einer Engine wird durch diese Einstellung mit beeinflusst. 


Zum Glück ist meine Rangliste von diesen Problemen nicht betroffen. Denn bei mir wird ohne Aufgabe oder Remis durch die GUI gespielt. Nur, wenn 5 Steine auf dem Brett erreicht sind, wird anhand der Tablebases die Partie gewertet und beendet. Und ganz frühe Remisen sind bei mir kein Problem, weil ich ja mit UHO Eröffnungen teste: Da Weiß am Ende der UHO-Eröffnungsvorgabe immer meßbar besser steht, läßt sich natürlich keine Engine mit Weiß auf ein frühes 3fach-Remis oder Dauerschach ein (einer der vielen Vorteile von UHO Eröffnungen...), es sei denn, die Weiß spielende Engine vergeigt den Vorgabevorteil schon in den ersten selbstberechneten Zügen - und das kommt nur sehr selten vor.

Somit ist die EAS gleich in doppelter Hinsicht gegen vorzeitige Remisen gesichert. Wenn ich dazu komme, werde ich mal die CCRL, die CEGT und die EAS hinsichtlich der Remiszahlen und der durchschnittlichen Länge der Partien vergleichen, oder gibt es die Vergleiche schon?
.
Parent - - By Stefan Pohl Date 2024-05-28 07:29 Edited 2024-05-28 08:06 Upvotes 1
Rainer Neuhäusler schrieb:


Somit ist die EAS gleich in doppelter Hinsicht gegen vorzeitige Remisen gesichert. Wenn ich dazu komme, werde ich mal die CCRL, die CEGT und die EAS hinsichtlich der Remiszahlen und der durchschnittlichen Länge der Partien vergleichen, oder gibt es die Vergleiche schon?
.


Du warst noch nicht oft auf meiner Seite, oder? (das solltest du ändern!)
Die EAS-Liste ist eine Auswertung (mittels meines EAS-Tools (=Engines Aggressiveness Statistics Tool)) der gespielten Partien für meine eigentliche UHO-Top15 Rangliste. Die EAS-Liste zeigt die Spielweise der Engines anhand einzelner Parameter (Opferquote, Kurzsiege, Vermeidung schlechter Remisen (Remisen noch bei vollem Brett oder nach materiellem Vorteil)) und eines daraus errechneten EAS-Scores.

Die eigentlich Rangliste ist aber die UHO-Top15 Liste auf meiner Hauptseite, sowie die direkt darunter befindliche Gamepair-Auswertung/Rangliste. Denn UHO-Eröffnungen, die ja bei mir immer Weiß bevorteilen, müssen natürlich mit vertauschten Farben wiederholt werden, sonst wäre das Ganze unfair. Insofern ist ein Gamepair-rescoring eigentlich sogar die viel bessere Auswertungsmethode. Denn zum einen ist das Gamepair die "natürliche" Auswertungsmethode für UHO-Partien, zum anderen erhöht sich die Spreizung der Celo-Abstände nochmals deutlich. Das wiederum ist gut für die statistische Ergebnissicherheit der Patzierungen der Engines in den Top15, und die Platzierung ist ja letzlich das, was man wissen will. Alle Arten von Celos sind sowieso virtuell und haben mit menschlichen Elos nichts aber auch gar nichts mehr gemein. Man beachte dafür den CFS-Wert, den ORDO in meiner Gamepair-Auswertungs Liste zeigt. CFS heißt Chance for superiority (Wahrscheinlichkeit der Überlegenheit) = wie sicher ist es, daß die Engine auf ihrem Platz in der Rangliste wirklich vor der dahinterliegenden Engine liegt. Und dieser CFS-Wert ist in meiner UHO-Gamepair Rangiste 12x = 100%. 1x 92%, 1x 64% und 1x 82%. Ergo: Nur zwei CFS-Werte liegen unter 90% (!). Obwohl die Abstände in der klassischen Elo-Auswertung oft sehr gering sind.

Code:

   # PLAYER                   :    Celo  Error   Pairs     W     D     L   (%)  CFS(%)
   1 Stockfish 240519 avx2    :    3866     13    7500  6242  1129   129  90.8     100
   2 Stockfish 16.1 240224    :    3833   ----    7500  6062  1235   203  89.1     100
   3 Torch 2 popavx2          :    3703     12    7500  5206  1716   578  80.9     100
   4 Berserk 13 avx2          :    3542     12    7500  3903  2290  1307  67.3     100
   5 KomodoDragon 3.3 avx2    :    3519     12    7500  3675  2411  1414  65.1     100
   6 Ethereal 14.38 avx2      :    3423     12    7500  2755  2729  2016  54.9     100
   7 Obsidian 12.0 avx2       :    3406     12    7500  2589  2779  2132  53.0     100
   8 Caissa 1.18 avx2         :    3367     12    7500  2272  2756  2472  48.7     100
   9 RubiChess 240112 avx2    :    3321     12    7500  1874  2760  2866  43.4     100
  10 PlentyChess 1.0 avx2     :    3264     13    7500  1351  2809  3340  36.7     100
  11 Alexandria 6.1.0 avx2    :    3220     12    7500  1066  2642  3792  31.8     100
  12 Seer 2.8.0 avx2          :    3204     12    7500   976  2564  3960  30.1     100
  13 CSTal 2.0 avx2           :    3181     13    7500   843  2465  4192  27.7      82
  14 Rebel 16.3 avx2          :    3177     12    7500   779  2524  4197  27.2      64
  15 Uralochka 3.41a avx2     :    3175     13    7500   767  2520  4213  27.0      92
  16 Titan 1.0 avx2           :    3169     13    7500   742  2467  4291  26.3     ---

-------------------------------------------------------------------
--- Number of all Gamepairs          : 60000
--- Number of drawn Gamepairs overall: 18898 (= 31.50%)
--- Number of 1:1 drawn Gamepairs    : 8948  (= 14.91%)
--- Number of 2-draws drawn Gamepairs: 9950  (= 16.58%)
-------------------------------------------------------------------


Im Vergleich dazu die LOS-Werte (meint dasselbe wie CFS bei ORDO) der Top15 der CCRL-Blitzliste:
85.3%, 99.1%, 72.5%, 96.9%, 78.4%, 49.2%, 69.1%, 51.0%, 87.4%, 79.5%, 62.3%, 51.5%, 57.0%, 47.8%, 68.9%

In meiner UHO-Gamepair Auswertung liegen 2 von 15 CFS-Werten unter 90%. In der CCRL sind es 13 von 15. Und in meiner UHO-Gamepair-Liste sind 12 von 15 CFS-Werten = 100%. In der CCRL kein einziger...
Das ist ein statisitscher Qualitäts-Unterschied wie Tag und Nacht.

Versteht mich nicht falsch, die CCRL und CEGT-Listen sind schon hilfreich, ganz besonders aber eben dabei, wenn es darum geht, viele Engines in allen Spielstärkebereichen halbwegs brauchbar zu testen (mehr ist das leider auch nicht). Aber im Top15-Bereich, auf den ich mich ja konzentriere, ist meine UHO-Top15 Rangliste meilenweit überlegen. Aber CEGT/CCRL sind für mich hilfreich, um eine Auswahl der Engines zu treffen, die ich testen könnte bzw. sollte.

Prinzipielles Problem bei CEGT und Ipman ist aber leider, daß man die Partien nicht herunterladen kann (in der CCRL geht es zum Glück). Ipman bietet es gar nicht an und bei der CEGT kann man nur Unmengen kleiner Partiepakete herunterladen, die man dann händisch zusammenfügen müßte - unzumutbar.
Und das ist für mich ein großes Problem: Ich habe schon zu IPON-Zeiten immer gesagt, wenn man das Partienmaterial, auf dem eine Rangliste fußt, nicht zum Download anbietet, nehme ich eine solche Rangliste nicht wirklich ernst. Denn dann muß ich die Ergebnisse der Ranglistenbetrieber einfach glauben, weil ich sie nicht verifizieren kann. Und das ist einfach unwissenschaftlich und daher indiskutabel für eine seriöse Rangliste, bzw. eine die sich dafür hält.

Bei mir kann man selbstverständlich alle Partien herunterladen, wobei die Partien der UHO-Top15 Rangliste und der Full-UHO-Top15 Rangliste (wo auch ältere Engineversionen erhalten bleiben etc.) natürlich jeweils als eine einzige pgn-Datenbank vorliegen, die man sofort selber durch ORDO jagen kann, wenn man meine Ergebnisse prüfen will. Warum das nicht bei allen Ranglisten selbstverständlich funktioniert, ist mir schleierhaft. Zumal man für eine eigene Auswertung mittels ORDO, Elostat, Bayeselo ja sowieso eine große pgn-Datenbank seiner Ranglistenpartien benötigt, sonst kann man diese Tools ja gar nicht nutzen. Man müßte also diese pgn-Dateien einfach nur zum Download anbieten, was mit GoogleDrive sowohl problemlos als auch gratis ist. Das verstehe wer will.
https://drive.google.com/drive/folders/166wG-5OZKc4RL5qlbKHYd3yjfrdepJOv
Parent - - By Rainer Neuhäusler Date 2024-05-28 17:25 Edited 2024-05-28 17:34
Stefan Pohl schrieb:

Rainer Neuhäusler schrieb:

Somit ist die EAS gleich in doppelter Hinsicht gegen vorzeitige Remisen gesichert. Wenn ich dazu komme, werde ich mal die CCRL, die CEGT und die EAS hinsichtlich der Remiszahlen und der durchschnittlichen Länge der Partien vergleichen, oder gibt es die Vergleiche schon?

Du warst noch nicht oft auf meiner Seite, oder? (das solltest du ändern!)
Die EAS-Liste ist eine Auswertung (mittels meines EAS-Tools (=Engines Aggressiveness Statistics Tool)) der gespielten Partien für meine eigentliche UHO-Top15 Rangliste. Die EAS-Liste zeigt die Spielweise der Engines anhand einzelner Parameter (Opferquote, Kurzsiege, Vermeidung schlechter Remisen (Remisen noch bei vollem Brett oder nach materiellem Vorteil)) und eines daraus errechneten EAS-Scores.

Tut mir leid, da habe ich die Namen verwechselt bzw. falsch zugeordnet, die grundlegenden Ansätze und Basics von UHO und EAS sind mir schon geläufig (hieß die Rangliste nicht mal SPCC? ), auch wenn ich mich, zugegebenermaßen, immer wieder in die doch sehr vielfältige Theorie einlesen muss. Eine ernsthafte und fundierte Stellungnahme zu deinen Ratings setzt eine intensive Beschäftigung mit deren Prämissen, Ausführung und Anwendung voraus. Wenn’s mal soweit ist, werde ich mich gerne dazu äußern.

In diesem Jahr werde ich hardwaremäßig aufrüsten (12-Kerner+RTX), um endlich meine eigenen Vorhaben computerschachlicher Art voranzutreiben.
Dazu zählen einmal Engine-Turniere und -Matches zum Zwecke einer Gambit-Klassifizierung auf der Basis ausgesuchter Variablen. Darunter auch die Frage, inwieweit den unterschiedliche Klassen und Varianten von Gambtis ein „unbalanced“ Eröffnungseffekt zukommt.
Dann, wie schon angedeutet, die Überprüfung der Partiedauer und der Schlussstellung bei den Remispartien einschlägiger Ranglisten. Inwieweit haben sie  Einfluss  auf Rangplatz und Elozahl ? 

Ein anderer Knackpunkt. Es kommt ja relativ häufig vor, dass unterschiedliche Rangplätze vergeben werden, obwohl die Punke oder Elo noch nicht oder nur ganz knapp signifikant sind. Ich vertrete die Hypothese, dass die bestehenden Ranglisten diese hohe Selektivität auf Grund einer zu geringen Reliabilität und Validität gar nicht leisten können. Quantität ist nicht alles. Tausende von Partien transportieren systematische Fehler und methodische Unzulänglichkeiten genauso weiter, wie kleinere Stichproben. Da passt dann, prima vista,  deine „Wahrscheinlichkeit der Überlegenheit“ hintereinander platzierter Engines dazu.
Erst kürzlich habe ich im Zusammenhang mit Testsuiten auf die völlige Absenz von wissenschafltichem Know-how hingewiesen. „Wissenschaft spielt keine große Rolle im Computerschach“, sagen viele, um sich dann fleißig statistischer Auswertungsprogramme wie z.B. EloStat zu bedienen. Eine Übertragung der Klassischen Testtheorie auf die Entwicklung von Testsuiten (Zugrundeliegende Methodik für die Psychodiagnostik, d. h. für die Konstruktion von Intelligenz- und Persönlichkeitstests) wäre ein interessanter Versuch. Da muss ich mich an die eigene Nase fassen, denn vor ganz langer Zeit habe ich das alles mal studiert. "Non scholae, sed vitae discimus", von wegen, auch auf der Uni hast du für die Scheine und Prüfungen gelernt, um dann das meiste wieder zu vergessen, vor allem bei den "harten Drogen" wie Mathematik und Statistik.   

Des weiteren sieht es bzgl. der statistische Ausbeute von Schachpartien, sowohl von Mensch als auch von Computer, nach wie vor sehr dürftig aus. Siehe z.B. die Rubrik „Statistiken“ im ChessBase Datenbankprogramm. Partielänge, Eröffnungs- und Endspielklassifizierung und Lebensdauer der Figuren, recht viel mehr ist den Autoren über die Jahrzehnte nicht eingefallen. Die Variablen deiner „EAS single statistics Highscores“ weisen da schon eher darauf hin, was da herauszuholen wäre.

Den Frust mit den benutzerfeindlichen CEGT-Dateien und dem Unwillen mancher Ranglistenautoren, ihre Dateien der Allgemeinheit zur Verfügung zu stellen, kann ich voll teilen. Dass Ingo Bauer nicht mehr zur Computerschachgemeinde zählt, bedauere ich sehr, aber warum er keine PGNs seiner Ipon-Liste herausrückte, konnte ich nicht nachvollziehen.

Wie schrieb Goethe in seiner einleitenden „Zueignung“ für den Faust: „Ihr naht euch wieder schwankende Gestalten“ und gab damit ein Bild für die Entwicklung eines Schöpfungsprozesses von der eher schemenhaften Form bis hin zur Konkretisierung und Ausführung von Inhalt und  Protagonisten. Ich hoffe schon seit ziemlich langer Zeit auf einen ähnlichen Workflow, was meine skizzierten „Projekte“ betrifft 
.
Parent - By Stefan Pohl Date 2024-05-29 07:51 Edited 2024-05-29 07:53 Upvotes 1
Rainer Neuhäusler schrieb:

da habe ich die Namen verwechselt bzw. falsch zugeordnet, die grundlegenden Ansätze und Basics von UHO und EAS sind mir schon geläufig (hieß die Rangliste nicht mal SPCC? ), auch wenn ich mich, zugegebenermaßen, immer wieder in die doch sehr vielfältige Theorie einlesen muss. Eine ernsthafte und fundierte Stellungnahme zu deinen Ratings setzt eine intensive Beschäftigung mit deren Prämissen, Ausführung und Anwendung voraus.


SPCC war meine alte, klassische Rangliste, noch mit ausbalancierten Eröffnungen (HERT Set von Thomas Zipproth). Diese habe ich im Herbst 2023 zugunsten meiner UHO-Top15 Rangliste eingestellt, da ich mich auf die Spitze der Engine-Entwicklung konzentrieren wollte und mir klar war, daß das mit ausbalancierten Eröffnungen nicht (mehr) machbar ist, wegen der immer weiter steigenden Remisquoten.

Rainer Neuhäusler schrieb:

In diesem Jahr werde ich hardwaremäßig aufrüsten (12-Kerner+RTX), um endlich meine eigenen Vorhaben computerschachlicher Art voranzutreiben.
Dazu zählen einmal Engine-Turniere und -Matches zum Zwecke einer Gambit-Klassifizierung auf der Basis ausgesuchter Variablen. Darunter auch die Frage, inwieweit den unterschiedliche Klassen und Varianten von Gambtis ein „unbalanced“ Eröffnungseffekt zukommt.
Dann, wie schon angedeutet, die Überprüfung der Partiedauer und der Schlussstellung bei den Remispartien einschlägiger Ranglisten. Inwieweit haben sie  Einfluss  auf Rangplatz und Elozahl ? 
Ein anderer Knackpunkt. Es kommt ja relativ häufig vor, dass unterschiedliche Rangplätze vergeben werden, obwohl die Punke oder Elo noch nicht oder nur ganz knapp signifikant sind. Ich vertrete die Hypothese, dass die bestehenden Ranglisten diese hohe Selektivität auf Grund einer zu geringen Reliabilität und Validität gar nicht leisten können. Quantität ist nicht alles. Tausende von Partien transportieren systematische Fehler und methodische Unzulänglichkeiten genauso weiter, wie kleinere Stichproben. Da passt dann, prima vista,  deine „Wahrscheinlichkeit der Überlegenheit“ hintereinander platzierter Engines dazu.


Stimmt durchaus, ich habe ja gerade auf talkchess dargelegt, wie sehr die Auswahl der Gegnerengines das Rating und sogar das Ranking von Stockfish beeinflussen können (und auch das anderer Engines, insbesondere, wenn sie einen auffallend hohen EAS-Score haben). Daher ist es mir auch wichtig, jetzt mit meiner UHO-Top15 Rangliste ein großes RoundRobin Turnier zu haben, was sicherstellt, daß zumindest die Gegnerauswahl kein "systematischer Fehler" sein kann.

Rainer Neuhäusler schrieb:

Erst kürzlich habe ich im Zusammenhang mit Testsuiten auf die völlige Absenz von wissenschafltichem Know-how hingewiesen. „Wissenschaft spielt keine große Rolle im Computerschach“, sagen viele, um sich dann fleißig statistischer Auswertungsprogramme wie z.B. EloStat zu bedienen. Eine Übertragung der Klassischen Testtheorie auf die Entwicklung von Testsuiten (Zugrundeliegende Methodik für die Psychodiagnostik, d. h. für die Konstruktion von Intelligenz- und Persönlichkeitstests) wäre ein interessanter Versuch. Da muss ich mich an die eigene Nase fassen, denn vor ganz langer Zeit habe ich das alles mal studiert. "Non scholae, sed vitae discimus", von wegen, auch auf der Uni hast du für die Scheine und Prüfungen gelernt, um dann das meiste wieder zu vergessen, vor allem bei den "harten Drogen" wie Mathematik und Statistik.


Dazu kann ich mich nicht qualifiziert äußern, da ich mich für Stellungstest nie wirklich interessiert habe.

Rainer Neuhäusler schrieb:

Des weiteren sieht es bzgl. der statistische Ausbeute von Schachpartien, sowohl von Mensch als auch von Computer, nach wie vor sehr dürftig aus. Siehe z.B. die Rubrik „Statistiken“ im ChessBase Datenbankprogramm. Partielänge, Eröffnungs- und Endspielklassifizierung und Lebensdauer der Figuren, recht viel mehr ist den Autoren über die Jahrzehnte nicht eingefallen. Die Variablen deiner „EAS single statistics Highscores“ weisen da schon eher darauf hin, was da herauszuholen wäre.


Ja, leider haben noch nicht alle Leute begriffen, was für ein bahnbrechendes Tool das EAS-Tool ist. Zumal man, wie du richtig feststellst, viel mehr von dem Tool bekommt, als nur den EAS-Score. Die einzelnen Stats erlauben differenzierte Aussagen über den Spielstil der Engines, sogar in einzelnen Bereichen. Und der EAS-Score, der die Aggressivität mißt, ist eben auch mehr, als nur eine interessante Zusatzinformation. Gerade meine Analyse auf talkchess bzgl. Stockfish/Torch und deren stark unterschschiedliche Elo-Abstände zeigen das ja klar: Stockfish scored gegen schwächere Gegner (gemessen an seiner allgemeinen Spielstärke) viel schlechter als Torch. Bei stärkeren Gegner ist es genau umgekehrt. Früher hätte man nur mit den Schultern zucken können und festellen können, daß das eben eine Eigenart von Stockfish bzw.Torch ist. Schaut man hingegen auf den EAS-Score von Stockfish und Torch, wird der Effekt sofort verständlich (und damit auch auf andere Engines mit ähnlichen EAS-scores übertragbar!): Stockfish hat einen sehr hohen EAS-Score, der deutlich höher als der von Torch ist. Und besonders die Opferquote ist bei Stockfish mit 23% (SF 16.1) viel höher als bei Torch 2 (knapp 15%) -  das sind Welten (man bedenke, das EAS-Tool wertet nur Partien als Opferpartien, die auch von der Seite gewonnen wurden, die das Material geopfert hat! Geht das Opfer schief, taucht das in der EAS-Auswertung gar nicht auf!). Und das erklärt nun sehr logisch, warum Stockfish sich gegen viel schwächere Gegner schwerer tut als Torch: Spiele ich viele riskante Opfer, geht das eben auch mal schief. Und das bedeutet, daß man auch gegen viel schwächere Gegner so Punkte "verzockt", die Torch dann (ohne Opfer) sicher einfährt.
Parent - By Stefan Pohl Date 2024-05-30 08:31 Edited 2024-05-30 08:41
Andrew Grant hat vorgeschlagen, alle Ergebnisse durch mein Gamepair-Rescoring Tool zu jagen. Habe ich getan.

Gamepair-rescored:
Strongest 5 Ratinglist: 75 Gamepair-Celo
Full 15 opponents Ratinglist : 79 Gamepair-Celo
Weakest 5 opponents Ratinglist: 73 Gamepair-Celo

Krass! Ich war immer überzeugt, für UHO-Enginegames ist die Gamepair Auswertung die natürlichere und daher bessere Auswertungsmethode. Jetzt bin ich davon noch mehr überzeugt. Denn man sieht hier keinerlei Celo-Verzerrungen/Verschiebungen (von ein paar Celos Zufallsschwankung abgesehen) im Abstand von SF16/Torch2 trotz der stark unterschiedlichen Gegner.
Up Topic Hauptforen / CSS-Forum / Wer viel mißt, mißt viel Mist

Powered by mwForum 2.29.3 © 1999-2014 Markus Wichitill