Das nächste Problem ist die Elo selbst.
Beispiel nach hunderten Berechnungen, Gegenrechnungen etc..
2.620 Elo Lasker wären 2.760 Elo in Zeiten wo Kasparow 2.840 Elo hatte.
Das kannst Du immer weiter spinnen und fast exakt ausrechnen wie stark die 16 Weltmeister im Verhältnis zueinander waren würden alle 16 noch leben und gegeneinander antreten.
Haben schon viele versucht, habe mich auch daran versucht ...
1. Carlsen (liegt wirklich vor Kasparow aber nur 20 Elo), 2. Kasparow und dann ...
mit größeren Abstand dahinter ... 3. Capablanca (aber fast gleich von der Elo zu 7 anderen Weltmeistern zu denen auch Karpow, Aljechin, Lasker oder Fischer gehörten ... 7 Weltmeister liegen nur 20 Elo auseinander).
Von Lasker zu Kasparow hat Elo in den Listen um 120 Punkte zugenommen.
Streng genommen sind es 138 aber meine Berechnungen scheinen zu durchschnittlich +18 - 18 nicht zu stimmen ... der Durchschnittswert dessen ist 120 grob gesagt.
2010 machte ich mit GM Hickl das GM Meyer (hatte zu diesem Zeitpunkt ca. 2675 Elo und war die Nummer 2 in Deutschland) Interview.
Großmeister Meyer sagte das er auf seinem Notebook Shredder 12 bei ca. 2.800 Elo sieht.
Er spielte gegen einem Core und hatte einen 2,2Ghz Core 2 Duo 7400 sofern ich mich korrekt erinnere.
Tja, machte ja auch Sinn das GM Meyer Endspieltraining mit Shredder 12 machte ... Shredder 12 ist eine Bombe im Endspiel, seinerzeit sowieso.
Setzte dann für die SWCR Ratingliste (Rangliste für die Zeitschrift von GM Hickl) die Shredder Elo auf 2.800.
IPON und CEGT passten an wobei CEGT auch schon vorher erstaunlich nah an den 2.800 Elo dran war, musste die CEGT gar nicht groß etwas tun.
IPON war auch nicht weit weg. Aber zur Liebe der Vergleichbarkeit nach hartem Ringen ...
Wie das so ist wenn Stiere aufeinander ...
Shredder 12 war seinerzeit die Nummer 1 und Rybka kam auf.
Heute wissen wir das sowohl Shredder 12 als auch Rybka erstaunlich schwach in der Königssicherheit sind.
Früher wussten wird das nicht, weil die Gegner fehlten.
Daher immer wichtig die Partiephasen der Engines zu beurteilen.
Aus vielen Gründen hilfreich!!
Lasse mal Shredder 13 bei 3150 gegen eine Gruppe von vergleichbaren starken Engines spielen.
Hat sich nichts daran geändert ... Shredder 13 verliert die meisten Partien bis zum Matt unter 50 Zügen.
Rybka hatte immer schon dieses Problem und war deutlich stärker im Endspiel als im frühen Mittelspiel.
Wasp freut sich wenn Rybka der Gegner ist. Es hagelt verhältnismäßig viele Kurzpartien.
Bedeutet:
Hat eine Engine eine solche Schwäche, ist diese Engine nicht geeignet um alle anderen auf Ausgangs-Elo zu eichen.
Naum oder Protector spielen z. B. alle Partiephasen recht ausgeglichen.
Hätte seinerzeit mehr Sinn gemacht auf eine dieser Engines zu eichen, nur das wussten wir nicht.
Hatten kaum Gegner für Shredder 12 oder später Rybka und insofern konnten wir das nicht erkennen!!
---
Lange Rede ...
---
Nehmen wir CEGT heute und den Spitzenwert von Stockfish 11.
Setze ich den Spitzenwert von Stockfish 11 ein um mittels Shredder 12 (2.800 Elo zu eichen) und berücksichtige
Elo-Inflation ... Steinitz - Kasparow Thema ... Eingang vom Posting ...
kommt folgendes dabei heraus.
Stockfish liegt exakt 75 Elo zu hoch in der CEGT.
25 Elo sind direkt erklärbar und die restlichen 50 liegen daran das die Gegner mit unterschiedlichen Spieleigenschaften fehlen.
Und Bingo gerät eine komplette Liste aus dem Gleichgewicht.
Wir könnten auch sagen ...
Shredder mit 2.800 Elo liegt exakt 75 Elo zu hoch.
Korrekt ist aber das Shredder bei genau 2.775 Elo liegt.
Was bei meinem Berechnungen immer wieder auffällig ist, ist folgender Umstand:
Es sind nur Engines in Elo miteinander vergleichbar, die nicht mehr als 280 Elo auseinander liegen.
Bis ca. 400 Elo hält sich das aber auch noch in Grenzen bzw. ist kaum der Rede wert (Schwankungen von +-3 Elo).
Ich erhalte also nur eine genaue Elo-Zahl, wenn ich z. B. Wasp 4.00 Modern x64 mit 3.010 Elo teste gegen Engines nicht stärker als 3.210 oder nicht schwächer als 2.810 Elo.
Mache ich das nicht verschwimmt die Elo in Listen die messen von 1.600 - 3.400 Elo.
Und je älter die Listen desto mehr gehen die Elos buchstäblich baden!
Nehmen wir weiterhin Wasp 4.00 Modern x64 (eigent sich übrigens auch nicht zum eichen, Abfall Elo im Endspiel) mit 3.010 Elo.
Wenn Wasp 4.00 Modern x64 mit wirklichen 3.010 Elo spielt hätte Shredder 12 nur noch realistisch 2.775 und nicht mehr 2.800 Elo.
---
Also, die typischen Probleme bei der Ermittlung der Elo.
War noch nie anders, wird immer ein Problem sein.
--
Heute denke ich, dass eine exakte Einschätzung der Elo nur in Spielstärkegruppen erfolgen kann.
Es macht keinen Sinn alles in eine Liste zu setzen sondern mehrere Listen zu erstellen.
Elo 3.200 und höher, Liste 1
Elo 2.800 - 3.200, Liste 2
Elo 2.400 - 2.800, Liste 3
Gute Engines zum Eichen einer Liste wären:
NirvanaChess 2.4 bei 3000 CEGT 40 in 20 ... tatsächlich sind es 2.975
Andscacs 0.95 bei 3109 CEGT 40 in 20 ... tatsächlich sind es 3.080
Also für eine Liste mit Engines zwischen 2.800 - 3.200 Elo bietet sich aufgrund der Ausgeglichenheit im Spielstil NirvanaChess an.
---
Es gibt noch x andere Dinge über die ich jetzt hinsichtlich Ratinglisten schreiben könnte.
Habe alles schon x-mal durch mit meinen eigenen Listen und hierüber immer viele Experimente gemacht.
Berücksichtigt man wirklich alle Eckpfeiler wird das Thema kompliziert.
Muss man sich genaue Gedanken machen bevor wieder viele Jahre an neuen Listen gespielt werden.
Denke immer das die Erfahrungswerte helfen die Sache ausgefeilter und optimaler zu gestalten.
Viele Grüße
Frank
Soll keine Kritik an der CEGT sein.
Wie Du weißt schätze ich die Arbeit bzw. habe die Arbeiten anderer Listenersteller immer schon sehr
geschätzt weil ich weiß wie viel Arbeit das alles ist und vor allem wie viele Kosten im Raum stehen.
Den Stromverbrauch gibt niemand zurück und das Anspruchsdenken von Anwendern ist heute
so gewaltig hoch das es selbst den Anwendern immer mehr auffällt und die beginnen sich selbst
zu hinterfragen.
Maximal kommt dann mal ein Danke und das war es dann!
Dennoch, die Listenersteller haben Spaß an der Arbeit und mein Anspruchdenken ist aufgrund der
eigenen Erfahrungswerte verdammt hoch. Habe bekanntlich schon Listen erstellt lange bevor
die CEGT oder CCRL das Licht der Welt erblickte (siehe Elostat readme). Aber auch mit diesen
ganzen Erfahrungswerten gibt es immer wieder Punkte, da setze ich mich selbst matt und bin ratlos
und muss experimentieren.
Würde ich heute eine Liste erstellen, würde ich 2.900 - 3.200 Elo nehmen.
Was darüber liegt nimmt nicht teil (verzerrt die Liste). Natürlich x Züge in x Minuten und natürlich
mit einem absolut ausgeglichenen und fehlerfreien Buch welches alle 500 ECO Codes abdeckt (das
gibt es ja). Und selbst darauf ... wenn ich an die Arbeit denke ... hätte ich heute kaum noch Lust.
Weil, was sollte ich mit dieser Arbeit noch herausfinden?
Gibt keine offene Fragen mehr!
Maximal wie sind neue Engines hinsichtlich der Partiephasen einzuschätzen.