Schau Dir mal folgendes an ...
Die Cross-Tab auf meinen Webseiten zur aktuellen Version 4.20.
Schaue jetzt nur auf die Ergebnisse der schwächeren gegen Stockfish und Komodo.
Glaubst Du im Ernst das das Schachspiel durch höhere Elo so perfekt ist das selbst 500 schwächere Engines die normalen Remispartien nicht mehr erreichen? Die unten stehen punkten alle gegen Stockfish und Komodo und meist sind die wenigen Punkte viel mehr als es nach Elo-Berechnung sein dürften denn nach Zufallsprinzip entstehen nunmal Remisstellungen.
...
jetzt schaue mal in die *.sto Shredder Dateien der ganzen Spießroutenläufe (ist so einfacher zu sehen, bzw. was ich jetzt schreiben werde).
Eigentlich dürfen nur dann Engines für die Berechnung gegen Stockfish und Komodo verwendet werden die mindestens gegen diese Gegner 1x bei 50 Partien gewonnen haben.
Meines Erachtens wäre die perfekte Ratingliste wenn nur Engines gegeneinander antreten die auch in der Lage sind den Gegner zu schlagen. Wir sagten seinerzeit ... Platz 1 - letzter Platz ... niemals darf der letzte noch weniger als grob 30% erzielen. Nein es sind schon 40% weil Komodo und Stockfish so überragend sind und so sehr sie überragen so sehr werden die Elos nach oben geschaufelt.
Trotz dessen ich alles versuche meine Liste so gut es geht darzustellen und alle Beeinflussungsfaktoren versuche auszuschalten ... trotz dessen ist diese Liste einfach schrecklich schei... auch wenn es die eigene ist. Denn ich erreiche das nicht ... TOP-50 zu haben und den Tatbestand zu erreichen das Platz 50 Platz 1 mindestens 1x geschlagen hat.
Nach heutigen Erkenntnissen macht es Sinn ...
Eine Ratingliste ohne Stockfish und Komodo ... vielleicht auch derzeit ohne Houdini zu errechnen.
Alles im Rahmen von 3.000 - bis nach unten 2.700 Elo.
Kann ich simulieren mit meinen Ergebnissen da jeder gegen jeden gespielt hat und wenn ich das simulieren ... nur dann ... diese Gruppe 2.700 - 3.000 sind die Ergebnisse nach Abwägung aller Stats die ich so machen in sich logisch und ich habe mein Ergebnis.
Mist, jetzt habe ich etwa verraten ... denn meine eigene Ratingliste schaut anders aus als die, die ich auf meine Seiten bringen ... weil das was gut ist ... dafür interessiert sich niemand ... weil ... die Leute wollen etwas zu Komodo und Stockfish erfahren und nehmen hier alles mit auch wenn alles was wir haben ... gelinde gesagt ... schei... ist (inklusive das was ich produziere).
...
Gibt aber einen Weg um bei 500-600 Elo Differenz die Spielstärke von Stockfish und Komodo zu den anderen genauer abzudrücken wenn alle anderen Elos der anderen in der Liste genau bleiben
Gibt ja viele Ratinglisten ... errechne hieraus Durchschnittswerte und versuche meine Liste auf diesen Durchschnittswert zu bringen.
Habe eine Lösung dafür ...
Ich lösche alle Remispartien von Stockfish und Komodo unter Zugnummer 70 (so hoch muss ich gehen) weg.
Und Bingo die meist dann eher doch zufälligen Remise sind draußen und plötzlich passt alles.
Interessant, nicht wahr ...
Siehste wie Remispartien tatsächliche Resultate beeinflussen und je mehr davon bei höheren Bedenkzeiten desto ungenauer werden eigentlich die Listen wenn es darum geht das das gesunde Verhältnisse bzw. das reale wirkliche Verhältnisse in einer Liste mit allen Teilnehmern dargestellt wird.
Was richten die vielen Handschläge nach 10-20 Zügen bei den GM Partien nur mit der Elo-Auswertung an.
Die vielen Remise beim Fernschach ...
Elo wird zur Farce!
Und in 20 Jahren gibt es 20 Spieler die mehr Kasparow haben und was passiert mit uns ... wir glauben das natürlich das plötzlich 20 Spieler 2.900 Elo haben.
Weil wir Elo vertrauen ohne genauer zu hinterfragen. Und da im Computerschach eh nur die wenigsten wirklich hinterfragen ... wird hingenommen und verteidigt mit allen was wir haben und wenn es nur Wattebällchen sind. Auch damit kann eine Kanone geladen werden.
+++
Schaue Dir die Liste von Ingo an. In sich hat Ingo natürlich auch seine Überlegungen. Die Ratings der Engines die oben liegen sind plausibel weil ein paar private dazu die stark sind. Dann kann auch Platz 16 durchaus gegen Platz 1 gewinnen. Die technischen Details bei der Programmierung die seinerzeit dafür sorgen das Amateure mit freien Code Wissen nicht über Crafty 2.500 ... eigentlich ja 2.200 ... hinaus kommen. Ist ja heute nicht anders, die Grenze ist nur höher. Habe ich viele Engines die von 2.950 - 3.250 liegen sollte allen klar sein das 16 Programmierer das nicht mit 16 neuen Ideen bewerkstelligt haben, sondern wie seinerzeit bei Crafty die bekannten Ideen, gespickt mit eigenen Ideen verwendet haben. Sie haben mehr oder weniger gut bekanntes zusammen gefügt. Oft auch sehr interessant wenn in Spielphasen Stärken zu sehen sind ... kann eine Engine interessanter mit 2.900 als mit 3.000 sein.
Auch hier ... alles immer noch gut.
16 Programme, meist gleiche Ideen, meist gleiche Stats, dennoch oft unterschiedliche Stärken und Schwächen ... die Handschrift vom Programmierer ... was ist ihm oftmals selbst wichtig in Kombination mit eigenem Wissen übers Computerschach bzw. dem was er akzeptiert zu verwenden, zu ergänzen.
Wobei es ja wirklich Programme gibt die auf diesem Level durch Besonderheiten noch hervor treten.
Aber ...
nur 15 Gegner ... und worunter leider diese Liste dann ... bei der Abstufung nach hinten, also wenn es runter geht zu Platz 16 ... stimmen diese Werte nicht mehr wenn ich das Vergleiche mit anderen Liste wo Platz 16 bei Ingo in anderen Liste wieder die Mitte bildet.
Können wir drehen und wenden ... im wahrsten Sinne wie wir wollen.
Es gibt sie nicht ... die perfekte Liste.
Sie wird es auch niemals geben bzw. ich denke vielleicht kann etwas erstellt werden was Nahe an die Realität kommt aber was wir haben ist zu unterschiedlich effektiv zu vergleichen. Nur mit viel Wissen zu diesem Thema können wir aus Listen lesen und wissen die unnütze Zahlen zu deuten wenn wir denn Zahlen deuten wollen.
Interessant ist an den Listen ...
Die Rangabbildung ... ist Chiron in allen Listen knapp vor Protector ... ja!
Solche Sachen deuten darauf hin, das eigentlich alle Listen die wir haben gut sind, nur die Zahlen die sich dahinter verbergen sind schei...
Egal wie wir es drehen und wenden!
Gruß
Frank
Also zu sagen CEGT oder CCRL oder IPON oder sonst was finde ich gut oder finde ich nicht gut.
Ist im Grunde genauso bedenklich denn in allen Listen ist eines meist immer gleich ... der Rang !
Die Elo bei den Problemen die wir haben ist im Grunde so uninteressant wie der Sack Reis in China.
- Stärken und Schwächen
- Rang in einer Ratingliste
- Eröffnungen verbessern
- Bei Analysen etwas feststellen was wieder auf Stärken und Schwächen hinzielt.
- Fehler rausholen ... jede Engine ist voll davon ... deswegen werden Partien verloren, keine Engine ist perfekt ... gibt immer etwas zu verbessern.
etc.
ist alles wichtiger als eine dumme ELO.
Elo ist gut um zwei Versionen zu vergleichen ...
Bobcat 7.6 zu Bobcat 7.1 ... hat um ca. 60 Elo zugelegt.
Nichts anders werden die anderen feststellen wenn genau getestet wird ... mit vielen unterschiedlichen Gegnern!