Hi Bert,
schauen wir auf IPON und SWCR, doppelte Bedenkzeit mal gezielt auf Junior 12.5.0.3 stellen wir fest ...
Das liegt nicht daran das IPON oder die SWCR gut oder schlecht ist.
Ich kenne Dein Posting, bzw. habe das in Erinnerung.
Mir geht es wirklich um neue Erkenntnisse.
Ich hatte z. B. auch schon eine SWCR Blitzliste laufen die ich ca. genau vor einem Jahr eingestellt hatte. Die Schwankungen bis Partienummer 600 waren durchschnittlich um 8% größer als bei 40 in 10. Das bedeutet letztendlich das diese Schwankungen mit mehr Partien ausgeglichen werden müssen. Das bedeutet nicht, das die Ergebnisse auch zu anderen Zeitkontrollen gleich sind.
Wenn Junior nun wirklich mit mehr Bedenkzeit steigt (davon kann ausgegangen werden) können auch andere Engines mit mehr Bedenkzeit in Ihrer Leistung fallen. Letzteres wurde bislang auch kaum näher betrachtet.
Und zu Deinem Posting:
Bleibe dabei, testen auf mehrere Cores macht keinen Sinn.
Wenn alle Engines ein gleiches Verhalten bei mehr Cores hätten, wäre das auch nur eine Zeitkomponente. Wenn bei 4 Cores also alle um Faktor 3.2 einheitlich zulegen erreiche ich das auch mit 3.2facher Bedenkzeit. Die Umsetzung von SMP ist stark unterschiedlich bei den Engines.
Eine genaue Messung der reinen Spielstärke kann nur mit einem Core erfolgen.
Wir können sagen:
Houdini 1.5 hat 3.000 ELO bei einem Core
Würde 55 ELO hinzubekommen bei 2 Cores
Würde 85 ELO hinzubekommen bei 4 Cores
Endspieltabellen: 4-Steiner machen dann 20 ELO aus
Endspieltabellen: 5-Steiner machen dann 25 ELO aus
Und rechnen das alles zusammen.
Aber das sind Dinge die können wir mehr oder weniger mit weniger Zeitaufwand selbst berechnen.
Was wichtig ist, ist einzig und allein die Grundspielstärke ohne Endspieldatenbanken und ohne dem Einsatz von mehreren Cores.
Alles Spielerei hinsichtlich Bestimmung von Spielstärken aber kein nützliches "Messen".
Natürlich wichtig für Analysen, wie bei Fernschachanalysen oder bei Wettkämpfen auch auf Servern oder Meisterschaften aber unsinnig wenn es um die reine Messung der Spielstärke geht. Und genau das ist ja mein Interesse, möchte alle unter den absolut gleichen Voraussetzungen sehen.
Und weiter zu Deinem Posting ...
Nur die TOPs.
Ja, geht schon alleine aus Zeitgründen nicht anders.
Auch sollte die Spielstärke maximal nicht mehr als 300 ELO auseinanderliegen denn ...
Die Nummer 1 oder die Nummer 16 werden sonst nicht korrekt gemessen.
Auch so ein Thema. Obwohl z. B. die Nummer 16 bei 16 Engines nicht mehr spielen würde aber plötzlich 16 weitere schlechtere Engines hinzukommen, stimmt das Rating der ehemaligen Nummer 16 wieder.
Beispiel:
Nummer 01. Houdini 3.000 ELO
Nummer 16. Equinox 2.700 ELO
wäre tatsächlich so ... wenn es noch eine Nummer 17-32 geben würde (Betrachtung jetzt bei Equinox).
Bei meinem Event würde aber folgendes passieren, gibt nur die 16 ...
Nummer 01. Houdini 3.000 ELO
Nummer 16. Equinox 2.680 ELO
Equinox ist 20 ELO schwächer als tatsächlich.
Gleiches gilt für Houdini ... die 3.000 die SWCR oder IPON darstellt wären vielleicht 2.980 wenn plötzlich vor Houdini 16 andere Engines auftauchen.
Für mich, als Person die messen möchte, eine Katastrophe
Aber da gibt es einfach keine wirkliche Abhilfe denn die derzeitigen Berechnungsprogramme sind zu schwach um das genauer zu messen!
Gruß
Frank
PS: Da nur 15 Gegner bei 16 Engines wird das Rating ungenauer als derzeit bei 30 Gegner im Vergleich zur aktuellen SWCR.
Aber das interessiert jetzt nicht, sondern eher ... wie verändern sich die Leistungen mit mehr Bedenkzeit bei den 16 Testkandidaten!