Hi,
im Grunde sind alle Ergebnisse. die wir überhaupt mit derzeit vorliegenden Ideen ermitteln - also egal jetzt mit welcher Methode - weder zu 100%ig wahrscheinlich, vermutlich noch nicht mal zu 80% wahrscheinlich.
Gründe:
1. ELO Formel ist ungenau. Die Spielstärkeleistung beim Schach bleibt mathematisch so lange ungenau bis das Spiel wirklich ausgerechnet ist. Je mehr wir uns dessen nähern desto genauer könnte die Berechnung werden.
2. Sind wir ehrlich, im Grunde ist in einer Ratingliste jedes Einzelergebnis einer Engine gegen eine andere Engine vergleichbar mit nur einer Partie. Unabhängig davon wie viele Partien wirklich gespielt wurden. Es ist und bleibt ein einziges Einzelergebnis. Ob nun ein 0:1 oder ein 2:8 oder ein 200 : 800.
Sind 10 Engines in einer Liste, welche jeder gegen jeden angetreten sind, ob nun 50x, 100 oder 10.000x ist also in Wirklichkeit - statistisch gesehen - für die eigentliche Berechnung nur ein = 1.
Nicht die Anzahl der Partien ist maßgeblich für eine "genaue" ELO, sondern die Anzahl der Engines.
Genauer wird die "!ungenaue ELO!" erst dann, wenn z. B. ...
Programm A 1.000 Partien gegen 999 unterschiedliche Gegner gespielt hat, als im Vergleich Programm A 1.000 Partien gegen nur 10 Gegner.
Im Detail wird es erst genauer wenn 10 Partien gegen 999 Gegner vorliegen anstatt nur diese eine Partie. Wobei letztendlich sich die Rating stabilisieren wird aber nicht so stark verändern wird als wenn im Vergleich 100.000 Partien gegen nur 10 Gegner vorliegen. Sprich, eine Rating basierend auf 100.000 Partien gegen nur 10 Gegner ist im Grunde sehr ungenau weil nur 10 Gegner also nur ein = 10. Dieses Rating wird sich stark verändern wenn Gegner 11 hinzukommt, ob nun 100.000 oder 1.000.000.000.000 Partien vorliegen oder vielleicht auch nur 1.000 ... egal !! Gegner 11 wirbelt alles neu auf ... so auch Gegner 12, Gegner 13! So ein Mist denken sich jetzt die fleißigen Ersteller der Listen und werden sicherlich kontern
Vergisst es ...
im Grunde sind alle Ergebnisse. die wir überhaupt mit derzeit vorliegenden Ideen ermitteln - also egal jetzt mit welcher Methode - weder zu 100%ig wahrscheinlich, vermutlich noch nicht mal zu 80% wahrscheinlich.
Gründe:
1. ELO Formel ist ungenau. Ob die Leistung beim Schach überhaupt mathematisch zu berechnen ist bleibt so lange ungeklärt bis das Spiel wirklich ausgerechnet ist.
2. Sind wir ehrlich, im Grunde ist in einer Ratingliste jedes Einzelergebnis einer Engine gegen eine andere Engine vergleichbar mit nur einer Partie. Unabhängig davon wie viele Partien wirklich gespielt wurden. Es ist und bleibt ein einziges Einzelergebnis. Ob nun ein 0:1 oder ein 2:8 oder ein 200 : 800.
Sind 10 Engines in einer Liste, welche jeder gegen jeden angetreten sind, ob nun 50x, 100 oder 10.000x ist also in Wirklichkeit - statistisch gesehen - für die eigentliche Berechnung nur ein = 1.
Nicht die Anzahl der Partien ist maßgeblich für eine "genaue" ELO, sondern die Anzahl der Engines.
Genauer wird die "!ungenaue ELO!" erst dann, wenn z. B. ...
Programm A 1.000 Partien gegen 999 unterschiedliche Gegner gespielt hat, als im Vergleich Programm A 1.000 Partien gegen nur 10 Gegner.
Im Detail wird es erst genauer wenn 10 Partien gegen 999 Gegner vorliegen anstatt nur diese eine Partie. Wobei letztendlich sich die Rating stabilisieren wird aber nicht so stark verändern wird als wenn im Vergleich 100.000 Partien gegen nur 10 Gegner vorliegen. Sprich die Rating von 100.000 gegen nur 10 Gegner ist im Grunde sehr ungenau weil nur 10 Gegner also nur ein = 10.
Deine Aussage:
Nicht klar genug um eine statistisch abgesicherte Verbesserung festzustellen trifft also auf jedes mir bekannte Testverfahren zu, weil wir nicht so viele Engines haben die im TOP-Bereich zum Testen eingesetzt werden können. Insofern können wir natürlich Aussagen treffen, aber immer nur mit den Möglichkeiten die uns vorliegen.
Finde folgendes Experiment interessant.
Ich nehme die SWCR Datenbank und hier dann eine Engine die z. B. 4.000 Partien gespielt hat. Nun ziehe ich alle Ergebnisse raus von Engines die z. B. vergleichbar spielen. Z. B. aus den Naum 4.2 Partien. Hier lösche ich alles raus was Naum gegen Fire, Ivanhoe, Rybka, Houdini unterschiedliche Versionen gespielt hat.
Ergebnis:
Ich eine ziemliche Abweichung und wundere mich weil mir die immer noch große Anzahl an Partien vorgaukelt das dies doch eigentlich nicht sein kann. Letztendlich müssen wir also gar nicht so viele Partien spielen lassen um zu erreichen das wir vielleicht nur eine korrekte Reihenfolge verfügbarer Engines zu erhalten. Interessant ist ... wer ist die Nummer 1, die Nummer 2, die Nummer 3 ... hierbei uninteressant ist ... liegt die Nummer 2 nun 20, 30 oder 40 ELO hinter der Nummer 1. Noch interessanter ist, Aussagen zum Spielverhalten der Engines zu treffen, die Stärken herauszupicken um die Engines dann vernünftig in einer Analyse einzusetzen.
Wenn z. B. das Stockfish Team immer die gleichen Gegner einsetzt und feststellt 5 ELO mehr, heißt das in der Tat wenig, denn wahrscheinlich ist, dass dieses Ergebnis gegen andere Gegner anders aussehen würde. Und dennoch, werden die Ergebnisse beständig besser, mit dem gleichen eingesetzten Testverfahren, ist es auch wahrscheinlich, dass sich die Engine verbessert hat. Unerheblich ob es nun 5, 10 oder 15 ELO sind. Es ist wahrscheinlich aber nicht sicher, klar.
Hat Stockfish also 6 ELO nach 1.000 Partien gegen Houdini zugelegt, könnte die Engine auch 6 ELO gegen Protector verloren haben. Durchaus möglich, passiert selten, passiert aber.
Finde die Ratinglisten sind eine schöne Spielerei und für Statistik Freaks. Die Erstellung macht ja auch Spaß. Gibt viele Möglichkeiten Ergebnisse auszuwerten um Rückschlüsse zu ziehen. Alle Ersteller machen sich die größte Mühe um etwas festzustellen und alle Ersteller sind von ihrem Testverfahren überzeugt. Hoffe das bleibt auch so, sonst liegen bald gar keine Ergebnisse mehr vor
Letztendlich produziert z. B. die IPON bei einem Test mit 20 Gegner 20 Ergebnisse, vergleichbar zu 20 Partien. Würde die IPON nun 2.500 Partien gegen 2.500 Gegner erzeugen wäre, die an sich zweifelhafte ELO-Berechnung unzweifelhaft genauer. Spielt aber keine Rolle denn entscheidend hier ist, was an Gegnerschaft vorliegt um überhaupt einen Test zu starten. Und je genauer vorgegangen wird um zu vermeiden das gleiche Programme unter den 20 sind, desto genauer wird die Liste mit den Möglichkeiten die vorliegen. Ob es nun zu stark anderen Ergebnisse kommt bei anderen Bedenkzeiten oder sonstigen Beeinflussungsfaktoren die verändert werden ist gewiss.
Aussage daher:
Kein vorliegendes Testverfahren zwecks Ermittlung einer ELO ist derzeit klar genug um eine statistisch abgesicherte Verbesserung festzustellen. Allerdings können wir davon ausgehen, dass bei einem gleichen Test unterschiedlicher Versionen die Wahrscheinlichkeit hoch ist, dass wirklich eine Verbesserung vorliegt. Ob diese jetzt 5 oder 10 ELO ist bleibt auch noch in 100 Jahren fraglich.
Viele Grüße
Frank
Deine Aussage:
Nicht klar genug um eine statistisch abgesicherte Verbesserung festzustellen trifft also auf jedes mir bekannte Testverfahren zu, weil wir nicht so viele Engines haben die im TOP-Bereich zum Testen eingesetzt werden können. Insofern können wir natürlich Aussagen treffen, aber immer nur mit den Möglichkeiten die uns vorliegen.
Finde folgendes Experiment interessant.
Ich nehme die SWCR Datenbank und hier dann eine Engine die z. B. 4.000 Partien gespielt hat. Nun ziehe ich alle Ergebnisse raus von Engines die z. B. vergleichbar spielen. Z. B. aus den Naum 4.2 Partien. Hier lösche ich alles raus was Naum gegen Fire, Ivanhoe, Rybka, Houdini unterschiedliche Versionen gespielt hat.
Ergebnis:
Ich eine ziemliche Abweichung und wundere mich weil mir die immer noch große Anzahl an Partien vorgaukelt das dies doch eigentlich nicht sein kann. Letztendlich müssen wir also gar nicht so viele Partien spielen lassen um zu erreichen das wir vielleicht nur eine korrekte Reihenfolge verfügbarer Engines zu erhalten. Interessant ist ... wer ist die Nummer 1, die Nummer 2, die Nummer 3 ... hierbei uninteressant ist ... liegt die Nummer 2 nun 20, 30 oder 40 ELO hinter der Nummer 1. Noch interessanter ist, Aussagen zum Spielverhalten der Engines zu treffen, die Stärken herauszupicken um die Engines dann vernünftig in einer Analyse einzusetzen.
Wenn z. B. das Stockfish Team immer die gleichen Gegner einsetzt und feststellt 5 ELO mehr, heißt das in der Tat wenig, denn wahrscheinlich ist, dass dieses Ergebnis gegen andere Gegner anders aussehen würde. Und dennoch, werden die Ergebnisse beständig besser, mit dem gleichen eingesetzten Testverfahren, ist es auch wahrscheinlich, dass sich die Engine verbessert hat. Unerheblich ob es nun 5, 10 oder 15 ELO sind. Es ist wahrscheinlich aber nicht sicher, klar.
Hat Stockfish also 6 ELO nach 1.000 Partien gegen Houdini zugelegt, könnte die Engine auch 6 ELO gegen Protector verloren haben. Durchaus möglich, passiert selten, passiert aber.
Finde die Ratinglisten sind eine schöne Spielerei und für Statistik Freaks. Die Erstellung macht ja auch Spaß. Gibt viele Möglichkeiten Ergebnisse auszuwerten um Rückschlüsse zu ziehen. Alle Ersteller machen sich die größte Mühe um etwas festzustellen und alle Ersteller sind von ihrem Testverfahren überzeugt. Hoffe das bleibt auch so, sonst liegen bald gar keine Ergebnisse mehr vor
Letztendlich produziert z. B. die IPON bei einem Test mit 20 Gegner 20 Ergebnisse, vergleichbar zu 20 Partien. Würde die IPON nun 2.500 Partien gegen 2.500 Gegner erzeugen wäre, die an sich zweifelhafte ELO-Berechnung unzweifelhaft genauer. Spielt aber keine Rolle denn entscheidend hier ist, was an Gegnerschaft vorliegt um überhaupt einen Test zu starten. Und je genauer vorgegangen wird um zu vermeiden das gleiche Programme unter den 20 sind, desto genauer wird die Liste mit den Möglichkeiten die vorliegen. Ob es nun zu stark anderen Ergebnisse kommt bei anderen Bedenkzeiten oder sonstigen Beeinflussungsfaktoren die verändert werden ist gewiss.
Aussage daher:
Kein vorliegendes Testverfahren zwecks Ermittlung einer ELO ist derzeit klar genug um eine statistisch abgesicherte Verbesserung festzustellen. Allerdings können wir davon ausgehen, dass bei einem gleichen Test unterschiedlicher Versionen die Wahrscheinlichkeit hoch ist, dass wirklich eine Verbesserung vorliegt. Ob diese jetzt 5 oder 10 ELO ist bleibt auch noch in 100 Jahren fraglich.
Viele Grüße
Frank
Deine Aussagen hier kann auch in 100 Jahren niemand widerlegen, Du selbst wirst diese aber auch niemals vernünftig begründen können. Könntest Du das wärst Du das Genie schlechthin ... denn jede Statistik zu den komplexen Thema Computerschach und Spielstärkeberechnung ist im Grunde nach dem derzeitigen Stand sämtlicher zusammengefundener Gehirnmassen ein "netter Versuch" der aber in den letzten Jahren immer netter geworden ist.