Notwendige Partien für ein Rating, Experiment ...

By Frank Quisinsky Date 2010-03-24 16:00

Hi,

nun, gestern habe ich ja die SWCR Datenbank hochgeladen. Mit dieser Datenbank könnte man sich austoben, bzw. könnten sich Statistik Fans austoben.

Möchte mal ein Beispiel geben.
In der SWCR spielt jede Engine gegen jede andere Engine 40 Partien. Bei 20 Engines bzw. 19 Gegner sind das 760 Partien. Es kam vor ca. 2 Monaten mal die Frage, ob die Auswertung nicht besser wird wenn Engine 21 hinzukommt. Dann wären es doch 800 Partien. Ob nun 760, 800 oder 1.200 ... spielt keine große Rolle mehr.

Mein Thema ist es aber eher:
Der Statistik minimalistisch trotzen!

Für mich stellt sich also viel eher die Frage, würden weniger Partien nicht das gleiche Ergebnis verursachen.

Lassen wir die Datenbank sortieren bzw. den Zufall bestimmen. Gehen wir davon aus, was würde passieren wenn jede Engine gegen jede Engine anstatt 40 Partien 30 Partien gespielt hätte. Löschen wir die letzten 5 Partien der Engines jeweils mit schwarz und weiß und berechnen dann eine neue Liste ist das Ergebnis bei 570 Partien pro Engine das Gleiche

OK ...
Weiter runter ...

Schaue ich dann in die 16.000 Partien Datenbank, die beiden Tabellen von gestern, sehen wir bei Engines die nicht 760 sondern 1200 Partien gespielt haben auch keine relevanten Sprünge. Nur dann wenn eine Engine z. B. gegen alle Doch Versionen antreten musste und Doch ein Angstgegner ist ... daher halte ich von dieser Liste im Grunde nichts.

Die Frage ist also:
Wie weit kann ich nach unten gehen um bei 20 verschiedenen Engines mit so wenig Partien wie möglich ein aussagekräftiges Rating zu bestimmen.

Spielwiese, die SWCR Daten ...

Für Personen die sich erst später im Beitrag einklinken ...
So ganz nach der History Channel Methode, jede 5 Minuten das was passiert ist im Beitrag wiederholen.

Treiben wir die Einzelmatches von 40 Partien auf 20 Partien runter, dass wären dann 380 Partien, sehen wir die ersten 2 von 20 Abweichungen die größer als 10 sind (zu der offiziellen SWCR mit 760 Partien pro Engine).
Aha ... also liegt die Wahrheit zwischen 380 und 570 Partien.

Um es nicht so spannend zu machen ...
Bei 400 Partien, wobei dann nur noch eine der 20 Engine um mehr als 10 ELO zu der Hauptdatenbank mit 760 Partien abweicht.
Witziger Weise natürlich Ktulu, bei Ktulu hat es auch lange gedauert bis eine stabile ELO-Vorlag.

Im Grunde hätte ich mir die Arbeit sparen können, weil ich das schon vor 10 Jahren berechnet habe bzw. auch bei der ATL-4 vor ca. 4 Jahren. Aber es ist immer wieder interessant zu sehen.

Wer möchte, kann sich die Datenbank herunterladen und selbst experimentieren.
Diese Experimente sind kein Geheimnis.

Aber nicht gezielt Partien löschen, sondern immer die letzten oder die ersten Partien zwischen den Matches. Und bitte auch nicht von den favorisierten Programmen die Verlustpartien löschen

Selbst betrügen ist langweilig.

Gruß
Frank

By Ingo Bauer Date 2010-03-24 19:50 Edited 2010-03-24 19:56

[quote="Frank Quisinsky"]

Die Frage ist also:
Wie weit kann ich nach unten gehen um bei 20 verschiedenen Engines mit so wenig Partien wie möglich ein aussagekräftiges Rating zu bestimmen.

Treiben wir die Einzelmatches von 40 Partien auf 20 Partien runter, dass wären dann 380 Partien, sehen wir die ersten 2 von 20 Abweichungen die größer als 10 sind (zu der offiziellen SWCR mit 760 Partien pro Engine).
Aha ... also liegt die Wahrheit zwischen 380 und 570 Partien.
[/quote]

Frank, in einer privaten Email habe ich dir schon mal geschrieben, das du das nicht machen darfst für ein zuverlässiges Ergebniss!
Natürlich kannst du, wenn du Eröffnungen raus nimmst, alle Extremen rausnehmen und bekommst mit 5 Partien genau den selben Schnitt wie mit 40 ... Das kannst du aber erst im NACHHINEIN entscheiden. Ich gehe in deine Datenbank und nehme 20 Eröffnungen raus die die beste Performance für Kutulu aufweisen, also diejenigen wo er am meisten Siege eingefahren hat. Was schätzt du wo er danach mit der halbem Partienanzahl liegt ...?

[quote="Frank Quisinsky"]
Um es nicht so spannend zu machen ...
[/quote]

Das ist nicht spannend, sondern, aus obigem Grunde mit Verlaub - 'Quatsch'!

[quote="Frank Quisinsky"]
Bei 400 Partien, wobei dann nur noch eine der 20 Engine um mehr als 10 ELO zu der Hauptdatenbank mit 760 Partien abweicht.
[/quote]

Einen Kasten Bier, das ich dir durch gezieltes Streichen der Hälfte der Eröffnungen jede deiner Engines um deutlich mehr als 10 Elo verschiebe!
Und wenn du mir jetzt sagst das man nicht gezielt streichen darf, sage ich dir das du das auch machst, du streichst gezielt alle die nicht im Durchschnitt liegen raus um das selbe Ergebniss zu erzeugen!
(Ist das selbe wie mit dem Programm von Lars B. damals, um beliebige Ranglisten aus Teststellungssubsets zu erzeugen)

[quote="Frank Quisinsky"]
Im Grunde hätte ich mir die Arbeit sparen können, weil ich das schon vor 10 Jahren berechnet habe bzw. auch bei der ATL-4 vor ca. 4 Jahren. Aber es ist immer wieder interessant zu sehen.
...
[/quote]

Im Grunde kann ich mir diese Postings und Email sparen, weil du seit Jahren auf dieser Meinung beharrst und nicht mehr daran Zweifelst!

Gruß
Ingo

By Frank Quisinsky Date 2010-03-24 20:06

Hi Ingo,

also mehr als die Daten anbieten kann ich nicht.
Statistiken sind schnell unter ChessBase angefertigt.

Dieses Experiment von heute deckt sich mit dem was ich seit meiner ersten Ratingliste für Erfahrungswerte habe.
Kann es doch nicht ändern und wären die Erfahrungen anders und so beständig würde ich dem Schreiber meiner Zeilen verfluchen

Meine wenn jemand behaupten würde ... es sind x Partien notwendig aber alle Erfahrungswerte dagegen sprechen.

Also wenn ich gezielt Eröffnungssysteme streichen würde, könnte ich vielleicht noch nachvollziehen was Du schreibst.
Allerdings spiele ich nicht mit Vorgabestellungen, dass wäre mir persönlich zu langweilig ... meine immer die selben Eröffnungssysteme sehen.
Zumal eh auch kein anderes Ergebnis dabei heraus kommt.

Mag ja sein das GM Nunn schöne Eröffnungen zum Testen von Schach Engines zusammengestellt hat. Aber im Grunde ob mit oder Nunn anderen Vorgabestellungen etc., Ergebnisse bleiben gleich. Es sei denn jemand packt 20 Vorgabestellungen in den Test, bei denen alle Systeme recht offen sind oder alle recht geschlossen sind. Dann könnte ich mir noch vorstellen, dass unter Umständen "vielleicht" andere ELO-Werte dabei herauskommen.

Also, nicht abstreiten ...
Wenn Du etwas nicht glaubst, mache doch einfach den Test.
Lösche aus der SWCR der ersten oder die letzten Partien der Matches einfach weg und berechne neu.

Daten liegen offen, Vorgehensweise beschrieben ...
Mehr kann ich nicht tun.

Gruß
Frank

By Ingo Bauer Date 2010-03-24 21:55

[quote="Frank Quisinsky"]
...

Also wenn ich gezielt Eröffnungssysteme streichen würde, könnte ich vielleicht noch nachvollziehen was Du schreibst.
Allerdings spiele ich nicht mit Vorgabestellungen, dass wäre mir persönlich zu langweilig ... meine immer die selben Eröffnungssysteme sehen.
Zumal eh auch kein anderes Ergebnis dabei heraus kommt.
...
[/quote]

Ahh Bücher, das macht die Sache einfacher, ich sortiere die gewonnen Partien von Engine X nach oben und löche die ersten 50%! Was kommt raus ....

[quote="Frank Quisinsky"]

Lösche aus der SWCR der ersten oder die letzten Partien der Matches einfach weg und berechne neu.

[/quote]

Frank "die ersten" oder "die letzten" ist doch Willkür? Warum nicht jede 2te, oder immer in 5er blöcken oder du sagst mir welchen Teil du löschen willst und ich darf vorher sortieren ... Wenn es wirklich egal ist mußt du mir das zugestehen, schließlich ist die Reihenfolge in der gespielt wurde auch zufällig.

Wenn du der Meinung bist das die Hälfte auch langt, warum spielst du so viele - und wenn die Hälfte langt warum nicht ein Viertel ... , ich dann könnte wir ja nochmal halbieren ...

Kurz: Du kommst gegen Gauss und Standardverteilung mit deinem Bauchgefühl nicht an und das heißt - je mehr desto genauer und damit besser!

An dem Punkt höre ich jetzt auf, da ich nicht weiß was ich noch schreiben sollte.

Gruß
Ingo

By Frank Quisinsky Date 2010-03-24 22:15

Hi Ingo,

na klar ist das Willkür.

Löscht z. B. eine gute Serie weg bei Löschen der ersten oder letzten Partien.
Aber bei 20 x 40 Matches gleicht sich das wieder aus.
Statistik lässt Grüßen!

Möchte jetzt auch nicht weiter dazu schreiben, denn wie gesagt ...
Die Daten liegen offen, die Statistiken sind klar.

Einfach und logisch überprüfbar.

Warum ich so viele Partien spiele?
Weil ich immer mehr Partien spielen lasse als notwendig sind.
Schon allein um nach weitere Partien zu haben um prüfen zu können ob sich die Annahme auf ein neues bestätigt.

Ferner geht es mir auch mehr um die Partien und nicht nur darum Statistiken zu erzeugen.
Aber diesen Nebeneffekt nehme ich gerne mit, weil mich Statistiken immer schon interessiert haben.

Gruß
Frank

By Frank Quisinsky Date 2010-03-24 22:33

Hi,

schön wäre ein kleines Programm.
Programm löscht willkürlich per Zufallsgenerator die Partien aus dem PGN file und erstellt dann eine Liste mit der ELO nach 100 Partien, 200 Partien, 300 Partien etc..

Würde es ein solches Programm geben, dass dann 100 Testläufe bei jeweils 100 Partien Sprünge errechnet wäre das genial.
Dann mittels der Vorgabe ... ermittle ein Ergebnis +-5 oder +-10 bzw. wie viele Partien sind notwendig.

Und als Ergebnis kommt z. B. raus:
Durchschnittswert nach 100 Testläufe bei 100x willkürliche Zusammenstellung = 396 Partien +-10, oder 528 Partien +-5.
Wobei wenn es zu einem krassen Aussetzer kommt die Prozentzahl angegeben wird.

Also:
bei 100 Testläufen mit 400 Partien gab es in 3 Fällen eine Abweichung von +- 10 = x% oder +-5 =y%
bei 100 Testläufen mit 500 Partien gab es in 2 Fällen eine Abweichung von +- 10 = x% oder +-5 =y%

Dann die Vorgabe.
Wie viele Partien sind notwendig wenn es nur in 1 von 50 Fällen zu einer Abweichung von +-10 kommen darf
Wie viele Partien sind notwendig wenn es nur in 1 von 50 Fällen zu einer Abweichung von +- 5 kommen darf

Etc..
Mit der Datenbank kann also experimentiert werden.

Ein Programm hierfür wäre perfekt.
Leider gibt es ein solches Programm nicht.

Gruß
Frank

By Kurt Utzinger Date 2010-03-24 21:23

[quote="Ingo Bauer"]
Einen Kasten Bier, das ich dir durch gezieltes Streichen der Hälfte der Eröffnungen jede deiner
Engines um deutlich mehr als 10 Elo verschiebe!
[/quote]

Hallo Ingo
Selbst wenn das zutreffen sollte, ist es dann nicht so, dass diese Verschiebungen doch
eher irrelevant sind ... und somit indirekt ein Indiz vorhanden wäre, dass es gar nicht
so viele Partien braucht, um eine doch recht verlässliche Rangliste zu erzeugen?
Mfg
Kurt

By Ingo Bauer Date 2010-03-24 21:40

[quote="Kurt Utzinger"]
...
Selbst wenn das zutreffen sollte,
[/quote]

Es ist so! Die 10 Elo habe ich nur genommen weil Frank sie erwähnte, sie SEHR klein sind, ich 100% sicher bin das ich Recht habe (will ja meinen Kasten Trierer Bier!)

und ich glaube das ich sogar deutlich mehr verschieben kann!

Wobei ich mir Franks Datenbank inzwischen angesehen habe. Er sortiert alle ECO Codes von A - E und 1 - 99. Ich habe leider keine ordentliche Möglichkeit die Eröffnungen rauszusortieren. Ich müßte nach Positionen nach der Eröffnung suchen, wüßte aber nicht, ob nicht eine andere Eröffnung dahin "transponiert" hat. De fakto müßte ich mir 16000 einzelne Spiele ansehen ... wohl eher unrealistisch.

[quote="Kurt Utzinger"]
ist es dann nicht so, dass diese Verschiebungen doch
eher irrelevant sind ... und somit indirekt ein Indiz vorhanden wäre, dass es gar nicht
so viele Partien braucht, um eine doch recht verlässliche Rangliste zu erzeugen?
..
[/quote]

Was ist "irrelevant" oder besser gibt es ein absolutes Maß ab wann eine Errorbar klein genug ist?

Ich schätze das ist eine völlig individuelle Sache!

Man könnte argumentieren, daß wir Menschen (alle) den Spielstärkeunterschied der TOP 10 Engines nicht mehr selber wahrnemmen können. Ob ein Liste auf 5, 10, 20 oder 50 Elo genau ist ist insofern "irrelevant"!

Man könnte argumentieren das die meisten Menschen nicht auf die Elos, sondern auf die Plazierung schauen, insofern kann EIN Elo wichtig sein!

Irgendwo dazwischen liegt die Wahrheit ...

Ich selber bin da zwigespalten. Einerseits weiß ich das selbtst für Top-Single-Engines das Rating keine Rolle mehr spielt ... andererseits lese ich sehr häufig in den Foren das - aktuelles Bsp: Naum 4.2 besser ist als Stockfish 1.6.3. De fakto sind die beiden so dicht zusammen das kein Mensch den Elo-Unterschied an der Spielweise erkennen kann, nichtsdestotrotz ist es Leuten wichtig wer "vorne" ist ...

Solange die Mehrheit auf Platzierungen schielt kann eine Rangliste nicht genau genug sein - leider!

Gruß
Ingo

By Kurt Utzinger Date 2010-03-24 21:43

Hallo Ingo
Danke für die schnelle Antwort und Deine Erklärungen.
Mfg
Kurt