Hi Frank,
[quote="Frank Quisinsky"]
Durch die vielen Stockfish, Critter, Doch / Komodo / Protector Updates haben diese Engines verhältnismäßig mehr Partien gespielt (wenn auch geringfügig mehr, da durch ein Update das Spielen der älteren Version gestoppt ist). Dennoch, auch dadurch verschieben sich leicht die ermittelten ELO-Werte. Ich schrieb früher schon öfters, dass die SWCR Turnier-Ratingliste (jeder gegen jeden 40 Partien, bei bald 24 Engines im Turnier) aussagekräftiger ist, als die anderen SWCR Listen, auch wenn weniger Partien vorhanden sind. Übrigens ist das aber ein Problem mit dem alle Listenbetreiber zu kämpfen haben.
[/quote]
Ich, nur SEHR begrenzt. Wenn ich zwei "spielstilgleiche" Engines kurz hintereinender teste, fliegt die schlechtere komplett aus meiner Liste. Bsp: Houdinin 1.02 und 1.03a. Die Spiele der alten 1.02er habe ich komplett gelöscht. Die einzige Engine die sich sehr ähnlich (gleich) war, und die ich aus Testgründen immer mitgeschlept habe, war Shredder 12 in 32 und 64 bit. Nachdem das Problem gelöst ist (und alle anderen Enignes zw. 0 und 3 Elo gewonnen haben (Durchschnitt 1 Elo)) bin ich das Problem auch los. Meine größten Sorgenkinder sind im Moment die vielen Stockfische. 1.7.1, 1.8 und 1.9.1 sind rein Spielstärketechnisch leider keine wirklichen Fortschritte, aber die Engines sind zu interessant und beachtet um zwei davon rauszuwerfen ... Kompromisse scheinen hier (im Moment) notwendig. Wenn Stockfish 2.0 raus ist und 40 Elo zulegt interessiert sich soweiso niemand für die 1.7 oder 1.8, vielleicht kommen die dann raus.
Ab und zu erstelle ich ja eine reine 'Jeder gegen Jeden Liste' der 20 besten Einzellengines, darin habe ich, auch Aufgrund obiger Maßnahmen, wenig Abweichung zu meiner Hauptliste.
Der Nachteil: Meine Liste könnte LOCKER schon doppelt so viele Partien enthalten ... ich lebe damit ein korrekte Liste zu erstellen um den Preis der wenigen Partien, respekitve höheren Abweichung je Engine zu haben.
[quote="Frank Quisinsky"]
...
Also, nach jetzt 95 getesteten Engines war bei GullChess 1.0a x64 als Maximalwert das Rating nach 730 Partien stabil. Soweit zu der Aussage wie viele Partien notwendig sind um ein stabiles Rating im Bereich +-10 (Abweichung von 20 ELO im äußersten Einzellfall) zu erreichen. Von 95 Engines benötigen also derzeit lediglich 2 Engines mehr als 500 Partien. Firebird 1.1 WD schwankte zwar auch etwas blieb aber im Fahrwasser.
[/quote]
Ich finde deine kleine Statistikinterpretation immer noch faszinierend - leider erschließt sich mir die Logik nicht. Ich bleibe bei Gauss!
Gruß
Ingo
Hi Ingo,
siehst Du, ich vertraue eher den eigenen ermittelten Resultaten ohne auf Prof. Z oder Dr. Y oder Mr. X zurückzugreifen. Gehe da eher praktisch als theoretisch vor. Würde ich theoretischer vorgehen, könnte ich mir zumindest hinsichtlich der statistischen Ausgaben die Mühe sparen.
Und nochmals zu der Menge der Partien ...
Nicht Shredder 12 x64 bei ca. 1.600 kommt mit der Abweichung daher, sondern alle w32 und mithin auch Shredder 12 w32 mit fast 4.000 gespielten Partien (maßgebliche Umstände beschrieben). Auf die Anzahl der Partien bzw. den ErrorBars bei den Berechnungsprogramme gebe ich keinen Cent. Viel viel wichtiger ist es, dass möglichst viele Engines gegeneinander die gleiche Anzahl an Partien gespielt werden. Könnte sein, dass dieser Umstand dazu führt, dass die SWCR Ergebnisse schon nach sehr wenigen Partien sehr aussagekräftig werden, mal die beiden beschriebenen Fälle Naum 4.2 w32 und jetzt GullChess 1.0a x64 außen vor. Und insofern sehr wichtig, dass die beiden SWCR Listen von 21 auf 24 Engines derzeit erweitert werden. Lt. meinen Statistiken sind dafür ca. 23 - 26 Engines (bei 40 Partien pro Match) optimal.
Gruß
Frank