SWCR: @Ingo ... Shredder 11 x64 / w32

By Frank Quisinsky Date 2010-10-11 12:23

Hallo Ingo,

habe ich mich mal näher mit den Differenzen bei den Shredder Versionen in der SWCR beschäftigt. Nach umfangreichen Analysen (möchte die jetzt nicht alle ins Forum stellen, würde den Rahmen sprengen) kam ich zu dem Ergebnis, dass nicht Shredder 12 x64 zu niedrig, sondern Shredder 12 w32 wie fast alle anderen w32 Engines in der Liste aller SWCR Partien zu hoch bewertet werden.

Die SWCR-32 und die SWCR-64 zu einer Liste zu mixen hat eh nur einen experimentellen Charakter. Wahrscheinlich liegt es wirklich daran, dass zu wenige gleiche Engines in beiden Listen spielen.

Nehme ich jetzt wieder den durchschnittlichen 64bit Zuwachs (Durchschnittsergebnisse anderer Listen) deckt sich meine Vermutung. Alle 32bit Engines werden demnach ca. 6-8 ELO zu hoch eingestuft wenn ich die SWCR-32 und die SWCR-64 zu einer Liste mixe.

Auf der anderen Seite wird auch deutlich, dass je mehr Partien hinzukommen die Differenz kleiner wird. Sicherlich hat auch alles ein wenig damit zu tun, dass ich in Anfangzeiten der SWCR auf XP 32bit habe spielen lassen, später auf XP 64bit umgestellt habe. Da 32bit Engines unter XP 64bit etwas langsamer sind, wäre das auch eine Erklärung, macht vielleicht 2 ELO aus, der Umstand kommt aber hinzu.

Dennoch, da beide Listen unter gleichen Bedingungen geführt werden halte ich diese Differenzen von ca. 6-8 ELO durchschnittlich nicht für relevant, zumal natürlich keine Liste perfekt ist und meine ganz sicher auch nicht.

Für viel aussagekräftiger halte ich eher die beiden jeder gegen jeden SWCR-32 / SWCR-64 Listen und dann die Liste aller SWCR-32 / SWCR-64 Partien. Die zu einer Liste gemixten Liste aller SWCR-32 / SWCR-64 Partien ist eher experimentell, auch um die Downloads bzw. die Partien zu einem File zusammenzufügen.

Ziehe ich also bei Shredder 12 w32 diese 6-8 ELO ab wäre immer noch ein Vorteil von 6-8 ELO für Shredder w32 vorhanden. Dieser liegt aber bei ca. 1.600 Partien beider Engines und gleichen Gegner in einem normalen, wenn auch seltenen Rahmen.

Gruß
Frank

By Frank Quisinsky Date 2010-10-11 12:39 Edited 2010-10-11 12:47

Ein anderer Umstand:

Durch die vielen Stockfish, Critter, Doch / Komodo / Protector Updates haben diese Engines verhältnismäßig mehr Partien gespielt (wenn auch geringfügig mehr, da durch ein Update das Spielen der älteren Version gestoppt ist). Dennoch, auch dadurch verschieben sich leicht die ermittelten ELO-Werte. Ich schrieb früher schon öfters, dass die SWCR Turnier-Ratingliste (jeder gegen jeden 40 Partien, bei bald 24 Engines im Turnier) aussagekräftiger ist, als die anderen SWCR Listen, auch wenn weniger Partien vorhanden sind. Übrigens ist das aber ein Problem mit dem alle Listenbetreiber zu kämpfen haben.

Eine möglichst genaue Liste ist im Grunde nur in etwa dann möglich, wenn viele unterschiedlichen Engines viele Partien gegeneinander spielen, dies dann z. B. in Turnierform ermittelt wird. Jeder gegen Jeden im Turnier x Partien bei möglichst vielen Gegnern. Genau das versuche ich ja in der SWCR und insofern ... die ganzen verfügbaren Listen werden beeinflusst von der Anzahl der Gegner und je mehr desto besser. Wobei viele unterschiedliche Gegner aber auch gleiches Computerschach spielen und insofern der Vergleich an dieser Stelle auch schon wieder wackelt.

Bedeutet letztendlich ... mit vielen Partien wird sich einiges ausgleichen aber einen perfekten Vergleich wird es niemals geben. So gut oder schlecht die Organisation einer Liste ist. Dennoch, es ist möglich eine ELO bis hin zu +-10 (= 20) genau zu ermitteln und bei dieser Anspruchshaltung ist doch immerhin mal ein Ergebnis produziert worden.

Auch interessant ist GullChess 1.0a x64. Das Rating von GullChess 1.0a x64 wurde erst nach 730 Partien stabil. Damit wurde der SWCR-32 Rekord von Naum 4.2 gebrochen. Naum benötigte dafür 620 Partien.

Also, nach jetzt 95 getesteten Engines war bei GullChess 1.0a x64 als Maximalwert das Rating nach 730 Partien stabil. Soweit zu der Aussage wie viele Partien notwendig sind um ein stabiles Rating im Bereich +-10 (Abweichung von 20 ELO im äußersten Einzellfall) zu erreichen. Von 95 Engines benötigen also derzeit lediglich 2 Engines mehr als 500 Partien. Firebird 1.1 WD schwankte zwar auch etwas blieb aber im Fahrwasser.

By Ingo Bauer Date 2010-10-11 13:43

Hi Frank,

[quote="Frank Quisinsky"]

Durch die vielen Stockfish, Critter, Doch / Komodo / Protector Updates haben diese Engines verhältnismäßig mehr Partien gespielt (wenn auch geringfügig mehr, da durch ein Update das Spielen der älteren Version gestoppt ist). Dennoch, auch dadurch verschieben sich leicht die ermittelten ELO-Werte. Ich schrieb früher schon öfters, dass die SWCR Turnier-Ratingliste (jeder gegen jeden 40 Partien, bei bald 24 Engines im Turnier) aussagekräftiger ist, als die anderen SWCR Listen, auch wenn weniger Partien vorhanden sind. Übrigens ist das aber ein Problem mit dem alle Listenbetreiber zu kämpfen haben.
[/quote]

Ich, nur SEHR begrenzt. Wenn ich zwei "spielstilgleiche" Engines kurz hintereinender teste, fliegt die schlechtere komplett aus meiner Liste. Bsp: Houdinin 1.02 und 1.03a. Die Spiele der alten 1.02er habe ich komplett gelöscht. Die einzige Engine die sich sehr ähnlich (gleich) war, und die ich aus Testgründen immer mitgeschlept habe, war Shredder 12 in 32 und 64 bit. Nachdem das Problem gelöst ist (und alle anderen Enignes zw. 0 und 3 Elo gewonnen haben (Durchschnitt 1 Elo)) bin ich das Problem auch los. Meine größten Sorgenkinder sind im Moment die vielen Stockfische. 1.7.1, 1.8 und 1.9.1 sind rein Spielstärketechnisch leider keine wirklichen Fortschritte, aber die Engines sind zu interessant und beachtet um zwei davon rauszuwerfen ... Kompromisse scheinen hier (im Moment) notwendig. Wenn Stockfish 2.0 raus ist und 40 Elo zulegt interessiert sich soweiso niemand für die 1.7 oder 1.8, vielleicht kommen die dann raus.
Ab und zu erstelle ich ja eine reine 'Jeder gegen Jeden Liste' der 20 besten Einzellengines, darin habe ich, auch Aufgrund obiger Maßnahmen, wenig Abweichung zu meiner Hauptliste.
Der Nachteil: Meine Liste könnte LOCKER schon doppelt so viele Partien enthalten ... ich lebe damit ein korrekte Liste zu erstellen um den Preis der wenigen Partien, respekitve höheren Abweichung je Engine zu haben.

[quote="Frank Quisinsky"]
...
Also, nach jetzt 95 getesteten Engines war bei GullChess 1.0a x64 als Maximalwert das Rating nach 730 Partien stabil. Soweit zu der Aussage wie viele Partien notwendig sind um ein stabiles Rating im Bereich +-10 (Abweichung von 20 ELO im äußersten Einzellfall) zu erreichen. Von 95 Engines benötigen also derzeit lediglich 2 Engines mehr als 500 Partien. Firebird 1.1 WD schwankte zwar auch etwas blieb aber im Fahrwasser.
[/quote]

Ich finde deine kleine Statistikinterpretation immer noch faszinierend - leider erschließt sich mir die Logik nicht. Ich bleibe bei Gauss!

Gruß
Ingo

By Frank Quisinsky Date 2010-10-11 14:31 Edited 2010-10-11 14:33

Hi Ingo,

siehst Du, ich vertraue eher den eigenen ermittelten Resultaten ohne auf Prof. Z oder Dr. Y oder Mr. X zurückzugreifen. Gehe da eher praktisch als theoretisch vor. Würde ich theoretischer vorgehen, könnte ich mir zumindest hinsichtlich der statistischen Ausgaben die Mühe sparen.

Und nochmals zu der Menge der Partien ...
Nicht Shredder 12 x64 bei ca. 1.600 kommt mit der Abweichung daher, sondern alle w32 und mithin auch Shredder 12 w32 mit fast 4.000 gespielten Partien (maßgebliche Umstände beschrieben). Auf die Anzahl der Partien bzw. den ErrorBars bei den Berechnungsprogramme gebe ich keinen Cent. Viel viel wichtiger ist es, dass möglichst viele Engines gegeneinander die gleiche Anzahl an Partien gespielt werden. Könnte sein, dass dieser Umstand dazu führt, dass die SWCR Ergebnisse schon nach sehr wenigen Partien sehr aussagekräftig werden, mal die beiden beschriebenen Fälle Naum 4.2 w32 und jetzt GullChess 1.0a x64 außen vor. Und insofern sehr wichtig, dass die beiden SWCR Listen von 21 auf 24 Engines derzeit erweitert werden. Lt. meinen Statistiken sind dafür ca. 23 - 26 Engines (bei 40 Partien pro Match) optimal.

Gruß
Frank