Not logged inCSS-Forum
Forum CSS-Online Help Search Login
CSS-Shop Impressum Datenschutz
Up Topic Hauptforen / CSS-Forum / Großer Test der Top-Engines mit dem Sim-Test Tool
- - By Stefan Pohl Date 2017-09-24 07:53 Upvotes 1
Hallo zusammen,

ich habe das sim-test Tool mal wieder hervorgekramt und alle Top-Engines miteinander verglichen. Mit der dreifachen Bedenkzeit, die als default vorgegeben ist (also 300ms pro Zug statt 100ms). Das hat zwar einen guten Tag gedauert, aber die Ergebnisse sind durchaus interessant, teilweise sogar überraschend.
Weil ja bekanntermaßen Endgame-Strings von Stockfish im Code von Fire 5 gefunden wurden (http://talkchess.com/forum/viewtopic.php?t=62144), interessierte mich natürlich besonders, wie der sim-Wert von Fire 6 im Vergleich zu Stockfish 7/8 war. Überraschenderweise hat Andscacs 0.91 deutlich höhere sim-Werte zu Stockfish 7/8 als Fire 6, obwohl Andscacs 0.91 von der Elo-Spielstärke her weiter weg von Stockfish 7/8 ist, als Fire 6. Daraus folgt für mich, daß ich für meine Stockfish-Testruns in Zukunft Fire 6.1 statt Andscacs als Gegner benutze, einfach weil der sim-Wert von Fire 6 zu den Stockfishen eben signifikant niedriger ist. Ob und wieviel Code oder Ideen (oder beides) von Stockfish nun in den anderen Engines steckt, kann ich anhand der Ergebnisse natürlich nicht abschießend sagen, dazu bräuchte man die Programm-Codes. Es bleibt mir nur, mich an den sim-Werten zu orientieren, um möglichst Stockfish-unähnliche Engines als Gegner für meine Stockfish-Testruns zu nutzen.

Besonders muß man mal Fizbo 1.9 lobend erwähnen: Diese Engine hat wirklich extrem niedrige sim-Werte im vergleich zu allen anderen Top-Engines. Fizbo ist wirklich einzigartig!

Similarity-Test (300ms/move, each engine plays 8238 positions)

                     1     2     3     4     5     6     7     8     9
  1.Andscacs 0.91  ----- 44.36 47.17 34.12 50.83 51.01 45.12 52.89 52.49
  2.Shredder 13    44.36 ----- 44.50 36.48 45.59 44.02 44.23 46.14 44.93
  3.Fire 6         47.17 44.50 ----- 34.96 48.29 46.82 43.43 50.92 49.50
  4.Fizbo 1.9      34.12 36.48 34.96 ----- 35.99 35.51 35.49 35.45 35.85
  5.Gull 3         50.83 45.59 48.29 35.99 ----- 51.14 45.88 53.40 52.78
  6.Houdini 5.01   51.01 44.02 46.82 35.51 51.14 ----- 50.00 56.24 57.14
  7.Komodo 11.2.2  45.12 44.23 43.43 35.49 45.88 50.00 ----- 48.05 48.06
  8.Stockfish 7    52.89 46.14 50.92 35.45 53.40 56.24 48.05 ----- 62.58
  9.Stockfish 8    52.49 44.93 49.50 35.85 52.78 57.14 48.06 62.58 -----


Die Testergebnisse findet man auch auf meiner Website.

http://www.sp-cc.de/experiments.htm

Stefan (SPCC)
Parent - By Stefan Pohl Date 2017-09-24 09:14
Auf einem Smartphone sieht man die Tabelle besser auf talkchess, wo ich das Ergebnis auch gepostet habe.

http://www.talkchess.com/forum/viewtopic.php?t=65267
Parent - - By Michael Scheidl Date 2017-09-24 11:00
Zitat:
Daraus folgt für mich, daß ich für meine Stockfish-Testruns in Zukunft Fire 6.1 statt Andscacs als Gegner benutze, einfach weil der sim-Wert von Fire 6 zu den Stockfishen eben signifikant niedriger ist.

Erfreulich, und bestärkt mich darin Fire weiterhin in meiner (mangels Aktivität stark geschrumpften) Enginesammlung zu führen. Fizbo ist auch dabei. Gleich mal näher anschauen.

Was mir spontan nicht einleuchtet, ist die niedrige Zahl beim Vergleich Stockfish 7 zu -8 von 62,58. Das läßt mich ein wenig an der Verläßlichkeit dieses Simtests zweifeln. Aber was soll's.
Parent - - By Stefan Pohl Date 2017-09-24 12:30
Michael Scheidl schrieb:


Was mir spontan nicht einleuchtet, ist die niedrige Zahl beim Vergleich Stockfish 7 zu -8 von 62,58. Das läßt mich ein wenig an der Verläßlichkeit dieses Simtests zweifeln. Aber was soll's.


Nicht unbedingt. Du mußt bedenken, daß laut FGRL-Bulletliste ca. 90 Elo Spielstärke-Unterschied zwischen Stockfish 7 und 8 liegen. Da ist es klar, daß sie nicht immer dieselben Züge machen - wo sollten die +90 Elo sonst herkommen?! Und jeder Sim-Wert über 60% ist schon sehr hoch und würde sehr, sehr stark auf ein Derivat schließen lassen. Was ja bei Stockfish 7 im Vergleich zu seinem eigenen Nachfolger auch korrekt ist...
Generell ist es ja logischerweise so, daß ein großer Spielstärke-Unterschied den sim-Vergleichswert nach unten drückt. Deshalb bin ich auch so erstaunt, daß Andscacs so einen relativ hohen Sim-Wert zu Stockfish 8 hat.
Parent - By Jörg Oster Date 2017-09-24 12:58
Stefan Pohl schrieb:

Michael Scheidl schrieb:


Was mir spontan nicht einleuchtet, ist die niedrige Zahl beim Vergleich Stockfish 7 zu -8 von 62,58. Das läßt mich ein wenig an der Verläßlichkeit dieses Simtests zweifeln. Aber was soll's.


Nicht unbedingt. Du mußt bedenken, daß laut FGRL-Bulletliste ca. 90 Elo Spielstärke-Unterschied zwischen Stockfish 7 und 8 liegen. Da ist es klar, daß sie nicht immer dieselben Züge machen - wo sollten die +90 Elo sonst herkommen?! Und jeder Sim-Wert über 60% ist schon sehr hoch und würde sehr, sehr stark auf ein Derivat schließen lassen. Was ja bei Stockfish 7 im Vergleich zu seinem eigenen Nachfolger auch korrekt ist...
Generell ist es ja logischerweise so, daß ein großer Spielstärke-Unterschied den sim-Vergleichswert nach unten drückt. Deshalb bin ich auch so erstaunt, daß Andscacs so einen relativ hohen Sim-Wert zu Stockfish 8 hat.


Was alles und nichts bedeuten kann.
Dessen sollte man sich immer bewusst sein.

Grüße und einen schönen Wahl-Sonntag!
Parent - By Guenter Stertenbrink Date 2017-09-24 15:57
vielleicht sollte man dann beim SIM-Test die Bedenkzeiten der Engines variabel gestalten,
so dass die Elo-Werte etwa gleich sind ?!
Up Topic Hauptforen / CSS-Forum / Großer Test der Top-Engines mit dem Sim-Test Tool

Powered by mwForum 2.29.3 © 1999-2014 Markus Wichitill