Hallo zusammen,
so, angeregt durch die vielen Diskussionen um die Rybka 4 Exp. 61 Settings hier das logische Experiment:
Zunächst:
Rybka 4 Exp. 61 spielt wie bei dem Kurztest von Ingo nur gegen die TOP-6.
Ingo stellte fest -20 ELO, wobei wenn ich das kalkuliere sind es ca. -12.
Interessant ist, dass bei Ingo R4 ca. 10 ELO höher bewertet wird als bei mir.
Das Ergebnis sollte gleich sein und wie schaut das Ergebnis tatsächlich aus?
Erste Auswertung:Code:
Rank Name Elo + - games score oppo. draws
1 Houdini 1.5 x64 3003 22 21 1035 82% 2748 26%
2 Rybka 4 x64 Exp. 42 2959 23 22 900 78% 2730 26%
3 Houdini 1.03a x64 2948 22 21 920 79% 2718 29%
4 Rybka 4 x64 Exp. 61 2941 38 38 210 58% 2891 42%
5 Rybka 4 x64 2939 17 17 1520 80% 2700 29%
6 IvanHoe B49jA x64 2931 19 18 1155 76% 2737 33%
Rybka 4 Exp. 61 spielt also 2 ELO besser als Rybka 4 Deftault.
Wobei es durchaus sein kann das es am Ende weniger sind wenn mehr Partien vorliegen.
Interesssanter als das nun die folgende
zweite Auswertung ...
Rybka 4 x64 Exp. 61 müsste ja dann bei der Auswertung der Partien gegen Platz 7-26 Houdini 1.5 richtig gefährlich werden ...
Code:
Rank Name Elo + - games score oppo. draws
1 Houdini 1.5 x64 3004 22 22 1000 83% 2741 25%
2 Rybka 4 x64 Exp. 61 2974 28 27 654 85% 2696 22%
3 Rybka 4 x64 Exp. 42 2959 23 22 900 78% 2729 26%
4 Houdini 1.03a x64 2948 22 21 920 79% 2718 29%
5 Rybka 4 x64 2939 17 17 1520 80% 2700 29%
6 IvanHoe B49jA x64 2931 19 19 1120 77% 2730 33%
Aha, gegen die Schwächeren mehr Punkte und ca. 30 ELO hinter Houdini!
Und durchschnittlich sind es bei den Rybka 4 Exp. 42 / 61 Settings 20 ELO + zu Rybka 4 Default.
Also, alle Partien der R4 Exp. 61 Gegner über Shredder 12, also die TOP-7 wurden einfach herausgenommen!
Und abschließend noch eine
dritte Berechnung:
Ich lösche die Taktiker
Stockfish 1.9.1 x64 /
Spark 1.0 x64 /
Hannibal 1.0a x64 bei den Rybka 4 x64 Exp. 61 Partien einfach weg ...
Code:
Rank Name Elo + - games score oppo. draws
1 Houdini 1.5 x64 3005 22 21 1035 82% 2749 26%
2 Rybka 4 x64 Exp. 61 2975 25 24 761 80% 2739 26%
3 Rybka 4 x64 Exp. 42 2959 23 22 900 78% 2729 26%
4 Houdini 1.03a x64 2948 22 21 920 79% 2718 29%
5 Rybka 4 x64 2939 17 17 1520 80% 2700 29%
6 IvanHoe B49jA x64 2932 19 18 1155 76% 2737 33%
Stellen wir die daraus resultierenden logische Thesen auf um das Thema zu einem Abschluss zu bekommen:
These 1:Die Rybka 4 Exp. 42 / 61 Settings spielen aggressiver. Das hatte ich schon vor ca. 2 Monaten hier beschrieben. Diese Spielweise führt gerade gegen Taktiker zu schwächeren Ergebnissen.
These 2:Die Rybka 4 Exp. 42 / 61 Settings spielen gegen schwächere Engines bessser. Aufgrund der hohen Grundspieltstärke ist das eigentlich auch klar. Die schwächeren haben durch aggressives Spiel noch mehr an Rybka 4 zu knabbern und verlieren noch mehr Punkte im direkten Vergleich.
These 3:Es ist immer wichtig gegen viele Engines zu testen. Eine willkürliche Auswahl aus den TOP-26 wird das Ergebnis beeinflussen. Z. B. wie hier im Beispiel ... ich nehme die Taktiker einfach raus.
Und letztendlich die letzte der aber schon seit Urzeiten bekannten Thesen ist ...
These 4:Ein Turnier von 3-4 Engines oder ein Engine Match sagt immer nur etwas über die Spielstärke bei diesen Vergleichen untereinander aus. Zu sagen, ich lasse die TOP-4 gegeneinander spielen und Engine 1-4 haben x ELO ist schlicht und ergreifend nicht richtig. Eine pauschale Aussage nach einem Test gegen 2-3 Engines als Gegner zu einer ELO kann nicht gezogen werden, maximal die Aussage wie groß der Abstand dieser Engines untereinander ist.
Und nochmal zu Test von Ingo ...
Ein Test gegen eine Auswahl von ein paar "Auserwählten nach gut dünken" bringt nichts.
Wenn z. b. ein Kurztest von 600 Partien, dann eher 20 Partien pro Match gegen die kompletten Engines Deiner Liste. Erst dann wird eine solche Aussage interessant.
Und zu Clemens:
Clemens, dass alles hat nichts mit Spielbedingungen zu tun wie Bedenkzeit, Ponder an oder aus.
Diese Aussage von Dir konnte ich so nicht stehen lassen!
Gruß
Frank