Können Ranglisten vergleichen werden

By Thomas Date 2012-07-27 09:27

Hallo Herr Pohl und alle Computerschachinteressierte, bin neu im Computerschach. Habe seit der WM wo ich als Kiebitz Houdini 2.0c sah mich für diese Engine zu interessieren begonnen, früher war ja Rybka die Überengine. Teste seit dieser Zeit mit der Little blitzer gui. Vergleiche verschiedener Ranglisten sind doch eher irreführend für "Neulinge" im Computerschach. Halte mich mit Vorbehalt auch an Light Speed Rangliste, Ipon, SCCT. Ich weiß: Man kann Ranglisten nicht bedingungslos vergleichen. Verschiedene Hardware, Eröffnungssets/Bücher, wie z.B. in der SCCT üblich, Verwendung von 1,4,6 Cores, Ponder on/off, Bedenkzeit. Aber es ergeben sich doch recht gute Anhaltspunkte.
Jetzt meine Frage an Herrn Pohl, außer ich darf du sagen. Im Komodo 5 LS Test haben Sie den Parameter move overhead milliseconds auf 0 gestellt (default ist 10), bei Komdo4 default 20. Haben Sie im Komodo 4 Test auch auf 0 gestellt, ansonsten würde der Vergleich der 4er und 5er ja nicht korrekt sein. Stockfish hat ja auch den (def. 200, könnte man ja auf wie empfohlen auf 10 stellen oder am Parameter Minimum Thinking Time drehen, def 20 , damit die Engine schneller zieht) Ich hoffe ich liege hier richtig. Was ja insgesamt nicht heißen will, dass die Qualität dann besser ist. Eine 2.Frage: Wie kann ich mir die hohe Elo Performance erklären:
1 Houdini 2.0c x64    3119 5 6 9000   63% 3025   41%
   2 Strelka 5.5 x64 3077 5 5 9000   57% 3030   49% (singlecore)
   3 Critter 1.6a x64    3067 5 5 9000   55% 3031   50%
   4 Komodo 5 x64    3053 5 6 9000   53% 3033   41% (singlecore)
   5 Ivanhoe 46h x64 3027 5 5 9000   49% 3036   53% (best open source)
   6 Robbolito 0.10 x64s 3025 5 5 9000   48% 3036   53%
   7 Rybka 4.1 x64s    3012 5 5 9000   46% 3037   43%
   8 Robbolito 0.085g3 x64 3000 5 5 9000   44% 3039   50% (singlecore)(Ippolit 2009)
   9 Saros 3.0 x64 2994 5 5 9000   44% 3039   45%
10 Stockfish 2.2.2 x64s   2973 6 5 9000   41% 3041   40%
   Houdini 2.0c 3119
   Komodo 5    3.053
z.b: Ipon: Houdini2.0 STD 3.022
   Komodo5    3.011
Frage 3: Kann mann Listen überhaupt gründsätzlich vergleichen
Wäre dankbar über Aufklärung nicht nur von dir, bin über jede Antwort von jedem Computerschachinteressierten/Experten dankbar

Wie benutze ich Bayeselo richtig und wie fixe ich eine Engine auf eine bestimmte Elozahl. Du fixt deine LS Rangliste ja mit Robbolito 0.085g3 x64 mit 3000 Elo.

Beste Grüße
Thomas Schönegger

By Thomas Schoenegger Date 2012-07-27 11:53

Ergänzung: meinte natürlich Slow mover default 2oo, ist irgentwie untergegangen
Thomas Schönegger

By Stefan Pohl Date 2012-07-27 15:38

[quote="Thomas"]
Im Komodo 5 LS Test haben Sie den Parameter move overhead milliseconds auf 0 gestellt (default ist 10), bei Komdo4 default 20. Haben Sie im Komodo 4 Test auch auf 0 gestellt, ansonsten würde der Vergleich der 4er und 5er ja nicht korrekt sein. Stockfish hat ja auch den (def. 200, könnte man ja auf wie empfohlen auf 10 stellen oder am Parameter Minimum Thinking Time drehen, def 20 , damit die Engine schneller zieht) Ich hoffe ich liege hier richtig. Was ja insgesamt nicht heißen will, dass die Qualität dann besser ist. Eine 2.Frage: Wie kann ich mir die hohe Elo Performance erklären:
1 Houdini 2.0c x64    3119 5 6 9000   63% 3025   41%
   2 Strelka 5.5 x64 3077 5 5 9000   57% 3030   49% (singlecore)
   3 Critter 1.6a x64    3067 5 5 9000   55% 3031   50%
   4 Komodo 5 x64    3053 5 6 9000   53% 3033   41% (singlecore)
   5 Ivanhoe 46h x64 3027 5 5 9000   49% 3036   53% (best open source)
   6 Robbolito 0.10 x64s 3025 5 5 9000   48% 3036   53%
   7 Rybka 4.1 x64s    3012 5 5 9000   46% 3037   43%
   8 Robbolito 0.085g3 x64 3000 5 5 9000   44% 3039   50% (singlecore)(Ippolit 2009)
   9 Saros 3.0 x64 2994 5 5 9000   44% 3039   45%
10 Stockfish 2.2.2 x64s   2973 6 5 9000   41% 3041   40%
   Houdini 2.0c 3119
   Komodo 5    3.053
z.b: Ipon: Houdini2.0 STD 3.022
   Komodo5    3.011
Frage 3: Kann mann Listen überhaupt gründsätzlich vergleichen
Wäre dankbar über Aufklärung nicht nur von dir, bin über jede Antwort von jedem Computerschachinteressierten/Experten dankbar

Wie benutze ich Bayeselo richtig und wie fixe ich eine Engine auf eine bestimmte Elozahl. Du fixt deine LS Rangliste ja mit Robbolito 0.085g3 x64 mit 3000 Elo.

Beste Grüße
Thomas Schönegger
[/quote]

Hallo,

kurz (wenig Zeit):
1. Ich hatte den Parameter move overhead bei Komodo 4 auch auf 0 gestellt, das aber leider vergessen zu posten. Stockfish hat diesen Parameter nicht, der Slow Mover ist dafür da, den Bedenkzeitverbrauch insgesamt zu drosseln oder zu erhöhen (Slow Mover=85 heißt, daß Stockfish nur noch 85% so viel Zeit verbraucht, wie bei 100%. Bei meinen Tests ist dieser auf default=100), während der move overhead bei Komodo einfach ein offset ist, um GUI-Lags auszugleichen. 20ms mehr oder weniger Zeit (in meinem Komodo-Tests) macht aber auch nicht viel aus. Die durchschnittliche Bedenkzeit pro Zug liegt so bei etwas über 400ms. Es geht hier also nur um 5% mehr Rechenzeit. Das ist in ELO praktisch nicht meßbar.
2. Die hohe Eloperformance im Bullet von Houdini 2 ist ein Phänomen. Warum Houdini 2 hier überproportional gut abschneidet (auch im Vergleich zu Houdini 1.5a) kann nur der Autor beantworten. Falls sich die Frage darauf bezieht, warum die Elozahlen in meiner Liste insgesamt höher sind als z.B. in der IPON, so hat das nur den Grund, daß ich den Ur-Ippolit von 2009 (Robbolito 0.085g3) rein willkürlich auf 3000 Elo gefixt habe, einfach weil man dann alle Fortschritte von diesem Fixpunkt nach oben einfach ablesen kann, da 3000 eine schöne, runde Zahl ist. Da die Elozahlen sowieso rein virtuell sind und sich nicht mit menschlichen vergleichen lassen, ist es eigentlich ziemlich beliebig, welchen offset man setzt. Daher habe ich mich für einen sehr übersichtlichen, runden Wert entschieden.
3. Nein, das sollte man lieber lassen. Jedes Ergebnis jeder Engine in einer Liste entsteht immer unter den "Umweltbedingungen" der jeweiligen Liste, was Hardware, Bedenkzeit, Vorgabestellungen etc. einschließt.
4. Bei bayeselo gibt es den Befehl "offset". Bevor man sich die ratings mit dem "ratings"-Befehl ausgeben läßt gibt man z.B. "offset 3000 Robbolito 0.085g3 x64" ein. Eine Befehlssequenz nach dem Start von bayeselo ist z.B:
ResultSet>readpgn partien.pgn
37 game(s) loaded, 0 game(s) with unknown result ignored.
ResultSet>elo
ResultSet-EloRating>mm 0 1
Iteration 100: 1.60455e-005
00:00:00,00
ResultSet-EloRating>exactdist
00:00:00,04
ResultSet-EloRating>offset 3000 Robbolito 0.085g3 x64
ResultSet-EloRating>ratings >rangliste.txt

Gruß - Stefan

By Thomas Schoenegger Date 2012-07-27 16:25

Danke dir für die ausführliche Erklärung. Es soll ja Houdini 3 erscheinen, dann werde ich mir diese kaufen. Es ist recht interessant selbst bei großen Events Kiebitze neben der wahrscheinlich besten Engine laufen zu lassen. Komodo oder Stockfish, vielleicht den neuen Shredder, wenn er denn kommt, nur um zu sehen wie diese die Stellung/Varianten beurteilen und natürlich als Partienanalysen post mortem (sagt man doch so).

Danke Grüße
Thomas Schönegger

By Chess Player Date 2012-07-29 10:30

Nein, denn man kann nur Gleiches miteinander vergleichen! Sprich Currywurst - Currywurst!

By Benno Hartwig Date 2012-07-29 14:32

[quote="Chess Player"]Nein, denn man kann nur Gleiches miteinander vergleichen! Sprich Currywurst - Currywurst!

[/quote]Heißt 'vergleichen' nciht auch, die Unterschiede erkennen?
Insofern finde ich gerade den Vergleich von Ranglisten mit unterschiedlichen Rahmenbedingungen interessant (z.B. kurze Zeiten - lange Zeiten. oder: 1 Kern - 4 Kerne. oder: ohne pomdern - mit pondern).
Nur darf mann nicht unbedingt 'gleichsetzen' wollen.

Benno

By Chess Player Date 2012-07-29 15:53

Um bei der Wurst zu bleiben: eine Currywurst ist keine Bratwurst, obwohl die Würste vom selben Hersteller angefertigt wurden

By Benno Hartwig Date 2012-07-29 18:29

[quote="Chess Player"]Um bei der Wurst zu bleiben: eine Currywurst ist keine Bratwurst, obwohl die Würste vom selben Hersteller angefertigt wurden [/quote]Stimmt, aber man Dicke, Länge, Fettgehalt, Kaloriengehalt, Gewürzbeimengung etc. ganz wunderbar vergleichen. Es sollte nur eben keiner sagen "Wurst ist Wurst".
Das sollte man eben auch bei den Ranglisten beachten.
Benno