IvanHoe63ModB3 D.Esser-Test mit mehr Bedenkzeit wiederholt

By Stefan Pohl Date 2010-05-03 13:39

Hallo zusammen,

da ich zufälligerweise die gleiche Hardware wie Dieter Esser habe, der ja hier vor kurzem Ivanhoe63ModB3 sehr gründlich getestet hat, habe ich seinen Wettkampf gegen die 4 besten Engines mit einer etwas längeren Bedenkzeit wiederholt, um mal zu sehen, ob sich das herausragende Ergebnis auch mit mehr Bedenkzeit wiederholen läßt. Das Ergebnis ist erstaunlich:
Während IvanHoe den Score gegen Firebird und Naum halten bwz. sogar leicht steigern konnte, gab es schwere Einbrüche gegen Stockfish und Rybka (s.u.). Die in allen 4 Wettkämpfen leicht gesteigerte Remisquote war hingegen zu erwarten, weil die schachliche Qualität mit mehr Rechenzeit eben generell besser wird.

Hardware: Intel Quad 9550 @ 2,83GHz
Betriebssystem: Windows Vista 64bit / SP2
ChessGui: Fritz 12
Testset: Nunn2
Bedenkzeit: 2' + 1" bzw. 3' + 3''
Hash:    512 Mb / 1024 MB
Endspiel:    RobboTripleBase + RobboTotalBase + Nalimov
Ponder:    nein
Cores: as much as possible

Ivan63ModB3 mit 2'+1'' gegen:

FireBird 1.2 x64 : 50 (+ 13,= 32,- 5), 58.0 %
Naum 4.2 : 50 (+ 18,= 26,- 6), 62.0 %
Stockfish 1.7 JA 64bit    : 50 (+ 19,= 25,- 6), 63.0 %
Rybka 3    : 50 (+ 17,= 31,- 2), 65.0 %

Ivan63ModB3 mit 3'+3'' (alle 1024 MB Hash) gegen:

FireBird 1.2 x64 : 50 (+ 11,= 36,- 3), 58.0 %
Naum 4.2 : 50 (+ 18,= 28,- 4), 64.0 %
Stockfish 1.7 JA 64bit : 50 (+ 8,= 35,- 7), 51.0 % (!)
Rybka 3 : 50 (+ 7,= 34,- 9), 48.0 % (!!)

Gruß - Stefan

P.S: Wer noch Zeit zum Testen hat, bevor die neuen Versionen von Firebird, Ivanhoe und vor allem Rybka kommen, sollte mal Firebird 1.2 mit SMR-Scaling AN testen (sonst alle Parameter auf default). Bei 3'+3'' haben kurze, nicht sehr aussagefähige Tests meinerseits erhebliche Steigerungen vor allem gegen IvanHoe und Stockfish ergeben...Bei kürzeren Bedenkzeiten als 3'+3'' auf Quad sah es hingegen nicht so gut aus.

By Ingo Bauer Date 2010-05-03 14:29

Hi

[quote="Stefan Pohl"]
....
Ivan63ModB3 mit 2'+1'' gegen:

FireBird 1.2 x64 : 50 (+ 13,= 32,- 5), 58.0 %
Naum 4.2 : 50 (+ 18,= 26,- 6), 62.0 %
Stockfish 1.7 JA 64bit : 50 (+ 19,= 25,- 6), 63.0 %
Rybka 3 : 50 (+ 17,= 31,- 2), 65.0 %

Ivan63ModB3 mit 3'+3'' (alle 1024 MB Hash) gegen:

FireBird 1.2 x64 : 50 (+ 11,= 36,- 3), 58.0 %
Naum 4.2 : 50 (+ 18,= 28,- 4), 64.0 %
Stockfish 1.7 JA 64bit : 50 (+ 8,= 35,- 7), 51.0 % (!)
Rybka 3 : 50 (+ 7,= 34,- 9), 48.0 % (!!)
...
[/quote]

Sorry, aber aus statistischer Sicht so ziemlich alles falsch gemacht was man falsch machen kann.

1. Einzelergebnisse kann man nicht vergleichen.
2. 50 Serien erst recht nicht (nicht mal 100er!)
3. Nur Gesammtergebnisse vergleichen.
4. 200 Spiele für eine statistische Auswertung zu benutzen ist SEHR gewagt.

Zu 3.

Einmal hast du 124 Punkte und das andere mal 110.5. Das sind bei 200 Spielen also "nur" 6.75% Abweichung. So schlimm finde ich das gar nicht. 1% sind, wenn ich mich so recht erinnere, 6 Elo (kann zu Hause nachsehen) das heist du hast einen Verlust von ~40 Elo. Wenn ich sehe wie sich Engine bei mir manchmal zw. 200 und 400 Spielen mal 80 Elo rauf oder runter arbeiten und bei 800 womöglich wieder auf dem ursprünglichen Wert sind ... Da dein 2+1 und 3+3 nicht so weit voneinander entfernt sind gehe ich eher mal davon aus das 200 Spiele viel zu wenig sind als das da irgendein Einfluß der längeren Bedenkzeit wäre. Sprich - was du nachgewiesen hast ist alles im Rahmen des statistischen Rauschens!

Dann auch noch MP und kurze Serien ... Es könnte sein das bei einer Wiederholung dieser 50er Serien du andere Ergebnisse bekommst.

Zu guter letzt noch die Frage ob man so ähnliche Engine überhaupt gegeneinander spielen lassen soll, oder ob damit nicht kleine Schwächen einer Engine sehr verstärkt werden ... wie viele deiner 4 Gegner gewisse Ähnlichkeiten mit Ivan besitzen weißt du selber.

Ingo

By Frank Quisinsky Date 2010-05-03 15:00 Edited 2010-05-03 15:04

Hi Ingo,

Deine Mühe in Ehren

Füge hinzu:
Wenn schon Ergebnisse mit unterschiedlichen Zeitkontrollen verglichen werden dann bitte auch solche wo es wirklich zu unterschieden kommt.

Interessant ist die Frage wo die Schwelle liegt.

Denke:

Stufe 1: Blitz und deren verschiedenen Zeitkontrollen (Ergebnisse vergleichbar, bzw. sind gar nicht vergleichbar ... die vielen Listen bringen zu viele unterschiedliche Ergebnisse zu Tage).
Stufe 2: Partien die 15 - 60 Minuten laufen (Ergebnisse vergleichbar, offenbar sind die Ergebnisse besser vergleichbar).
Stufe 3: Partien die ca. ab 60 Minuten aufwärts laufen (gibt kaum Erfahrungswerte).

Bei dieser Stufeneinteilung stellt sich natürlich die Frage, ob das was wir vor 5 Jahren getrieben haben überhaupt aussagekräftig war

Ich weiß es ehrlich gesagt nicht.
Die Wahrheit liegt vielleicht in der Mitte.

Aber der Zeitvergleich, wie jetzt in dem Beispiel von Stefan ist leider keiner!
Ob Partie in einer Minute, zwei Minuten oder drei Minuten ... was spielt das für eine Rolle ... siehe die vielen Unterschiede zu Blitzratinglisten untereinander (Kaffeesatz lesen).

Ingo, die vielen User haben auch nicht die vielen Rechner oder Testmöglichkeiten die Du jetzt z. B. hast. Die wissen dann auch gar nicht wovon Du eigentlich redest. Die würden es wissen wenn sie die Erfahrungswerte hätten bzw. sich mit den vielen geschrieben Informationen wirklich mal näher beschäftigen würden.

Ich finde z. b. den Test von Swami ganz gut. Hier kann dann mit einem PC offenbar schon ein interessantes Ergebnis erzeugt werden. Es wäre genial, wenn jeder mit nur einem PC schnell ein gutes und aussagekräftiges Ergebnis produzieren könnte. Die Ratinglisten sind da eher ein abschreckendes Beispiel, denn zu viel Hardware und Zeit ist notwendig. Auch wenn das alles richtig ist was Du schreibst. Was wir treiben dauert einfach zu lange, auch wenn das Ergebnis gut ist.

Muss einfacher gehen ...
Mit schnellen Blitzpartien geht das meines Erachtens nicht!

Gruß
Frank

By Ingo Bauer Date 2010-05-03 17:07

Hallo Frank

[quote="Frank Quisinsky"]
...
Wenn schon Ergebnisse mit unterschiedlichen Zeitkontrollen verglichen werden dann bitte auch solche wo es wirklich zu unterschieden kommt.
Interessant ist die Frage wo die Schwelle liegt.
[/quote]

Das ist eine sehr interessante Frage. Die Stockfishentwickler sind bei Ultrakurzen Testbedenkzeiten davon ausgegangen das die 1.7 ungefähr so stark ist wie die 1.6.3 ... da lagen sie daneben. Es stellt sich die Frage ob sie mit diesen Kurzbedenkzeiten und tausenden von Partien nicht womöglich NOCH BESSERE Versionen verworfen haben ...?

[quote="Frank Quisinsky"]
...
Ingo, die vielen User haben auch nicht die vielen Rechner oder Testmöglichkeiten die Du jetzt z. B. hast...
[/quote]

Völlig klar und kein Problem. Ich habe mir halt keinen 8 Core Skulltrail oder jetzt 6-Core i7 gekauft, sondern fürs halbe Geld 3 billige Quads im Selbstbau (und das gute ist, die sind immer noch aktuell, der teure Skulltrail ist heute auch nur ein schneller Quad i7 ...

).

[quote="Frank Quisinsky"]
Die Ratinglisten sind da eher ein abschreckendes Beispiel, denn zu viel Hardware und Zeit ist notwendig. Auch wenn das alles richtig ist was Du schreibst. Was wir treiben dauert einfach zu lange, auch wenn das Ergebnis gut ist. ... Muss einfacher gehen ...
[/quote]

Wieso muß das einfacher gehen!? Das wäre zwar schön, die Dinge sind nun mal aber nicht immer einfach. Ich fahre einen Golf und erwarte auch nicht damit Formel 1 Rennen fahren zu können. Wenn man was erreichen will braucht man das richtige Werkzeug und wenn ich etwas vergleichen will muß ich das entweder auf einer ordentlichen Basis machen oder damit Leben das das Ergebniss ... sagen wir "vage" ist. Das mag gefallen oder nicht, bleibt aber eine Tatsache!

[quote="Frank Quisinsky"]
Mit schnellen Blitzpartien geht das meines Erachtens nicht!
[/quote]

Siehe mein obiges Beispiel! Ultrakurz geht sicherlich nicht, das ist auch meine Meinung aber die oben erwähnten Zeitkontrollen von 2 + 1 oder länger würde ich schon nicht mehr als "Ultrakurz" bezeichenen wollen!

Ich habe allerdings das "Gefühl" das ich bei, sagen wir mal, 1+1 deutlich mehr Spiel brauche um einen Unterschied rauszuarbeiten. 90 + 30 braucht wiederum einfach zu lange um eine vernünftige Zahl an Spielen zu erreichen. Irgendwo dazwischen liegt das Maximum an Genauigkeit bei möglichst geringem Zeitaufwand. Wo genau das liegt ... für mich im Moment bei 5 + 3

Gruß
Ingo