Not logged inCSS-Forum
Forum CSS-Online Help Search Login
CSS-Shop Impressum Datenschutz
Up Topic Hauptforen / CSS-Forum / Tests von Ivanhoe B46fa und Stockfish 111026
- - By Stefan Pohl Date 2011-11-26 08:11
Hallo zusammen,

ich habe mir gedacht, es wäre mal an der Zeit, den neuen Ivanhoe B46fA und das angeblich so tolle Stockfish-Compile 111026 (beide Engines von PeterPan compiliert, den man ja doch wohl mittlerweile als Experten fürs Compiling betrachten darf). Um trotz schnellen Blitztempos eine Vergleichsbasis zu haben, wurden die jeweiligen Vorgängerversionen (Ivanhoe 47c+ GH und Stockfish 2.1.1 JA) unter identischen Bedingungen getestet. Diese waren folgendermaßen:
LittleBlitzer GUI, je Engine 1 Core auf 2.83GHz Quad (Houdini kam auf ca. 2 Millionen Kn/s), 128 MB Hash, keine TBs, keine Bücher, je 50 Vorgabestellungen (manuell herausgefiltert aus der exzellenten Frank Q. Datenbank - wer sich das Teil nicht downloaded ist selber schuld). Zeit: 60 Sekunden Basis + 500ms Fischer-Bonus. Gespielt wurde bis zum Matt, nur beim erreichen von  200 Zügen wurde von der GUI Remis gegeben.
Anmerken möchte ich hier für alle Benutzer der LittleBlitzer GUI: Wenn man jeder Engine nur einen Core zuweisen will, um mehrere Partien parallel laufen lassen zu können, muß man bei allen Engines im LittleBlitzer-Engine File explizit einen Core zuweisen, weil sich sonst einige Engines mehr Rechenpower nehmen, als ihnen zusteht (z.B. Rybka). Bei den meisten Engines ist das einfach das Kommando Threads=1, aber nicht bei allen. Rybka z.B. MaxThreads=1 und bei den Ivans TitanicMode=false. Um herauszufinden, welches das korrekte Kommando ist, die Engine einfach unter Arena 3.0 installieren und sich dann das Arena.ENG-Textfile ansehen, wo alle UCI-Parameter/Kommandos der Engine aufgelistet werden. So kann man auch herausfinden, wie man unter der LittleBlitzer GUI Engines mit veränderten Parametersettings spielen lassen kann. Sehr hilfreich...
Jetzt aber die Ergebnisse der Testläufe:

IvanHoe 47c+ GH   - Houdini 2.0c x64             30.0 - 70.0    +11/-51/=38    30.00%
IvanHoe 47c+ GH   - Critter 1.2 64-bit           44.0 - 56.0    +19/-31/=50    44.00%
IvanHoe 47c+ GH   - Rybka 4.1                    45.0 - 55.0    +23/-33/=44    45.00%
IvanHoe 47c+ GH   - Komodo64 3                   49.0 - 51.0    +25/-27/=48    49.00%
IvanHoe 47c+ GH   - Fire 2.2+ xTreme GH x64      52.5 - 47.5    +19/-14/=67    52.50%
IvanHoe 47c+ GH   - Stockfish 2.1.1 JA 64bit     63.5 - 36.5    +44/-17/=39    63.50%
IvanHoe 47c+ GH   - Stockfish 111026 64bit       51.5 - 48.5    +28/-25/=47    51.50%

Total: 335.5 von 700 = 47.93%

Ivanhoe B46fa x64   - Houdini 2.0c x64             34.5 - 65.5    +12/-43/=45    34.50%
Ivanhoe B46fa x64   - Critter 1.2 64-bit           42.0 - 58.0    +17/-33/=50    42.00%
Ivanhoe B46fa x64   - Rybka 4.1                    54.0 - 46.0    +29/-21/=50    54.00%
Ivanhoe B46fa x64   - Komodo64 3                   63.0 - 37.0    +44/-18/=38    63.00%
Ivanhoe B46fa x64   - Fire 2.2+ xTreme GH x64      51.5 - 48.5    +22/-19/=59    51.50%
Ivanhoe B46fa x64   - Stockfish 2.1.1 JA 64bit     57.0 - 43.0    +37/-23/=40    57.00%
Ivanhoe B46fa x64   - Stockfish 111026 64bit       45.0 - 55.0    +25/-35/=40    45.00%

Total: 347 von 700 = 49.57% (ca. +12 Elo besser)

Das ist insgesamt nicht sehr berauschend, aber auf diesem Niveau sind auch 12 Elo nicht zu verachten. Gegen Rybka, Komodo und Houdini ging es aber deutlich aufwärts. Auf jeden Fall ein - wenn auch kleiner - Schritt vorwärts.
Hier nun die Ergebnisse von Stockfish:

Stockfish 2.1.1 JA 64bit   - Houdini 2.0c x64             32.0 - 68.0    +15/-51/=34    32.00%
Stockfish 2.1.1 JA 64bit   - Critter 1.2 64-bit           42.0 - 58.0    +22/-38/=40    42.00%
Stockfish 2.1.1 JA 64bit   - Rybka 4.1                    48.0 - 52.0    +31/-35/=34    48.00%
Stockfish 2.1.1 JA 64bit   - Komodo64 3                   44.0 - 56.0    +23/-35/=42    44.00%
Stockfish 2.1.1 JA 64bit   - IvanHoe 47c+ GH              36.5 - 63.5    +17/-44/=39    36.50%
Stockfish 2.1.1 JA 64bit   - Ivanhoe B46fa x64            43.0 - 57.0    +23/-37/=40    43.00%
Stockfish 2.1.1 JA 64bit   - Fire 2.2+ xTreme GH x64      45.0 - 55.0    +23/-33/=44    45.00%

Total: 290.5 von 700 = 41.5%

Stockfish 111026 64bit   - Houdini 2.0c x64             40.5 - 59.5    +20/-39/=41    40.50%
Stockfish 111026 64bit   - Critter 1.2 64-bit           43.0 - 57.0    +24/-38/=38    43.00%
Stockfish 111026 64bit   - Rybka 4.1                    44.0 - 56.0    +26/-38/=36    44.00%
Stockfish 111026 64bit   - Komodo64 3                   48.5 - 51.5    +34/-37/=29    48.50%
Stockfish 111026 64bit   - IvanHoe 47c+ GH              48.5 - 51.5    +25/-28/=47    48.50%
Stockfish 111026 64bit   - Ivanhoe B46fa x64            55.0 - 45.0    +35/-25/=40    55.00%
Stockfish 111026 64bit   - Fire 2.2+ xTreme GH x64      60.0 - 40.0    +39/-19/=42    60.00%

Total: 339.5 von 700 = 48.5% (ca. 50 Elo besser !)

Dieses Ergebnis hat mich doch sehr überrascht. Ich dachte, es würden - wenn überhaupt - nur minimal bessere Ergebnisse herauskommen, aber bis auf Rybka ging es gegen alle anderen deutlich aufwärts und 40.5% gegen die Über-Engine und den Super-Blitzer Houdini sind schlicht sensationell. Dieses Compilat ist m.E. der größte Schritt vorwärts, den Stockfisch seit langem gemacht hat.

Diese super Version meiner allerliebsten Engine muß einfach in die großen Ranglisten!!! Ingo, Frank und Wolfgang: haut rein...

Grüße an alle Stefan.
Parent - - By Ingo Bauer Date 2011-11-26 08:36 Edited 2011-11-26 08:42
Moin Moin,

[quote="Stefan Pohl"]
...
Diese super Version meiner allerliebsten Engine muß einfach in die großen Ranglisten!!! Ingo, Frank und Wolfgang: haut rein...
..
[/quote]

Ahh, ich wußte das ich nur warten muss.

Darf ich dich an dieses Posting eines Stockfishautoren und meine Antwort darauf verweisen:

http://www.talkchess.com/forum/viewtopic.php?topic_view=threads&p=432304&t=41020



Gruß
Ingo
Parent - By Benno Hartwig Date 2011-12-12 14:41 Edited 2011-12-12 14:49
...bitte wieder löschen, war Quark...
Benno
Parent - - By Frank Brenner Date 2011-11-26 11:49
Hi Stefan

danke für die vielen Tests. Das ist alles sehr Interessant. Handelt es sich bei "Stockfish-Compile 111026" lediglich um eine neue Compilierung von "Stockfish 2.1.1 JA" oder ist das auch eine ganz neue und veränderter Code ?

Wo ich noch hinterher  hinke: Du hattest doch vor einigen Wochen ein sehr gutes Setting für Houdini gefunden. Soweit ich das mitbekommen habe hast du das Testsetting auch mal verändert und
auch bei der Veränderung hat sich eine ähnliche Verbesserung ergeben. Bist da noch weiter am Testen ? Z.B mit anderen Engines und etwas höheren Bedenkzeiten ?

Die Sache ist die: Wenn dein Setting wirklich 50-60 Elo besser ist, dann ist das eine wirklich anerkennenswerte Sensation.  Die übliche (und seriöseste) Vorgehensweise ist dann,  dass du selber versuchst dein Setting zu widerlegen ... Schaffst du es nicht , dann sind es wahrscheinlich tatsächlich 50-60 ELO. Toll wären auch "echte" 40 ELO.

Ich bin zwar nicht Ingo Bauer, aber in dem Fall würde ich empfehlen das Setting auch extern zu testen zu lassen.

Gruß Frank
Parent - By Stefan Pohl Date 2011-11-26 12:58
[quote="Frank Brenner"]
Hi Stefan

danke für die vielen Tests. Das ist alles sehr Interessant. Handelt es sich bei "Stockfish-Compile 111026" lediglich um eine neue Compilierung von "Stockfish 2.1.1 JA" oder ist das auch eine ganz neue und veränderter Code ?

Wo ich noch hinterher  hinke: Du hattest doch vor einigen Wochen ein sehr gutes Setting für Houdini gefunden. Soweit ich das mitbekommen habe hast du das Testsetting auch mal verändert und
auch bei der Veränderung hat sich eine ähnliche Verbesserung ergeben. Bist da noch weiter am Testen ? Z.B mit anderen Engines und etwas höheren Bedenkzeiten ?

Die Sache ist die: Wenn dein Setting wirklich 50-60 Elo besser ist, dann ist das eine wirklich anerkennenswerte Sensation.  Die übliche (und seriöseste) Vorgehensweise ist dann,  dass du selber versuchst dein Setting zu widerlegen ... Schaffst du es nicht , dann sind es wahrscheinlich tatsächlich 50-60 ELO. Toll wären auch "echte" 40 ELO.

Ich bin zwar nicht Ingo Bauer, aber in dem Fall würde ich empfehlen das Setting auch extern zu testen zu lassen.

Gruß Frank
[/quote]

Zu Stockfish 111026: So wie ich das verstanden habe, ist das nicht nur ein neues Compilat, sondern schon eine Weiterentwicklung. Eine solche Steigerung ist auch nur mit einem optimierten Compilat nicht zu machen.

Zu meinem Houdini-Setting (Pohl4): 50-60 Elo mehr sind das keinesfalls. Ich habe nur mit sehr flotten Bedenkzeiten getestet, bei denen Houdini immer überproportional gut abschneidet. Gegen Houdini default waren es so ca. 52.5%, das wären so um die 15 Elo.
Unter Ranglisten-Testbedingungen (Ipon, SWCR) ist m.E. nicht mal sicher, ob es überhaupt signifikant besser spielt, als die Default-Version. Aber es spielt etwas aggressiver und interessanter, weil es gern asymmetrisch abtauscht.
Aber Frank Q. will das Setting wahrscheinlich irgendwann mal in der SWCR richtig testen, falls er mit der SWCR weitermacht, was wir alle nur hoffen können.
Dann weißt Du es genau.

Gruß - Stefan
Parent - - By Michael Scheidl Date 2011-11-26 12:31
Ist Stockfish 111026 schneller oder stärker als Version 111031? Das spätere Erscheinen spricht eigentlich für letztere...

Als diese div. Versionen erschienen, habe ich einige ausprobiert, allerdings habe ich ein eher untypisches "low tech" System:

http://forum.computerschach.de/cgi-bin/mwf/topic_show.pl?pid=43546

111031 ist jedenfalls bei mir klar schneller als die Stammversion 2.1.1; wobei mir bewußt ist daß schneller nicht unbedingt stärker heißt. Aber wenn nur die Suche verbessert und sonst nichts verschlimmbessert wurde, dann wohl schon.
Parent - By Michael Scheidl Date 2011-11-26 12:43
Ich möchte den letzten Absatz präzisieren:

111031 ist jedenfalls in einer Eröffnungsstellung bei mir klar schneller als die Stammversion 2.1.1; wobei mir bewußt ist daß schneller nicht unbedingt stärker heißt. Aber wenn nur die Suche verbessert und sonst nichts verschlimmbessert wurde, dann wohl schon. Im Endspiel scheint V2.1.1 am schnellsten zu bleiben, wobei sich jedoch in schwierigen tablebase-nahen Positionen m.E. die GTB-Version (mit Gaviota-Zugriff) trotzdem für die Analyse anbietet.
Parent - By Stefan Pohl Date 2011-11-26 13:02
[quote="Michael Scheidl"]
Ist Stockfish 111026 schneller oder stärker als Version 111031? Das spätere Erscheinen spricht eigentlich für letztere...

[/quote]

Nicht unbedingt. Zumindest die 111030 Version war bei PeterPans eigenen Schnelltests gegen die 111026er deutlich unterlegen.
So wie ich das verstanden habe, sind es wohl experimentelle Code-Modifikationen der Original-Autoren, die sie zwar online stellen, aber selber (noch) nicht als offizielles Compilat rausbringen wollen. Da kann es schon sein, daß spätere Code-Versionen auch mal schwächer sind...

Gruß - Stefan
Parent - By Frank Quisinsky Date 2011-11-26 12:36
Hallo Stefan,

ja, ich kann bestätigen das diese SF Version sehr stark ist. Habe auf meinen Testrechnern Testpartien spielen lassen und kam auf ca. 25-30 ELO zu der 2.1.1 PHQ Version. Genau nach 400 Partien waren es dann 2.972 ELO. Nur ist die Entwicklung dieser Version ja nicht abgeschlossen. Ingo fragte ich TalkChess und der Programmierer sendete eine interessante Antwort. Bei Stockfish warte ich auf eine Release Version, so auch bei Komodo, Critter etc. Die werden alle sehr knapp an Houdini kommen oder gar drüber springen. Das wird richtig spannend aber ich teste das erst im nächsten Jahr. Mein Prio habe ich ja in meinem News-Ticker beschrieben.

Aber, wie immer ...
Ein sehr guter Test von Dir !!

Hoffe jetzt mal das Houdini 2.0c x64 vernünftig läuft. Ist dem so, dann könnte ich Dein Setting nachschieben. Alles der Reihe nach

Viele Grüße und ein schönes WE!

Gruß
Frank im Korrektur-Wahn
Parent - - By Benno Hartwig Date 2011-12-12 14:19
Ist 'Stockfish 111026 64bit' eigentlich 'nur' ein neuer Compile?
Dann sollte sich ein Geschwindigkeitsgewinn ja relativ einfach messen lassen.
+ 50 ELO würde zu erwarten sein, wenn die Auführungsgeschwindigkeit um mehr als 50% gesteigert würde.
Dass das durch super-optimiertes Compile gelingen kann, bezweifele ich mal spontan.

Ist die Stockfish-Logik mit der 111026 doch noch mal ein gutes Stück weit verbessert worden?

Benno
Parent - - By Benno Hartwig Date 2011-12-12 14:51
Sorry, ich war nicht im Film.
Stefan erklärte mir nun, woher die 111026-Sourcen kamen.
http://forum.computerschach.de/cgi-bin/mwf/topic_show.pl?pid=45047#pid45047
Benno
Parent - - By Benno Hartwig Date 2011-12-14 13:45
Als ich noch nicht wusste, dass 111026 nur das Compile einer Vorabversion war, warf ich die Engine einfach mal in ein 1m+1s-Turnier, welches ich vorher bereits durchführen ließ. Und ich habe es dann weiterlaufen lassen.
Heraus kam:

Code:
    Program                          Elo    +   -   Games   Score   Av.Op.  Draws

  1 Houdini_15a_w32                : 2448   25  25   429    58.0 %   2392   43.8 %
  2 Houdini_15a_w32_Pohl4          : 2438   26  26   429    56.3 %   2394   38.9 %
  3 Houdini_15a_w32_2.0b           : 2437   25  25   429    56.1 %   2394   41.3 %
  4 Critter_1.2_32bit              : 2420   23  23   428    53.3 %   2397   50.5 %
  5 StockFish 111026 XP x32        : 2369   25  25   428    44.7 %   2405   42.8 %
  6 Stockfish-211-32-ja            : 2354   25  25   428    42.4 %   2408   42.3 %
  7 Deep Rybka 4.1 w32             : 2334   26  26   429    39.2 %   2411   38.7 %


Seinerzeit wollte ich gern die Houdini-Versionen vergleichen können. Dass hier jetzt so viele Houdinis vertreten sind, mag stören, andererseits wird jeder, der in der Freien Wildbahn mit seiner Engine gegen andere antritt, auch diverse Houdinis als Gegner haben.
Die hier erspielten +15 ELOwären nett, sie wären aber wohl nicht so der richtige Knaller.

Benno
Parent - By Benno Hartwig Date 2011-12-19 12:44
Ich habe das Turnier über das Wochenende weiterlaufen lassen. Nun steht es:

Code:
    Program                          Elo    +   -   Games   Score   Av.Op.  Draws  
  1 Houdini_15a_w32_Pohl4          : 2442   19  19   753    57.0 %   2393   40.8 %
  2 Houdini_15a_w32                : 2441   19  18   752    56.9 %   2393   44.7 %
  3 Houdini_15a_w32_2.0b           : 2439   19  19   752    56.4 %   2394   42.4 %
  4 Critter_1.2_32bit              : 2414   18  18   752    52.3 %   2398   49.6 %
  5 StockFish 111026 XP x32        : 2370   18  18   752    44.9 %   2405   44.9 %
  6 Stockfish-211-32-ja            : 2358   19  19   752    43.0 %   2407   43.6 %
  7 Deep Rybka 4.1 w32             : 2336   19  19   753    39.4 %   2411   39.7 %

Ich bin gespannt, ob die nächste Stockfish-Version tatsächlich einen größeren Spielstärkesprung erreichen kann.
Hier zeichnet sich sowas noch nicht recht ab.
(Nebenbei: Pohl4 hat sich nun hauchzart nach vorn geschoben)

Benno
Up Topic Hauptforen / CSS-Forum / Tests von Ivanhoe B46fa und Stockfish 111026

Powered by mwForum 2.29.3 © 1999-2014 Markus Wichitill