Not logged inCSS-Forum
Forum CSS-Online Help Search Login
CSS-Shop Impressum Datenschutz
Up Topic Hauptforen / CSS-Forum / und noch'n Ivanhoe-Test
- - By Stefan Pohl Date 2011-02-01 13:09
Hallo,

Mal wieder ein Ivanhoe-Test. Diesmal mit der aktuellsten Version von PeterPan, nämlich der 47cB x64. Diese verwendet glücklicherweise wieder die Figurenwerte der starken 49jA Version (im Gegensatz zu den älteren 47er Versionen). Das ist wichtig, weil man sie leider in den Optionen nicht mehr ändern kann und die älteren 47er Versionen bei mir in Schnelltests ganz und gar nicht überzeugen konnten. Das Gute am neuen Houdini ist, daß die Ivanhoeversionen jetzt nicht im Wochentakt rauskommen. Der Über-Enthusiasmus hat da gottseidank etwas nachgelassen. Jetzt kann man mal in Ruhe eine ausführlichen Test machen. 400 Partien mit 3'+2'' dauern nämlich gut 72 Stunden, wenn man sich nur einen PC leisten kann.

Testbedingungen: Quad 2.83GHz (8 GB RAM, Vista Home Premium 64). Tempo 3'+2'', Fritz 12 GUI (aufgeben auf spät, Remis geben auf niemals), je Engine 1 GB Hash, Nalimov 3-5-Steiner, Gaviota 3-5-Steiner auf schnellem USB-Stick, sowie die 3-5er TripleBases für Ivanhoe.
50 ausgewählte Noomen-Vorgabestellungen, keine Bücher. Pondern aus, rechnen je abwechselnd mit allen 4 Cores.
Bei meinem Quad, der langsamer als Ingos ist, aber eben mit allen 4 Cores abwechselnd rechnet, ist das gewählte Tempo 3'+2'' so, daß in Knoten pro Brettstellung gerechnet etwa IPON-Werte (ja nur 1 Core, der dafür mit Permanent Brain und ca. 35% schneller als meiner und Tempo 5'+3'') herauskommen.

IvanHoe 47cB - Houdini 1.5a 42-58 (+18 =48 -34)
IvanHoe 47cB - Rybka 4 x64 57-43 (+28 =58 -14)
IvanHoe 47cB - Stockfish 2.0.1 54.5-45.5 (+31 =47 -22)
IvanHoe 47cB - Critter 0.9 66.5-33.5 (+38 =57 -5)

Durchschnittliche Erfolgsquote in Prozent: 55%  gegen IPON-Elodurchschnitt von 2943. Daraus Eloprognose (sehr wackelig bei nur 4 Gegnern!!!) = 2978. An Houdinis Platz 1 kann der neue Ivan damit keinesfalls rütteln, aber Rybka 4 ist m.E. auf jeden Fall überholt worden. Das ist ja auch nicht soooo schlecht...

Grüße an alle - Stefan
Parent - - By Frank Quisinsky Date 2011-02-02 11:51
Hallo Stefan,

gehe davon aus, dass IvanHoe B49jA x64 in der SWCR Champions-League 2011 unter den letzten 4 kommt.
Wird sich morgen Abend entscheiden, die Runde läuft derzeit.

Werde dann auf die Version B47cB x64 updaten.
Mit Deinem letzten Tipp bin ich auch sehr gut gefahren.

Nach der Champions-League 2011 läuft dann zunächst mal die SWCR-32 mit 14 Updates. In der SWCR-32 spielen die IPP Familie engines nicht. Danach dann wieder die SWCR-64, dort spielen die Ipp Familie Engines. Bis ich dazu komme einen neuen IvanHoe zu testen werden aufgrund der vielen aufgelaufenen Updates also noch ca. 6-7 Wochen ins Land ziehen. Bis dahin gibt es sicherlich wieder einen neuen IvanHoe.

Aber in der SWCR Champions-League 2011 könnte ich die Version beim Finale einsetzen.

Vielen DANK für Deinen erneuten Testbericht!

Gruß
Frank
Parent - - By Stefan Pohl Date 2011-02-02 12:04
[quote="Frank Quisinsky"]
Hallo Stefan,

gehe davon aus, dass IvanHoe B49jA x64 in der SWCR Champions-League 2011 unter den letzten 4 kommt.
Wird sich morgen Abend entscheiden, die Runde läuft derzeit.

Werde dann auf die Version B47cB x64 updaten.
Mit Deinem letzten Tipp bin ich auch sehr gut gefahren.

Nach der Champions-League 2011 läuft dann zunächst mal die SWCR-32 mit 14 Updates. In der SWCR-32 spielen die IPP Familie engines nicht. Danach dann wieder die SWCR-64, dort spielen die Ipp Familie Engines. Bis ich dazu komme einen neuen IvanHoe zu testen werden aufgrund der vielen aufgelaufenen Updates also noch ca. 6-7 Wochen ins Land ziehen. Bis dahin gibt es sicherlich wieder einen neuen IvanHoe.

Aber in der SWCR Champions-League 2011 könnte ich die Version beim Finale einsetzen.

Vielen DANK für Deinen erneuten Testbericht!

Gruß
Frank
[/quote]

Hallo Frank,

Also ob du die Ivanversion mitten im Champions-League Turnier durch die neue ersetzen solltest?!? Ich weiß nicht recht. In einem Turnier würde ich bei der Startconfiguration bleiben...
Und was das Testen angeht: Fände ich natürlich super, wenn Du weiter in - ruhig größeren -Abständen einen Ivan in deinen Listen führen würdest. Dank Houdini hat ja die Versionsflut bei den Ivans stark abgenommen. Die Versiion, die ich hier getestet habe ist schon einige Wochen alt - also für Ivanverhältnisse uralt. Die Unterschiede zur 49jA sind m.E. auch nicht soo groß, zumal auch die Figurenwerte dieser Version verwendet wurden. Mein subjektiver Eindruck ist, daß die neue Version ein bißchen aktiver spielt und mehr Königsangriffe mit Bauernsturm wagt. Natürlich ist das immer noch kein Vergleich zu Stockfish, aber immerhin.
Sollten weitere Ivans kommen, vor allem mit niedrigerer Versionsnummer, so werde ich diese auch testen und wenn Schnelltests positiv verlaufen, so folgt dann ein richtiger Test und die Ergebnisse gibts dann hier im Forum.

Beste Grüße - Stefan
Parent - - By Frank Quisinsky Date 2011-02-03 11:28 Edited 2011-02-03 11:33
Hallo Stefan,

Updates sind ja von Runde zu Runde bei der SWCR Champions-League 2011 erlaubt.

Also ich habe auf sämtlichen anderen meiner Systeme die B47cB seit gestern morgen ein wenig getestet.
Kommt bei 40 in 8, sofern ich die Ergebnisse in die SWCR schmeißen würde (was ich nicht mache, etwas weniger Zeit und teilweise andere Hardware) auf 2.961 SWCR ELO nach 480 Partien. Also eine vermutliche Verbesserung von ca. 28 ELO zur B49jA. Es gab keinerlei Probleme. Deine Ergebnisse werden damit voll bestätigt. Insofern auch immer ganz gut wenn Du Deinen Test ins Forum postest, kann ich mich sehr gut nach richten!

IvanHoe steht nun auch im Finale und warum sollte Houdini 1.5 nicht ins Schwitzen kommen?
Werde updaten und für das Finale die Version B47cB einsetzen.

Maximale Power fürs Finale!

Gruß
Frank
Parent - - By Stefan Pohl Date 2011-02-03 12:11
[quote="Frank Quisinsky"]
Hallo Stefan,

Updates sind ja von Runde zu Runde bei der SWCR Champions-League 2011 erlaubt.

Also ich habe auf sämtlichen anderen meiner Systeme die B47cB seit gestern morgen ein wenig getestet.
Kommt bei 40 in 8, sofern ich die Ergebnisse in die SWCR schmeißen würde (was ich nicht mache, etwas weniger Zeit und teilweise andere Hardware) auf 2.961 SWCR ELO nach 480 Partien. Also eine vermutliche Verbesserung von ca. 28 ELO zur B49jA. Es gab keinerlei Probleme. Deine Ergebnisse werden damit voll bestätigt. Insofern auch immer ganz gut wenn Du Deinen Test ins Forum postest, kann ich mich sehr gut nach richten!

IvanHoe steht nun auch im Finale und warum sollte Houdini 1.5 nicht ins Schwitzen kommen?
Werde updaten und für das Finale die Version B47cB einsetzen.

Maximale Power fürs Finale!

Gruß
Frank
[/quote]

Hallo Frank,

mach das wie du willst, ist dein Turnier und sind deine Regeln. Knapp 30 Elo mehr zur 49jA hätte ich ehrlich gesagt gar nicht erwartet, wäre ja erstaunlich viel. Bin schon gespannt, wie ein vollwertiger Test bei dir enden wird - falls es bis dahin nicht schon wieder eine neue Version gibt. Allerdings ist neu ja bei Ivan nicht unbedingt besser. Wie schon erwähnt waren die anderen 47er (a,b, cA etc.) bei mir gar nicht überzeugend. Das könnte aber auch an den anderen Figurenwerten gelegen haben. Naja, jedenfalls muß man den Ivans immer erst per Schnelltest schauen, ob die neue Version was taugen könnte.

Auf jeden Fall schön zu wissen, daß die B47cB so stark ist!

Gruß - Stefan
Parent - By Frank Quisinsky Date 2011-02-03 12:20
Hallo Stefan,

wobei es ja auch nur 480 Partien waren und ich mit der Zeit minimal nach unten gegangen bin um mir diesen Überblick verschaffen zu können. Fest steht aber das die Version besser ist und wie die bislang getestete für keinerlei Probleme sorgt. Übrigens, scheint Houdini mit mehr Zeit nicht mehr so ganz überragend zu sein. Konnte bislang nur in einer von drei Turnier-Performance Berechnungen überzeugen. Aber jetzt wird die Anzahl der Partien im Finale verdoppelt und dann mal schauen ob Houdini 1.5 mit 3.000 ELO aufwarten kann. Sind ja nur Anhaltspunkte aufgrund der wenigen Partien, allerdings sind bei den extrem hohen Bedenkzeiten auch weniger Partien notwendig. Sind dennoch zu wenige aber es ja auch "nur" ein Pokal-Turnier bei dem es eigentlich mehr um die Partien selbst als um die Ergebnisse geht.

Viele Grüße
Frank
Parent - - By Ernest Bonnem Date 2011-02-02 15:19
[quote="Stefan Pohl"]Diesmal mit der aktuellsten Version von PeterPan, nämlich der 47cB x64.
IvanHoe 47cB - Rybka 4 x64 57-43 (+28 =58 -14)
[/quote]
Ach ja wunderbar!
Endlich mal ein IvanHoe, der gründlich Deep Rybka 4 schlagt!...
Also sowas muß ich gleich testen... 

Der Name der aktuellsten PeterPan Version ist eigentlich  IvanHoe B47cBx64
Meine Testbedingungen: Core 2 Duo @3GHz, XP Pro x64, Tempo 2'+1'', Fritz 11 GUI, no Ponder, Buch PB5moves.ctg
Nach 130 games, habe ich den Match abgebrochen, das Bild war klar:
DR4 x64 - IvanHoe B47cBx64 (2 cores)
+31 -28 =74  66,5-63,5  (51,15% der 130 games)


Ja, wie alle andere der "besten" Ivanhoes die ich getestet habe, ist dieser nur auf gleiche Ebene, wie Rybka 4.

Sorry Stefan!...

Nur Houdini steht klar besser als Rybka 4.
Parent - - By Stefan Pohl Date 2011-02-02 15:43
[quote="Ernest Bonnem"]
[quote="Stefan Pohl"]Diesmal mit der aktuellsten Version von PeterPan, nämlich der 47cB x64.
IvanHoe 47cB - Rybka 4 x64 57-43 (+28 =58 -14)
[/quote]
Ach ja wunderbar!
Endlich mal ein IvanHoe, der gründlich Deep Rybka 4 schlagt!...
Also sowas muß ich gleich testen... 

Der Name der aktuellsten PeterPan Version ist eigentlich  IvanHoe B47cBx64
Meine Testbedingungen: Core 2 Duo @3GHz, XP Pro x64, Tempo 2'+1'', Fritz 11 GUI, no Ponder, Buch PB5moves.ctg
Nach 130 games, habe ich den Match abgebrochen, das Bild war klar:
DR4 x64 - IvanHoe B47cBx64 (2 cores)
+31 -28 =74  66,5-63,5  (51,15% der 130 games)


Ja, wie alle andere der "besten" Ivanhoes die ich getestet habe, ist dieser nur auf gleiche Ebene, wie Rybka 4.

Sorry Stefan!...

Nur Houdini steht klar besser als Rybka 4.
[/quote]

Tja, vermutlich liegt es an der Eröffnungsvorgabe. Die Noomenstellungen decken viele Eröffnungs-Systeme ab. Spielt man mit Büchern, wie du,  landet man immer wieder in den gleichen (Sizilianisch...). In den Hauptsystemen ist Rybka schon immer sehr stark gewesen, bzw. darauf optimiert worden. Probiers auch mal mit Noomen- oder auch anderen halbwegs neutralen Vorgabestellungen, die mehr Eröffnungssysteme abdecken. Mal sehen, was dann rauskommt.

Stefan
Parent - - By Ernest Bonnem Date 2011-02-02 16:22
Was sind denn Deine "50 ausgewählte Noomen-Vorgabestellungen"?
Parent - - By Ernest Bonnem Date 2011-02-02 17:56
...meine "NoomenTestsuite2008(30).pgn hat nur 30 Stellungen (also 60 games)
Wie kriegst Du (50), (also 100 games)?
Ich kann noch 10+20 Nunn Stellungen addieren...
Parent - By Frank Rahde Date 2011-02-02 18:06
Genau auf diese Weise der Zusammenlegung der Testsuites kam ich zu meinen 50 Stellungen.

Gruß, Frank
Parent - - By Stefan Pohl Date 2011-02-03 07:42
[quote="Ernest Bonnem"]
...meine "NoomenTestsuite2008(30).pgn hat nur 30 Stellungen (also 60 games)
Wie kriegst Du (50), (also 100 games)?
Ich kann noch 10+20 Nunn Stellungen addieren...
[/quote]

Ich beziehe mich auf die originalen Noomen-Stellungen aus den 90er Jahren. Das waren 80 Stück. Aus diesen habe ich 50 ausgewählt, die ich für besonders geeignet halte:
möglichst neutrale Bewertug durch div. Engines, mehr Hauptsysteme wie Spanisch und Sizilianisch als ungewöhnliche Systeme aber eben nicht nur!. Möglichst um 10 Züge Länge der Vorgabe (nicht zu kurz, nicht zu lang) und möglichst Stellungen, aus denen die Engines durch Zugumstellung nicht in andere Stellungen der Vorgabe reinrutschen können.
Falls gewünscht, kann ich sie hier als pgn posten, das wird aber ein langes Posting...

Gruß - Stefan
Parent - By Ernest Bonnem Date 2011-02-03 18:06
OK Stefan, hier ist mein Test mit NoomenTestsuite2008(30) + Nunn I/II(30) (Nunn I ist (10), Nunn II ist (20))

DR4 x64 - IvanHoe B47cBx64 (2 cores)
+29 -32 =59  58,5-61,5  (48,5% der 120 games)
Nota: 31,5-28,5 mit Noomen, 27-33 mit Nunn

Also nichts neues, bestätigt nur mein Test Ergebnis mit dem Buch PB5moves.ctg

Gruß,
Ernest
Parent - - By Michael Scheidl Date 2011-02-03 01:15
[quote="Stefan Pohl"] Spielt man mit Büchern, wie du,  landet man immer wieder in den gleichen (Sizilianisch...). [/quote]
Genau das wollte ich verhindern. Das PB5moves.ctg beruht auf derselben "handverlesenen" Partienbasis wie die Balanced-Bücher. Mit Buchoption "normal" wird es somit ein wesentlich breiteres Repertoire als üblich, bzw. in dem Fall die Anfangszüge eines solchen, ausspielen.

Statt des PB5moves selbst kann man ein Balanced-12 oder -16.ctg nehmen und die Buchtiefe nach Wunsch begrenzen.

http://members.aon.at/computerschach/links.htm#downloads
Parent - By Ernest Bonnem Date 2011-02-03 18:11
[quote="Michael Scheidl"]Genau das wollte ich verhindern. Das PB5moves.ctg beruht auf derselben "handverlesenen" Partienbasis wie die Balanced-Bücher. Mit Buchoption "normal" wird es somit ein wesentlich breiteres Repertoire als üblich, bzw. in dem Fall die Anfangszüge eines solchen, ausspielen.[/quote]
Danke, Michael... 
Parent - - By Stefan Pohl Date 2011-02-03 07:48
Was mir noch einfällt: Ich lese bei dir nix von Triplebases. Diese (3-5er) Triplebases sind für Ivanhoe sehr wichtig. Da sie komplett ins RAM geladen werden, kann extrem schnell auf sie zugegriffen werden und das macht Ivan deshalb auch sehr, sehr früh, oft gibt es schon bei 25 Figuren auf dem Brett erste angezeigte TB-Hits. Ohne Triplebases spielt Ivan m.E. deutlich schwächer als mit. Man kann diesen Effekt keinesfalls mit den Tablebase-Zugriffen anderer Engines vergleichen, die erst viel später auf TBs zugreifen, weil sie sie von externen Speichermedien laden müssen, was selbst bei Flashmemory schneckenlangsam im Vergleich zum RAM-Zugriff ist !!!

Gruß - Stefan
Parent - By Ernest Bonnem Date 2011-02-03 18:20
[quote="Stefan Pohl"] Ohne Triplebases spielt Ivan m.E. deutlich schwächer als mit. [/quote]
m.E. !!! 
OK Stefan, ich gestehe... keine TripleBases... 
Parent - - By Ernest Bonnem Date 2011-02-04 22:47
[quote="Stefan Pohl"]Ohne Triplebases...[/quote]
Hallo Stefan,

Ich hab's doch mit Triplebases (die alten) getestet... und siehe mal!:

mit NoomenTestsuite2008(30) + Nunn I/II(30)

DR4 x64 - IvanHoe B47cBx64-RB (2 cores)
+19 -36 =65  51,5-68,5  (42,92% der 120 games)
Nota: 25-35 mit Noomen, 26,5-33,5 mit Nunn

Also Ivan kriegt jetzt 57% !!!  
Hast Du da vielleicht recht?... Da muß ich mit Triplebases weiter testen!


Nota: die Totalbases sind auch drin, sind aber nicht benützt, weil in meinem Fritz 11 GUI die Nalimov5 als Tablebases GUI wirken...
Parent - - By Stefan Pohl Date 2011-02-05 10:54
Ist ja ein erstaunliches Ergebnis, hätte ich nicht erwartet, daß es soooo viel ausmacht. Deckt sich aber natürlich sehr schön mit meinem Ergebnis (ich hatte auch 57% gegen Rybka 4!). Totalbases braucht man nicht, wenn die GUI 3-5er Nalimovs nutzt. Ich mach das bei meiner Fritz12GUI genauso...

Gruß - Stefan
Parent - - By Ernest Bonnem Date 2011-02-06 00:05
[quote="Stefan Pohl"]Ist ja ein erstaunliches Ergebnis,[/quote]
Hallo Stefan,

Also noch ein mal dasselbe, mit Triplebases.

mit NoomenTestsuite2008(30) + Nunn I/II(30)

DR4 x64 - IvanHoe B47cBx64-RB (2 cores)
+29 -28 =63  60,5-59,5 (50,42% der 120 games)
Nota: 29,5-30,5 mit Noomen, 31-29 mit Nunn

Also dieses Mal kriegt Ivan nur 49,6% !!!

Sehen wir mal, ob das alles nur Statistik Rauschen (statistical noise) ist:
Zusammen, kriegen wir 112-128 (+48 -64 =128) für Rybka, mit Standard Deviation SD = 5,3
Für nur ein 120 games sample, gibt das 56-64 (die Hälfte) mit SD = 5,3/Sqrt(2) = 3.74

Wie weit von 56 sind denn unsere individuelle Ergebnisse, 51,5 und 60,5 :
genau 4,5 oder nur 1,2 mal die SD.

Das heißt, das beide Ergebnisse wohl von Zufall kommen können.

Fazit: um zu wissen, ob IvanHoe B47cBx64-RB wirklich besser ist, als DR 4, braucht man eben viel mehr games... 

...und Einfluß oder nicht von Triplebases ist auch nicht so einfach zu beweisen...
Parent - By Stefan Pohl Date 2011-02-06 11:37
Tja, das ist eben die Crux im Computerschach. Aber leider kann unsereins mit nur einem PC solche Schwankungen nur mit riesen Zeitaufwand reduzieren. Leider ist aber so, daß wenn man seine Heiligkeit den König von Ipon mal darauf anspricht, Stockfish mit TripleBases über seinen Testpacour zu jagen, nur verbal eins auf den Deckel kriegt. Dabei liegen dort große Datenmengen von Stocki ohne TripleBases schon vor und es ist genügend Hardware vorhanden, um ComStock in kurzer Zeit mal über den Testparcours zu jagen, um einen wirklich guten Vergleich zu erzielen. Das Ergebnis wäre sicher nicht nur für uns zwei, sondern für die ganze Community von Interesse.
Schade.

Gruß - Stefan

P.S: Ich glaube immer noch, daß Ivan ohne TripleBases erheblich Elos abbaut, weil er einfach im Endspiel ohne Bases gegenüber anderen Spitzenengines deutlich abfällt. Bei Stockfish (ComStock), wird der Zuwachs dank TripleBases sicher kleiner als bei Ivan sein, da Stocki auch so ganz gut im Endspiel ist. Hier wäre ein statistisch sicherer Nachweis eben nur mit tausenden von Partien mit und ohne TripleBases zu erzielen, aber daraus wird nichts, siehe oben...
Up Topic Hauptforen / CSS-Forum / und noch'n Ivanhoe-Test

Powered by mwForum 2.29.3 © 1999-2014 Markus Wichitill