Großer Test des neuen IvanHoe B50hB

By Stefan Pohl Date 2010-10-27 16:05

Hallo,

hier der Test der allerneuesten IvanHoe-Version (9.50), bei Ivan laufen die Versionsnummern ja bekanntermaßen abwärts(!), bisher war 9.52 aktuell) als PeterPan-Compile, nämlich IvanHoe B50hB x64.
Die Testbedingungen waren dieselben, die ich auch bei den Tests der anderen Ivans benutzt hatte:

Testbedingungen: Quad 2.83GHz (8 GB RAM, Vista Home Premium 64). Tempo 1'+1'', Fritz 12 GUI (aufgeben auf spät, Remis geben auf niemals), je Engine 1 GB Hash, Nalimov 5-Steiner auf schnellem USB-Stick für Rybka, Hiarcs und die Fritz GUI , sowie die TripleBases für die Ivans. 50 Vorgabestellungen (ausgewählt aus Noomen und Nunn2-Testsuites), keine Bücher. Rechnen immer abwechselnd mit allen 4 Cores (kein Pondern).

IvanHoe B50hB - Houdini 1.03a 48.5-51.5 (+17 =63 -20)
IvanHoe B50hB - Rybka 4 x64 54-46 (+28 =52 -20)
IvanHoe B50hB - Stockfish 1.9 63-37 (+37 =52 -11)
IvanHoe B50hB - Naum 4.2 66.5-33.5 (+45 = 43 -12)
IvanHoe B50hB - Critter 0.8 78.5-21.5 (+62 =33 -5)
IvanHoe B50hB - Deep Fritz 11 79.5-20.5 (+61 =37 -2)
IvanHoe B50hB - Hiarcs 13.1 81.5-18.5 (+65 =33 -2)
IvanHoe B50hB - spark 0.4 81.5-18-5 (+67 =29 -4)

Durchschnittliche Erfolgsquote in Prozent: 69.1%

Das ist 1.3% (knapp 10 Elo) besser als die Version T0.4, die bisher in meinen Ivan-Tests führt (alle alten Ergebnisse hänge ich hier noch mal unten an, wer es nachlesen will braucht also nicht im Forum zu suchen). Allerdings hat der neue Ivan gegen die großen 3 minimal schlechter gescored als die T0.4. Gegen die restlichen Gegner lief es aber eben besser. Nur ganze 4 Verlustpartien von insgesamt 200 Games gegen Deep Fritz 11 und Hiarcs 13.1, zwei Engines, die ja beide mal absolute Weltspitze waren, muß man erst mal hinkriegen - Respekt.

Nimmt man die Elozahlen der IPON-Rangliste für die Gegner an, so würde sich der neue IvanHoe B50hB mit seinem Score in diesem Test auf Platz 1 der IPON-Liste schieben, mit 10-12 Elo Vorsprung vor Rybka 4. Natürlich sind die Testbedingungen nicht genau identisch, daher ist so eine Prognose natürlich mit viel Vorsicht zu genießen. (Dazu kurz angemerkt: Deep Fritz 11 ist nicht in der IPON, nur DF12. Da ich DF12 jedoch nicht besitze, habe ich DF11 benutzt und vom DF12-IPON-Rating 30 Elo abgezogen (in der CEGT-Liste liegt DF11 ca. 30 Elo hinter DF12...)).
Ein Test in der IPON wäre aber auf jeden Fall interessant. Zumal ja die neuen Ivans endlich auch den no-move-Bug los sind und stabil laufen.

Alte Testresultate:

IvanHoe B57d - Houdini 1.03a 52-48 (+14 =76 -10)
IvanHoe B57d - Rybka 4 x64 52-48 (+24 =56 -20)
IvanHoe B57d - Stockfish 1.9 63.5-36-5 (+38 =51 -11)
IvanHoe B57d - Naum 4.2 68.5-31.5 (+44 = 49 -7)
IvanHoe B57d - Critter 0.8 72-28 (+51 =42 -7)
IvanHoe B57d - Deep Fritz 11 78.5-21.5 (+59 =39 -2)
IvanHoe B57d - Hiarcs 13.1 73-27 (+58 =30 -12)
IvanHoe B57d - spark 0.4 82-18 (+68 =28 -4)

Durchschnittliche Erfolgsquote in Prozent: 67.7%

IvanHoe T0.4 - Houdini 1.03a 50-50 (+18 =64 -18)
IvanHoe T0.4 - Rybka 4 x64 55-45 (+26 =58 -16)
IvanHoe T0.4 - Stockfish 1.9 66-34 (+41 =50 -9)
IvanHoe T0.4 - Naum 4.2 67-33 (+48 =38 -14)
IvanHoe T0.4 - Critter 0.8 71-29 (+50 =42 -8)
IvanHoe T0.4 - Deep Fritz 11 73.5-26.5 (+54 =39 -7)
IvanHoe T0.4 - Hiarcs 13.1 79.5-20-5 (+61 =37 -2)
IvanHoe T0.4 - spark 0.4 80.5-19.5 (+66 =29 -5)

Durchschnittliche Erfolgsquote in Prozent: 67.8%

IvanHoe B52aF - Houdini 1.03a 48-52 (+19 =58 -23)
IvanHoe B52aF - Rybka 4 x64 54-46 (+25 =58 -17)
IvanHoe B52aF - Stockfish 1.9 62.5-37.5 (+41 =43 -16)
IvanHoe B52aF - Naum 4.2 68.5-31.5 (+43 =51 -6)
IvanHoe B52aF - Critter 0.8 67.5-32.5 (+44 =47 -9)
IvanHoe B52aF - Deep Fritz 11 75-25 (+53 =44 -3)
IvanHoe B52aF - Hiarcs 13.1 76-24 (+61 =30 -9)
IvanHoe B52aF - spark 0.4 72.5-27.5 (+54 =37 -9)

Durchschnittliche Erfolgsquote in Prozent: 65.5%

Grüße an alle - Stefan

By Frank Quisinsky Date 2010-10-27 16:15 Edited 2010-10-27 16:21

Hallo Stefan,

darfst eines nicht vergessen.
Auch die T0.4 Version wurde angepasst.
Es gibt eine T0.5.1 ...

Interessant ist hier wirklich das Time-Management denn bei Ponder = On haben alle IPP Familie Engine hier diverse Probleme und nutzen die Zeit nicht richtig. Alleine das könnte 10-15 ELO ausmachen. Ferner ist die T0.4.3 TM (TM für Zeitmanagment) schon alleine 10% schneller als die T0.4 bevor die Version 9.50 kam.

Also wenn sich die Version von "Peterpan" schon um 10 ELO verbessert hat könnte die Version 0.5.1 verbessert sein um ...

5-10 ELO auf Version T0.4.3 (läuft ca. 10% schneller als die T0.4), zuzüglich könnten 10-15 ELO für ein besseres Zeitmanagment hinzugekommen sein (wenn wirklich grundlegend verbessert) und dann noch die Steigerung wegen Version 9.50 von ca. 10 ELO.

Festgestellt wurde ja, dass die Version von Ahmed ca. 20 ELO besser ist als die Version von Peterpan (Test der Versionen T0.4 zu B52aC, die seinerzeit fast gleichzeitig erschienen sind).

Letztendlich dennoch Vermutungen aber wahrscheinlich ist es, dass IvanHoe T0.5.1 deutlich besser ist als die Version von PeterPan, es sei denn "PeterPan" hat auch bei der Version B52f zu B52c noch einen ELO-Zuwachs erzielt. Bei den Versionen B52d und B52e waren einige Fehler drin, Engine überzog oft die Zeit.

Zumindest nach meinen Testbedinungen.

Werde die Version 0.5.1 dann beim kommenden SWCR-64 Turnier testen und könnte mir gut vorstellen, dass diese Version um ca. 15-20 ELO an Rybka 4 vorbeizieht.

Viele Grüße und Danke für Deinen Test ...

Gruß
Frank

PS: Übrignes, ich halte trotz der höheren Spielstärke von der "Ahmed" Version die Version von PeterPan für interessanter.
Spielt taktisch besser, einfach schöner beim Verfolgen der Matches.

By Stefan Pohl Date 2010-10-28 08:47

Inzwischen gibts T0.5.2 bei der Ahmed sein Time-Managment wieder entfernt hat. Scheint also nicht so dolle zu sein. Die Versionen nach T0.4 waren in Schnelltests bei mir durch die Bank schwächer als T0.4. T0.5.2 zeigte bei mir sogar einen Bug indem er in einer Partie meinte mattsetzen zu können und es schließlich in eine TB-Remisstellung endete...
Ahmed haut einfach zu viele Versionen raus, ohne diese vernünftig zu testen. Ich meine T0.4 ist bisher seine beste (und sie spielt auch am schönsten/aktivsten).
Mal abwarten - wenn er mal wieder was zustande bringt, was mir ansprechend erscheint, wird ein Test folgen.

Gruß - Stefan

By Ingo Bauer Date 2010-10-27 16:19

Hallo

Deep Fritz 11 IST in der IPON mit ca 45 ELO hinter DF12 gelistet.

Die Ivanhoes teste ich nicht so lange kein Name dahinter steht und jeden Tag eine neue Version erschient. Dein Test ist schon wieder veraltet und nicht auf dem neusten Stand.
Natürlich wird jedesmal behauptet das die neue Version noch besser ist. Bei der Menge an Ivanhoes müßte die schon bei 5000 Elo sein ... schlicht unseriös das Gehabe!

Gruß
Ingo

By Frank Quisinsky Date 2010-10-27 16:27 Edited 2010-10-27 16:33

Hallo Ingo,

es kommt eine neue IvanHoe Version. Passiert nicht so oft, vielleicht maximal "öfters" mal, in letzter Zeit nicht so oft

aber schon öfters, öfters heit

Ist doch wirklich egal!

Also jetzt die 9.50!
Der Haupt-IvanHoe ... der über alles steht

Und genau dann geht es offenbar richtig zur Sache

X Leute (Ahmed, Peterpan, Vlad und noch zwei andere) kompilieren. Bringen dann Ihre Änderungen und Einstellungen in diese IvanHoe Version ein. Die Frage ist dann ganz einfach die folgende: Wer macht genau das mit dem größten Erfolg? So kompliziert zu verfolgen ist das nun auch wieder nicht. Kompliziert wird es wenn dann genau diese Leute x Versionen mit kleinen Parameter Änderungen veröffentlichen. So testete ich ja die Versionen die offenbar interessant waren (Ahmed, Vald und Peterpan). Qualifiziert hat sich die Version von Ahmed, er erreichte bei meinen Testbedinungen deutlich den größen Erfolg). Also wird diese Version weitergetestet. Immer zum Stichtag wenn ein neues SWCR-64 Turnier startet. Vielleicht lasse ich auch mal eine IvanHoe Version aus.

Wahrscheinlich ist die Spielstärke gerade bei niedrigeren Bedenkzeiten wie jetzt IPON besser als bei Houdini 1.03a. Zumindest laufen die IvanHoes fehlerfrei. Und wenn Ahmed das Problem mit dem Zeitmanagement auch noch abgestellt hat liegt wirklich eine richtig interessante Engine vor.

Also, lasse doch Deine Rechner nicht kalt werden.
Test lieber das als dieses 1:1 kopierte Houdini Zeug was ja alles selbst entwickelt worden ist, ha, ha ... was für eine Lachnummer!

Gruß
Frank

By Frank Quisinsky Date 2010-10-27 17:00 Edited 2010-10-27 17:08

Hallo Ingo,

vermutlich wird der Houdini Programmierer genauso vorgehen.

Er nimmt sich die 9.50 und bringt dann seine Änderungen rein, vermutlich die Endspielklamotten und die andere SMP Umsetzung.
Nur mit dem kleinen aber feinen Unterschied, dass er behauptet alles wäre von ihm, was die IvanHoe Leute nicht machen.

Also, Houdini 1.03a ist nichts anderes wie eine frühe IvanHoe Version (siehe Kommentare von Lens, Thinker Programmierer) bei dem Richard Houdert seine Änderungen reingebracht hat. Mit dem Unterschied zu den IvanHoe Leuten, dass Houdini total buggy ist und die IvanHoes stabil laufen. Mag ja sicherlich so sein, dass Richard Houdert ein paar sehr gute Änderungen rein gebracht hat aber deswegen kann er nicht schreiben ... habe ich alles selbst entwickelt. Das dies nicht stimmen kann ist offensichtlich.

In IPON spielt also ein IvanHoe, compiled bei Richard und nicht bei Ahmed oder Peterpan oder Vlad.
Einzig was bei Houdini klarer ist, er steht mit seinen Namen dafür aber er leugnet die Quelle ... was ich persönlich als viel schlimmer betrachte.
Warum er das macht, na das weiß wahrscheinlich nur er selbst!

Und wenn morgen ein neuer Houdini kommt, der ca. 10-15 ELO stärker ist weißt Du jetzt auch wieso.
IvanHoe 9.50 ist erschienen ... und die Leute die kompilieren beginnen Ihren Job

Gruß
Frank

By Stefan Pohl Date 2010-10-28 09:03

[quote="Frank Quisinsky"]
Hallo Ingo,

vermutlich wird der Houdini Programmierer genauso vorgehen.

Er nimmt sich die 9.50 und bringt dann seine Änderungen rein, vermutlich die Endspielklamotten und die andere SMP Umsetzung.
Nur mit dem kleinen aber feinen Unterschied, dass er behauptet alles wäre von ihm, was die IvanHoe Leute nicht machen.

Also, Houdini 1.03a ist nichts anderes wie eine frühe IvanHoe Version (siehe Kommentare von Lens, Thinker Programmierer) bei dem Richard Houdert seine Änderungen reingebracht hat. Mit dem Unterschied zu den IvanHoe Leuten, dass Houdini total buggy ist und die IvanHoes stabil laufen. Mag ja sicherlich so sein, dass Richard Houdert ein paar sehr gute Änderungen rein gebracht hat aber deswegen kann er nicht schreiben ... habe ich alles selbst entwickelt. Das dies nicht stimmen kann ist offensichtlich.

In IPON spielt also ein IvanHoe, compiled bei Richard und nicht bei Ahmed oder Peterpan oder Vlad.
Einzig was bei Houdini klarer ist, er steht mit seinen Namen dafür aber er leugnet die Quelle ... was ich persönlich als viel schlimmer betrachte.
Warum er das macht, na das weiß wahrscheinlich nur er selbst!

Und wenn morgen ein neuer Houdini kommt, der ca. 10-15 ELO stärker ist weißt Du jetzt auch wieso.
IvanHoe 9.50 ist erschienen ... und die Leute die kompilieren beginnen Ihren Job

Gruß
Frank
[/quote]

Bis auf die Tatsache, daß Houdini bei mir absolut stabil läuft (aber eben mit Ponder OFF), unterschreib ich das zu 100%.

Gruß - Stefan

By Frank Quisinsky Date 2010-10-28 13:32

Hi Stefan,

ja, ohne Ponder hatte ich auf meinen Notebook auch keine Abstürze und auch das TimeManagment ist wesentlich besser.

Interessant was Du zu den "Ahmed" Versionen schreibst.
Dann doch keine große Verbesserung und unter Umständen wäre ja dann die "Peterpan" Version doch interessanter.
Zumal ich ja auch denke, dass die "Peterpan" Version ansprechender und spannenderes Schach spielt ... rein subjektiv.

Gut, bleibe aber dabei.
Werde dann beim nächsten SWCR-64 Turnier (wird ca. am 08.11.2010 starten) die bis dahin aktuelle Version von "Ahmed" einsetzen. Sehe ich keine Verbesserung dann beim nächsten SWCR-64 Turnier mal wieder die Version von "Peterpan" ausprobieren. Im Grunde ist da ja auch nicht so wichtig, denn große ELO-Sprünge sind bei den ganzen Versionen meines Erachtens eh nicht zu erwarten. IvanHoe spielt ja schon auf einem enorm hohen Level. Wichtig ist mir nur das eine Version der IPPs bei den laufenden Turnieren SWCR-64 mitspielt, reicht.

Viele Grüße
Frank

By Stefan Pohl Date 2010-10-28 08:59

[quote="Ingo Bauer"]
Hallo

Deep Fritz 11 IST in der IPON mit ca 45 ELO hinter DF12 gelistet.
Stimmt. Peinlich. Ändert aber nix daran, daß die neue Version dennoch knapp auf Platz 1 läge, wenn auch nur noch ca. 7 Elo in Front.

Die Ivanhoes teste ich nicht so lange kein Name dahinter steht und jeden Tag eine neue Version erschient.
Der Versionswirrwar ist sicher ein Problem, aber man darf hier nicht die eigentlich neuen Versionen (9.50 ist aktuell) mit den neuen Compilaten in einen Topf werfen. Neue Versionen erscheinen durchaus nicht dauernd, nur neue Compilate. Und schade ist es, daß auch Du dich in m.E. unnötiger Selbstzensur/verzicht bei Deinen Tests selbst beschränkst. Zumal PeterPan wohl bei der neuen Version die Sourcen offengelegt hat - hab das nicht geprüft, aber vielleicht guckts Du sie Dir mal an?!?

Dein Test ist schon wieder veraltet und nicht auf dem neusten Stand.
Nein. Es gibt zwar schon B50hC, aber dort sind wohl nur andere Figurenwerte verwendet worden. Ich teste alle Ivans immer mit den Standardfigurenwerten (100,300,310,500,950 & Bishoppair 45), um die Ergebnisse besser vergleichen zu können...

Natürlich wird jedesmal behauptet das die neue Version noch besser ist. Bei der Menge an Ivanhoes müßte die schon bei 5000 Elo sein ... schlicht unseriös das Gehabe!
Das stimmt so nicht. PeterPan der Compilator ist in dieser Hinsicht sehr zurückhaltend. Daß die neue Version besser ist, behaupte ich, aber nur weil sie bei mir in 800 Partien eben auch besser war.

[/quote]

By Frank Quisinsky Date 2010-11-09 19:12

Hallo Ingo,

Ahmed Kamal, meine Aktuell Seite, Eintrag 081!

Gruß
Frank

By Dieter Eberle Date 2010-10-27 17:16

Hallo Stefan,
hast Du bei Deinem Test für Ivanhoe TryLargePages=true benutzt?
Bei mir haben alle Ivanhoe MODE_GAME_PLAY compiles der Version 50 das Problem, dass die in der GUI (GUI12, GUI11, Arena) angegebene hashtable size nicht übernommen wird, wenn TryLargePages=true gesetzt ist.
Bei den MODE_ANALYSIS compiles tritt das Problem nicht auf.
Gruß, Dieter

By Stefan Pohl Date 2010-10-28 08:59

[quote="Dieter Eberle"]
Hallo Stefan,
hast Du bei Deinem Test für Ivanhoe TryLargePages=true benutzt?

Nein.

[/quote]

By Dieter Eberle Date 2010-10-28 09:51

Danke für die Info, Stefan.
Gruß, Dieter

By Joachim Franz Date 2010-11-11 07:59

Sehe ich das richig, dass ih den aktuelen Ivan, kompiliert nur unter Diskussion auf der ipolit Seite finde?
Was ist der Unterhied zwischen der Analyse und der Game Version?