Not logged inCSS-Forum
Forum CSS-Online Help Search Login
CSS-Shop Impressum Datenschutz
Up Topic Hauptforen / CSS-Forum / Großer Test von IvanHoe B49jA
- - By Stefan Pohl Date 2010-12-04 11:25
Hallo,

hier der Test der neuesten Ivanhoe-Version (9.49j), bei Ivan laufen die Versionsnummern ja bekanntermaßen abwärts(!),  als PeterPan-Compile, nämlich IvanHoe B49jA x64. Und zwar mit den default-Einstellungen (auch die Figurenwerte). Lediglich der Pfad für die Triplebases wurde in den Engine-Optionen angegeben.

Testbedingungen: Quad 2.83GHz (8 GB RAM, Vista Home Premium 64). Tempo 3'+1'', Fritz 12 GUI (aufgeben auf spät, Remis geben auf niemals), je Engine 1 GB Hash, Nalimov 3-5-Steiner auf schnellem USB-Stick für Rybka, Hiarcs, Naum, Deep Fritz und die Fritz GUI , sowie die 3-5er TripleBases für Ivanhoe.
50 Ultrakurz-Vorgabestellungen mit je nur einem einzigen Bauernzug pro Seite ((1.a3 a6), (1.a3 b6), (1.a3 c6) usw. usw.), keine Bücher. Damit wurde keine Engine in ein Eröffnungssytem gezwungen, daß ihr nicht liegt, sondern sie mußte und konnte sich selbst frei aufbauen. Daher auch die Bedenkzeiterhöhung von früher 1'+1'' auf 3'+1''. Nach ca. 15 Zügen, wenn die Eröffnungsphase abgeschlossen war, hatten die Engines noch eine gute Minute auf der Uhr, sodaß ab dort dann ca. mit 1'+1'' gespielt wurde. Diese Testbedingungen kann ich wärmstens empfehlen, das hat abwechslungsreiche Partien zur Folge.
Rechnen immer abwechselnd mit allen 4 Cores (kein Pondern).

IvanHoe B49jA - Houdini 1.03a 51.5-48.5 (+14 =75 -11)
IvanHoe B49jA - Rybka 4 x64 55-45  (+25 =60 -15)
IvanHoe B49jA - Stockfish 1.9.1 57-43 (+31 =52 -17)
IvanHoe B49jA - Critter 0.9 x64 66-34 (+45 =42 -13)
IvanHoe B49jA - Naum 4.2 70-30 (+52 = 36 -12)
IvanHoe B49jA - Deep Fritz 11 90-10 (+80 =20 -0)
IvanHoe B49jA - Hiarcs 13.1 84-16 (+70 =28 -2)

Durchschnittliche Erfolgsquote in Prozent: 67.6%

Nimmt man die Elozahlen der IPON-Rangliste für die Gegner an, so würde sich der neue IvanHoe B49jA mit seinem Score in diesem Test ganz klar auf Platz 1 der IPON-Liste schieben (Elo ca. 2977 (!)), mit ca. 22 Elo Vorsprung vor Rybka 4.  Natürlich sind die Testbedingungen nicht genau identisch, daher ist so eine Prognose natürlich mit viel Vorsicht zu genießen. Beachtlich auf jeden Fall das gute Ergebnis gegen Rybka und den neuen Critter und das totale Desaster von Deep Fritz 11 (keine einzige Gewinnpartie, mannomann - peinlich). Auch gegen Stockfish lief es gut, wenn man bedenkt, daß die Vorgängerversionen von Ivanhoe in Stockfish einen echten Angstgegner haben und meist nur knapp über 50% scoren.

Ein Test in der IPON wäre aber auf jeden Fall interessant, wird aber wohl leider nicht stattfinden, oder Ingo???
Bei meinem letzten großen Test der Version 50hB lag diese nur (was heißt eigentlich nur?) ca. 7 Elo vor Rybka in meiner IPON-Prognose-Wertung. Nun sind es 22. Also 15 Elo mehr, natürlich alles nur geschätzt, aber immerhin aufgrund von 800 bzw. jetzt 700 gespielten Partien. Daß es also keine Fortschritte bei IvanHoe gibt ist ergo einfach falsch. Sicher gibt es viel zu viel Compilate, die in zu kurzen Abständen gepostet werden, aber mit ein paar Schnelltests merkt man bald, ob es möglicherweise Fortschritte gibt, oder nicht (es gab auch schon beträchtliche Rückschritte, gerade bei den Ahmed-Compilaten).
Aber dieses IvanHoe-Compilat B49jA (und zwar nur genau dieses, denn nur dieses ist wirklich von mir getestet worden - inzwischen gibt's wohl schon B49jB etc.) ist definitiv saustark und das mit den default-Einstellungen. Es wäre die klare Nummer 1 in der IPON und auch jeder anderen vernünftig geführten Rangliste davon bin ich überzeugt. Alle rel. neuen Ahmed-Compilate konnten in Schnelltests bei mir längst nicht so stark punkten und sind daher m.E. nicht zu empfehlen. Man muß sich eben eine starke Version aus den ganzen Compilaten mit Schnelltests rauspicken und dann hoffen, daß sich das Ergebnis dann auch im ausführlichen Test bestätigt. Sicher wird man bzw. ich so unfreiwillig zum Betatester, aber manchmal hat man eben auch das Glück des Tüchtigen und pickt die richtige Version raus, die dann auch richtig gut im Vollwert-Test abschneidet. So wie diese hier. Ein schönes Teil. Ach ja, stabil läuft sie auch - der Test über die 700 Partien lief komplett störungs- und problemfrei. Ebenso die vorab-Schnelltests.

Tja, Ingo ich an deiner Stelle wäre fröh, wenn sich jemand anderer die Mühe macht, aus dem Versions- und Compilat-Wust der Ivanhoes mit extrem viel Rechenzeitaufwand eine wirklich starke Version herauszufiltern und ich sie dann in meiner Ranglisten nur noch testen müßte...
Denkbar wäre ja auch, danach mindestens 3 oder 6 Monate keine neue Version mehr zu testen. Das wäre m.E. durchaus sinnvoll. Denn sobald wird es vom hohen Niveau der B49jA sicher nicht signifikant weiter aufwärts gehen können. Und im Moment wäre doch Zeit zum Testen, oder?

Grüße an alle - Stefan
Parent - - By Dieter Esser Date 2010-12-04 11:54
Hi Stefan,

danke für deine Bemühungen - mir fehlt im Moment leider die Zeit dafür.

Nur noch ein paar Worte zu Erwartungen, die manchmal hier herumgeistern. Es wird - warum auch immer - an die IvanHoe Ecke mit Erwartungen an 'professionelle' Schacheingines herangegangen. Merken denn die Leute nicht, dass genau hier ein fundamentaler Unterschied besteht.

Auf der einen Seite z.B. Rybka Team, dass bevor Rybka 4 released wird, das Geld / die Mannschaft zur Verfügung hat, um einen umfangreichen Alpha / Betatest durchzuführen. Die jetzigen Entwicklungen (siehe z.B. Franks Test eines Rybka Einstellungsderivates) lassen den Schluss zu, dass selbst ein derartiger Testaufwand nicht zu der stärksten Engineausprägung führt.

Auf der anderen Seite eine Amateurtruppe, die ein Linux Schachprogramm veröffentlicht. Und maximal im privaten Umfeld einen Funktionstest und einen Regressionstest durchführt, um die Lauffähigkeit / Stabilität / ELO-Stärke der neuen Version abzusichern. Plus noch ein paar weitere Compilierer, die sicherlich wenig Ahnung von der Entwicklung von Schachprogrammen haben, aber in der Lage sind, aus einem LINUX Quellcode eine ablauffähige WindowsEXE herzustellen.

Natürlich läuft hier der endgültige Test, ob das Resultat nun besser oder schlechter ist, in der Öffentlichkeit (also bei uns) ab. Wo denn sonst, mangels verfügbarer Ressourcen. Die Veröffentlichung von IvanHoe Releasen ist ein Paradigmawechsel in Bereich Schachprogramme, selbst bei Stockfish u.ä. gab es dass nicht in der Form, dass die Community in den Betatest einbezogen wurde.

Das kann man gut finden, oder auch nicht. Es ist nun mal Fakt.

Just my two cents.

Dieter
Parent - By peter struwel Date 2010-12-04 13:50
von mir ne Mark (DM)
Parent - By Stefan Pohl Date 2010-12-08 12:05
So isses !

Gruß - Stefan
Parent - By Ingo Bauer Date 2010-12-08 13:03 Edited 2010-12-08 13:07
Hallo Dieter,

[quote="Dieter Esser"]
... Und maximal im privaten Umfeld einen Funktionstest und einen Regressionstest durchführt, um die Lauffähigkeit / Stabilität / ELO-Stärke der neuen Version abzusichern. ....
[/quote]

Das ist wohl ein Euphemismus für "Ich compilierem, wenn läuft wirds  released". Ein ernsthafter Stailitätstest/Elo-Test kann innerhalb eines Tagen gar nicht stattfinden. Den versuchen die Jungs auf den Enduser zu schieben.

Weiter habe keine Ahnung was du für einen Eindruck von einer kommerziellen Engine und welche Mittel die hat oder anwedet hast, aber er scheint mir falsch. Ich kann dir sagen dass die Entwickler privat testen, und die Betatester das als Hobby betrachten und ihre eigene Zeit und Geld da investieren. Weiterhion testen haben alle Entwickler, auch die Amateure, der letzten 20 Jahre ihre Enigne besser als die Daily-Builds der Ivanhoes.  Das Problem ist, das niemand hinter den Ivanhoes steht, sobald da nämlich eine Person ist, finden sich auch Tester (Houdini ist ein schönes Bsp) Wenn man will das sich andere ernstahft mit diesen Versionen beschäftigen (oder besser "beschäftigen können"!), dann muß man als Entwickler selber etwas dazu tun (nämlich Stabilität und Elostärke testen, was die Ivans entgegen deiner Behauptung eben nicht tun) oder mit der Konsequenz leben, dass kein ernsthafter Tester folgen kann und deswegen auch nicht folgen will!

(Das Bild des "Daily Builds" ist gut, einfach alle 6 Monate einen "Stable Release" machen - wenn dann noch ein echter Name dahinter steht bin ich dabei!)

Gruß
Ingo
Parent - - By Ingo Bauer Date 2010-12-04 12:00
Moin,

[quote="Stefan Pohl"]
...
Nimmt man die Elozahlen der IPON-Rangliste für die Gegner an, so würde sich der neue IvanHoe B49jA mit seinem Score in diesem Test ganz klar auf Platz 1 der IPON-Liste schieben (Elo ca. 2977 (!)), mit ca. 22 Elo Vorsprung vor Rybka 4.  Natürlich sind die Testbedingungen nicht genau identisch, daher ist so eine Prognose natürlich mit viel Vorsicht zu genießen. ...

Ein Test in der IPON wäre aber auf jeden Fall interessant, wird aber wohl leider nicht stattfinden, oder Ingo??? ...
[/quote]

Nein, oder unterschreibt jemand diese Engine mit seinem Namen (und kennt jemand diese Person, ist die irgendwie aufgefallen oder ist das ein Noname aus dem Nichts?)

[quote="Stefan Pohl"]
...
Bei meinem letzten großen Test der Version 50hB lag diese nur (was heißt eigentlich nur?) ca. 7 Elo vor Rybka in meiner IPON-Prognose-Wertung. Nun sind es 22. Also 15 Elo mehr, natürlich alles nur geschätzt...
[/quote]

Ja, die 50b hatte ich hier intern auch getestet, und sie lag glaube ich 3 ELo vor Robbolito 0.9 welcher wiederum so 20-30 hinter R4 lag also nichts mit "vor Rybka in der IPON"! (Man lasse sich das auf der Zunge zergehen - die 50b war genau so gut wie Robbo 0.9, nur haben die Ivan-Kinder dazwischen gefühlte 500 Versionen veröffentlicht. Lächerlich!) Irgendeine Ahmed Version hatte ich auch getestet, die war nochmal 10 Elo besser, aber immer noch hinter Houdini/Rybka. Das sind exakt die Ergebnisse gewesen die ich auch vor 4-5 Monaten mal hatte. Die Ivanhoes stecken fest und bewegen sich seit Monaten in einem 20 Elo Korridor! (Und jetzt kommst du und sagst aber die neue, von gestern, die ist jetzt viel besser ... )

[quote="Stefan Pohl"]
Aber dieses IvanHoe-Compilat B49jA (und zwar nur genau dieses, denn nur dieses ist wirklich von mir getestet worden - inzwischen gibt's wohl schon B49jB etc.) ist definitiv saustark und das mit den default-Einstellungen....
[/quote]

Ja, da ist das Problem, ich teste doch nicht Engines die im Tagestakt neu released werden. Jedesmal wenn ich eine Engine durch habe kommt die nächste und irgendein Freak behautet diese eine ist jetzt aber viel besser. Nene nicht mit mir!

[quote="Stefan Pohl"]
Tja, Ingo ich an deiner Stelle wäre fröh, wenn sich jemand anderer die Mühe macht, aus dem Versions- und Compilat-Wust der Ivanhoes mit extrem viel Rechenzeitaufwand eine wirklich starke Version herauszufiltern und ich sie dann in meiner Ranglisten nur noch testen müßte......
[/quote]

Es freut mich das du dir so viel Mühe machst und dir diese vergebliche Liebesmüh auch noch Spaß macht aber, lass mich da raus. Ich schaue mir die Sache ab und zu an und entscheide dann. Eine Version von der ich vermute das morgen die nächst erscheint, werde ich hingegen nicht mal testen - solche eine Entwicklungsarbeit bezeichne ich als unseriös. Nicht mal der Programmierer kan das wirklich testen!

Gruß
Ingo
Parent - By Thomas Müller Date 2010-12-04 12:15
Parent - - By Benno Hartwig Date 2010-12-04 17:18
[quote="Stefan Pohl"]Durchschnittliche Erfolgsquote in Prozent: 67.6% [/quote]Hast du solch eine Erfolgsquote gegen dieselbe Gegnerschaft auch für andere IvanHoe-Versionen?
Benno
Parent - By Stefan Pohl Date 2010-12-08 12:08
Wenn schon im ursprünglichen Posting erwähnt, war auch eine Ivanhhoe 50er Version von PeterPan sehr stark, aber eben ca. 15 Elo schwächer als die hier getestete. Was aber eben auch schon sehr, sehr gut ist (Augenhöhe Rybka 4 und Houdini). Einfach mal im Archiv hier stöbern, da gibt es noch ein paar Tests von mir (und auch von Dieter Esser) div. Ivanhoes.

Gruß - Stefan
Parent - - By Frank Quisinsky Date 2010-12-06 08:37 Edited 2010-12-06 08:46
Hallo Stefan,

ich hatte die Vorgängerversion mit 600 Partien getestet.
Auch hier wieder die üblichen 10-15 ELO hinter der Ahmed Version.

Darfst folgendes bei Deinem Test nicht vergessen:

1. Die IvanHoe Versionen spielen leicht besser unter Extrem Blitz!
2. Du spielst ohne Ponder, viele Engines nutzen Ponder nicht optimal und das kann bis zu 10 ELO ausmachen.
3. Fischer Zeit-Kontrolle, auch hier ... oftmals gerade in Verbindung mit Ponder eine nicht optimale Zeitnutzung.

Du kannst ja mal mit der T0.5.4.1 von Ahmed den Test wiederholen.

Ferner:
Ahmed schreibt selbst ... die ganzen IvanHoe Versionen sind immer gleich.
Es kommt ein neue Versionen und die Personen die kompilieren bringen immer Ihre Einstellungen rein.

Würde im Umkehrschluss nichts anderes bedeuten, dass sich an den Unterschieden wenig ändert und da hat Ahmed wahrscheinlich eine bessere Lösung gefunden als PeterPan.

Die letzten Ahmed Versionen:
T0.5.4.1
T0.7

Der Unterschied ist lediglich darin begründet, dass die Exp. 42 Einstellungen in der T0.7 sind. Eine T0.6 gab es nicht offiziell. Es könnte sehr gut sein das PeterPan in der von Dir getesteten Version die Exp. 61 v2 Einstellungen von Rybka drin hat und sich das vielleicht beim Extrem Blitz besser auswirkt.

Letztendlich bin ich nicht der Meinung, dass es viel Sinn macht immer wieder die ganzen Kompiles zu testen. Es kommt derzeit einfach zu viel an neuen Engines. Sonst müssten die Ratinglistenbetreiber alles andere über Board schmeißen und sich ganz allein auf die 500 IvanHoe Versionen konzentrieren. Es reicht hin- und wieder mal eine Stichprobe zu machen. Vielleicht werde ich im Frbruar mal wieder eine PeterPan Version testen aber nach allen mir vorliegenden Ergebnissen bin ich ganz zufrieden mit der Entscheidung mit auf die Ahmed Version zu stürzen.

Läuft stabil und die aktuelle T0.5.4.1 ist auf einem Level mit Houdini 1.0.3a in der SWCR.

Hier die SWCR mit den ganzen IPP Familie Engines (ohne Robbolito 0.9, derzeit 2.912 nach 600 Partien Kurztest und ohne die vorletzte IvanHoe Version von PeterPan 2.934 nach 600 Partien Kurztest):
Also von B52aC auf Aktuell ... ca. 10 ELO + PeterPan
Also von T0.4 auf 0.5.4.1 ... ca. 6 ELO + Ahmed

4 ELO ... aufgrund der nicht sehr vielen Partien ist alles im normalen Bereich.
Leichte Verbesserungen bei Beiden Engines ist zu erkennen mehr aber auch nicht.

Wie gesagt:
Teste mal unter Deinen gleichen Voraussetzungen die Ahmed Version T0.7 und vergleiche diese mit der PeterPan Version.
Wahrscheinlich kommst Du auch hier auf 10-15 ELO Differenz!

Und zu IvanHoe generell:
Ca. 30 ELO mehr für die besten Versionen im Vergleich zu Robbolito 0.9.
Ob Houdini oder IvanHoe. Es gab also 30 ELO an Verbesserungen durch runde 500 Versionen verschiedener Leute in den letzten 6-8 Monaten.
Das ist doch mal etwas aber alles ist sehr undurchsichtig und die Testerei benötigt wirklich viel Zeit.

Code:
Rank Name                          Elo    +    - games score oppo. draws
   1 Rybka 4 x64 Exp. 42          2965   27   26   682   81%  2710   24%
   2 Houdini 1.03a x64            2950   22   21   920   79%  2720   29%
   3 IvanHoe T0.5.4.1 x64         2947   25   25   700   80%  2711   30%
   4 IvanHoe T0.4 x64             2941   21   20   920   77%  2739   34%
   5 Rybka 4 x64                  2940   16   16  1640   78%  2718   32%
   6 IvanHoe 52iUSTMO x64         2927   21   20   920   75%  2739   35%
   7 IvanHoe B52aC x64            2924   21   20   920   76%  2737   36%
   8 Stockfish 1.8.0 JA x64       2908   17   17  1320   72%  2736   35%
   9 Rybka 3 x64                  2907   23   22   840   78%  2689   28%
  10 Fire 1.31 x64                2903   21   20   920   75%  2722   36%
  11 FireBird 1.1 x64 WD          2900   20   20   920   73%  2738   41%
  12 Stockfish 1.7.1 JA x64       2898   19   18  1120   76%  2708   34%
  13 Stockfish 1.9.1 JA x64       2898   24   24   682   74%  2712   32%
  14 Stockfish 1.9.1 JA           2894   21   20   960   78%  2690   31%
  15 Rybka 4                      2892   18   18  1200   76%  2696   32%
  16 Stockfish 1.7.1 JA           2874   18   18  1200   75%  2689   31%
  17 Critter 0.90 x64             2873   21   20   857   71%  2726   37%
  18 Stockfish 1.8.0 JA           2863   20   20   920   74%  2696   37%
  19 Rybka 3                      2860   16   16  1520   74%  2689   31%
  20 Critter 0.80 x64             2835   15   15  1654   64%  2727   34%
  21 Naum 4.2 x64                 2834   13   13  2249   65%  2720   37%
  22 Stockfish 1.6.3 JA           2826   18   18  1080   71%  2680   36%
  23 Naum 4.2                     2823   15   15  1680   68%  2696   35%
  24 Critter 0.80                 2815   18   18  1040   67%  2695   37%
  25 Naum 4.1                     2811   20   19   920   68%  2685   35%
  26 Critter 0.70 x64             2809   20   20   880   65%  2704   38%
  27 Komodo 1.2 JA x64            2803   13   13  2007   61%  2718   39%
  28 Stockfish 1.6.0 JA           2801   19   19   960   68%  2687   39%
  29 Shredder 12                  2800    9    9  4448   63%  2708   36%
  30 Sjeng c't 2010               2797   23   23   682   60%  2715   35%
  31 Komodo 1.0 JA x64            2793   20   20   840   64%  2695   40%
  32 Shredder 12 x64              2789   15   15  1600   63%  2693   34%
  33 Naum 4.0                     2784   19   18   960   65%  2682   38%
  34 Deep Fritz 12                2780   14   14  1760   62%  2699   41%
  35 Critter 0.70                 2777   19   19   920   61%  2702   39%
  36 GullChess 1.0a x64           2775   15   15  1451   54%  2740   39%
  37 Komodo 1.2 JA                2759   17   17  1200   58%  2701   41%
  38 GullChess 1.0a               2747   18   18   960   58%  2696   39%
  39 Fritz 12                     2745   17   16  1160   59%  2687   44%
  40 Spark 0.5 x64                2744   13   13  2009   53%  2719   37%
  41 Hiarcs 13.1                  2739   12   12  2654   52%  2723   39%
  42 Thinker 5.4d Inert x64       2738   13   13  2249   52%  2722   38%
  43 Stockfish 1.5.1 JA           2731   19   19   840   59%  2671   43%
  44 Zappa Mexico II x64          2726   12   12  2248   50%  2722   39%
  45 Junior 12.0 x64              2721   22   23   682   50%  2718   33%
  46 Spark 0.4 x64                2719   20   20   840   53%  2698   40%
  47 Komodo 1.0 JA                2715   16   16  1200   53%  2694   40%
  48 Fruit 09_07_05 x64           2713   13   13  2248   49%  2722   34%
  49 Protector 1.3.4 JA x64       2713   14   14  1840   48%  2727   36%
  50 Thinker 5.4d Inert           2711   12   12  2240   52%  2699   42%
  51 Spark 0.5                    2708   16   17  1200   51%  2703   41%
  52 Critter 0.60 x64             2703   20   20   840   50%  2699   38%
  53 Protector 1.3.6-370 JA x64   2702   22   22   681   47%  2719   34%
  54 Doch 1.3.4 JA                2690   19   19   840   51%  2686   44%
  55 Sjeng WC-2008 x64            2689   14   14  1880   45%  2727   35%
  56 Critter 0.60                 2688   19   19   920   50%  2688   39%
  57 Protector 1.3.5 x64          2687   20   20   840   47%  2709   39%
  58 Junior 11.2                  2686   17   17  1200   48%  2703   33%
  59 Spark 0.4                    2686   19   19   880   49%  2692   42%
  60 Junior 11.2 x64              2685   15   15  1640   45%  2725   30%
  61 Hannibal 1.0a x64            2683   15   15  1688   43%  2734   35%
  62 Onno 1.2.70 x64              2681   13   13  2008   45%  2720   36%
  63 Protector 1.3.4 JA           2679   14   14  1600   47%  2701   39%
  64 Cyclone xTreme Wrath         2675   17   17  1080   47%  2697   41%
  65 Protector 1.3.2              2674   17   16  1160   47%  2695   41%
  66 Onno 1.1.1 x64               2673   20   20   840   46%  2700   40%
  67 Protector 1.3.5 JA           2669   19   20   840   44%  2712   42%
  68 Junior 2010                  2668   16   16  1240   47%  2690   36%
  69 Hiarcs 12.1                  2667   19   19   880   47%  2689   41%
  70 Protector 1.3.1b             2667   19   19   840   47%  2690   42%
  71 Sjeng WC-2008                2665   12   12  2240   45%  2700   37%
  72 Doch 1.2 JA                  2665   19   19   840   48%  2678   40%
  73 Hiarcs 12.1 Sharpen PV       2664   16   16  1280   45%  2698   39%
  74 Zappa Mexico II              2661   12   12  2240   44%  2700   42%
  75 Spark 0.3a                   2655   17   17  1120   44%  2698   41%
  76 Doch 09.980 JA               2652   19   19   840   46%  2675   42%
  77 Junior 11.1a x64             2650   20   20   840   43%  2702   32%
  78 Junior 11.1a                 2645   19   19   960   44%  2691   36%
  79 Spark 0.3                    2643   19   19   880   43%  2690   42%
  80 Umko 1.1 x64                 2640   18   18  1034   36%  2737   36%
  81 Hannibal 1.0a                2637   18   18  1080   40%  2705   36%
  82 Bright 0.5c                  2635   19   19   960   41%  2701   35%
  83 Onno 1.2.70                  2635   16   17  1200   40%  2705   40%
  84 Loop M1-T x64                2631   19   19   960   36%  2737   36%
  85 Onno 1.1.1                   2630   15   15  1520   40%  2695   41%
  86 Loop 2007 x64                2629   13   13  2048   37%  2724   34%
  87 Crafty 23.4 JA x64           2627   23   23   682   37%  2721   32%
  88 Equinox 0.87t x64            2616   23   23   699   35%  2723   33%
  89 Fruit 05/11/03               2615   12   12  2240   38%  2701   41%
  90 Umko 1.0 x64                 2615   17   17  1320   32%  2745   36%
  91 Jonny 4.00                   2615   15   15  1659   37%  2710   31%
  92 Loop 13.6                    2614   15   15  1520   38%  2695   39%
  93 Twisted Logic 20100131x x64  2613   18   18  1120   35%  2719   32%
  94 Critter 0.52b                2613   18   18  1040   38%  2698   37%
  95 Glaurung 2.2 JA              2609   17   18  1080   37%  2699   36%
  96 Loop 2007                    2609   17   17  1200   36%  2706   35%
  97 Ktulu 9.03                   2608   14   14  1760   37%  2703   31%
  98 SmarThink 1.20 x64           2605   13   13  2248   34%  2724   33%
  99 Crafty 23.3 JA x64           2602   17   17  1320   31%  2745   33%
100 Equinox 0.83 x64             2601   17   18  1280   30%  2753   30%
101 SmarThink 1.20               2595   12   13  2240   35%  2701   37%
102 Equinox 0.83                 2580   19   19   960   33%  2703   34%
103 Twisted Logic 20100131x      2574   15   15  1600   32%  2707   30%
104 Spike 1.2 Turin              2573   16   16  1480   31%  2707   34%
105 Cipollino 3.25 x64           2570   20   20   960   28%  2739   30%
106 BugChess2 1.7 x64            2568   19   19  1034   29%  2724   31%
107 Crafty 23.3 JA               2565   19   20   960   31%  2704   32%
108 Tornado 4.25 x64             2560   24   24   699   29%  2725   25%
109 Scorpio 2.6 JA x64           2557   18   19  1120   28%  2721   32%
110 Crafty 23.2 JA x64           2557   18   19  1120   28%  2721   30%
111 Chronos 1.99 x64             2554   18   19  1120   27%  2721   33%
112 Crafty 23.3 JA x64 NP        2550   20   20   960   25%  2740   30%
113 Daydreamer 1.75 JA x64       2523   19   19  1120   24%  2722   30%
114 Tornado 3.6.7 x64            2483   23   24   840   19%  2729   24%
115 Zarkov 6.44                  2481   27   28   625   20%  2725   24%
116 Gaviota 0.80 x64             2377   31   33   625   12%  2729   15%


Gruß
Frank
Parent - - By Frank Quisinsky Date 2010-12-06 09:49 Edited 2010-12-06 09:52
Hi,

und besonders schwierig ist folgender Umstand.

Wenn ich jetzt hingehe und diese PeterPan Version mal offiziell als Spießroutenlauf teste wird 2 Wochen später wieder alles schreien ... die PeterPan Version ist doch besser. Dies weil komplett andere Testmethoden verwendet werden und die vielen Extrem Blitz Ergebnisse nicht vergleichbar sind mit mittleren Bedenkzeiten. Der Grund warum ich die SWCR-Blitzratingliste im Frühsommer des Jahres abgebrochen habe. Schaue Dir doch mal die ganzen Meinungen von den Personen an, die sich damit näher beschäftigen.

Die haben nicht die Ergebnisse die mir vorliegen, für Rude 7.000 IPP Familie Partien unter dieser verwendeten SWCR Zeitkontrolle würde ein Dual Core 200 Tage laufen.

So favorisiert Person A: Fire, Person B: Houdini, Person C: IvanHoe von x und Person D: IvanHoe von y.
Aber niemand testet alle unter den gleichen Bedinungen wie ich einst in der SWCR.

3 Kompiles von IvanHoe
Houdini
Fire 1.31
und Firebird 1.1 mit dem sagenhaften Wael Deeb Setting

Dann liegen ein paar Ergebnisse vor einer der getesteten Engines vor und direkt wird geschrieben ... ist die beste Version

Rein subjektiv gefällt mir die PeterPan auch besser da interessanteres Schach als die Ahmed Version aber die Ahmed Version ist nunmal nach SWCR Bedingungen spielstärker.

So, hänge genau ...
100 Partien bei Critter
1.000 Partien bei dem bevorstehenden Test von GullChess 1.1 x64
3.600 Partien bei noch zu Ende zu spielenden SWCR-64 Turnier
und
6.840 Partien bei der SWCR-32 derzeit hinterher.

Das wären:
11.540 noch zu spielende SWCR Partien : 280 Partien pro Tag = 41 Tage.
Ich hänge also 41 Tage hinterher!

Wenn in dieser Zeit keine neue Engine mehr kommt wäre ich bei.
Aber um diese Jahreszeit ist eher davon auszugehen das noch viele TOP-25 Updates kommen werden.

Der Test der 6 IPP Familie Engines kostete mich runde 24 Testtage!

Das meine ich mit ...
Wenn die Ratinglistenbetreiber diese ganzen Versionen durchtesten kann getrost alles andere vernachlässigt werden.

Gruß
Frank

Ingo könnte das Testen.
Er kann 15 Matches gleichzeitig laufen lassen (bei mir sind es 8, könnte 12 aber das kostet zu viel Geld ... habe 6 Q9550 Systeme, bei 4 ist aber Schluss), er hat etwas weniger als die Hälfte der Bedenkzeit und spielt nur an einer Liste (ich spiele an zwei).
Er testet ferner nicht alles was kommt und insofern ist er ca. 5x schneller als ich.
Parent - - By Ingo Bauer Date 2010-12-06 10:28
Hallo Frank

[quote="Frank Quisinsky"]
Ingo könnte das Testen.
Er kann 15 Matches gleichzeitig laufen lassen (bei mir sind es 8, könnte 12 aber das kostet zu viel Geld ...
[/quote]

Ja ich könnte das testen, aber ...

1. du schriebst "nach 2 Wochen kommt jemand und schreit die XY ist besser". Ich würde eher sagen nach 2 Tagen wenn nicht nach 2h ...
2. Wenn ich alle Litto Enigne testen würde, würde meine Liste zu 80% oder mehr aus Littos bestehen. Das ist erstens nicht praktikabel und zweitens eine Benachteiligung der Engines die mit den Littos besonders schlecht zurechtkommen.

Man stelle sich mal vor ich würde ab sofort Stockfish nur noch gegen die 11 Enignes testen gegen die Stockfish in meinem Test unter seinem Schnitt abgeschnitten hat. Das würde das Stockfisch Ergebniss nach unten drücken. So würde es mir mit den Engines gehen die mit den Littos schlechter spielen (weil ja 80% Litto Engines wären) ... Nein nein, die Flut an Rittern, Zauberern und Vögeln ist nicht seriös zu handhaben. Ich bleibe bei zwei Prämissen im Umgang mit diesen Engines:

1. Bekannter Autor (Name allgemein anerkannt)
2. Wenn Bedinung 1 erfüllt ist, dann die Beste der Versionen.

Punkt 2 prüfe ich alle X Monate mal mit einer Stichprobe und bin damit gut gefahren bisher.

Gruß
Ingo
Parent - - By Frank Quisinsky Date 2010-12-06 10:40
Hi Ingo,

jep ...
werden die ganzen Versionen gestestet sind nur noch IvanHoe's drin.
Eine Ipp Familie Engine reicht.

Bei mir ist es die Ahmed Version, bei Dir ist es Houdini.
Nehme die Ahmed Version weil die spielstärkste von den IvanHoes und ferner habe ich die bekannten Houdini Probleme mit GUI Crashes. Waren bei 920 Partien 58 Abstürze, 58x GUI hängen geblieben.

Absolut ...
Schaue mal in die Liste die ich gerade gepostet habe.
Rybka 4 musste also gegen 6x IPP Familie spielen und verlor ca. 5-10 Punkte ... weil direkt 5x gegen diese gleiche Gruppe von Engines.
Vergleiche Liste die ich in diesem Thread gepostet habe mit meiner aktuellen SWCR ohne Houdini, Fire und die sonstigen IPP Familie Engines.

Und genau das ist schlecht.
Gleiches gilt für andere Engines wenn zu viele Versionen kommen.
Habe eh schon zu viele Stockfische, Protectoren etc. in meine Gesamtratingliste.

Daher halte ich die Ratingliste jeder gegen jeden auch für wesentlich aussagekräftiger, auch wenn weniger Partien!

Gruß
Frank
Parent - - By Frank Quisinsky Date 2010-12-06 10:51 Edited 2010-12-06 10:53
Hi Ingo,

am liebsten würde ich z. B. Junior 11.2 oder Protector 1.35 oder auch Loop 13.6 ein paar andere ältere Engines aus der Gesamtratingliste herausnehmen. Das geht aber bei meinem Spielprinzip nicht, sonst haben x andere Engines zu wenig Partien. Versuche ja aufgrund es Umstandes, dass ich zwei Ratinglisten mit der SWCR-32 und SWCR-64 führe, die Anzahl der Partien zwar "für mich" aussagekräftig zu halten aber dennoch so wenige Partien wie möglich spielen zu lassen. Durch die Löschung von Engines haben dann aber wie gesagt x andere Engines zu wenige Partien. Insofern muss ich mit diesem Umstand (zu viele Protector, Stockfish etc. Versionen, leichte Verwischung von Ratingzahlen) bei der Gesamtratingliste leben. Dennoch ist die SWCR aller gespielten Partien recht gut. Denke vielleicht minimal besser wenn noch mehr Engines einfließen die in beiden Ratinglisten spielen.

Gruß
Frank
Parent - - By Ingo Bauer Date 2010-12-06 11:08
Ja, bei mir ist es Stockfish.

Ich habe 3 Versionen die praktisch gleich stark spielen, ohne das es einen Fortschritt gab. Auch ich empfinde das als Benachteiligung anderer Engines.

Aber ausgerechnet Stockfish 1.7/1.8 rauswerfen? Dafür ist die Engine zu beliebt, da muß man abwägen. Sollte allerdings die 2.0 irgendwann erscheinen ohne einen deutlichen Sprung zu machen, könnte ich mir vorstellen zum Ausgleich die 1.7er Version aus meinen Spielen zu entfernen.

Was die 'jeder gegen jeden' Liste betrifft könnte ich mal wieder eine solche, mit meinen Top 20 Enignes, aus meinem Datenbestend ziehen. Die letzten Male bewegte es sich immer nur um 2-3 Elo maximal. Mal sehen ob sich mehr tut seitdem ich Houdini mit drin habe ... ich glaube es aber nicht wirklich.

Gruß
Ingo
Parent - - By Frank Quisinsky Date 2010-12-06 11:36 Edited 2010-12-06 11:39
Hallo Ingo,

bringe doch die jeder gegen jeden Liste noch auf Deine Seite.
Das wäre interessanter als nur die Liste aller Partien zu haben.

Und bei Stockfish:
Ein heilloses Durcheinander bei mir:

32bit ... Ganz klar die Version 1.91 die Spielstärkste!
64bit ... 1.7.1 / 1.8.0 / 1.9.1 ca. gleich stark.

Und 1.9.1 w32 ist ca. gleich stark zu 1.9.1 x64 ... sieht aber fraglich aus!
Absolutes Durcheinander aber auch hier ... kann es nicht ändern!

Bei der 1.8.0 glaube ich ferner das diese besser für längere Bedenkzeiten ist.
Bei der 1.9.1 eher für kürzere Bedenkzeiten
Deutet alles darauf hin wenn ich mir so die verschiedenen Listenergebnisse ansehe.

Langsam glaube ich die Stockfish Leute bei der w32 und x64 Version mit unterschiedlichen LMR / NullMove Einstellungen experimentieren und später mehr Ergebnisse zu haben.
Das wäre weniger schön, weil es dann zu diesem Durcheinander kommt.

Kein Bock für sämtliche Engines Beta Tester zu sein nur weil ich die Partien zum Download anbiete.
Mach da eh schon genug.

Gruß
Frank

ziemlich verärgert darüber dass x-Versionen innerhalb kürzester Zeit angeboten werden.
Dann wird gesagt 20 ELO besser und im Grunde möchte der Programmierer nur wissen ob die letzte Änderung erfolgreich ist.
Wird das dann getestet sind während der Testzeit schon wieder x neue Versionen verfügbar und niemand blickt mehr durch.
Anstatt wirklich nur 1-2x im Jahr ein Release zu bringen.
Kannste nur drauf reagieren indem die Programme, die zu oft upgedatet werden, dennoch nur 2x im Jahr anhand von Stichproben getestet werden.
Parent - - By Kurt Utzinger Date 2010-12-06 13:52
[quote="Frank Quisinsky"]
[...]
ziemlich verärgert darüber dass x-Versionen innerhalb kürzester Zeit angeboten werden.
[...]
[/quote]

Kein Mensch zwingt Dich, jede Version [sofort] zu testen. Den Ärger und
Stress machst Du Dir also eher selber.
Gruss
Kurt
Parent - By Ingo Bauer Date 2010-12-06 14:08
Hallo Kurt,

[quote="Kurt Utzinger"]

Kein Mensch zwingt Dich, jede Version [sofort] zu testen. Den Ärger und
Stress machst Du Dir also eher selber.
...
[/quote]

Sicher hast du Recht das ich und andere - nicht gezwungen werde und es sein lassen kann.
Die Konsequenz ist dann aber, dass das Verhalten der "Progrmmierer", nämlich im Tagesrhythmus neue Version auf den Markt zu werfen, dazu führt das ich nicht teste, was einem dann wieder die "Jünger" des momentan gerade angesagten Littos nachtragen. Und gerade angesagt ist gestern ein Fire, heute ein Ivanhoe, morgen ein Houdini und übermorgen irgendein Samos ... es nimmt kein Ende.

In allen Fällen ist der Tester der Gelackmeierte!

Gruß
Ingo

PS: Ich bekomme mindestens 3 PMs die Woche warum ich denn nicht gerade dies oder jene Version teste, die ist doch ganz eindeutig viel besser als Rybka, und als Verweis kommt dann irgendein selbstgemachter Test mit unbekannten Bedinungen über volle 20 Spiele gegen Rybka ....!? So sehr ich auch skeptisch bin was das pauschale Verurteilen dieser Engines betrifft, die ganze Aufregung um etwas was sich de fakto seit fast Jahr nicht bewegt (oder besser mal 10 ELo rauf und dann mal 10 runter) kann ich nicht verstehen.
Parent - - By Frank Quisinsky Date 2010-12-06 18:13
Hallo Kurt,

nein, ich bin eigentlich immer froh wenn genug zu testen vorhanden ist.
So kann ich längere Turniere organisieren und das macht mehr mehr Spaß als Spießroutenläufe.

Wenn es Stress machen würde, würde ich diese Aktion doch gar nicht starten.

Aber wenn wirklich zu viele Versionen von diversen Engines kommen dann wird das meist ein Beta Test.
Es werden Fehler gemeldet (glaube im letzten Jahre waren es über 30 BugReports die ich rausgeschickt habe).

Wenn zu viele Versionen kommen, kann das niemand mehr richtig testen.
Und wenn es getestet wird verwischen die Ratinglisten weil dann zu viele Versionen von Engine x oder y.

Das immer andauerende Problem beim Erstellen solch riesiger Listen.

Gruß
Frank
Parent - - By Gerhard Sonnabend Date 2010-12-06 19:45
[quote="Frank Quisinsky"]
[...snip...]
Und wenn es getestet wird verwischen die Ratinglisten weil dann zu viele Versionen von Engine x oder y.
[...snip...]
[/quote]

DER Grund, weshalb ich für meine QBRL immer lediglich 2 Engines
eines Autoren in die Wertung eingehen lasse. Ältere Versionen
scheiden somit nach und nach aus, die alten Resultate speichere
ich selbstverständlich in einer separaten Datenbank.

Viele Grüsse,
G.S.

http://www.pcschach.de/Punkt3.htm
Parent - By Frank Quisinsky Date 2010-12-06 22:25
Hallo Gerhard,

das ist sicherlich auch eine gute Variante !!

Selbst schrieb ich ja immer, dass die SWCR mit allen Partien immer mit Vorsicht zu genießen ist.
So habe ich ja 5 Ratinglisten.

1. SWCR-32, jeder gegen jeden 40 Partien, 24 Engines = 920 Partien pro Engine
2. SWCR-64, jeder gegen jeden 40 Partien, 24 Engines = 920 Partien pro Engine
3. SWCR-32, alle Partien
4. SWCR-64, alle Partien
5. SWCR-32 & SWCR-64, alle Partien (Gesamtratingliste).

Die Listen werden nach den letzten 3.600 vom SWCR-64 Turnier wieder aktualisiert. Zur Zeit aktualisiere ich nur die Liste aller SWCR-32 & SWCR-64 Partien.
Also ca. um den 23.12.2010 ... bis dahin sind jetzt noch 4.600 Partien zu spielen (die 1.000 von GullChess 1.1 x64 aktueller Spießroutenlauf, und die besagten offen stehenden 3.600 von 9.360 neuen Partien vom laufenden SWCR-64 Turnier).

Wegen den vielen Updates, dauert derzeit bei mir alles etwas länger ... aber was solls.
Wer sich bei der SWCR informieren möchte hat ja Tagesaktuell immer die Liste aller Partien!

Also, organisiert bin ich ja auch.
Der von Dir gewählte Weg ist auch gut (immer nur 2 Engines von einem Autor).

Viele Wege führen nach Trier!

Gruß
Frank
Parent - - By Willi Prinz Date 2010-12-08 17:35
Ich hätte da mal eine Frage Frank,laut deinem Test ist, also ich schreib das mal so, Rybka 4 exp die beste von allen.Soweit so gut.Nichts dagegen.
Würde man nun diesen Test unter gleichen Bedingungen wiederholen,wie gross ist die Wahrscheinlichkeit das es ein gleiches Ergebnis gibt.
Die Abweichungen gegenüber den andern ist ja gering.
Du brauchst das auch nicht neu auszuspielen,nur ,wie sicher ist die Aussage Rybka 4 exp ist eben die 20 oder mehr Elos besser,statistisch gesehen.
Nur eine Aussage,zB 90 Prozent,oder auch nur 50 Prozent.
Oder reden wir hier über Dinge die kein Mensch genau weiss,weil man vielleicht 10000 Computer brauch um das wirklich herauszufinden?
Oder noch konkreter wie sicher ist es das Rybka 4 esp nach tausend Spielen mit gleicher Hardware Weltmeister wird?
Oder ist das alles nur akademisch,zum gefallen der Zuschauer.
Mir ist aufgefallen,das viele immer noch glauben das Houdini oder andere ein Clone von Rybka sind.
Ich glaube das inzwischen auch,weil eben die Unterschiede zu gering sind.
Glaube aber auch das Rybka ein Produkt von mehreren Programmierern ist,und nicht nur von dem Vasik.
Irgendeiner von denen hatte den Sack voll,und hat das veröffentlicht,so wie Fruit gewollt!
Es kann ja nicht sein das irgendwelche Programme aus dem nichts auftauchen,und 200 Elos über Fritz oder Shredder liegen.
Eigentlich toll,die kosten nichts und sind besser!
Nur sind dann Shredder und Fritz wenn es um Elozahlen geht,nicht mehr vertretbar,auch nicht ihren Preis.
Ich kann natürlich finden Shredder Gui,oder Fritz Gui ist das beste vom besten.
Ich persönlich finde Arena auch sehr gut,habe kein Problem damit,zufrieden könnte man sagen,vor allem mit dem Preis 0.
Ich möchte mich hier auch nicht einmischen über Testmethoden oder sowas,davon habe ich keine Ahnung.
Gruss Willi
Parent - By Frank Quisinsky Date 2010-12-09 00:47
Hallo Willi,

Dein erster Satz ... GUTE FRAGE!

Bei 1.000 Partien ...
Nach meinen Statistiken ca. bei 70:1, dass im Falle einer Wiederholung eines Spießroutenlaufes ein gleiches Ergebnis +-8 dabei herauskommt.
Also ca. 16 ELO maximale Differenz zum ersten Ergebnis. In 1 von 70 Fällen vielleicht darüber hinaus, auch nur knapp.

Aber Statistiken sind und bleiben "nur" Statistiken!
Denn wie der Zufall es so will, würde ich das wirklich machen - Wiederholung von einem Spießroutenlauf -, und hätte eine Differenz von 25 ...
Würde das Gelächter "zu Recht" ziemlich heftig ausfallen!

Zu Deiner zweiten Frage:
Das Rybka 4 Exp. 42 besser spielt als die Grundeinstellung dürfte nach jetzt ca. 700 Partien klar sein.
Sedat kam nach ca. 500 Partien gar auf knappe 40 ELO. Es ist eher wahrscheinlich das es bei mir mehr als weniger wird.

Houdini:
Houdini ist ein älterer IvanHoe. IvanHoe basiert auf Fire, Fire auf Firebird, Firebird auf Robbolito und Robbolito auf Iggorit.
Und Iggorit soll ja Teile von Rybka enthalten.
Ist schon viel dazu geschrieben wurden, verzichte jetzt auf weitere Ausführungen.

Fritz und Shredder, Sjeng und Hiarcs, Junior etc. werden immer besondere Programme bleiben, weil diese völlig anders spielen als diese ganzen neu veröffentlichen Engines, die plötzlich in den TOP-20 auftauchen. Umko ist allerdings sehr interessant. Sehr eigenwilliger Spielstil ... auch anders als die anderen mit ganz neuen Kombinationen von Stärken und Schwächen. Keine pauschale Aussage aber wie dem auch ist ... die älteren TOP Programme sind langjährige Entwicklungen und in vielen Partiephasen spielen diese Programme ausgewogener. Allerdings werden diese ganzen TOP-Engines "früherer Zeiten" aber im späten Mittelspiel bis zum frühen Endspiel überrechnet. Durch kleine positionellen Nachteilen werden meist die Punkte verspielt.

Denke das sich eh überwiegend die knallharten Computerschächler mit Programmen wie Umko, GullChess, Komodo etc. beschäftigen. Und genau diese gleiche Gruppe jedoch auch mit Hiarcs, Junior und Sjeng. Der Reiz ist bei mir z. B. eher höher bei den kommerziellen Engines. Ausgenommen vielleicht Stockfish und Spark, die ich zu meinen absoluten Favoriten zähle. Eigentlich schaue ich bei jeder Engine gerne zu, auch wenn nur 2.200 ELO. Fiebere mit und versuche beim Zuschauen selbst Pläne zu entwickeln. Eigentlich ist es fast egal welche Engines gerade spielen.

Leider wird Spark 0.5 beim laufenden Spießroutenlauf von GullChess 1.1 kräftig vermöbelt.
Das wiederrum passt mir gar nicht und wenn Spark spielt und ich zusehen kann dann versuche ich intensiv zu verfolgen

Gruß
Frank
Up Topic Hauptforen / CSS-Forum / Großer Test von IvanHoe B49jA

Powered by mwForum 2.29.3 © 1999-2014 Markus Wichitill