Not logged inCSS-Forum
Forum CSS-Online Help Search Login
CSS-Shop Impressum Datenschutz
Up Topic Hauptforen / CSS-Forum / Neue Ausgabe der TEB-Rangliste
- - By Stefan Pohl Date 2011-12-11 14:07
Hallo zusammen,

Hier die neueste Ausgabe der TEB-Liste (Top-Engine-Blitz). Nunmehr wurde Robbolito 0.09 aufgenommen. Diese Engine ist zwar schon 2 Jahre alt, aber ich wollte sie integrieren, da sie die Ausgangsbasis sowohl für Fire als auch für Ivanhoe ist. Damit man auch in meiner Liste erkennen kann, ob und wie sehr sich die neuen Ivans und Fires vom Urvater Robbolito absetzen konnten. Generell wird es aber dabei bleiben, daß ich keine veralteten Versionen in die Rangliste aufnehmen werde.
Kurz noch einmal die Testbedingungen:
Gespielt wird in schnellem Blitztempo (30 Sekunden Basiszeit und 400ms FischerBonus) mit je einem Core (ohne Pondern und ohne Tablebases - letzteres ist bei diesem schnellen Spieltempo ggf. ergebnisverzerrend, da die Zugriffe selbst auf Flash-Memory nicht schnell genug sind) unter der LittleBlitzer-GUI mit je 128MB Hash. Gespielt wird bis zum Matt, Remis wird von der GUI erst nach 200 Zügen gegeben. Diese Zeiteinteilung (s.o.) bedeutet in der Praxis, daß die Engines pro Partie ca. 1 Minute Rechenzeit verbrauchen. Es werden pro Einzelbegegnung 300 Partien absolviert, indem 150 von mir handverlesene Stellungen aus der ausgezeichneten Frank Q. Datenbank als Vorgabe zum Einsatz kommen. Und zwar nur praxisnahe Eröffnungen, die Engine-Bücher auch wirklich spielen würden. Also kein Fränzösisch, Holländisch, CaroKann, Aljechin etc. etc.

Hier nun die aktuelle Version der TEB-Liste (erstellt mit bayeselo):

Rank Name                       Elo    +    - games score oppo. draws
   1 Houdini 2.0c x64          3000   11   11  2400   67%  2890   38%
   2 Ivanhoe B46fa x64         2919   10   10  2400   53%  2901   49%
   3 Critter 1.2 64-bit        2918   10   10  2400   53%  2901   45%
   4 Fire 2.2+ xTreme GH x64   2905   10   10  2400   51%  2902   51%
   5 Rybka 4.1                 2892   10   11  2400   48%  2904   43%
   6 RobboLito 0.09 x64        2889   10   10  2400   47%  2904   50%
   7 Komodo64 3                2877   11   11  2400   46%  2906   41%
   8 Stockfish 111026 64bit    2876   11   11  2100   44%  2914   43%
   9 Stockfish 2.1.1 JA 64bit  2846   11   11  2100   39%  2914   41%

Da verschiedene Versionen der gleichen Engine nicht gegeneinander spielen sollen, haben beide Stockfische je 300 Partien weniger absolviert. Gefixt wurden die Elozahlen an Houdini 2.0c x64, der auf 3000 Elo gesetzt wurde. Wie in jeder Rangliste sind aber natürlich die Elo-Abstände und nicht die absoluten Werte interessant.

Man sieht, daß der allerneueste Ivan nunmehr 30 Elo vor Robbolito 0.09 liegt. Für 2 Jahre Entwicklungszeit ist das sicher nicht gerade besonders viel, aber auf diesem hohen Niveau sind auch 30 Elo nicht zu verachten. Fire liegt sogar nur 15 Elo vor Robbo, hat aber eine interessante, sehr selektive Suche, die Superzüge aber auch gelegentliche Aussetzer produziert.
Erwähnenswert ist die bei allen Engines für dieses schnelle Blitztempo auffallend hohe Remisquote, die m.E. deutlich belegt, daß heutzutage dieses schnelle Tempo eben nicht zu schnell ist und sehr wohl vernünftige Ergebnisse produziert, sofern man einen ausreichend großen Fischerbonus einräumt. Und das sehr schnell (der Robbolito-Spießrutenlauf dauerte 20 Stunden) und mit sehr hoher statistischer Sicherheit, weil man viele Partien generiert. Und man braucht keinen PC-Fuhrpark, den sich ja nicht jeder leisten kann. Ich würde sogar in Erwägung ziehen, das Tempo noch weiter zu erhöhen, aber bei weniger als 300 ms Fischerbonus fangen die Engines an, Partien auf Zeit zu verlieren. Daher sind 400 ms Fischerbonus wohl so ziemlich das untere Minimum (für die LittleBlitzerGUI).

Grüße an alle - Stefan
Parent - - By Benno Hartwig Date 2011-12-11 14:33
In deiner Liste gibt es zwei Stockfishe, ansonsten ist jede Enginelinie nur einmal vertreten.
Und dass du hier die verschiedenen Ippo-Abkömmlinge einzeln führst, finde ich dabei auch sehr OK!

Aber warum diese beiden Stockfishe?
Ich würde einen rausnehmen, ggf. dann eine weitere eigene Enginelinie hinzunehmen.

Benno
Parent - By Stefan Pohl Date 2011-12-12 11:39
[quote="Benno Hartwig"]
In deiner Liste gibt es zwei Stockfishe, ansonsten ist jede Enginelinie nur einmal vertreten.
Und dass du hier die verschiedenen Ippo-Abkömmlinge einzeln führst, finde ich dabei auch sehr OK!

Aber warum diese beiden Stockfishe?
Ich würde einen rausnehmen, ggf. dann eine weitere eigene Enginelinie hinzunehmen.

Benno
[/quote]

Es gibt zwei Stockfishe, weil die alte Version nicht gelöscht wird. Sie wird aber bei einem neuen Spießrutenlauf einer neuen Engine oder neuen Version einer anderen Engine nicht mehr mitgetestet. Gelöscht werden sollen alte Versionen aber nicht, zumindest solange nicht, wie ich noch keine neue Hardware habe und die Liste dann komplett neu aufbaue.
Kommt jetzt (hoffentlich) bald ein neuer Critter oder Komodo, so wird auch dort die jetzige - dann veraltete - Version aus der Liste nicht gelöscht, aber sie wird gleichfalls dann nicht mehr in aktuelle Testläufe mit einbezogen, um Verzerrungen zu vermeiden.

Gruß - Stefan
Parent - - By Benno Hartwig Date 2011-12-11 14:34
In deiner Liste gibt es zwei Stockfishe, ansonsten ist jede Enginelinie nur einmal vertreten.
Und dass du hier die verschiedenen Ippo-Abkömmlinge einzeln führst, finde ich dabei auch sehr OK!

Aber warum diese beiden Stockfishe?
Ich würde einen rausnehmen, ggf. dann eine weitere eigene Enginelinie hinzunehmen.
Oder ist 'Stockfish 111026 64bit' deine höchstpersönliche Eigen-Modifikation, und du möchtest sehen, wie sie im Feld abschneidet? (Solche Neugierde könnte ich ja verstehen.)

Benno
Parent - - By Stefan Pohl Date 2011-12-12 11:56
[quote="Benno Hartwig"]

Oder ist 'Stockfish 111026 64bit' deine höchstpersönliche Eigen-Modifikation, und du möchtest sehen, wie sie im Feld abschneidet? (Solche Neugierde könnte ich ja verstehen.)

Benno
[/quote]

Hi Benno,

nein, es ist wohl so , daß die Stockfishautoren experimentellen Code, der noch nicht im offiziellen Stockfish verbaut wurde, online gestellt haben. Daraus hat dann PeterPan, der auch die Ivans mit dem B in der Versionsnummer compiliert, einige neue Stockfishe compiliert, von denen dieser wohl der beste ist (man sieht ja das ja in der TEB-Liste ganz klar). Da es bei Stockfish sonst in der letzten Zeit nicht viel neues gab und das neue auch nicht viel besser war, wollte ich diese Version integrieren, eben weil sie wohl die z.Zt. beste ist. Die offizielle 2.1.1 brauchte ich als Vergleichswert, sonst kann ich ja die Steigerung nicht messen. Aber wie schon oben gepostet, auch bei anderen Engines werden alte Versionen aus der Liste nicht gelöscht, aber eben dann auch bei aktuellen Testläufen nicht mehr mitgeschleift. Das ist doch eigentlich das übliche Verfahren in Ranglisten, oder? Bei mir fällt das nur so ins Auge, weil die Rangliste noch so neu ist und es nur von einer Engine bisher eine neue Version gibt.

Gruß - Stefan
Parent - - By Benno Hartwig Date 2011-12-12 14:53
[quote="Stefan Pohl"]nein, es ist wohl so , daß die Stockfishautoren experimentellen Code, der noch nicht im offiziellen Stockfish verbaut wurde...[/quote]
Oh, thanx, das hatte ich nicht mitbekommen.
Da darf man gern schon gespannt daraufsehen, aber für echte Ratings sollte man dann auf die Freigabe warten.
Benno
Parent - - By Stefan Pohl Date 2011-12-12 14:59
[quote="Benno Hartwig"]

Da darf man gern schon gespannt daraufsehen, aber für echte Ratings sollte man dann auf die Freigabe warten.
Benno
[/quote]

Was genau ist an meinem Rating unecht? Und wenn Codemodifikationen einer OpenSource-Engine online stehen und jemand daraus dankenswerterweise eine stabile und starke Engine compiliert, braucht es doch wohl keine Freigabe? Wer OpenSource online stellt, hat es auch freigegeben.

Stefan
Parent - - By Benno Hartwig Date 2011-12-12 15:12
[quote="Stefan Pohl"]Was genau ist an meinem Rating unecht?
Nein, Stefan, ich stehe doch gar nicht auf deinem Schlips.
Ich fänd einfach angemessen, wenn die großen Rating-Listen auf das Erscheinen des nächsten regulären Releases warten.
Aber jeder soll gern testen und raten soviel er möchte. Und selbst wenn CEGT das auch machen würde, würde ich nicht wütend.


Zitat:
Und wenn Codemodifikationen einer OpenSource-Engine online stehen und jemand daraus dankenswerterweise eine stabile und starke Engine compiliert, braucht es doch wohl keine Freigabe? Wer OpenSource online stellt, hat es auch freigegeben.
'Freigegeben zur Beschäftigung damit' sicher.
In diesem Sinne ist auch jede beta-Version freigegeben. Und auch der erste Ippo mit all seinen Bugs war freigegeben.
Und sowas meinte ich eben nicht sondern ein reguläres Stockfish-Release, welches bei den Stockfish-Entwicklern das vermutlich definierte Freigabe-Procedere durchlaufen hat.

Benno
Parent - - By Stefan Pohl Date 2011-12-12 15:30
[quote="Benno Hartwig"]

Ich fänd einfach angemessen, wenn die großen Rating-Listen auf das Erscheinen des nächsten regulären Releases warten.

[/quote]

Hallo Benno,

das machen sie ja wohl auch. Finde ich halt ein bißchen schade, weil diese Version wirklich saustark ist.

Gruß - Stefan
Parent - By Ingo Bauer Date 2011-12-12 15:52
Hier: http://talkchess.com/forum/viewtopic.php?topic_view=threads&p=437355&t=41395 was Klemens für dieses Stockfish bei einer minimal längeren Zeitkontrolle (5 + 3) raus hat.

Ich verrate es mal: 8 Elo weniger als die 2.1.1 bei 680 Spielen. Zu wenig Spiele, aber "saustark" im Vergleich zum original sieht anders aus.

Gruß
Ingo
Parent - By Benno Hartwig Date 2011-12-12 15:22
[quote="Stefan Pohl"]Wer OpenSource online stellt, hat es auch freigegeben. [/quote]PS:
Wie wurden die 111026-Sourcen eigentlich veröffentlicht? Wurden sie durch die Entwickler selbst unter GPL 'online gestellt'?
Benno
Parent - - By Ingo Bauer Date 2011-12-11 15:03
Hallo Stefan,

[quote="Stefan Pohl"]
Man sieht, daß der allerneueste Ivan nunmehr 30 Elo vor Robbolito 0.09 liegt....
[/quote]

Da du mir noch vor kurzem vorgeworfen hast ich hätte mich nicht mit den Engines beschäftigt und keine Ahnung von ihnen habe, kommt hier von mir mal ein durchaus selbstgefälliges: "Hab ich doch gleich gesagt" sowie die erneuerte Aussage: Das feurige Ritterzeug compiliert seit Jahren Enignesettings ohne Substanziel vorwärts zu kommen.

[quote="Stefan Pohl"]
Erwähnenswert ist die bei allen Engines für dieses schnelle Blitztempo auffallend hohe Remisquote, die m.E. deutlich belegt, daß heutzutage dieses schnelle Tempo eben nicht zu schnell ist und sehr wohl vernünftige Ergebnisse produziert, sofern man einen ausreichend großen Fischerbonus einräumt. ...
[/quote]

Ein eleganter Schwung von "hoher Remisquote" zu "deutlich belegt,  dass ... dieses ... Tempo ... nicht zu schnell ist", allein scheint mir, dass da kein Zusammenhang besteht.  Es ist doch sogar eher so, dass bei langen Zeitkontrollen von erhöhter Remisquote ausgegangen wird (und Engines deswegen zusammenrücken), was deiner Theorie sogar wiedersprichten würde. Zuallererst würde ich mal vermuten das dein Testfeld sich sehr ähnlich ist und deswegen eine hohe Remisquote zustande kommt.

Gruß
Ingo
Parent - By Frank Quisinsky Date 2011-12-11 15:31
Code:
Rank Name                            Elo    +    - games score oppo. draws
    1 Houdini 2.0c x64               3018   20   20  1230   82%  2755   25%
    2 Houdini 1.5 x64                2998   14   14  2320   78%  2771   29%
    3 Houdini 1.5 w32                2980   19   19  1240   79%  2755   29%
    4 Rybka 4 x64 Exp. 42            2968   19   19  1223   79%  2734   26%
    5 Rybka 4.1 x64 Exp. 79TD v.1    2963   20   19  1200   79%  2735   26%
    6 Komodo 3.0 x64                 2961   17   17  1510   76%  2754   32%
    7 IvanHoe 999946f x64            2960   33   32   386   74%  2770   30%
    8 Rybka 4 x64 Exp. 61            2959   21   21  1000   78%  2741   27%
    9 IvanHoe B46fB x64              2959   32   31   386   75%  2770   37%
   10 Rybka 4.1 x64                  2955   15   15  1790   73%  2776   36%
   11 Critter 1.2 x64                2954   16   15  1710   76%  2753   34%
   12 Stockfish 2.1.1 JA x64 PHQ     2949   18   18  1302   76%  2749   32%
   13 Houdini 1.03a x64              2943   21   21  1000   80%  2710   30%
   14 Fire 2.2 xTreme x64            2941   16   16  1670   75%  2749   34%
   15 IvanHoe B47cB x64              2940   15   15  1768   71%  2784   39%
   16 Rybka 4 x64                    2940   18   17  1480   80%  2696   28%
   17 Fire 1.5 xTreme x64            2935   17   16  1400   73%  2761   36%
   18 Critter 1.2 w32                2934   18   18  1200   75%  2753   36%
   19 IvanHoe B49jA x64              2931   19   18  1160   76%  2737   34%
   20 Stockfish 2.1.1 JA x64         2930   15   15  1827   73%  2756   35%
   21 Komodo 2.03 JA x64             2926   17   16  1480   73%  2749   31%
   22 IvanHoe B52aC x64              2918   20   20  1000   76%  2725   34%
   23 RobboLito 0.09 x64             2917   17   16  1502   74%  2733   33%


Schauen wir mal auf Ingo's Aussage mit ein wenig Potential anstatt Worte.

Wir haben bei IvanHoe B52aC x64 zu IvanHoe B46fB x64 derzeit eine Verbesserung von 42 ELO.
Die Version B52aC ist vom 15.09.2010, also ca. 1 Jahr und 3 Monate alt.

Zu Robbolito 0.09 sind es 43 ELO, die Engine ist vom 31.12.2009, also ca. 2 Jahre alt.
IvanHoe kam kurze Zeit nach der letzten Version von Robbolito.

Sagen wir jetzt mal, großzügig innerhalb von 2 Jahren ca. 40 ELO.
Das ist nicht sehr viel aber aufgrund der sehr hohen Spielstärke der ersten Versionen auch nicht sehr wenig.

Wir wissen, dass Stockfish stagnierte, sich kam verbessert hat.
Wir wissen auch das bei kommerziellen Engines in der Vergangenheit der Sprung oft nur 20-30 ELO waren.
Auch bei Shredder, nicht bei den letzten beiden Shredder Versionen.

Ivanhoe wird offiziell entwickelt. Die Sourcen werden angeboten, Ideen von Personen die sich mit den Sourcen beschäftigen fließen ein. Das ist kein Projekt von einem Einzelkämpfer. Schauen wir noch ein wenig tiefer, die freien Sourcen, ob nun von Stockfish oder von IvanHoe werden offenbar rege genutzt, Ideen fließen in anderen Programmen ein. Grundsätzlich ein Indiz dafür warum viele Programme gar mit größeren Schritten daher kommen, denn kein Programmierer muss heute das Rad neu erfinden.

Wie schaut es bei Robert Houdart aus.
Houdini 1.0 und Robbolito 0.09 können wir ja gut vergleichen, sind die gleichen Engines.
Ein Einzelkämpfer der nun von 1.0 auf 2.0c 100 ELO machte, in ca. 1 1/2 Jahren.

Da hätte Vas aber drüber gelacht.
Er machte ca. 275 ELO einst zu seiner ersten Version.

Bei Junior gab es 2010 gar auf 11 einen Rückschritt. Bei Protector stagnierte die Entwicklung bis 1.4.0 kam. Bei Crafty gibt es letztendlich auch Fortschritte aber diese sind auch eher bescheiden. Bei Fritz sind es bei den letzten Versionen von Jahr zu Jahr beständig durchschnittlich 35-40 ELO.

Bei offenen Sourcen ist alles etwas schwieriger, weil die Sourcen offen liegen.
Wenn z. B. bei IvanHoe plötzlich Stockfish Code drin wäre, würde das auffallen.
Wenn bei Stockfish plötzlich Code von einem anderen offenen Programm drin wäre würde das auffallen.
Das fällt nicht auf wenn die Sourcen nicht frei sind. Die Einzelkämpfer können sich also eher im stillen Kämmerlein bedienen.

Bei aller Begeisterung aber die Tatsachen sollten im Blickfeld bleiben, schon weil sonst später die Enttäuschung nicht so groß ist wenn mal etwas raus kommt.

Gruß
Frank
Parent - - By Timo Haupt Date 2011-12-11 17:44 Edited 2011-12-11 17:48
Hallo Ingo!

[quote="Ingo Bauer"]
[quote="Stefan Pohl"]
Man sieht, daß der allerneueste Ivan nunmehr 30 Elo vor Robbolito 0.09 liegt....
[/quote]
Da du mir noch vor kurzem vorgeworfen hast ich hätte mich nicht mit den Engines beschäftigt und keine Ahnung von ihnen habe, kommt hier von mir mal ein durchaus selbstgefälliges: "Hab ich doch gleich gesagt" sowie die erneuerte Aussage: Das feurige Ritterzeug compiliert seit Jahren Enignesettings ohne Substanziel vorwärts zu kommen.
[/quote]

Da bin ich voll deiner Meinung und genau das ist auch der Grund, warum mich diese "feurigen Ritter" seit geraumer Zeit nicht mehr die Bohne interessieren. Es gibt kaum ein langweiligeres Thema für mich als diese Derivate, die seit 2 Jahren mehr oder weniger auf der Stelle treten. RH ist es hingegen gelungen, in wesentlich kürzerer Zeit den Robbo-Code nicht nur von groben Bugs zu befreien, sondern ihn auch spielstärkemäßig aufzubohren. Bin kein Houdini-Fanboy, aber ich denke, dass Houdart es im Gegensatz zu den vielen Leuten, die an Ivanhoe herumfummeln, geschafft hat, den Robbo-Code an entscheidenden Stellen grundsätzlich zu verbessern. Er ist eben ein Entwickler mit eigenen Ideen, während die anderen lediglich durch optimierte Settings / Compiles versuchen, ein paar Elos herauszuquetschen. Wie man ohne dabei vor Langweile einzuschlafen eine Rangliste ausspielen kann, die überwiegend stark verwandte Engines beinhaltet, begreife ich nicht. Aber jedem das seine...

Jeder hier hat seine eigene Meinung und wenn andere es interessiert, welche Microschritte vor- und rückwärts diese seltsamen Engines machen, sollen sie sich halt damit beschäftigen. Ich wäre hingegen dafür, dass man ähnlich wie im CCC ein separates Unterforum dafür aufmacht. Wenn sich die Postings mit diesen Inhalten hier nämlich weiterhin mehren, vergeht mir immer mehr die Lust, hier überhaupt noch Themen anzulesen - schließlich könnte der Inhalt wieder derivatbehaftet sein (und nicht explizit im Themennamen darauf hingewiesen worden sein).

Viele Grüße
Timo
Parent - By Ingo Bauer Date 2011-12-11 18:31
Moin Timo,

[quote="Timo Haupt"]

... das ist auch der Grund, warum mich diese "feurigen Ritter" seit geraumer Zeit nicht mehr die Bohne interessieren. Es gibt kaum ein langweiligeres Thema ...
[/quote]

Alles gesagt, nichts hinzuzufügen.

[quote="Timo Haupt"]
... Ich wäre hingegen dafür, dass man ähnlich wie im CCC ein separates Unterforum dafür aufmacht....
[/quote]

Das sehe ich nicht so. Wenn du ein Derivatesubforum aufmachst besteht das Problem der Trennung. Also wer muß da rein und wer nicht. Die Ivans, ohne Zweifel, Rybka na klar, Houdini - wahrscheinlich, aber da geht die Beweisbarkeit schon los, Naum ... Critter ... Stockfish ... wo hört es auf, wo fängt es an? Das Handling im CCC halte ich für falsch, das Subforum dort gehört aufgelöst.

Ich gebe dir zwar Recht das es einem die Lust vergällt, aber man muß sich entweder angewöhnen selektiv zu lesen (also mindestens Themen und wahrscheinlich Personen ignorieren). Wenn das nicht klappt ist die einzige Konsequenz die Kapitulation und (noch) eine Emailliste mit ausgesuchten Personen einzurichten ... vielleicht ist das der richtige Weg!? (Tatsächlich haben Googles 'Circles' etwas für sich - über das ich nachdenke!!!)

Gruß
Ingo
Parent - - By Stefan Pohl Date 2011-12-12 11:50
[quote="Ingo Bauer"]
Hallo Stefan,

[quote="Stefan Pohl"]
Man sieht, daß der allerneueste Ivan nunmehr 30 Elo vor Robbolito 0.09 liegt....
[/quote]

Da du mir noch vor kurzem vorgeworfen hast ich hätte mich nicht mit den Engines beschäftigt und keine Ahnung von ihnen habe, kommt hier von mir mal ein durchaus selbstgefälliges: "Hab ich doch gleich gesagt" sowie die erneuerte Aussage: Das feurige Ritterzeug compiliert seit Jahren Enignesettings ohne Substanziel vorwärts zu kommen.

[quote="Stefan Pohl"]
Erwähnenswert ist die bei allen Engines für dieses schnelle Blitztempo auffallend hohe Remisquote, die m.E. deutlich belegt, daß heutzutage dieses schnelle Tempo eben nicht zu schnell ist und sehr wohl vernünftige Ergebnisse produziert, sofern man einen ausreichend großen Fischerbonus einräumt. ...
[/quote]

Ein eleganter Schwung von "hoher Remisquote" zu "deutlich belegt,  dass ... dieses ... Tempo ... nicht zu schnell ist", allein scheint mir, dass da kein Zusammenhang besteht.  Es ist doch sogar eher so, dass bei langen Zeitkontrollen von erhöhter Remisquote ausgegangen wird (und Engines deswegen zusammenrücken), was deiner Theorie sogar wiedersprichten würde. Zuallererst würde ich mal vermuten das dein Testfeld sich sehr ähnlich ist und deswegen eine hohe Remisquote zustande kommt.

Gruß
Ingo
[/quote]

Hi Ingo,

Eben weil von erhöhten Remisquoten bei längeren Zeitkontrollen ausgegangen wird, denke ich, daß die Bedenkzeit in der TEB (natürlich immer in Verbindung zum schnellen Grundtempo des Prozessors!) eben lang genug ist, um "vernünftiges" Computerschach zu produzieren. Ich glaube nämlich nach den hohen Remisquoten in der TEB-Liste, daß es vielmehr eine Art von Schwellwert nach unten gibt (Kombination aus Rechenzeit und Rechengeschwindigkeit), der nicht unterschritten werden darf, weil ansonsten keine sinnvollen Züge mehr generiert werden können. Ob die Remisquote wiklich ad infinitum steigt, sofern die Rechenzeit/Leistung ansteigt, wage ich zu bezweifeln. Irgendwo muß sich das auf einen Höchstwert einpendeln, sonst wäre die Remisquote ja irgendwann bei 100%... Und dieser Höchstwert scheint heutzutage schon bei sehr kurzen Rechenzeiten zumindest in Sichweite zu liegen.
Ganz wichtig aber immer: Fischerbonus, der ein Limit nicht unterschreitet, damit die Rechenzeit pro Zug auch bei langen Partien ein Limit nicht unterschreitet.

Und zum Thema der nicht Fortschritte bei den Ivans hab ich alles gesagt, da will ich mich nur insofern wiederholen, als daß ich mal ins Gedächtnis rufe, daß zu Richard Lang (Amsterdam, Roma, Vancouver etc. etc.)Modul Zeiten 30 Elo pro Jahr für sehr viel Geld verkauft wurden. Auch in den 90er Jahren gab es bei den arrivierten Profis (Morsch, Uniacke, SMK) durchaus mal Jahre wo es nur so ca. 30 Elo vorwärts ging. Von daher finde ich 15 Elo pro Jahr von einer unkoordinierten Amateurtruppe, die sich wild durchs Leben kompiliert, durchaus substanziell, wenn auch nicht berauschend. Man darf das alles nicht immer mit Houdini vergleichen. Houdart hatte einen 100-Elo-Genieblitz, dazu sicher meinen Glückwunsch und meine größte Anerkennung, aber sowas sollte man nicht als Maßstab wählen.

Gruß - Stefan
Parent - - By Ingo Bauer Date 2011-12-12 13:31
Moin moin,

[quote="Stefan Pohl"]
Eben weil von erhöhten Remisquoten bei längeren Zeitkontrollen ausgegangen wird, denke ich, daß die Bedenkzeit in der TEB (natürlich immer in Verbindung zum schnellen Grundtempo des Prozessors!) eben lang genug ist, um "vernünftiges" Computerschach zu produzieren. Ich glaube nämlich nach den hohen Remisquoten in der TEB-Liste, daß es vielmehr eine Art von Schwellwert nach unten gibt (Kombination aus Rechenzeit und Rechengeschwindigkeit), der nicht unterschritten werden darf, weil ansonsten keine sinnvollen Züge mehr generiert werden können. Ob die Remisquote wiklich ad infinitum steigt, sofern die Rechenzeit/Leistung ansteigt, wage ich zu bezweifeln. Irgendwo muß sich das auf einen Höchstwert einpendeln, sonst wäre die Remisquote ja irgendwann bei 100%... Und dieser Höchstwert scheint heutzutage schon bei sehr kurzen Rechenzeiten zumindest in Sichweite zu liegen.
Ganz wichtig aber immer: Fischerbonus, der ein Limit nicht unterschreitet, damit die Rechenzeit pro Zug auch bei langen Partien ein Limit nicht unterschreitet.
[/quote]

Wir sind uns da in vielen Dingen einig. Remisquote steigt an, bei flacher werdender Kurve OK, Schwellwert nach unten OK - allerdings setzwn wir da unterschiedliche Zeiten an, für eine Rangliste ich höher als du. Auch Clemens schrieb ja das bei deren internen Test so etwas für eine einzelne Engine noch funktionierte, bei 3 +2 aber nichts davon übrig bleibt. Auch das Stockfish Team ist damit schon auf die Nase gefallen. Bei einer Version waren sie hocherfreut das bei mir soviel rauskam weil ihre internen Test das nicht gezeigt haben, bei der nächsten waren sie entäuscht weil nichts mehr dabei rum kam. Bei zweiten mal wurde dann der Testaufbau geändert - wie bei Clemens. Kurz, für einen Rangliste halte ich denen Testaufbau für verfehlt. Bei Fisher sind wir uns wieder einig. Es muß einfach ein wenig Zeit für die Komunikation eingeplant werden, oder mann müßte kompliziert mit Zeitstempeln im Protokoll arbeiten ... .
Nochmal zur Remisquote. Ockhams Messer sagt mir das deine Hohe Remisquote nicht auf deine Kurze Bedenkzeit zurückzuführen ist, sondern weil deine Engines als Gegner viel zu ähnlich sind. Die andere Argumentation scheint mir zu weit hergeholt wenn es auch eine viel einfachere gibt.

[quote="Stefan Pohl"]
Und zum Thema der nicht Fortschritte bei den Ivans hab ich alles gesagt, da will ich mich nur insofern wiederholen, als daß ich mal ins Gedächtnis rufe, daß zu Richard Lang (Amsterdam, Roma, Vancouver etc. etc.)Modul Zeiten 30 Elo pro Jahr für sehr viel Geld verkauft wurden. Auch in den 90er Jahren gab es bei den arrivierten Profis (Morsch, Uniacke, SMK) durchaus mal Jahre wo es nur so ca. 30 Elo vorwärts ging. Von daher finde ich 15 Elo pro Jahr von einer unkoordinierten Amateurtruppe, die sich wild durchs Leben kompiliert, durchaus substanziell, wenn auch nicht berauschend. Man darf das alles nicht immer mit Houdini vergleichen. Houdart hatte einen 100-Elo-Genieblitz, dazu sicher meinen Glückwunsch und meine größte Anerkennung, aber sowas sollte man nicht als Maßstab wählen.
[/quote]

Auch da sind wir uns uneins. Erstens haben alle Leute die du erwähnst das Programm selber geschrieben, also allerehrenwerte Arbeit geleistet und zweitens haben sie für einen 30 Elo Sprung EINE Version veröffentlicht, und nicht gefülte 365 in 2 Jahren! Aber: Wenn du weiterhin für einen 2 Elo Sprung (und die Richtung ist vor dem Test unbekannt!) Strom investieren willst ...

Gruß
Ingo
Parent - - By Stefan Pohl Date 2011-12-12 14:12
[quote="Ingo Bauer"]

Auch da sind wir uns uneins. Erstens haben alle Leute die du erwähnst das Programm selber geschrieben, also allerehrenwerte Arbeit geleistet und zweitens haben sie für einen 30 Elo Sprung EINE Version veröffentlicht, und nicht gefülte 365 in 2 Jahren! Aber: Wenn du weiterhin für einen 2 Elo Sprung (und die Richtung ist vor dem Test unbekannt!) Strom investieren willst ...

Gruß
Ingo
[/quote]

Hi Ingo,

Das wurde doch nun schon im Forum diskutiert, daher hier nur die Kurzstellungnahme: Die Ivanentwicklung findet nun mal öffentlich statt und nicht im stillen Kämmerlein, wie bei den arrivierten Programmierern. Letztere werden sicher auch gefühlte 365 Versionen in 2 Jahren erstellen, um Ideen zu testen. Und auch dort wird es auch mal Rückschritte geben. Und was die allerehrenwerte Arbeit angeht. Nun ja, Houdini - hüstel -. Critter - großes Fragezeichen. Rybka - Fruit? Stockfish - Glaurung/Fruit(?). Die Entwickler, die wirklich sicher alles selbst gemacht haben (SMK,Uniacke, Morsch), sind heute allerehrenwerte 150-200 Punkte hinter Spitze. Das finde ich auch nicht schön, aber so ist es nun mal.
Ich finde das ganze Ivanhoe-Projekt gerade wegen seiner Öffentlichkeit interessant, weil man so einen Einblick in einen Entwicklungsprozeß bekommt, den man eben sonst nicht hat. Natürlich muß man als Ranglistenbetreiber sehr sorgfältig auswählen, welche Ivanversion man testet. Ich teste auch bei weitem nicht alle Ivanversionen, nicht einmal in kurzen Schnelltests. Ich lese halt im immortal-Forum mit und schaue, ob ich eine Version finde, die interessant sein könnte. Diese schaue ich mir dann genauer an. Und das geht nun dank meiner TEB-Liste-Datenbasis in Zukunft noch schneller und einfacher. Und wenn eine gute Version gefunden ist, wird sie eben richtig getestet und Frank Q. pickt sich alle paar Monate/einmal im Jahr dann auch eine starke Version raus. Der jetzige SWCR-Test sieht recht vielversprechend aus!
Die Engine komplett zu ignorieren, nur weil ihr Entwicklungsprozeß anders/öffentlich ist, halte ich nach wie vor für einen Fehler.

Gruß - Stefan
Parent - - By Ingo Bauer Date 2011-12-12 15:08
[quote="Stefan Pohl"]

Die Engine komplett zu ignorieren, nur weil ihr Entwicklungsprozeß anders/öffentlich ist, halte ich nach wie vor für einen Fehler.

[/quote]

Das tue ich doch gar nicht, wie kommst du darauf!? Ich bleibe realistisch und habe den besten der Familie in meiner Liste! Was ich nicht verstehe ist, warum ich schwächere Versionen der selben Sache testen soll (mal abgesehen von der häufig fehlenden Autorenschaft)

Gruß
Ingo
Parent - - By Stefan Pohl Date 2011-12-12 15:17
[quote="Ingo Bauer"]
[quote="Stefan Pohl"]

Die Engine komplett zu ignorieren, nur weil ihr Entwicklungsprozeß anders/öffentlich ist, halte ich nach wie vor für einen Fehler.

[/quote]

Das tue ich doch gar nicht, wie kommst du darauf!? Ich bleibe realistisch und habe den besten der Familie in meiner Liste! Was ich nicht verstehe ist, warum ich schwächere Versionen der selben Sache testen soll (mal abgesehen von der häufig fehlenden Autorenschaft)

Gruß
Ingo
[/quote]

Naja, so genau weiß das zwar keiner, aber ich bin mir nach vielen Houdini- und Ivanhoe-Partien, die ich gesehen habe, ziemlich sicher, daß in Houdini (ab V1.5) erhebliche Codeanteile von Stockfish integriert wurden. Nur Houdini springt bei Königsangriffen so früh mit der Bewertung nach oben wie Stockfish, für die Ivans gilt das nicht, diese verlieren viele Partien gegen Houdini durch solche Angriffe (und durch die Stärke von Houdini im frühen Endspiel/späten Mittelspiel, was wiederum eine Ivan-Schwäche ist). Daher bin ich eben der Meinung, daß Houdini und Ivanhoe nur noch sehr entfernt verwandt sind. Auch Fire hat sich schon beträchtlich von Ivanhoe entfernt, aber längst nicht so weit wie Houdini.
Ivanhoe ist daher von Houdini mittlerweile so weit entfernt (besser: Houdini hat sich von Ivanhoe entfernt), daß ein Ivanhoe deiner Liste gut zu Gesicht stünde. Weil Ivanhoe die geradlinigste und stärkste Weiterentwicklung von Ippolit/Robbolito ist, während Houdini eher eine Schimäre aus Ivan und Stocki zu sein scheint.

Gruß - Stefan
Parent - - By Ingo Bauer Date 2011-12-12 15:21
Wer von wem welche Codeanteile drin hat kann und will ich nicht beurteilen, da gibt es Berufenere. Chimären habe ich mit Sicherheit schon mehrere(!) in meiner Liste; das heißt aber nicht, das ich jedem Bastard hinterherlaufe!

Gruß
Ingo
Parent - By Stefan Pohl Date 2011-12-12 15:31
[quote="Ingo Bauer"]
Wer von wem welche Codeanteile drin hat kann und will ich nicht beurteilen, da gibt es Berufenere. Chimären habe ich mit Sicherheit schon mehrere(!) in meiner Liste; das heißt aber nicht, das ich jedem Bastard hinterherlaufe!

Gruß
Ingo
[/quote]

Hi,

das genau ist ja das Problem, das ich mit deinem Ivan-Boykott habe: Der Bastard ist m.E. eher Houdini als Ivan, der der viel reinere Ippolit ist...

Gruß - Stefan
Parent - By Benno Hartwig Date 2011-12-12 16:38
[quote="Stefan Pohl"]Naja, so genau weiß das zwar keiner, aber ich bin mir nach vielen Houdini- und Ivanhoe-Partien, die ich gesehen habe, ziemlich sicher, daß in Houdini (ab V1.5) erhebliche Codeanteile von Stockfish integriert wurden. Nur Houdini springt bei Königsangriffen so früh mit der Bewertung nach oben wie Stockfish, für die Ivans gilt das nicht, diese verlieren viele Partien gegen Houdini durch solche Angriffe...[/quote]'Code-Anteile' klingt so nach 'Copy and Paste'
Ich denke, hier wird es eher um eine gelungene Ideenübernahme in die eigenen (oder eben doch ggf. von Rybka/Ippolit übernommene) Programmstruktur und vor allem recht spezielle Datenstruktur handeln.

Ich denke, solche Ideenweitergaben sind eben auch der große Nutzen, die die OpenSource-Entwicklung für das Computerschach bringt.
Hier machen sich Leute wirklich verdient um das Thema. Mit einem echten Wert für viele und das Computerschach an sich, uneigennützig.
Und dies sollte auch genutzt werden! Und es sollte niemand darüber die Nase rümpfen.
Der Entwickler, der seine Ideen geheim hält, verdient nur  ggf. Respekt für seine Leistung, und natürlich auch Geld für sein Produkt. Aber nicht der Dank, der dem OpenSource-Entwickler gebührt.

Benno
Parent - By Frank Quisinsky Date 2011-12-12 23:01 Edited 2011-12-12 23:07
Hallo Stefan,

schaue Dir mal die *.sto Dateien an ...
Besonders auf die Remis Partien gegen die verschiedenen Gegner ...

Zunächst IvanHoe B46fB x64

Code:
[PAIRINGS]
IvanHoe B46fB x64 - Houdini 2.0c x64=====00=1=0====0==
Rybka 4 x64 Exp. 42 - IvanHoe B46fB x64=====1=0==01=0=10=
IvanHoe B46fB x64 - Komodo 3.0 x64=1011==1==1=100=0=
Rybka 4.1 x64 - IvanHoe B46fB x64=====0=0=111=00011
IvanHoe B46fB x64 - Critter 1.2 x64==1=1=============
Stockfish 2.1.1 JA x64 PHQ - IvanHoe B46fB x64==1=010===01=0==0=
IvanHoe B46fB x64 - Fire 2.2 xTreme x64=11==0===0====11=1
Stockfish 2.1.1 JA x64 - IvanHoe B46fB x64=1010===1=1=0==001
IvanHoe B46fB x64 - RobboLito 0.09 x64=====1==1======1==
Naum 4.2 x64 - IvanHoe B46fB x64=====0=0=00=0==00=
IvanHoe B46fB x64 - Chiron 1.1 x64==1==11==11=1==0==
Shredder 12 w32 - IvanHoe B46fB x64=10==00000=001000=
IvanHoe B46fB x64 - GullChess 1.2 x64==11==1=011101=1==
Sjeng WC-2008 x64 - IvanHoe B46fB x64==000010=00000000=
IvanHoe B46fB x64 - Spike 1.4 Leiden w32==111=11111=1=0111
Protector 1.4.0 JA x64 - IvanHoe B46fB x64=01=0000=00100000=
IvanHoe B46fB x64 - Junior 12.5.0.3 x64==11===0==111=0=11
Hiarcs 13.2 w32 - IvanHoe B46fB x64==0=0==00000101==0
IvanHoe B46fB x64 - Spark 1.0 x64===111111==1=1====
Hannibal 1.1 x64 - IvanHoe B46fB x64=0000=000==0==0=00
IvanHoe B46fB x64 - Thinker 5.4d Inert x64=1=111111=11110111
Zappa Mexico II x64 - IvanHoe B46fB x64==0=0=0=00=01==000
IvanHoe B46fB x64 - Fruit 09_07_05 x64==1111=1=1111111=1
Equinox 0.97e x64 - IvanHoe B46fB x64=000==0=00=000000=
IvanHoe B46fB x64 - Cyclone xTreme Wrath w32===11=111=111111=1
Onno 1.2.70 x64 - IvanHoe B46fB x64=00000=1000=0==0=0
IvanHoe B46fB x64 - Umko 1.2 x64=1=1111=1111111111
Toga II 1.4 Beta 5c w32 - IvanHoe B46fB x64=000000=00000=0=00
IvanHoe B46fB x64 - Bright 0.5c w32=11111111111===111
Loop M1-T x64 - IvanHoe B46fB x64=0=0===0=0=000000=
IvanHoe B46fB x64 - Jonny 4.00 w32=101=1111111111111
Crafty 23.4 JA x64 - IvanHoe B46fB x64=00=0000000=0000=X
IvanHoe B46fB x64 - Scorpio 2.7 JA x64=11111111111=1111X
SmarThink 1.20 x64 - IvanHoe B46fB x64=0000=00000=00000X
IvanHoe B46fB x64 - BugChess2 1.9 x64=111=11111=1=111=X


Und IvanHoe 999946f x64

Code:
[PAIRINGS]
IvanHoe 999946f x64 - Houdini 2.0c x64=111=======0=====1
Rybka 4 x64 Exp. 42 - IvanHoe 999946f x64=1=11=01=1==0=0==0
IvanHoe 999946f x64 - Komodo 3.0 x64=1==00001======1=1
Rybka 4.1 x64 - IvanHoe 999946f x64=1=0===1====000=10
IvanHoe 999946f x64 - Critter 1.2 x64==010====1========
Stockfish 2.1.1 JA x64 PHQ - IvanHoe 999946f x64===11=0==10100====
IvanHoe 999946f x64 - Fire 2.2 xTreme x64=0==10===0==011===
Stockfish 2.1.1 JA x64 - IvanHoe 999946f x64===000===1=101====
IvanHoe 999946f x64 - RobboLito 0.09 x64=10==1=1=101011=0=
Naum 4.2 x64 - IvanHoe 999946f x64=01===0=000=00010=
IvanHoe 999946f x64 - Chiron 1.1 x64==010=1===0=1=0=1=
Shredder 12 w32 - IvanHoe 999946f x64==0000=1=1010=000=
IvanHoe 999946f x64 - GullChess 1.2 x64=11=1111=1=1110111
Sjeng WC-2008 x64 - IvanHoe 999946f x64=00=00=0==00==0000
IvanHoe 999946f x64 - Spike 1.4 Leiden w32=111111111=10==11=
Protector 1.4.0 JA x64 - IvanHoe 999946f x64=000010000=100=0=0
IvanHoe 999946f x64 - Junior 12.5.0.3 x64==11==110=1=1111=1
Hiarcs 13.2 w32 - IvanHoe 999946f x64===00100000=0000=1
IvanHoe 999946f x64 - Spark 1.0 x64===1==110101=11111
Hannibal 1.1 x64 - IvanHoe 999946f x64=00=0=0000=0000=0=
IvanHoe 999946f x64 - Thinker 5.4d Inert x64=11111==1111=11111
Zappa Mexico II x64 - IvanHoe 999946f x64=000===00000=0=001
IvanHoe 999946f x64 - Fruit 09_07_05 x64=1111==11111=1011=
Equinox 0.97e x64 - IvanHoe 999946f x64==0=000100000000=0
IvanHoe 999946f x64 - Cyclone xTreme Wrath w32=11111111111111111
Onno 1.2.70 x64 - IvanHoe 999946f x64=0000=000=10=00000
IvanHoe 999946f x64 - Umko 1.2 x64====1111111=111111
Toga II 1.4 Beta 5c w32 - IvanHoe 999946f x64==000000000==00=0X
IvanHoe 999946f x64 - Bright 0.5c w32=111111111=1=111=X
Loop M1-T x64 - IvanHoe 999946f x64==000100000000010X
IvanHoe 999946f x64 - Jonny 4.00 w32=111111111==1=111X
Crafty 23.4 JA x64 - IvanHoe 999946f x64=0=00000000=00000
IvanHoe 999946f x64 - Scorpio 2.7 JA x64=11111111111=111=
SmarThink 1.20 x64 - IvanHoe 999946f x64=0=0000000000=0=0
IvanHoe 999946f x64 - BugChess2 1.9 x64=1=11111111111111


Schaue mal besonders auf die Ergebnisse gegen Critter und Houdini!
Remispartien sind kein Indiz dafür ob geclont wurde oder nicht!
Das kannst Du anhand von vielen anderen Statistiken viel besser erahnen.

Auch nicht ob Spielstile gleich sind.
Critter als auch Houdini sind taktisch stärker als IvanHoe.
IvanHoe spielt aber sehr bissig und gibt sich nur selten geschlagen.
Wenn IvanHoe aber verliert dann oft richtig böse.

Wir könnten auch sagen (der Positiv Denker) Critter konnte die beiden Ivan's zusammen nach 34 Partien erst 2x bezwingen.
Oder Houdini konnte die beiden Ivan's zusammen nach 34 Partien erst 5x schlagen.

Interessant ist, dass IvanHoe 999946f x64 nach 17 Partien immer noch mit 3 Punkten Vorsprung gegen Houdini 2.0c x64 vorne liegt.
Wenn das die Server Freaks spitz bekommen, HILFE
Glaube ich muss das Ergebnis ausblenden

Zurück:
Da liegen Taktiklücken in der Engine die rund 10-20 ELO ausmachen.
Also Potential da etwas zu verbessern ist vorhanden.
Wahrscheinlich werden sich die IvanHoe Leute später diese Partien sehr genau ansehen.

Bin schon eine Datenbank am vorbereiten und sende diese nach Abschluss vom Test den beiden die kompilieren.
Damit sollten Sie dann zunächst mal beschäftigt sein

Gruß
Frank
Parent - - By Stefan Pohl Date 2011-12-12 14:41
[quote="Ingo Bauer"]

Nochmal zur Remisquote. Ockhams Messer sagt mir das deine Hohe Remisquote nicht auf deine Kurze Bedenkzeit zurückzuführen ist, sondern weil deine Engines als Gegner viel zu ähnlich sind. Die andere Argumentation scheint mir zu weit hergeholt wenn es auch eine viel einfachere gibt.

[/quote]

Das ist ein interessanter Punkt. Ich habe mir mal Rybka 4.1 rausgegriffen und die durchschnittliche Remisquote gegen die 4 Gegner gemittelt, die sowohl in der IPON (habe mir die Daten frisch von deiner Seite runtergeladen) als auch in der TEB-Liste gegen Rybka 4.1 gespielt haben (Houdini 2.0, Critter 1.2, Komodo 3, Stockfish 2.1.1) (Rybka habe ich ausgewählt, weil diese Engine in dieser Gruppe aus insgesamt 5 Engines ziemlich in der Mitte liegt, sowohl in der IPON, als auch in der TEB). Das Ergebnis ist wie folgt:
IPON: 48.8% Remisquote und TEB: 44.8% Remisquote.

Die Remisquote in der TEB ist geringer, was durchaus zu erwarten war, aber eben nur geringfügig, was ich ebenfalls erwartet habe und was ich auch ausdrücken wollte, als ich sagte, daß die Testbedingungen der TEB-Liste den Schwellwert ins schachliche Chaos eben nicht unterschreiten. Das natürlich in der IPON das etwas höherwertigere Schach gespielt wird ist klar, daher ist eine leicht höhere Remisquote in der IPON durchaus logisch. Grundsätzliche Unterschiede sehe ich aber nach wie vor nicht - nach dieser Datenauswertung weniger als zuvor.

Gruß - Stefan
Parent - - By Ingo Bauer Date 2011-12-12 15:12
[quote="Stefan Pohl"]

Das ist ein interessanter Punkt. Ich habe mir mal Rybka 4.1...
[/quote]

Nicht Rybka! DU hast zuerst von hoher Remisquote gesprochen, nicht ich! Und das "Problem ist nicht Rybka, sondern ROBO, IVAN und FIRE mit 49,50 und 51%. Was du machst nennen die Engländer "nitpicking".

Bye
Ingo
Parent - By Stefan Pohl Date 2011-12-12 15:27
[quote="Ingo Bauer"]
[quote="Stefan Pohl"]

Das ist ein interessanter Punkt. Ich habe mir mal Rybka 4.1...
[/quote]

Nicht Rybka! DU hast zuerst von hoher Remisquote gesprochen, nicht ich! Und das "Problem ist nicht Rybka, sondern ROBO, IVAN und FIRE mit 49,50 und 51%. Was du machst nennen die Engländer "nitpicking".

Bye
Ingo
[/quote]

Tja, ich würde ja gerne einen Remisquotenvergleich von Ivan oder Fire zwischen IPON/TEB machen. Sobald diese Engines in der IPON mal auftauchen, hole ich das nach...Und ich bezog mich nur auf die Tatsache, daß die Remisqoute in der TEB-Liste generell recht hoch ist. Auch wenn ich Robo, Ivan und Fire rausnehme gilt das noch. Und bei meinem Vergleich der Remisquoten von Rybka kamen diese drei Engines ja auch gar nicht vor - wie auch, sie sind ja in der IPON gar nicht vertreten.

Was Du machst ist Engines zu ver/be-urteilen, die in deiner Rangliste gar nicht erst auftauchen...

Gruß - Stefan
Parent - - By Frank Quisinsky Date 2011-12-11 15:09 Edited 2011-12-11 15:11
Hi Stefan,

wobei immer zu beachten ist, dass gerade positionelle Programme wie Komodo mehr Zeit benötigen. Auch punkten die IPPs generell überdurchschnittlich gut gegen schwächere Engines und das macht ca. 20 ELO aus.

Hier mal eine Partie von IvanHoe B46fB x64!
Bei über 4.000 Partien gab es eine solche Partei z. B. von Spark nicht.
Taktisch wird gerne mal übersehen ... Stockfish PHQ spielte auch mal wieder eine sehr schöne Partie.

Füge die beiden Partien mal an ...

Übrigens, endlich (wohl aufgrund der Kürze der Kombination) konnte auch mal Protector eine Stärke ausspielen. Dennoch, das darf nicht passieren!!

Event:
Ort:
Datum:

Weiss:
Schwarz:

Ergebnis
Board
Parent - By Frank Quisinsky Date 2011-12-11 15:11
Event:
Ort:
Datum:

Weiss:
Schwarz:

Ergebnis
Board
Parent - - By Clemens Keck Date 2011-12-11 20:01
Hallo Stefan

diese superschnelle BZ dürfte nix taugen, zumindest kann man so eine Liste nicht "Blitz" nennen. Dann schon eher "Bullet".
Und die Liste gilt dann wirklich auch NUR für 1 Minuten Partien. Für alles andre taugt sie nichts meiner Meinung nach.
Wir hatten mal eine Zeit lang bei Komodo Tests ähnlich kurze BZ. Allerdings unter 20.000 Partien pro Testkandidat lief da kein match. Oftmals waren es noch viel mehr Partien.
Wir hatten immer wieder engines die waren im Bullet sagenhaft, doch schon bei 3 +2 war der Zauber komplett vorbei.

Gruß, Clemens
Parent - - By Frank Quisinsky Date 2011-12-11 20:24
Hallo Clemens,

20.000 Partien dauern ja nun auch keine Ewigkeit bei diesem Bedingungen.
Was mich interessieren würde, was werden da eigentlich für Bücher eingesetzt.
Da muss es an doppelten Partien hageln.

Also mein Fritz / Shredder Buch ist überfordert wenn mehr als 500 Partien pro Match gespielt werden.
Ich hatte das auf meinen Testsystemen unter Fritz getestet.

Fritz 5.32 gegen Fritz 6

bei 500 Partien gab es 2 doppelte Partien bei 11 doppelten Eröffnungen wobei es hier irgendwann dann doch zu Abweichungen kam.
Bei 1.000 Partien gab es 31
Bei 5.000 Partien gab es 139

Wahrscheinlich wird dann ein Multi Buch wie das Power Buch benutzt, denn ...
Es gibt nicht mehr Varianten die in meinem Buch drin sind, in den letzten 20 Jahren zwischen starken GMs gespielt worden und sich fürs Computerschach eignen (Varianten mit schnellen Remispartien raus) bei einer Länge von 8 Zügen m mit schwarz. Raus gerechnet auch die vielen Abweichungen die selten gespielt werden.

Also was setzt Ihr bei einem Test von 20.000 Partien ein?
Würde mich ja brennend interessieren.

Vielleicht das ChessBase PowerBook auf Handicap stehend?
Dann wird es aber zu vielen Partien kommen die schon nach den Eröffnungszügen entschieden sind.

Gruß
Frank
Parent - - By Clemens Keck Date 2011-12-11 22:44
Hallo Frank

wir setzen ab 3 +2 Vorgabestellungen ein (natürlich mit vertauschten Farben). Wir haben eine ECO StellungsDatenbank aus der wir die Testsets generieren.
Zur Zeit spiele ich ein 250 PosSet welches 500 Partien je Gegner ergibt.
Ich würde es nicht so 1 zu 1 auf eine Ratingliste übertragen, da wir ja eine spezielle engine auf Fortschritte untersuchen wollen. Dafür ist das ganze sehr gut. Für ne Ratingliste wäre mir das zu "Freudelos". Erst Recht wenn es noch kürzer wäre. Die 5 +3 mit ponder ergeben so ca. 20 Minuten Partiegesamtzeit.
Besonders intressante Kandidaten werden noch mit 20 +5 und ponder ON getestet. Da nehme ich gerne ein neueres Noomen Set.

Gruß, Clemens
Parent - By Frank Quisinsky Date 2011-12-11 22:47
Hallo Clemens,

das hört sich gut an!
Schön, hat eine Basis!

Viel Spaß beim Testen!

Viele Grüße
Frank
Parent - - By Stefan Pohl Date 2011-12-12 12:05
[quote="Clemens Keck"]
Hallo Stefan

diese superschnelle BZ dürfte nix taugen, zumindest kann man so eine Liste nicht "Blitz" nennen. Dann schon eher "Bullet".
Und die Liste gilt dann wirklich auch NUR für 1 Minuten Partien. Für alles andre taugt sie nichts meiner Meinung nach.
Wir hatten mal eine Zeit lang bei Komodo Tests ähnlich kurze BZ. Allerdings unter 20.000 Partien pro Testkandidat lief da kein match. Oftmals waren es noch viel mehr Partien.
Wir hatten immer wieder engines die waren im Bullet sagenhaft, doch schon bei 3 +2 war der Zauber komplett vorbei.

Gruß, Clemens
[/quote]

Dieser Meinung bin ich nicht. Was die Bezeichnung angeht, so habe ich das auch überlegt, aber beim Bullet spielt man ja nicht mit Fischerbonus. Dieser ist aber bei so kurzen Bedenkzeiten für die m.E. durchaus vorhandenen Qualität der Partien und auch Ergebnisse absolut essentiell: Jede Engine kann immer mindestens 0.4 Sekunden pro Zug rechnen. Das reicht auf einem schnellen Prozessor m.E. für einen "vernünftigen" Suchprozess vollkommen aus (Houdini schafft da mal eben kanpp 1 Million Knoten - ich weiß noch, daß in den 90er ahren Rebel und WChess dafür auf meinem PC über 3 Minuten brauchten!). Auch die generell hohe Remisquote der TEB-Liste spricht für ein geordnetes Ablaufen der Partien und gegen chaotisches Schach, was verzerrte Ergebnisse produziert.

Die TEB-Liste soll darüberhinaus auch nicht die allein seligmachende Rangliste sein, sondern sie ist eine Ergänzung zu anderen Tests. In erster Linie ist sie für mich eine Vergleichsdatenbasis, um neue Engines/Versionen schnell einschätzen zu können und das auf nur einem PC. Nicht jeder kann und will sich einen PC-Fuhrpark ins traute Heim stellen so wie Ingo und Frank.

Gruß - Stefan
Parent - - By Clemens Keck Date 2011-12-12 12:52
HAllo Stefan

Ich hatte/habe alleine für meine base Liste ca. 40.000 Partien mit 5 +3 /ponder gespielt.
Für die Komodo Tests bin ich bei > 120.000 Partien 3+2 /ponder OFF, und ca. 10.000 Partien 5 +3 /ponder ON.
Die schnellen Partien, vergleichbar mit Deinen, haben wir bereits über 2.000.000 Partien gespielt. Immer wieder zeigt sich das vielversprechende Ergebnisse in diesen kurzen BZ ab 3+2 Schall und Rauch sind. Nicht immer, aber 90%. Das ist auch nix was man "wegdiskutieren" kann oder "nicht glauben" kann. Das sind Praxiswerte denen man sich stellen sollte. Engines, bzw. Suchtechniken skalieren anders bei "längeren" BZ.

Das spiegelt sich auch in Deinen Bisherigen Ergebnissen wieder. Rybka 4.1 liegt sehr nahe an Critter 1.2 zB. Komodo 3 ist klar besser als Rybka 4.1... usw.
Das zeigt Deine Liste aber nicht.

Und das mit der PC-Herde haben oder nicht haben, das leuchtet mir schon ein. Jedoch gibt es im Bereich der Kompromisse eine Grenze. Ich finde für eine ernst zu nehmende Liste hast Du sie zu weit überschritten.

MfG Clemens Keck

Parent - By Stefan Pohl Date 2011-12-12 13:40
[quote="Clemens Keck"]
Rybka 4.1 liegt sehr nahe an Critter 1.2 zB. Komodo 3 ist klar besser als Rybka 4.1... usw.
Das zeigt Deine Liste aber nicht.

Und das mit der PC-Herde haben oder nicht haben, das leuchtet mir schon ein. Jedoch gibt es im Bereich der Kompromisse eine Grenze. Ich finde für eine ernst zu nehmende Liste hast Du sie zu weit überschritten.

MfG Clemens Keck


[/quote]

Hi Clemens, du darfst auch nicht vergessen, daß in meiner Liste nur die allerstärksten Engines gegeneinander spielen. Scort eine Engine z.B. überproportional gut gegen schwache Gegner, wird er in der TEB-Liste schlechter dastehen, als in der IPON/SWCR etc.
Und die TEB-Liste ist eine Blitzliste - nicht mehr und nicht weniger, daher das Blitz ja auch explizit im Namen. Diese Liste erhebt also weder Anspruch auf Vollständigkeit, was schwächere Gegner angeht, noch was alle Bedenkzeitintervalle angeht. Sie ist in erster Linie eine Vergleichsdatenbasis für mich, um schnell neue Versionen oder auch Settings von Engines testen zu können. Wem die Testbedingungen nicht gefallen, der kann sie doch einfach links liegen lassen.

Gruß - Stefan

Du darfst
Parent - - By Stefan Pohl Date 2011-12-12 13:52
[quote="Clemens Keck"]

Rybka 4.1 liegt sehr nahe an Critter 1.2 zB. Komodo 3 ist klar besser als Rybka 4.1... usw.
Das zeigt Deine Liste aber nicht.

[/quote]

Nochmal hallo,

Solche Aussagen solltest Du dann aber auch konsequenterweise mit den Testbedingungen kombinieren. Bei 5'+3'' ist deine obige Feststellung korrekt, aber bei 30'+400ms eben nicht, das zeigt die TEB-Liste ganz klar. Bei Turnierbedenkzeit könnte es wieder ganz anders aussehen, nur will sich das niemand als Tester antun. Warum sollte 5'+3'' oder 3'+2'' nun die Bedenkzeit sein, die für Engineeinschätzungen das Optimum ist? Auf playchess spielen viele Leute Bulletchess mit Engines. Ich zwar nicht, aber diese Leute finden vielleicht das TEB-Rating sogar interessanter als das IPON-Rating?!?

Pauschalaussagen zur Spielstärke sind im Computerschach immer sehr problematisch...

Gruß - Stefan
Parent - By Clemens Keck Date 2011-12-12 14:17
Stefan

Es ist halt schade um den ganzen Aufwand und den Strom, genau aus diesem Grund schreibe ich auf Dein TEB posting.
Da könnte man etwas viel vernünftigeres mit aufziehen, dann hätten andere auch was davon.
Außerdem, die Leute die solche Ergebnisse akzeptieren, das sind genau die Trolle mit denen man sich in Foren dann rumärgern muß. Die meinen sie wissen was und merken nicht die schwache Basis Ihres "Wissens".
Also, wenn man den Leuten schon etwas nahenbringen will über Computeschach, dann bitte ein klein Wenig "Wissenschaftlicher".
Der Spaßfaktor muß deswegen keinesfalls auf der Strecke bleiben.

MfG Clemens Keck
Parent - By Benno Hartwig Date 2011-12-12 13:20
[quote="Clemens Keck"]Wir hatten immer wieder engines die waren im Bullet sagenhaft, doch schon bei 3 +2 war der Zauber komplett vorbei.[/quote]Stimmt.
Ich habe schon den Eindruck, dass Blitz-Ratings eine recht gute Schätzungen für die Turnier-Stärke der Engines hergeben.
Deutlich bessere Schätzwerte als wie sie entstehen, wenn man bei deutlich längeren Zeiten doch recht wenige Partien spielt.

Aber mit dem Aufkommen der Ippos habe ich gesehen, dass sie bei 1min+1sek so überragend glänzen konnten, wie sie es z.B. beim Biltz bei weitem nicht mehr erreichen konnten. Ergebnisse bei Zeiten deutlich unter Blitz sind wohl schon sehr mit Vorsicht zu genießen!

Benno

PS:
- Wenn ich mit Parameterisierungen herumspiele
- und wenn ich an Sourcen herumgepfuscht habe
dann mache ich 1+1-Tests schon gerne, und ich vergleiche eben nur die Erfolgsrate der Prüfkandidaten, vor und nach der Änderung.
Parent - - By Kurt Utzinger Date 2011-12-11 21:17
[quote="Stefan Pohl"]
[...]
Gespielt wird in schnellem Blitztempo (30 Sekunden Basiszeit und 400ms FischerBonus) mit je einem Core (ohne Pondern und ohne Tablebases - letzteres ist bei diesem schnellen Spieltempo ggf. ergebnisverzerrend, da die Zugriffe selbst auf Flash-Memory nicht schnell genug sind) unter der LittleBlitzer-GUI mit je 128MB Hash. Gespielt wird bis zum Matt, Remis wird von der GUI erst nach 200 Zügen gegeben. Diese Zeiteinteilung (s.o.) bedeutet in der Praxis, daß die Engines pro Partie ca. 1 Minute Rechenzeit verbrauchen. Es werden pro Einzelbegegnung 300 Partien absolviert, indem 150 von mir handverlesene Stellungen aus der ausgezeichneten Frank Q. Datenbank als Vorgabe zum Einsatz kommen. Und zwar nur praxisnahe Eröffnungen, die Engine-Bücher auch wirklich spielen würden. Also kein Fränzösisch, Holländisch, CaroKann, Aljechin etc. etc.
[...]
Grüße an alle - Stefan
[/quote]

Hallo Stefan
Mich wundert bald nichts mehr und warte gerne, bis die Hardware-Leistung
vier- bis fünfmal grösser sein wird. Dann ist die Zeit gekommen, wo uns Listen mit
X-zehntausend Partien auf Stufe 5 Sek. Basiszeit und 400ms Fischer Bonus
um die Ohren gehauen werden. Aus meiner Sicht: eine bedenkliche Entwicklung
im Computerschach.
Gruss
Kurt
Parent - - By Frank Quisinsky Date 2011-12-11 23:44
Hi Kurt,

aber ganz gut um schnell zu sehen ob es zu einer Verbesserung gekommen ist.
Stelle Dir mal vor ein Programmierer müsste auf einem PC vor einem Release noch schnell 1.000 Turnierpartien spielen lassen.
Wir würden ja warten bis wir schwarz werden

Gut ist auch wenn verteilt wird, wie jetzt hier Clemens der die Hardware hat um zu testen und ganz plausibel dabei vorgeht.

Fallen im Spiel bei längeren Bedenkzeiten dann Dinge auf kann immer noch nachgebessert werden.
Dafür sorgen schon die vielen Nutzer der Software oder auch die Ratinglistenbetreiber wenn ich so daran denke was ich mir an Fehlermeldungen im letzten Jahr die Finger wund geschrieben habe. Oder jetzt beim IvanHoe Test. Warum auch nicht, es profitiert die Masse wenn intensiv getestet wird.

Gruß
Frank
Parent - By Stefan Pohl Date 2011-12-12 12:21
[quote="Frank Quisinsky"]
Hi Kurt,

aber ganz gut um schnell zu sehen ob es zu einer Verbesserung gekommen ist.
Stelle Dir mal vor ein Programmierer müsste auf einem PC vor einem Release noch schnell 1.000 Turnierpartien spielen lassen.
Wir würden ja warten bis wir schwarz werden

[/quote]

Hi Frank,

so isses. Als ich mein Houdini-Setting testete und die Ergebnisse an R.Houdart gemailt habe, hat er mich gefragt, warum ich so lange Bedenkzeiten gewählt habe (kein Witz). Er selber teste mit deutlich kürzeren Zeiten.

Gruß - Stefan
Parent - - By Stefan Pohl Date 2011-12-12 12:14
[quote="Kurt Utzinger"]

Hallo Stefan
Mich wundert bald nichts mehr und warte gerne, bis die Hardware-Leistung
vier- bis fünfmal grösser sein wird. Dann ist die Zeit gekommen, wo uns Listen mit
X-zehntausend Partien auf Stufe 5 Sek. Basiszeit und 400ms Fischer Bonus
um die Ohren gehauen werden. Aus meiner Sicht: eine bedenkliche Entwicklung
im Computerschach.
Gruss
Kurt
[/quote]

Hallo Kurt,

ich gehe da jetzt mal ernsthaft drauf ein, auch wenn du das wohl gar nicht erwartest:

Die Bedenkzeit ist mit Bedacht gewählt. Man kann natürlich auch heute mit 5 Sekunden Basiszeit testen, das macht aber aus einem einfachen Grund keinen Sinn: Beim Testen will ich ja auch die Qualität der Bedenkzeit-Einteilung durch die Engines mittesten, weil das durchaus im praktischen Spiel für die Elo-Leistung von Bedeutung sein kann. Daher ist es m.E. prinzipiell wichtig, daß die Basiszeit mindestens 50 mal höher ist als der Fischerbonus, sonst ist einfach keine Zeit da, die die Engine einteilen kann. Würde man also mit 5 Sekunden Basiszeit spielen, dürfte man maximal 100 ms Fischerbonus geben. Das ist aber zumindest z.Zt. nicht machbar, weil dann einige (nicht alle, aber u.a. auch Houdini) unter der LittleBlitzerGUI und auch unter Arena dauernd auf Zeit verlieren. 250 ms Fischerbonus ist die absolute Untergrenze, die noch funktioniert, daher wollte ich großzügig auf Nummer sicher gehen und habe 400 ms gewählt. Dann müssen es aber eben auch mindestens 20 Sekunden Basiszeit sein. Auch hier war ich großzügig, weil mit 30'+400ms die Partien im Schnitt 2 Minuten dauern. Dadurch kann man leicht vorausrechnen, wie lange ein Testlauf dauern wird: z.Zt. (bei 4 Cores) schaffe ich so alle 30 Sekunden eine Partie. Sollte ich auf 6 Cores aufrüsten, dann dauert es noch 20 Sekunden je Partie (wenn eben 6 Partien a 2 Minuten Dauer parallel laufen). Und bei 8 Cores wären es 15 Sekunden. Das läßt sich einfach gut rechnen...

Gruß - Stefan
Parent - By Kurt Utzinger Date 2011-12-12 15:17
Hallo Stefan
Tatsächlich habe ich keine Antwort erwartet. Dass Du ein seriöser Tester bist, der
sich immer genau überlegt, was er tut, möchte ich nicht in Zweifel ziehen. Indessen
zweifle ich (noch immer), ob es möglich ist, mit solchen kurzen Bedenkzeiten und
einer Partiedauer von durchschnittlich zwei Minuten wirklich noch etwa Vernünftiges
zu produzieren oder zu "beweisen".
Gruss
Kurt
Up Topic Hauptforen / CSS-Forum / Neue Ausgabe der TEB-Rangliste

Powered by mwForum 2.29.3 © 1999-2014 Markus Wichitill