Not logged inCSS-Forum
Forum CSS-Online Help Search Login
CSS-Shop Impressum Datenschutz
Up Topic Hauptforen / CSS-Forum / SWCR: IvanHoe B46fB x64 / 99994f x64 im Test
- - By Frank Quisinsky Date 2011-12-13 01:45 Edited 2011-12-13 01:54
Hallo zusammen,

seit ein paar Tagen läuft wie hier schon in diversen Threads erwähnt ein IvanHoe Test.

1. IvanHoe B46fB x64, kompiliert von PeterPan
http://www.amateurschach.de/ftptrigger/ivanhoe_b46fb-x64.html

2. IvanHoe 9999f x64, komiliert von KLO
http://www.amateurschach.de/ftptrigger/ivanhoe_999946f-x64.html

Wer nun PeterPan und wer KLO ist steht in meinem News-Ticker.

Zwischenzeitlich gibt es auch von Beiden eine neuere Version. Behoben wurden Fehler bei den Endspieldatenbanken und bei Einstellungen zur Shredder GUI. Hatte noch ein paar andere Bugs gemeldet aber noch keine Zeit zu prüfen ob das behoben ist. Die Änderungen haben keinen Einfluss auf meinen Test da ich bekanntlich bei der SWCR verfügbare 4-Steiner Endspieldatenbanken einsetze. Dinge die Michael Scheidl hier beschrieben hat, gab ich auch weiter.

Nach je 600 von je 1.400 Partien schaut es derzeit wie folgt aus:
Auszug: Die ersten 23 von 202 ...
Allerdings gibt es ca. seit Partienummer 200 keine nennenswerten Veränderungen (siehe TalkChess, Zwischen-Ergebnisse postete ich dort übersichtlich untereinander). Klar, wir sind hier auch bei 35 Gegner, je mehr Gegner desto schneller liegt ein gutes Rating vor.

Code:
Rank Name                            Elo    +    - games score oppo. draws
   1 Houdini 2.0c x64               3017   20   19  1244   81%  2757   26%
   2 Houdini 1.5 x64                2998   14   14  2320   78%  2771   29%
   3 Houdini 1.5 w32                2980   19   19  1240   79%  2756   29%
   4 IvanHoe 999946f x64            2967   26   26   601   75%  2771   32%
   5 Rybka 4 x64 Exp. 42            2967   19   19  1236   79%  2736   27%
   6 Rybka 4.1 x64 Exp. 79TD v.1    2963   20   19  1200   79%  2735   26%
   7 Komodo 3.0 x64                 2960   17   16  1524   76%  2756   32%
   8 Rybka 4 x64 Exp. 61            2959   21   21  1000   78%  2741   27%
   9 IvanHoe B46fB x64              2955   26   25   602   74%  2771   37%
  10 Rybka 4.1 x64                  2955   15   15  1803   73%  2777   35%
  11 Critter 1.2 x64                2954   16   15  1723   75%  2754   34%
  12 Stockfish 2.1.1 JA x64 PHQ     2948   18   17  1316   75%  2751   32%
  13 Houdini 1.03a x64              2943   21   21  1000   80%  2710   30%
  14 Fire 2.2 xTreme x64            2940   16   15  1683   74%  2750   34%
  15 IvanHoe B47cB x64              2940   15   15  1768   71%  2784   39%
  16 Rybka 4 x64                    2940   18   17  1480   80%  2696   28%
  17 Fire 1.5 xTreme x64            2935   17   16  1400   73%  2761   36%
  18 Critter 1.2 w32                2934   18   18  1200   75%  2753   36%
  19 IvanHoe B49jA x64              2931   19   18  1160   76%  2737   34%
  20 Stockfish 2.1.1 JA x64         2930   15   15  1840   73%  2758   35%
  21 Komodo 2.03 JA x64             2926   17   16  1480   73%  2749   31%
  22 IvanHoe B52aC x64              2918   20   20  1000   76%  2725   34%
  23 RobboLito 0.09 x64             2917   17   16  1514   73%  2734   33%


Die beiden Kompiles unterscheiden sich also, nicht nur in der Remisquote und beim Ergebnis. Die B46fB hat einen höheren Zügedurchschnitt, mehr schnelle Gewinnpartien aber auch mehr schnelle Verlustpartien, spielt dennoch etwas stabiler als die 999946f, also weniger Verlustpartien. Die 999946f spielt riskanter aber mit interessanten Teilerfolgen, z. B. nach 18 Partien gegen Houdini 2.0c x64 ein 10,5 : 7,5 (nur eine von 18 Partien verloren). Dafür fällt das Ergebnis gegen Chiron 1.1 x64 negativ auf.

Version von PeterPan:
Hier werden zum Ursprungs IvanHoe Paramtereinstellungen, meist Figurenwerte geändert.

Version von KLO:
Die Ursprungs Version bleibt. Keine Änderungen! Es wird auf Speed kompiliert.

Werde ein paar Analysen nach dem Test machen aber nach jetzt 600 Partien beider Engines gefällt mir die KLO Version etwas besser. Schwächere Programme werden leichter und schneller bezwungen, gegen stärkere Programme hat die KLO Version jetzt etwas aufgeholt zur PeterPan Version und führt ja auch z. B. wie beschrieben gegen Houdini 2.0c x64. Im Blitz wird wahrscheinlich die PeterPan Version minimal bessere Ergebnisse aufweisen bei längeren Partien die KLO Version.

IvanHoe kämpft also vor den angekündigten Releases von Critter, Stockfish und Komodo um Platz 2.
Glaube auch das es zu Platz 2 reichen wird, wahrscheinlich wird die KLO Version noch etwas steigen und vielleicht auf 2.975 (wäre die Prognose).

Die Verbesserungen zur letzten getesteten IvanHoe B47cB x64 Version liegen derzeit bei 15-27 ELO.
Das entspricht ca. dem Ergebnis aus meinen Testpartien vor diesem Match oder auch mal wieder den schon mitgeteilten Ergebnissen von Stefan Pohl.

Gruß
Frank
Parent - - By marsell Date 2011-12-13 07:46
Danke an Stefan Pohl mit seiner tollen Einschätzung zur Ivanhoe version fA. Zeigt mal wieder, dass seine TEB Liste doch recht gut funktioniert um eine schnelle Einschätzung zu haben. Gratuliere dir.
Frank hat ja in diesem Beitrag mit keinem Satz erwähnt, dass in seinem News Ticker Eintrag 235. er prognostizierte, dass die fb von Peter Pan die bessere sei, obwohl er ziemlich daneben liegt. Er bezieht auch nicht Stellung aus welchen Gründen er die Gegnerschaft ändert. Andere Gegnerschaft als beim Houdini 2.0c Test, wäre doch auch interessant, als immer nur schnöde Zahlen, welche immer subjektiv betrachtet werden können und wie man sieht er selbst schon mal daneben liegen kann. Und ok. Abwechslung bringt Würze ins Computerschach"Leben", aber mit keinem Wort erwähnt, dann lieber Statistiken, wobei wie man sehen kann wie er schon mal daneben liegt. Interessant wäre eine Statik wie oft Frank Q. auf seine geposteten Threads und gegebenen Antworten sich selbst antwortet und das mehrmals am Tag.
Wünsche einen schönen Tag noch
Parent - - By Clemens Keck Date 2011-12-13 10:58
Ah...so schreibt nur ein Forentroll  
Parent - By Ingo Bauer Date 2011-12-13 11:09
Hallo Klemens,

[quote="Clemens Keck"]
Ah...so schreibt nur ein Forentroll  
[/quote]



Gedacht habe ich auch wer da wohl versucht unter fremdem Namen seine Meinung vervielfachen zu müssen!

Gruß
Ingo
Parent - By Frank Rahde Date 2011-12-13 14:58
Die verwendeten IP-Adressen von Stefan und Marsell stimmen nicht überein.

Gruß, Frank
Parent - - By Stefan Pohl Date 2011-12-13 13:11
[quote="marsell"]
Danke an Stefan Pohl mit seiner tollen Einschätzung zur Ivanhoe version fA. Zeigt mal wieder, dass seine TEB Liste doch recht gut funktioniert um eine schnelle Einschätzung zu haben. Gratuliere dir.

[/quote]

Hi,

das ist zwar nett, aber ich würde doch darum bitten, sich zu registrieren, da es hier Leute gibt, die in so merkwürdigen Welten leben, daß sie glauben, ich hätte es nötig mich hier anonym selbst zu beweihräuchern.

Nun zum Fachlichen: Ich hatte auch die KLO-Version 999946f unter TEB-Listen Testbedingungen durchlaufen lassen und das Ergebnis war 0.5% (ca. 4 Elo) schlechter (also praktisch identisch) als bei der B46fa, was ja nun nicht mit den bisherigen Zwischenergebnissen der SWCR zu entsprechen scheint. Wenn wir aber nur die 7 Gegner in den 2 Zwischenergebnissen der SWCR betrachten (zum jetzigen Zeitpunkt), die auch in der TEB-Liste getestet werden (Houdini 2.0, Rybka 4.1, Fire 2.2, Critter 1.2, Robbolito 0.09, Komodo 3 und Stockfish 2.1.1), so ergibt sich im SWCR-Testdurchlauf (bisher) folgendes:

durchschnittliche Erfolgsqoute der B46fB-Version: 51.94%
durchschnittliche Erfolgsqoute der 999946f-Version: 51.8%

also auch praktisch identisch. Die 999946f-Version scort wohl nur gegen schwächere Gegner besser. Gegen die Top-Engines, die auch in der TEB-Liste als Gegner geführt werden, stimmt das bisherige Ergebnis der SCWR sehr gut mit dem TEB-Resultat überein.
Ich habe die 999946f-Version nicht in der TEB gelistet, weil beide Ivans den gleichen Sourcecode (9.46b) benutzen, daher habe ich die minimal bessere PeterPan-Version drin behalten. Zu viele Ivans würden in meiner Mini-Rangliste die Tests anderer zu sehr verzerren, daher nur die beste Version. Die PeterPan-Version ist auch nur deshalb besser, weil sie (bei mir) unter der LittleBlitzerGUI minimal schneller läuft. Die extremeren Figurenwerte, die PeterPan früher benutzte, sind in dieser Version nicht vorhanden, es sind die gleichen wie in der KLO-Version. Noch ein Grund mehr, nicht beide Versionen in meiner Mini-Liste zu führen. In der SWCR sieht das natürlich anders aus. Bin schon auf das Endergebnis gespannt.

Gruß - Stefan
Parent - - By marsell Date 2011-12-13 14:51
Erstens habe ich versucht mich mit richtigem Namen  ordnungsgemäß hier als Stammposter anzumelden, wurde jedoch nicht erhört oder meine Anmeldung ist irgentwie untergegangen. Somit habe ich meine Meinung als Gastposter wiedergegeben. Ich möchte klarstellen, dass Stefan Pohl mit mir nix zu tun hat. Hier könnten die Moderatoren ja schließlich eingreifen und dies als Tatsache klarstellen.
Zum Thema Troll habe ich nur folgendes zu sagen: Es ist leicht jemanden als Troll zu bezeichnen um dessen Meinung zu diffamieren. Der denkt anders als wir, also bezeichne ich ihn mal als Troll, der nur stören will, aber ich stehe zu meinen Äußerungen. Also bleibt schön unter Euch. Trollige Grüße
Parent - - By Clemens Keck Date 2011-12-13 15:26
Ich grenze niemanden aus und bin auch nicht bei der "unter Euch " Gruppe.
Dein Posting fand ich unverschämt formuliert, fehl am Platz als Antwort auf Franks Posting und zudem noch sehr verwirred formuliert.
Bei wem findet man mit so einem Posting Akzeptanz?
Du musst zu viel Trollinger getrunken haben...
Parent - - By Frank Quisinsky Date 2011-12-13 22:42
Clemens,

ich fand sein Posting auch nicht gerade sehr fördernd.
Die Admins sollten sich auch mal Gedanken darüber machen.

Dieses und andere deutschen Schachforen hatten mal so viele interessante Stammposter. Zur Zeit bzw. schon einige Jahre beschränkt sich im deutschsprachigen Raum alles auf dieses Forum. Das ist eine Einladung für Störenfriede die, und ich spreche aus eigener Erfahrung im Umgang mit Foren, nicht einfach zu händeln ist. Ich denke die Admins hier leisten auch eine gute Arbeit aber durch solche Postings werden Leser mehr und mehr vertrieben und das ist wirklich schade.

Die meisten interessanten Diskussionen führe ich nicht mehr über das CSS Forum sondern per eMail mit Leuten die hier nicht gerne schreiben. Dennoch versuche ich immer wieder Diskussionen anzuregen um genau das zu vermeiden. Die Admins selbst hier schalten solche Beiträge frei, müssen das aber nicht.

Damit kein falscher Eindruck entsteht.
Wenn jemand kritisch zu meiner Person schreibt (habe mich auch schon oft im Ton ... meist im Eifer der Gefechtes vergriffen) dann ist das für mich absolut OK. Ich habe auf den Eintrag von Marsell ja auch geantwortet. Aber nicht förderlich ist das eher für andere Personen. Selbst habe ich ein dickes Fell und schon ganz andere Dinge lesen müssen. An mir geht das vorbei, es sei denn es kommt von einer bekannten Person die selbst aktiv ist und mich berechtigt auf etwas hinweist.

Die SWCR ist nicht nur beliebt sondern auch sehr unbeliebt.
Es gibt sehr viele Gruppen die das eine oder andere gut finden. In der SWCR wird alles aus dem oberen Bereich getestet. Das bedeutet Probleme ... könnte da unzählige Auszüge von eMails aus den letzten Jahr anführen die dann diesen Kommentar auch klar werden lassen.

Das ist heit so, kann es nicht ändern.

Nochmals, ich kann mit Kritik umgehen wenn diese nicht gerechtfertigt ist nutze ich diese gerne um auf irgend etwas hinzuweisen. Insofern versuche ich das Beste draus zu machen. Aber für das Forum selbst sind solche Beiträge nicht sehr förderlich und es sollte überlegt werden ob das wirklich freigeschaltet wird.

Gruß
Frank
Parent - - By Thomas Müller Date 2011-12-13 23:21
Wieso schreien eigentlich dauernd welche nach den Admins.
Mein gott echt! 

Wann ist ein beitrag nicht freischaltungswürdig und wann doch?
Das ist alles subjektiv...der eine findets nicht sooo dramatisch ...der andere unglaublich?!?!
So eine sauerei aber auch

Frank...ganz ehrlich....man kann es keinem recht machen.
Wenn es jemand meint besser/anders zu können.....bitte 

Das du mit "kritik" einigermaßen gut umgehen kannst ist mir bzw den meisten bekannt

gruß thomas

PS...ich fands auch nicht toll bzw unnötig und komisch formuliert...es war aber nicht beleidigend...so what?!
Parent - By Frank Quisinsky Date 2011-12-13 23:32 Edited 2011-12-13 23:34
Hallo Thomas,

wie gesagt, ich habe kein Problem damit.
Und das es nicht einfach ist ein Forum zu administrieren ist mir bestes bekannt.

Mache Euch keinen Vorwurf aber möchte wirklich zu bedenken geben, dass sofern alles was nicht wirklich Substanz hat freigegeben wird Personen abgeschreckt werden. Angezogen wird dadurch nicht wirklich jemand der etwas zum Thema beitragen will, eher jemand der gerne mal ein wenig mitmischen möchte

Und die Freischaltungen liegen einzig und allein bei Euch und keinem anderen! Möchte mich auch nicht in die Administration einmischen aber nicht jeder kann wirklich gut mit solchen Postings umgehen und wie wir alles wissen entstehen aufgrund solche Posting leider immer wieder unschöne Diskussionen.

Gruß
Frank
Parent - By Thomas Müller Date 2011-12-13 15:49
Hallo,

nach dem Antrag schaut unser Kollege der Zugriff auf die Mailbox hat. Bissl Geduld noch?!
Das du von der IP her nicht mit Stefan Pohl zusammenpassen wurde von Frank schon gepostet.

gruß thomas
Parent - By Ingo Bauer Date 2011-12-13 14:53
[quote="Stefan Pohl"]

das ist zwar nett, aber ich würde doch darum bitten, sich zu registrieren, da es hier Leute gibt, die in so merkwürdigen Welten leben, daß sie glauben, ich hätte es nötig mich hier anonym selbst zu beweihräuchern.
[/quote]

Ja, in der Tat. Auch verwunderlich, dass sich von einem 8 Zeilen Post zwei sich auf dich beziehen und du meinen allgemeinen Kommentar auf dich münzt ...
Ich glaube viel eher da wollte mal einer FQ seine Meinung sagen und traut sich nicht unter eigenem Namen ...
Gruß
Ingo
Parent - - By Frank Quisinsky Date 2011-12-13 23:56 Edited 2011-12-14 00:00
Hi Stefan,

nur eine Sache.
Izak bestätigte mir selbst das er andere Figurenwerte nutzt als beim KLO Compile.

Eigentlich wollte ich nur die PeterPan Version testen aber Norman wies mich in TalkChess darauf hin. Ist ja nachlesbar und ich denke Norman sieht lieber eine IvanHoe Version die ohne Veränderungen in den Grundsourcen spielt. Das brachte mich also auch ein wenig in Bedrängnis, weil ich eigentlich IvanHoe B46fB für die SWCR-32 und SWCR-64 gleichzeitig laufen lassen wollte. Kurz überlegt, ja Norman hat Recht ... so könnten ja mehrere Fliegen mit einer Klappe und dann mal los. Das nun die beiden unterschiedlichen Settings in der SWCR-64 beruht eher auf dem Einwand von Norman.

Bei der SWCR-64 ist mir das eh egal, weil diese Liste nur experimentellen Charakter hat. In der SWCR-32 würde ich z. B. niemals ein Setting testen. Selbst gehe ich z. B. hin und lasse alles was getestet wurde in der SWCR-64 aber für eigene Berechnungen ziehe ich dann die Setting Versionen wieder raus (wie von Dir angesprochen, sind mir dann zu viele Versionen von einer Engines). Kann aber auch jeder selbst machen denn die Datenbank liegt ja Online.

Soweit zu meiner Denke warum und weshalb.

Übrigens, erinnere Dich an den Compiles von Ahmed. Die waren besser als die von PeterPan auch ca. um 10 ELO in der SWCR. Die Versionen von Ahmed nahm ich dann auf Wunsch von Ahmed aus der Liste, er kompiliert nicht mehr.

Gruß
Frank
Parent - - By Stefan Pohl Date 2011-12-14 12:14
[quote="Frank Quisinsky"]

Izak bestätigte mir selbst das er andere Figurenwerte nutzt als beim KLO Compile.

[/quote]

Hi Frank,
ja das ist seltsam. Im immortal-Forum schreibt er (zurB46h-Version, die aber ja wohl nur ein Bugfix ist):"I did not make any piece value changes or any other changes to change the way Ivanhoe "thinks".So these compiles should think the same way as the original source,thus i call it a pure compile."
Zudem braucht man sich doch nur die UCI-Parameter anzusehen, dann stellt man fest, daß beide Compiles die Werte 100,300,310/315,500,950,45 benutzen...

Aber wie dem auch sei: Fakt bei meinen Tests ist a) Die Peterpan-Version läuft auf meinem alten Quad (gleicher wie deiner) minimal schneller unter der LittleBlitzerGUI und scort auch minimal besser (0.5%) unter wirklich absolut identischen Testparametern. b) Auf meinem modernen Laptop mit i7 2670QM-Prozessor läuft der PeterPan-Compile gerade im späten Mittelspiel/frühen Endspiel mit allen Cores+TripleBase-Zugriff erheblich schneller als der KLO-Compile und auch als Houdini 2 (!), die beide so auf ca. 8 Mio Knoten/s kommen, während die B46fa-Version zwischen 9.5 und 10 Mio Knoten schafft...
Lange Rede, kurzer Sinn ich bleibe in der TEB-Liste bei der PeterPan-Version.

Gruß - Stefan

P.S: Auf dem playchess-Server wurde mir die Bitte angetragen, auch Houdini 1.5a in meine TEB-Liste aufzunehmen, da es sich um die stärkste Freeware-Engine handelt und dies sicher für Leute mit schmalem Geldbeutel interessant ist. Zudem könnte der neue Critter diese Position ja schon bald für sich reklamieren. Da ich mich solch logischen Argumenten nicht verschließen kann und will, wird Houdini 1.5a also in die TEB-Liste integriert und wird die absolut gleichen Gegner/Testbedingungen spielen wie die 2.0c-Version, um optimale Versions-Vergleichbarkeit sicherzustellen - es gibt ja doch recht unterschiedliche Ergebnisse bzgl. des Spielstärkezuwachses von 1.5a auf 2.0c (SWCR/IPON...). Wenn die 1.5a aber erst mal integriert ist, wird sie bei Spießrutenläufen neuer Engines/Versionen nicht mehr mitlaufen, da ich mich hier auf die stärksten Versionen einer Engine beschränken will.
Ergebnis morgen oder übermorgen hier im Forum. Die stärkste Freeware-Engine werde ich in der Liste, falls ichs nicht vergesse, in Zukunft auch irgendwie als solche markieren, weil das anscheinend für einige doch interessant ist.
Parent - - By Frank Quisinsky Date 2011-12-14 19:39
Hallo Stefan,

zu den Compiles zu PeterPan.
Hatte da auch etwas falsch verstanden.

Hier zur Klarstellung!

Ivanhoe 46f <--- uses default piece values, as stated on immortal when i posted it, with no changes to how engine plays from default.
Ivanhoe B46fa <---- use other piece values, which i have stated on immortal when i posted it.
Ivanhoe B46fb <---- use same values as Ivanhoe B46fa, as i stated on immortal when i posted it.
Ivanhoe 46h <--- uses default piece values as in ippolit wiki source, with no changes to way engine plays from default source.

Und welche Version mir besser gefällt ...
Ich kann Dir das gar nicht sagen, in den letzten Tagen hatte ich keine Zeit zu verfolgen.
Werde gleich mal ein paar schnelle Statistiken erstellen, einige der Partien schaue ich mir später natürlich auch noch an.
Schreibe gleich was dazu ...

Viele Grüße
Frank
Parent - - By Frank Quisinsky Date 2011-12-14 20:08 Edited 2011-12-14 20:14
Code:
Rank Name                            Elo    +    - games score oppo. draws
   1 Houdini 2.0c x64               3016   20   19  1258   81%  2759   26%
   2 Houdini 1.5 x64                2998   14   14  2320   78%  2771   29%
   3 Houdini 1.5 w32                2981   19   19  1240   79%  2756   29%
   4 Rybka 4 x64 Exp. 42            2966   19   19  1248   79%  2738   27%
   5 Rybka 4.1 x64 Exp. 79TD v.1    2963   20   19  1200   79%  2735   26%
   6 Komodo 3.0 x64                 2961   17   16  1537   76%  2757   32%
   7 IvanHoe 999946f x64            2959   22   21   841   75%  2770   34%
   8 Rybka 4 x64 Exp. 61            2959   21   21  1000   78%  2741   27%
   9 Rybka 4.1 x64                  2955   15   15  1815   73%  2778   36%
  10 Critter 1.2 x64                2954   16   15  1736   75%  2756   34%
  11 IvanHoe B46fB x64              2949   22   21   841   73%  2770   36%
  12 Stockfish 2.1.1 JA x64 PHQ     2948   18   17  1328   75%  2753   32%
  13 Houdini 1.03a x64              2943   21   21  1000   80%  2710   30%
  14 Fire 2.2 xTreme x64            2941   16   15  1696   74%  2752   35%
  15 IvanHoe B47cB x64              2940   15   15  1768   71%  2784   39%
  16 Rybka 4 x64                    2940   18   17  1480   80%  2696   28%
  17 Fire 1.5 xTreme x64            2935   17   16  1400   73%  2761   36%
  18 Critter 1.2 w32                2934   18   18  1200   75%  2753   36%
  19 IvanHoe B49jA x64              2931   19   18  1160   76%  2737   34%
  20 Stockfish 2.1.1 JA x64         2930   15   15  1853   72%  2759   35%
  21 Komodo 2.03 JA x64             2926   17   16  1480   73%  2749   31%
  22 RobboLito 0.09 x64             2919   16   16  1528   73%  2736   34%
  23 IvanHoe B52aC x64              2918   20   20  1000   76%  2726   34%
  24 Stockfish 2.0.1 JA x64         2905   18   18  1120   69%  2767   38%


Hier mal der Zwischenstand nach 841 von 1.400 Partien je Version.

Und ein paar kleine Statistiken:

1. Verlorene Partien auf Zeit:
Bei beiden Versionen je 3, die Partien habe ich gerade wiederholen lassen und sind durch, also im hier gesetzten Ergebnis schon korrigiert.

2. GUI Hänger:
Es gab 2 aber jeweils nicht wegen einer IvanHoe Version.

3. Remispartien unter 16 Zügen.
Keine, allerdings habe ich 2 Partien mit Remis nach 16 Zügen, eine nach 18 Zügen und eine nach 19 Zügen wiederholen lassen. Auch mal in meiner Datenbank geschaut, sind keine kritischen Eröffnungen gewesen, wohl eher zufällig entstanden. Die Wiederholungspartien liefen gerade zu Ende bzw. eine der B46fB gegen Toga läuft gerade noch.

4. Durchschnittliche Züge Dauer (kann in der SWCR schön gemessen werden da ja ohne Resign gespielt wird)
B46fB = 86 Züge
999946f = 85 Züge
Voll im Durchschnitt, das waren nach den ersten glaube ich 300-400 Partien noch 4 Züge Differenz.
Hier also keine Auffälligkeiten mehr.

5. Remisquote:
B46fB = 36%
999946f = 34%
Das sah nach den ersten Partien ganz anders aus, siehe die ELO-Entwicklungstabellen in TalkChess. Nur noch 2% Unterschied!
Hier also keine Auffälligkeiten mehr.

6. Schnelle Verlustpartien, schnelle Gewinnpartien, unter 56 Zügen
B46fB = 32x gewonnen = 3,80%, 5x verloren = 0,59%
OK, da gibt es einige Programme die deutlich besser bei schnell gewonnen liegen, z. B. Stockfish 2.1.1 PHQ, Spark 1.0, Houdini, Critter 1.2.
Aber IvanHoe ist zäh und schwierig schnell zu schlagen, spielte solide und die 0,59% sind sehr gut!
999946f = 26x gewonnen 3.09%, 6x verloren = 0,71%

Auch hier hat sich fast alles angeglichen und es gibt kaum Unterschiede!

Und wo kommen jetzt die 10 ELO her.
Kann ich kaum sagen, zwischen Zug 56-80 ist das Ergebnis der 999946f besser, danach ist wieder alles identisch.

Also nach diesen jetzigen Statistiken kann lediglich ausgesagt werden, dass wenn sich die Veränderungen bei den Figurenwerten überhaupt bemerkbar machen, dann im frühen Endspiel. Es ist auch nicht mehr zu erkennen, anhand von keiner anderen Statistik, habe noch ein paar andere schnelle gemacht, dass sich sehr viel unterscheidet.

Auffällig ist aber derzeit noch folgender Umstand:
Die B46fB punktet gegen stärkere besser, die 999946f gegen Schwächere. Hier sind während des gesamten Ablauf des Testes bislang auch keine Veränderungen zu sehen. Auffällig ist dennoch, dass die 999946f beim Einzelergebnis gegen Houdini 2.0c führt aber das kann Zufall sein.

Warten wir mal auf das Endergebnis:
In der Regel ist das Ergebnis eigentlich schon nach 500 Partien bei so vielen Gegnern sehr genau.
Jetzt bestehen noch 10 ELO Differenzen die Zufall sein können.
Wahrscheinlich wird sich alles bis zum Ende nach 1.400 weiter annähern.

Ist dem so, muss ich eine IvanHoe Version aus der SWCR wieder herausnehmen und das wird die 999946f sein, da ich bei der Serie von gestesteten Versionen bei PeterPan bleibe. Muss mal schauen und das Endergebnis abwarten.

Gruß
Frank
Parent - - By Simon Gros Date 2011-12-14 21:01
Es sieht so aus als wenn 400 Spiele doch nicht ausreichen um eine vernünftige Aussage zu treffen oder sollte man schreiben oftmals rein zufällige Resultate produzieren? Sie bestätigen dies mit diesem Beitrag (mal wieder), siehe Punkt 4 + 5, obwohl Sie sonst i.d.R. eine komplett andere Meinung vertreten und bereits nach 350-400 Spielen glauben, daß sich nicht mehr viel verändert?! Wie ist das zu erklären?
Simon_G
Parent - By Frank Quisinsky Date 2011-12-14 22:20
Hallo Simon,

also wenn es jetzt um die ELO geht waren eigentlich die Ergebnisse schon sehr früh aussagekräftig. Das ist auch die Regel, erst Recht bei der Anzahl der eingepickten Gegner, siehe z. b. die ELO-Entwicklungstabellen im TalkChess Thread.

Bei den aufgeführten Punkten 4 + 5, tja!
Die Statistiken hierzu verfolge ich nicht.
Es ist schon stark auffällig wie sich die Remisquote mit immer mehr Partien annähert und mithin auch der Zügedurchschnitt. Die Remispartien dauern oftmals auch sehr lange und insofern ist eigentlich klar, dass wenn sich die Remisquote annähert sich auch der Zügedurchschnitt annähert.

Dann haben wir noch das Bayesian / ELOstat Problem. Bayesian geht mit einer niedrigen / hohen Remisquote anders um als ELOstat. Niedrige Remisqoute bedeutete ein paar Pünktchen mehr.

Also rein intuitiv, nach dem was ich gesehen habe denke ich das die B46fB interessanter ist. Es ist wahrscheinlicher das die ELO aufgrund der guten Ergebnisse gegen die TOPs eher weiter steigt als fällt und bei der 999946f ist wahrscheinlicher das die ELO eher weiter fällt als steigt.

Denke letztendlich wird der Zuwachs zur B47cB ca. um 15 Punkte liegen.
Aber mal schauen wie sich das weiter entwickelt.
Vorhersagen werden oft bestraft aber wie gesagt, rein nach dem gesehenen liegt die Vermutung nun sehr Nahe.

Denke das war auch mal ein interessanter SWCR Test, nicht nur wegen IvanHoe oder 10 oder 40 ELO Verbesserung oder nicht.
Zwei Compiles werden verglichen und die Unterschiede können durch geringfügige Veränderungen der Figurenwerte nicht so hoch sein.
Insofern auch ein schöner Test der Plausibilität der ausgegebenen Ergebnisse.

Gruß
Frank
Parent - - By Frank Quisinsky Date 2011-12-15 21:05
Code:
Rank Name                            Elo    +    - games score oppo. draws
   1 Houdini 2.0c x64               3016   19   19  1266   81%  2761   26%
   2 Houdini 1.5 x64                2998   14   14  2320   78%  2771   29%
   3 Houdini 1.5 w32                2981   19   19  1240   79%  2756   29%
   4 Rybka 4 x64 Exp. 42            2967   19   19  1258   78%  2740   27%
   5 IvanHoe 999946f x64            2965   20   20   991   75%  2771   33%
   6 Rybka 4.1 x64 Exp. 79TD v.1    2963   20   19  1200   79%  2735   26%
   7 Komodo 3.0 x64                 2960   16   16  1546   76%  2759   32%
   8 Rybka 4 x64 Exp. 61            2959   21   21  1000   78%  2741   27%
   9 IvanHoe B46fB x64              2957   20   20   986   74%  2770   35%
  10 Critter 1.2 x64                2955   16   15  1746   75%  2757   34%
  11 Rybka 4.1 x64                  2954   15   15  1825   73%  2779   36%
  12 Stockfish 2.1.1 JA x64 PHQ     2948   17   17  1337   75%  2754   33%
  13 Houdini 1.03a x64              2943   21   21  1000   80%  2710   30%
  14 Fire 2.2 xTreme x64            2942   15   15  1705   74%  2753   35%
  15 IvanHoe B47cB x64              2940   15   15  1768   71%  2784   39%
  16 Rybka 4 x64                    2940   18   17  1480   80%  2696   28%
  17 Fire 1.5 xTreme x64            2935   17   16  1400   73%  2761   36%
  18 Critter 1.2 w32                2934   18   18  1200   75%  2753   36%
  19 IvanHoe B49jA x64              2931   19   18  1160   76%  2737   34%
  20 Stockfish 2.1.1 JA x64         2930   15   14  1862   72%  2760   35%
  21 Komodo 2.03 JA x64             2926   17   16  1480   73%  2749   31%
  22 RobboLito 0.09 x64             2919   16   16  1538   73%  2738   34%
  23 IvanHoe B52aC x64              2918   20   20  1000   76%  2725   34%
  24 Stockfish 2.0.1 JA x64         2905   18   18  1120   69%  2767   38%


Nach 2-3 schwachen Runden zwischendurch erholen sich offenbar beide IvanHoes wieder und sind leicht am zulegen.
Der Kampf um Platz 2 ist also nach wie vor im vollem Gange.

Houdini 2.0c muss wirklich kämpfen um gegen IvanHoe zu punkten.
Bin besonders gespannt ob die 999946f wirklich die erste Engine ist die Houdini 2.0c und 1.5 in der SWCR schlägt. Zur Zeit sind es nach wie vor 3 Punkte Vorsprung, waren auch mal 4 zwischendurch mal 2. Die B46fB spielt gegen die anderen TOPs fast komplett positiv, nicht gegen Houdini. Letztendlich sind die 40 Partien-Matches aber auch ein wenig Zufall, dafür sind dann wieder viele Gegner in den Spießroutenläufen damit die ELO genauer wird.

Müssen das jetzt weiter abwarten aber nach jetzt fast 1.000 Partien wird sich nicht mehr viel regen. Ob 1.000 oder 2.000 ist da fast egal. Von daher bin ich skeptisch ob sich da noch was im +-10 Bereich regt.

Viele Grüße
Frank
Parent - By Frank Quisinsky Date 2011-12-20 01:20
Hallo zusammen,

der Test ist beendet.
Hier die ersten 24 der derzeitigen SWCR.

Es läuft nun wieder auf 08/16 Cores das Oldie-Mix und auf 08/16 Cores der Fritz 13 Spießroutenlauf für die SWCR-64, der nach 220 von 1.240 Partien unterbrochen wurde. Fritz 13 wurde aber bereits für die SWCR-32 schon getestet.

Gruß
Frank

Code:
  SWCR         : 154.701 games           #Time control  : 40/10 "repeatedly"
  Last update  : December 20th, 2011     #Game average  : 40 minutes, moves average = 171,60
                                         #Resign        : OFF
  LIVE 1       : Oldie-Mix               #Ponder        : ON
  Cores        : 08/16 (for SWCR-32)     #Learning      : OFF
  To play      : around 10.000 games     #Endgames      : 4-pieces, 32Mb cache
                                         #Opening books : OWN v5.11 / v1.0
  Not LIVE     : Fritz 13                #GUI           : Shredder Classic 4
  Cores        : 08/16 (for SWCR-64)     #OS            : Windows XP Prof. x64 Edition
  To play      : 1.020 of 1.240          #Processors    : Intel® Core(TM)2Q, 4xQ9550 2,83GHz
                                         #Cores         : 1 core for each engine
  Database     : 152.301 games           #Hash-Tables   : 256Mb 
  Updated      : December 10th, 2011     #Games         : 1.000 per engine minimal

          NAME / version of engine       ELO    +    -   GAM    SC   OP     DR
  ------------------------------------------------------------------------------
   1    1 Houdini 2.0c x64               3018   19   19  1288   81%  2764   26% Update, + 20
   -    2 Houdini 1.5 x64                2998   14   14  2320   78%  2771   29%
   -    3 Houdini 1.5 w32                2980   19   19  1240   79%  2756   29%
   2    4 Rybka 4 x64 Exp. 42            2966   19   18  1280   78%  2743   28%
   -    5 Rybka 4.1 x64 Exp. 79TD v.1    2963   20   19  1200   79%  2735   26%
   3    6 IvanHoe 999946f x64            2962   17   17  1400   75%  2770   33% NEW
   4    7 Komodo 3.0 x64                 2961   16   16  1568   75%  2762   33%
   -    8 Rybka 4 x64 Exp. 61            2959   21   21  1000   78%  2741   27%
   -    9 IvanHoe B46fB x64              2956   17   17  1400   74%  2770   35% Update, + 16
   5   10 Critter 1.2 x64                2956   15   15  1768   75%  2760   34%
   -   11 Rybka 4.1 x64                  2954   15   15  1847   72%  2782   36%
   6   12 Stockfish 2.1.1 JA x64 PHQ     2948   17   17  1360   75%  2758   33%
   7   13 Fire 2.2 xTreme x64            2943   15   15  1728   74%  2756   36%
   -   14 Houdini 1.03a x64              2943   21   21  1000   80%  2710   30%
   -   15 IvanHoe B47cB x64              2940   14   15  1768   71%  2784   39%
   -   16 Rybka 4 x64                    2940   18   17  1480   80%  2696   28%
   -   17 Fire 1.5 xTreme x64            2935   17   16  1400   73%  2761   36%
   -   18 Critter 1.2 w32                2934   18   18  1200   75%  2753   36%
   -   19 IvanHoe B49jA x64              2931   19   18  1160   76%  2737   34%
   -   20 Stockfish 2.1.1 JA x64         2930   15   14  1885   72%  2763   35%
   -   21 Komodo 2.03 JA x64             2926   17   16  1480   73%  2749   31%
   -   22 RobboLito 0.09 x64             2921   16   16  1560   73%  2741   35% NEW
   -   23 IvanHoe B52aC x64              2918   20   20  1000   76%  2725   34%
   -   24 Stockfish 2.0.1 JA x64         2905   18   18  1120   69%  2767   38%
Parent - By Stefan Pohl Date 2011-12-16 06:04
[quote="Frank Quisinsky"]
Hallo Stefan,

zu den Compiles zu PeterPan.
Hatte da auch etwas falsch verstanden.

Hier zur Klarstellung!

Ivanhoe 46f <--- uses default piece values, as stated on immortal when i posted it, with no changes to how engine plays from default.
Ivanhoe B46fa <---- use other piece values, which i have stated on immortal when i posted it.
Ivanhoe B46fb <---- use same values as Ivanhoe B46fa, as i stated on immortal when i posted it.
Ivanhoe 46h <--- uses default piece values as in ippolit wiki source, with no changes to way engine plays from default source.

Und welche Version mir besser gefällt ...
Ich kann Dir das gar nicht sagen, in den letzten Tagen hatte ich keine Zeit zu verfolgen.
Werde gleich mal ein paar schnelle Statistiken erstellen, einige der Partien schaue ich mir später natürlich auch noch an.
Schreibe gleich was dazu ...

Viele Grüße
Frank
[/quote]

Hi Frank,

danke das ist sehr aufschlußreich. Da werde ich dann wohl doch mal die 46h-Version von PeterPan testen, weil sie die originial Ippolit-Sourcen benutzt (und schneller als KLO ist). Sollte sie bei mir besser scoren, wird die alte B46fa durch sie ersetzt, d.h. die Ergebnisse/Partien der 46fa würden dann aus der TEB-Liste rausgerechnet.

Schaun mer mal.

Gruß - Stefan
Parent - - By Frank Quisinsky Date 2011-12-13 22:17 Edited 2011-12-13 22:24
Hallo Marsell,

ich bin Dir dankbar das Du die Punkte angesprochen hast.
Stefan Pohl hat ja schon einiges zu seinen Einschätzungen geschrieben, dahingehend gibt es auch nicht viel zu ergänzen.

Zu Statistiken habe ich auf Sascha im Fischer Thread etwas geschrieben und möchte das nicht wiederholen, weil das meines Erachtens auch selbsterklärend ist.

Aber, was mir jetzt wichtig ist, auch wenn das schon so oft geschrieben wurde.

Mir persönlich ist es sehr wichtig mehr als einfache Zahlen zu generieren. Ob das nun meine unzähligen Interviews mit Programmierer sind, Spielstilbeschreibungen oder zu einem laufenden Test Eindrücke zusammen zu fassen. Habe dahingend schon so viel gemacht und immer steht für mich "Animation" im Vorgrund. Diese Eindrücke sind nicht immer klar, auch mir nicht. Ich könnte immer einen Eindruck auch hieb und stichfest machen, in dem ich mich einfacher Tricks bediene.

z. B.:
Ich nutze ELOstat für IvanHoe B46fB anstatt Bayesian. Da ist die höhere Remisquote nicht ausschlaggebend. Oder ich erstelle Listen mit Vergleichen gegen stärkere und schwächere Gegner zum laufenden Test um hervorzuheben wo denn die Version B46fB stärker ist.

Wichtiger als das ist es eher Interessierten die folgende Infos zu geben:
Schaut, sehr bald stehen 2.800 IvanHoe Partien zweier unterschiedlicher Compiles zur Verfügung. Diese könnte Ihr Downloaden und Euch dann selbst einen Eindruck verschaffen. Informationen die von mir kommen stehen immer komplett downloadbar oder in lesbarer Form zur Verfügung. Selbst möchte ich aber zu diesen Informationen eigene Eindrücke die ich gewonnen habe mitgeben um vielleicht auch interessante Anregungen für eine vielleicht tiefere Untersuchung zu bewirken. Das funktioniert, ich tausche mich mit sehr vielen über die SWCR aus.

Letztendlich sind und bleiben Spielstilbeschreibungen oder Eindrücke zu einem laufenden Test immer so lange subjektiv bis nachweisbar wirklich mehr Substanz einer guten Beurteilung vorliegt. Für diese benötigen wir dann wieder die Statistik und ... ganz wichtig ... die persönlichen Eindrücke.

Du solltest nicht hingehen und die Sache mit einer geballten Power "ich mag jeden oder diesen nicht" angehen. Du verpasst zu viel dabei. Nutze oder nutze nicht, nutze z. B. die SWCR Daten oder nutze sie nicht. Das steht doch jedem frei. Also ich bin immer dankbar wenn ich Informationen erhalte die ich nicht selbst erzeugen muss und davon gibt es massig, auch hier im Forum. Leider fehlt mir nur die Zeit mich mit den ganzen interessanten Dingen zu beschäftigen weil die eigene Aktivität viel Zeit in Anspruch nimmt und es gibt auch noch andere Dinge als Computerschach.

Nur wenn ich im Computerschach aktiv bin dann möchte ich versuchen zu animieren (Animation ist mein Ziel denn dadurch erhalte ich selbst wieder neue Informationen ... Kausalkette). Also gehe einfach mal davon aus, dass ich mit meiner Ratingliste nichts böses beabsichtige und Eindrücke gerne weitergeben möchte.

Ich freue mich auch über die vielen Zugriffe auf meinen Seiten. Bin z. B. derzeit überrascht, das mein erstelltes Fritz Buch schon 2.170x in dieser kurzen Zeit heruntergeladen wurde. Hätten doch nur alle mal einen Euro dafür gegeben oder 1 EUR für 3.5 Millionen Arena Downloads in den Jahren 2005 / 2006. Immerhin hat einer 10 EUR gegeben und das kam vom Herzen, wie auch meine Informationen über sehr viele Jahre hinweg.

Dir weiterhin viel Spaß mit oder ohne meinen Bemühungen. Gibt noch so viele andere interessante Dinge, die SWCR ist doch auch nur eine Winzigkeit von Informationen die uns allen zur Verfügung stehen.
Wichtig ist doch zunächst mal das wir alle ein sehr schönes Hobby mit viel Platz für Fakten, Statistiken und Spekulationen haben.

Und wenn dich Quisinsky nervt, einfach den Kerl ignorieren.

Viele Grüße
Frank
Parent - - By Stefan Pohl Date 2011-12-14 12:21
[quote="Frank Quisinsky"]

Ich freue mich auch über die vielen Zugriffe auf meinen Seiten. Bin z. B. derzeit überrascht, das mein erstelltes Fritz Buch schon 2.170x in dieser kurzen Zeit heruntergeladen wurde. Hätten doch nur alle mal einen Euro dafür gegeben oder 1 EUR für 3.5 Millionen Arena Downloads in den Jahren 2005 / 2006. Immerhin hat einer 10 EUR gegeben und das kam vom Herzen, wie auch meine Informationen über sehr viele Jahre hinweg.

[/quote]

Hi Frank,

jetzt hab ich ja ein bißchen schlechtes Gewissen, da ich mir das Buch auch runtergeladen habe. Allerdings hatte ich dir ja schon mal eine etwas größere Donation zukommen lassen. Solltest Du die SWCR längerfristig weiterführen, dann kommt da sicher auch noch mal was nach.
Allerdings schwimme ich auch nicht gerade im Geld und spare gerade auf einen neuen PC für daheim fürs Computerschach...Und mit der TEB-Liste, die dann (irgendwann 2012) auf eine bessere Hardware umgestellt wird, hat ja auch die Community was davon.

Gruß - Stefan
Parent - By Frank Quisinsky Date 2011-12-14 19:13
Hallo Stefan,

um Gottes Willen.
Also gedacht sind die Buttons ja nicht für Personen die sich selbst bemühen und Informationen der Allgemeinheit zur Verfügung stellen. Du musst überhaupt kein schlechtes Gewissen haben. Das ehrt Dich zwar aber das schlechte Gewissen ist überhaupt nicht angebracht.

BTW:
Die ELO beider Ivans ist ein wenig gefallen.
Da haben beide zwei ganz schwache Runden gespielt.

Viele Grüße
Frank
Parent - - By Stefan Pohl Date 2011-12-14 14:49
[quote="Frank Quisinsky"]

Die Verbesserungen zur letzten getesteten IvanHoe B47cB x64 Version liegen derzeit bei 15-27 ELO.
Das entspricht ca. dem Ergebnis aus meinen Testpartien vor diesem Match oder auch mal wieder den schon mitgeteilten Ergebnissen von Stefan Pohl.

[/quote]

Hallo Frank,

Da es ja einige Kritik bzgl. der sehr kurzen Bedenkzeiten in der TEB-Liste (30'+400ms Fischerbonus auf 2.83GHZ Quad, single core, ponder off) gab, was ja angeblich unbrauchbare Ergebnisse nach sich zieht, habe ich mir mal den aktuellen Zwischenstand deines Ivanhoe B46fB-Tests (nach 812 von 1400 Partien) angesehen und zwar gegen die 7 Engines, die in der TEB auch gegen diesen Ivan gespielt haben (Houdini 2.0c, Rybka 4.1, Fire 2.2, Critter 1.2, Robbolito 0.09, Komodo 3, Stockfish 111026) und die bisherige Erfolgsquote ausgerechnet:51.5%
Nun habe ich bei meiner TEB-Liste dasselbe getan (also die Stockfishversion 111026 aus meinen Ivanergebnissen rausgerechnet) und kam auf: 52.4%.
Also eine Abweichung von nur 0.9%.

Die einzige Engine, die mit diesen kurzen Bedenkzeiten nicht zurecht kommt, ist offensichtlich Komodo 3. Gegen die 4 Gegner, gegen die Komodo 3 in der IPON und der TEB gespielt hat (Houdini 2.0c, Rybka 4.1, Critter 1.2 und Stockfish 2.1.1) scorte sie in der TEB 3.8% schlechter (also ca.25 Elo), was auch nicht sooooo viel ist, aber immerhin meßbar.
Das ist aber für mich kein Grund, die meine Testgeschwindigkeit in Frage zu stellen, warum auch? Wenn eine Engine mit Testbedingungen nicht klar kommt, dann ist das das Problem der Engineprogrammierer, nicht des Testers. In der TEB-Liste rechnet jede Engine im Schnitt pro Zug 0.7 Sekunden lang (zeigt die LittleBlitzerGUI dankenswerterweise an) und damit kann Komodo etwa 1 Mio Knoten pro Zug durchrechnen. Dafür haben Rechner früher Turnierbedenkzeit gebraucht (und sooo lange ist das noch nicht her). Wenn also 1 Mio Knoten nicht reichen, um vernünftige Züge zu generieren, dann hat die Engine ein Problem, nicht der Tester.
Darüberhinaus führe ich die Bedenkzeitdebatte nunmehr seit fast 30 Jahren, nämlich seit Mephisto III auf den Markt kam. Erst hieß es, alles, was schneller als Turnierbedenkzeit ist, sei inakzeptabel, dann wars 1 Minute pro Zug, dann 30 sec. Als ich einige Zeit die damalige CSS-Rangliste mit einer Blitzliste ergänzte (Tempo war 2'+2''), war das angeblich viel zu schnell. Heute ist das angeblich wieder OK, aber 30'+400ms sind viel zu schnell.
Ein gewisses Muster läßt sich da nicht abstreiten?!? Da ich diesen Unfug nicht noch mal 30 Jahre lang ausdiskutieren will (dann sind wahrscheinlich 1'+10 ms Fischerbonus OK und 0.5'+ 3 ms Fischerbonus viel zu schnell...womit dann die Grenze zum Slapstick endgültig überschritten worden wäre), werde ich mich ab sofort nicht mehr an Bedenkzeitdebatten beteiligen. Wem meine Tests zu schnell sind, soll sie ignorieren und punkt. Außerdem: Wenn eine Engine in der TEB-Liste deutlich schwächer abschneidet als in Listen mit längeren Bedenkzeiten, ist doch das eigentlich positiv, weil ein Erkenntnisgewinn, nämlich daß diese Engine fürs schnelle Blitz nicht taugt, und auch, daß sie vermutlich bei längeren Bedenkzeiten überproportional zulegt. Beides ist doch durchaus interessant, oder nicht? Ersteres für Blitzfreunde, letzteres für Analytiker und Fernschächer.

Gruß - Stefan
Parent - - By Simon Gros Date 2011-12-14 15:01
Für mein Empfinden ist es vollkommen egal welche Bedenkzeit für Programmvergleiche hergenommen wird so lange gewährleistet ist, daß alle Engines unter gleichen Bedingungen antreten.
Simon_G
Parent - - By Benno Hartwig Date 2011-12-14 17:19
[quote="Simon Gros"]Für mein Empfinden ist es vollkommen egal welche Bedenkzeit für Programmvergleiche hergenommen wird so lange gewährleistet ist, daß alle Engines unter gleichen Bedingungen antreten. [/quote]Man kann jede nehmen, man sollte aber überlegen, welche interessiert.
Während die Spielstärkeverhältnisse nach meinem Eindruck beim Blitz und Turnier sehr(!) ähnlich bleiben, verschieben sie sich aber mitunter schon deutlich, wenn man auf 2min/Partie oder sogar darunter geht.
Insofern: Zustimmung, aber nicht zu kurze Zeiten wählen.
Benno
Parent - - By Simon Gros Date 2011-12-14 20:13
Ich konnte bei meinen bescheidenen Versuchen mit 1'+1" und ausreichender Partienanzahl einige Ergebnisse der CEGT-Blitz-Matches sozusagen nachstellen. Auf einem i5 schwanken die Prozentzahlen der Vergleiche (bisher) maximal um die +-5%. Allerdings habe ich immer mindestens 50 Spiele durchführen lassen.
Simon_G
Parent - By Benno Hartwig Date 2011-12-14 23:57
[quote="Simon Gros"]Ich konnte bei meinen bescheidenen Versuchen mit 1'+1" und ausreichender Partienanzahl einige Ergebnisse der CEGT-Blitz-Matches sozusagen nachstellen.[/quote]Hasst du mal z.B. Ippolit damit spielen lassen, am besten sogar mit 30s+0,5s? Da werden z.B. die Rybkas sehr in Grund und Boden gespielt.
Und hast du mal Spike so antreten lassen? Er bricht gegen den Engines mit ähnlichen ELO-Werten ein, als ob er 2 Klassen tiefer spielen würde.
Benno

PS:
Wohlgemerkt: Ob eine Engine nun besser parameterisiert ist, ob die ggf. kleinere Sourcenänderung zu eriner Verstärkung führte, kann man ggf. schon auch mit sehr kurzen Zeiten sehr praktikabel abschätzen.
Parent - - By Frank Quisinsky Date 2011-12-14 19:31
Hallo Stefan,

überrascht bin ich nicht wegen der Bedenkzeit, sondern von den guten Ausgaben bei den wenigen Gegnern. Aber das liegt dann wohl wieder an der Anzahl der Partien. Bei den 40 Partien pro Match in der SWCR benötige ich viele Gegner um durch weniger Partien ein gutes Ergebnis zu erzielen. Bei den höheren Bedenkzeiten versuche ich das natürlich zu optimieren und das kann ich nur mit mehr Gegner.

Und da beim Testen der TOP-7 ja wirklich die Situation da ist, das die Verfolger zu weit zurück sind macht es in diesem Fall gar Sinn auch wieder PHQ oder EXP. 42 zu integrieren. Bilde laufend simulierte Statistiken um besser abschätzen zu können wo ich diverse Schwachpunkte der SWCR optimieren sollte bzw. an welchen Stellen es Sinn macht oder nicht.

Derzeit überlege ich ob ich PHQ und EXP.42 nach dem IvanHoe Test noch je 200 Partien gegen neuere getestete Engines spielen lassen. Die sehr hohe ELO von Exp.42 kann ich selbst nicht so richtig glauben aber egal was ich veranstalte bzw. für Statistiken erstelle, das scheint wirklich OK zu sein. Bei so vielen Partien greift kaum noch irgend eine Zufalls-Komponente, eher bei so vielen Gegnern. Insofern ist die SWCR OK und viele Ansatzpunkte noch etwas zu verbessern finde ich nicht.

Zu Deinen Ergebnissen:
Also ich bin auch kein Fan von diesen schnellen Bedenkzeiten weil ich den Anspruch erhebe mir Partien anzusehen während diese laufen bzw. mitzuanalysieren. Das macht mir mehr Spaß als das über eine Datenbank zu machen, bzw. das mache ich dann eher seltener wenn mich eine Partie ganz besonders interessiert.

Die ermittelten Ergebnisse sind aber OK.
Die Hardware ist derartig schnell, die GUIs haben bei der Zugübermittlung (nicht unbedingt die ChessBase GUI) kaum Verzögerungszeiten und insofern warum nicht. Du kannst Dir zumindest so sehr schnell einen Überblick über die Spielstärke der Engines verschaffen. Wie gesagt, es gibt nur wenige Engines die von der Zeit profitieren oder abfallen. Junior, Zappa, Komodo sind z. B. Kandidaten die einfach Zeit benötigen. Glaube auch Smarthink nach meiner letzten Analyse. Stark überwiegend kommt es aber kaum zu anderen Ergebnissen, ob nun 40 in 1, 40 in 5 oder 40 in 10.

Interessant ist es festzustellen ob es irgend wann zu einem Umkehrschluss kommt. Bzw. ob durch längere Bedenkzeiten als bei CEGT, CCRL oder der SWCR dann z. B. Junior, Komodo weiter zulegen oder eher wieder abnehmen, weil die anderen eine Schwelle erreicht haben und selbst zunehmen. Das sind so Geschichten die können dann nicht pauschal geklärt werden.

Was mich interessieren würde ist PHQ in Deiner Liste.
Jemand im Forum von Ahmed schrieb seinerzeit das die PHQ Version im Blitz schlechter wäre. Ich habe das nicht überprüft und Beweise waren natürlich wie fast immer keine zu finden. Bei mir sind es jetzt fast 20 ELO mehr zu 2.1.1 default und das bei einem deutlich schöneren Spielstil der atemberaubend aufregend ist. Da hatten wir seinerzeit echt einen totalen Volltreffer gelandet.

Gruß
Frank
Parent - By Stefan Pohl Date 2011-12-16 06:10
[quote="Frank Quisinsky"]

Was mich interessieren würde ist PHQ in Deiner Liste.
Jemand im Forum von Ahmed schrieb seinerzeit das die PHQ Version im Blitz schlechter wäre. Ich habe das nicht überprüft und Beweise waren natürlich wie fast immer keine zu finden. Bei mir sind es jetzt fast 20 ELO mehr zu 2.1.1 default und das bei einem deutlich schöneren Spielstil der atemberaubend aufregend ist. Da hatten wir seinerzeit echt einen totalen Volltreffer gelandet.

Gruß
Frank
[/quote]

Hi Frank,

Stockfish 2.1.1 interessiert micht nicht mehr, die 111026-Version von PeterPan ist einfach viel besser. Und letztere kam in ein paar Schnelltests bei mir mit PHQ-Settings gar nicht zurecht (Settings kann man halt nicht übertragen).

Außerdem möchte ich keine Settings in meine Liste aufnehmen, dafür ist sie zu klein.

Gruß - Stefan
Up Topic Hauptforen / CSS-Forum / SWCR: IvanHoe B46fB x64 / 99994f x64 im Test

Powered by mwForum 2.29.3 © 1999-2014 Markus Wichitill