Not logged inCSS-Forum
Forum CSS-Online Help Search Login
CSS-Shop Impressum Datenschutz
Up Topic Hauptforen / CSS-Forum / SWCR2: Houdini 4 STD x64 A ... Endergebnis = +50
- - By Frank Quisinsky Date 2014-01-07 00:35 Edited 2014-01-07 00:44
Hallo zusammen,

die Partien mit den üblichen Statistik Dateien, auch die Ratingliste aller SWCR2 Partien (im Download) finden sich im Downloadbereich.
Die Partien sind mit den Shredder GUI Kommentaren (eval/ply/time).

Nun läuft für 8 Tage SmarThink 1.5.0 SSE3 x64 bzw. absolviert die 1.000 Partien.
SmarThink ersetzt dann Bouquet 1.8 x64.
Wer verfolgen möchte, regelmäßige Auswertungen und mittels dem LIVE Tool FTPTrigger!

Werde heute aber keine Datenbank mehr auswerten, mache das mit den Houdini Ergebnissen (denke morgen Abend) und berichte über meine Statistiken in meinen News.
Na da habe ich mir was angetan, so eine Auswertung mit Webseite aktualisieren dauert rund 2 Stunden aber macht auch Spaß.
Eigentlich wollte ich das nicht mehr, egal ... Fieber steigt wieder an ... Testfieber.

Hier also die Ergebnisse von der derzeitigen Nummer 1.
Punktlandung bei mir zu der Erwartungshaltung vom Programmierer.
Habe zur Zeit nur ne kleine Statistik in der History auf meinen Seiten ... der Zügedurchschnitt der Partien beträgt bei Houdini 4 nun 91 Züge, vorher 94. Müsste mal genauer untersucht werden, mache ich ja noch.

Veröffentliche die ELO-Entwicklung nach 100, 200, 300 bis zum Ende also bis 1.000 Partien. Zu sehen ist ein Einbruch zwischen Partienummer 200-300 und 400-500. Gleicht sich in der Regel aus. Diese Statistik hatte ich auch schon in der SWCR1 gemacht aber nie veröffentlicht. Teilweise bis 4.000 Partien hoch. Hierzu kann ich sagen das die Ergebnisse ab ca. 800 Partien  genau werden. Gibt dann noch mal so einen kleinen Schub bei ca. 1.200 Partien, dann würde ich nach meinen Ansprüchen sagen "sehr genau". Danach ändert sich kaum etwas bzw. passiert das äußerst selten das sich eine ELO nach 1.200 noch um mehr als +-5 verschiebt. Konnte ich nur 3x beobachten. Bei bis zu 1.000 Partien hatte ich das 5x bei ca. 180 getesteten Versionen. Also die ELOs sind ganz gut wie ich finde, wenn gleich es natürlich genauer geht. Ist ja immer so eine Frage, mein Anspruch wird schon abgedeckt wenn 800 Partien vorliegen. Wobei auch klar ist wenn von Partienummer 1.000 - 1.100 mal wieder ein Einbruch kommt geht es etwas nach unten um dann wieder hoch zu gehen weil die Einbrüche in 100er Schritten sind auch selten.

Code:
Version:  1.04
Engine : Houdini 4 STD x64 A

29.12.13 - 06.01.14, Houdini 4 STD x64 A (replaced Houdini 3 Pro x64)
ENDED: http://www.amateurschach.de/ftptrigger/houdini_4-std-x64-a.html

+50 to Houdini 3 Pro x64
02. Houdini 3 Pro x64                 3048  1.000 (+566,=346,- 88), 73.9%
01. Houdini 4 STD x64 A               3098  1.000 (+638,=293,- 69), 78.5%

                                      ELOs  Games  Score  Remis
01. Houdini 4 STD x64 A               3098  1.000  78.5%  29.3%
01. Houdini 4 STD x64 A               3098    900  78.4%  29.1%
01. Houdini 4 STD x64 A               3093    800  78.0%  29.8%
01. Houdini 4 STD x64 A               3088    700  77.6%  29.7%
01. Houdini 4 STD x64 A               3089    600  77.8%  29.8%
01. Houdini 4 STD x64 A               3082    500  77.1%  30.6%
01. Houdini 4 STD x64 A               3092    400  78.1%  29.8%
01. Houdini 4 STD x64 A               3096    300  78.5%  30.3%
01. Houdini 4 STD x64 A               3109    200  79.8%  27.5%
01. Houdini 4 STD x64 A               3100    100  79.0%  26.0%

                                       ELOs  Bay   Ordo   Games  Score  Draws  MoveØ
01. Houdini 4 STD x64 A               3098  3091  3113   1.000  78.5%  29.3%   91
02. Stockfish 05.12.13 SSE42 x64      3067  3054  3079   1.000  75.1%  38.8%   86
03. Komodo TCECr x64                  3050  3046  3062   1.000  73.2%  35.0%   91
04. Critter 1.6a x64                  2996  2991  3002   1.000  66.3%  44.1%   89
05. Equinox 2.02 x64                  2980  2975  2984   1.000  64.1%  42.1%   86
06. IPP Bouquet 1.8 x64               2970  2968  2972   1.000  62.7%  44.6%   90
07. GullChess 2.2 x64                 2969  2968  2970   1.000  62.5%  43.0%   91
08. Rybka 4.1 SSE42 x64               2950  2950  2950   1.000  59.9%  41.9%   91
09. Hannibal 1.4b x64                 2868  2870  2857   1.000  47.6%  42.0%   89
10. Chiron 1.5 x64                    2857  2862  2844   1.000  46.0%  40.7%   90
11. Protector 1.5.0 JA x64            2844  2846  2829   1.000  44.0%  42.3%   89
12. Jonny 6.00 Yokohama x64           2833  2835  2817   1.000  42.3%  38.6%   92
12. Naum 4.2 x64                      2833  2835  2817   1.000  42.3%  42.0%   88
14. Hiarcs 14 WCSC w32                2827  2829  2811   1.000  41.5%  39.8%   89
15. Sjeng c't 2010 w32                2805  2807  2785   1.000  38.2%  39.9%   88
16. Junior 13.8.04 Yokohama x64       2797  2797  2777   1.000  37.1%  32.7%   82
17. Shredder 12 x64                   2788  2792  2767   1.000  35.9%  37.0%   85
18. Spike 1.4 Leiden w32              2779  2782  2757   1.000  34.6%  37.8%   89
19. Quazar 0.4 x64                    2768  2772  2745   1.000  33.2%  36.4%   98
20. Booot 5.2.0 x64                   2763  2768  2739   1.000  32.5%  36.0%   90
20. Spark 1.0 x64                     2763  2769  2739   1.000  32.5%  39.2%   90


Viele Grüße
Frank
Parent - - By Frank Quisinsky Date 2014-01-07 00:52
Hi,

bin richtig gespannt welche Engine SmarThink 1.5.0 SSE3 x64 ärgern kann.
Die Spielstärke wird ca. bei 2.700 liegen und mithin mehr wie 50 unter dem letzten SWCR2 Platz.

Macht aber auch keinen Sinn den alten Zappa wieder reinzuholen zumal Smarthink wieder in der Entwicklung ist und langsam wieder hochschießen wird, so wie ich Sergei einschätze. Wollte seine Engine mal selbst vermarkten (in Ktulu Zeiten) und gab dann mit Ktulu an Lokasoft ab. Kenne Smarthink sehr gut aus einem Beta Test den ich für Sergei vor vielen Jahren mal gemacht hatte. Ist wirklich eine hochinteressante Engine und ein Glückstreffer für uns das Smarthink wieder in der Entwicklung ist. Also, letzter Platz ist klar denke ich mal aber wir verfolgen jetzt mal. Die CEGT testet natürlich auch und ich bin auch schon auf die CEGT Ergebnisse gespannt.

Gegen Hannibal gab es gerade auch schon einen richtig netten Sieg und gegen Houdini ne super schnelle Niederlage, na ja OK ... Houdini ist 400 ELO stärker.

Gruß
Frank
Parent - By Frank Quisinsky Date 2014-01-07 02:08 Edited 2014-01-07 02:13
Einer noch ...

Das ist krass ... teste Houdini 4 ... Nummer 1 und jetzt Smarthink ... wird auch mit 50 ELO ca. auf dem letzten Platz liegen.
Nun schauen wir mal was die CEGT feststellt und was die SWCR2 feststellt mit total unterschiedlichen Gegnern.

Denn eines ist nach meinen Beobachtungen auch klar. Es ist nicht der letzte in einer Liste wo die ELOs stark abweichen. Dachte ich auch lange, dem ist aber vielleicht nicht so. Es sind die ersten in einer Liste die profitieren. Die letzten habe eh nur Remis Chancen wenn sie gegen die besten spielen, sind die klaren Remis Partien die entstehen so oder so da. Hier und da wird ein Gewinn verschenkt und es wird ein Remis.

Es ist eher die Mitte einer Liste die benachteiligt wird wenn Programme die vorne stehen so klare Stärken wie Houdini in der für Computerschach entscheidenden Phase (Übergang Endspiel) haben. Denn Houdini putzt sie alle weg ob die Mitte oder die untere Hälfte.

An Hiarcs ist mir das aufgefallen.
Je mehr Stockfische, Houdinis oder Komodos rein kommen, desto mehr hat Hiarcs hier ein Problem und macht nicht mehr Punkte als die Engines die unten stehen. Gleiches gilt für Shredder, für Junior und ein paar anderen wie Naum. Die werden genauso weggefegt wie die mit 50-75 ELO weniger.

Insofern ... ich bin mir sicher ... Smarthink 1.5.0 SSE3 x64 wird die gleiche ELO erreichen wie in der CEGT obwohl diese Engines gegen "nur stärker" antreten muss. Warten wir es ab ... ne neue These und ich bin mir selbst nicht so sicher aber es deutet so viel darauf hin.

Würde auch den Grundsatz über Board schmeißen, dass zu große Differenzen bei Computerschach zu Verzerrungen führen (erster und letzter Platz in einer Liste). Das war vielleicht mal so in Zeiten als die Engines noch nicht die Partien so regelmäßig in der schwierigsten Partiephase (Übergang Endspiel) entschieden haben. In Zeiten als z. B. der gute Klaus Wlotzka seine Ratingliste spielte oder ich die ATL-2 sind wesentlich mehr Partien im Mittelspiel entschieden worden. Da waren die Entscheidungen der Partien ausgeglichener zu den jeweiligen Partiephasen.

Schon von SWCR1 zu SWCR2 ... nach nur 1.5 Jahre steigt der Zügedurchschnitt um weit mehr als einen 1% auf 90 an. Computerschach ist echt verrückt, so viele Faktoren die bei den Statistiken stetig zusammenlaufen und es wird immer schwieriger da überhaupt noch durchzublicken.

Versuchen können wir es ja, denn ohne Feststellungen und neuen Erkenntnissen da auch keine Entwicklung. Und was für Engines gilt, gilt auch für Ratinglisten. Müssen die nur ein wenig auseinandernehmen bzw. im wahrsten Sinne des Wortes ausschlachten.

Wir brauchen einfach ein vernünftiges Statistiktool wo dann die wichtiges Auswertungsideen zusammenlaufen bzw. auch Fantasie um z. B. auch unlogische Statistiken erstellen zu lassen. Denn was für uns unlogisch ist, ist für die künstliche Intelligenz logisch.

Gruß
Frank
Up Topic Hauptforen / CSS-Forum / SWCR2: Houdini 4 STD x64 A ... Endergebnis = +50

Powered by mwForum 2.29.3 © 1999-2014 Markus Wichitill