LS-Rangliste: Stockfish 140412

By Hauke Lutz Date 2014-04-20 04:39

Endlich mal eine Version die besser ist als die 140222er und ganze 13 Elo mehr als die nur 7 Tage jüngere Version.

Das sind mal gute Nachrichten für Stockfish.

By Stefan Pohl Date 2014-04-20 04:53

Hauke Lutz schrieb:

Endlich mal eine Version die besser ist als die 140222er und ganze 13 Elo mehr als die nur 7 Tage jüngere Version.

Das sind mal gute Nachrichten für Stockfish.

Yep.

Wenn man ins (verzerrungsfreie) LS-top10-Tournament (echtes RoundRobin) reinschaut, dann sieht man, daß nur noch 7 Elo (also ca. 1% Scoreverbesserung) auf Houdini 4 fehlen. Und zudem hat Stockfish 140412 Houdini 4 im Einzelvergleich klar besiegt (533-467 (=53.3%)). Als erste Engine überhaupt. Frühere Stockfische kamen (wenn überhaupt) nur auf ganz knapp über 50% gegen das Bullet-Biest Houdini 4.

Stefan

By Patrick Götz Date 2014-04-20 08:45

Danke Stefan!
Der Poster aus dem Stockfishtest Forum hätte sogar fast recht bekommen mit seiner Voraussage vom 12.04.14:
"Stefan, If you use today version (April 12) I predict an Elo improvement of at least 10 Elo points over the best SF version from your list. Take a note of that!" *
Gruß
Patrick

* Quelle:
https://groups.google.com/forum/?fromgroups=#!topic/fishcooking/Gg-rPuxtSnA

By Stefan Pohl Date 2014-04-20 08:47 Edited 2014-04-20 08:52

Patrick Götz schrieb:

Danke Stefan!
Der Poster aus dem Stockfishtest Forum hätte sogar fast recht bekommen mit seiner Voraussage vom 12.04.14:
"Stefan, If you use today version (April 12) I predict an Elo improvement of at least 10 Elo points over the best SF version from your list. Take a note of that!" *
Gruß
Patrick

* Quelle:
<a class='ura' href='https://groups.google.com/forum/?fromgroups=#!topic/fishcooking/Gg-rPuxtSnA'>https://groups.google.com/forum/?fromgroups=#!topic/fishcooking/Gg-rPuxtSnA</a>

Ja, das hatte ich auch gelesen...Manchmal treffen Vorhersagen eben wirklich ein.
Er hatte sogar genau Recht: Wenn man die genauen Prozentwerte der Erfolgsscores im LS-top10-tournament betrachtet (nur dort sind die Werte absolut verzerrungsfrei), dann hat Stockfish 140412 64.19% gescored und Stockfish 140222 hatte 62.855%. Also eine Differenz von 1.305%. (+1.3% = 9 Elo, nach der Elo-Tabelle).

Stefan

By Hauke Lutz Date 2014-04-20 09:04 Edited 2014-04-20 09:07

Hallo,

ich wollte mal wissen wie gut ich die Ergebnisse der LS-Rangliste auf meine Hardware ummünzen kann und habe deswegen vorgestern ein Turnier der großen 3 gestartet.
Bis auf den schnelleren Prozessor + Ram (laut Fritz-Benchmark über 50% mehr Leistung), sowie 256 MB statt 64 MB Hash und der Arena 3.5 GUI verlief der Kampf von Stockfish, Houdini und Komodo analog zur LS-Rangliste.

Das Ergebnis hat mich echt überrascht !
Komodo hatte beim Score nur 0,60% Differenz zur LS-Rangliste - Houdini und Stockfish sogar eine noch geringere.

Der Score der Begegnung Houdini 4 - Komodo tcecr wurde sogar auf den Punkt reproduziert.

Der Link führt zu einem Screenshot wo eine kleine Auswertung, sowie die Bedingungen zu sehen sind.
http://s14.directupload.net/images/140420/noaqid27.jpg

Frohe Ostern
Hauke

By Stefan Pohl Date 2014-04-20 09:15

Hauke Lutz schrieb:

Hallo,

ich wollte mal wissen wie gut ich die Ergebnisse der LS-Rangliste auf meine Hardware ummünzen kann und habe deswegen vorgestern ein Turnier der großen 3 gestartet.
Bis auf den schnelleren Prozessor + Ram (laut Fritz-Benchmark über 50% mehr Leistung), sowie 256 MB statt 64 MB Hash und der Arena 3.5 GUI verlief der Kampf von Stockfish, Houdini und Komodo analog zur LS-Rangliste.

Das Ergebnis hat mich echt überrascht !
Komodo hatte beim Score nur 0,60% Differenz zur LS-Rangliste - Houdini und Stockfish sogar eine noch geringere.

Der Score der Begegnung Houdini 4 - Komodo tcecr wurde sogar auf den Punkt reproduziert.

Der Link führt zu einem Screenshot wo eine kleine Auswertung, sowie die Bedingungen zu sehen sind.
<a class='urs' href='http://s14.directupload.net/images/140420/noaqid27.jpg'>http://s14.directupload.net/images/140420/noaqid27.jpg</a>

Frohe Ostern
Hauke

Im singlecore-modus ist dein PC 78.9% schneller als meine Notebooks: Wenn man den Fritzmark meiner Notebooks (1900 kn/s) als 100% ansetzt, so liegt dein PC mit seinen 3400 kn/s bei 178.9%.
Ich habe mir (wie besprochen) erlaubt, dieses bemerkenswerte Testergebnis auf der Conditions-Seite meiner Website kurz zu erwähnen, damit man sieht, daß meine rel. langsamen Notebooks dennoch sehr aussagekräftige Testresultate bringen und es zumindest in absehbarer Zeit noch keinen Grund gibt, neue Hardware anzuschaffen und mit der LS-Rangliste dann ja auch wieder bei Null zu beginnen.
Ganz nebenbei zeigt der Test (mal wieder) eindrücklich, wie gut sich Testresulate reproduzieren lassen, wenn man nur genug Partien spielt...Naja, für mich ja nix Neues ("Randomness is a monster, and you beat it by volume" - wußte schon Ed Schröder)...

Stefan

By Hauke Lutz Date 2014-04-20 09:42 Edited 2014-04-20 09:45

Die Abweichung bei Komodo, wäre denke ich nur noch ca. halb so hoch, wenn statt den Angstgegnern (Houdini + Stockfish) auch eine Engine (Laut Blick auf deiner Liste PanChess) mitspielen würde, die Komodo relativ gesehen gut liegt.
Dies würde untermauern, dass nicht nur die Partien, sondern auch die "Mehrpunktkalibrierung/Breite der Gegnerschaft" wichtig ist.

By Benno Hartwig Date 2014-04-21 09:10

'Angstgegner' und 'Gegner die einem gut liegen'.
Bei recht wenigen Partien können schon mal solch ein Eindruck kommen.
Aber bestätigt sich bei großen Partienzahlen wirklich, dass es im Computerschach sowas überhaut gibt?

Welche besonderen 'Angstgegner'-Beziehungen gibt es da ggf.?
Und wer hat wen ggf. als 'Lieblingsopfer'?

Benno

By Ingo B. Date 2014-04-21 09:41

Benno Hartwig schrieb:

"Angst" ist natürlich das falsche Wort, aber Engines die einander liegen oder nicht gibt es natürlich.

Bei mir sind es 220 Spiele je Gegner, eigentlich zuwenig, aber wenn man sich mal die Mühe macht und die individuellen Performances ausrechnet kommen schon ein paar Interessante Paarungen heraus.

Hier mal Komodo TCECr in Auszügen:

   5 Komodo TCECr               3049 5450.0 (3951.0 : 1499.0)
3082                                 220.0 (101.5 : 118.5) Houdini 4                  3110
3047                                 220.0 (105.5 : 114.5) Stockfish DD               3061
3069                                 220.0 (115.0 : 105.0) Gull 3                     3056
3027                                 220.0 (113.5 : 106.5) Gull 2.8                   3016
3068                                 220.0 (137.5 :  82.5) Gull 2.2                   2980
3042                                 220.0 (130.0 :  90.0) Critter 1.4a               2979
3053                                 220.0 (136.0 :  84.0) Equinox 2.02               2970
3028                                 220.0 (132.5 :  87.5) Deep Rybka 4.1             2957
3073                                 220.0 (161.0 :  59.0) Rybka 3 mp                 2899
3065                                 220.0 (160.5 :  59.5) Deep Fritz 14              2893
                                     220.0 (162.5 :  57.5) Chiron 2                   2884
                                     220.0 (168.5 :  51.5) Hannibal 1.4b              2865
                                     150.0 (113.5 :  36.5) Chiron 1.5                 2849
3113                                 220.0 (182.5 :  37.5) Senpai 1.0                 2838
                                     220.0 (180.5 :  39.5) Protector 1.5.0            2833
                                     220.0 (175.5 :  44.5) Naum 4.2                   2830
                                     220.0 (176.0 :  44.0) HIARCS 14 WCSC 32b         2816
                                     220.0 (177.5 :  42.5) Jonny 6.00                 2801
                                     220.0 (170.5 :  49.5) Deep Shredder 12           2800
                                     220.0 (185.0 :  35.0) Deep Sjeng c't 2010 32b    2788
                                     220.0 (187.0 :  33.0) Spike 1.4 32b              2780
                                     150.0 (131.5 :  18.5) spark-1.0                  2759
                                     150.0 (130.0 :  20.0) Deep Junior 13.3           2744
                                     150.0 (128.5 :  21.5) Booot 5.2.0                2741
                                     150.0 (131.0 :  19.0) Quazar 0.4                 2735
                                     150.0 (127.5 :  22.5) Zappa Mexico II            2714
                                     150.0 (130.5 :  19.5) Toga II 3.0 32b            2714

Die vorderste Zahl ist jeweils die individuelle Performance. 3027 gegen Gull 2.8 aber 3113 gegen Senpai (Vielleicht ist noch ein größeres Bsp da (Spike vielleicht), ich habe nicht alle nachgerechnet). 96 Elo Performanceunterschied ist jetzt nicht von der Hand zu weisen (und nochmal: 220 Spiele sind nicht alzuviel).

Diese Listen sind bei mir downloadbar, wer will darf gerne mal nach "Angst-" oder "Lieblingsgegnern" suchen

(immerhin machen nicht alszuviele 220 Spiele je Gegner)

By Hauke Lutz Date 2014-04-21 11:01

Ich habe anhand der LS-Rangliste eine Datei erstellt an der ablesbar ist um wie viel Houdini 4, Stockfish140412 & Komodo-tcecr im direkten Vergleich zu Don 1.0b, Gull 2.8, Critter 1.6a, Strelka 5.5, Fire 3, Mars 1, PanChess 00.537 und Robbolito 0.085 zu gut oder zu schlecht scoren.

Dabei festgestellt habe ich, dass Houdini 4, wie zu erwarten war, gegen Stockfish140412 relativ gesehen ganze 30 Elo zu schlecht gespielt hat, jedoch bei den schwächeren Engines, besonders gegen Mars 1 (26 Elo mehr als erwartet) eine gute Figur macht.

Stockfish hat gegen Houdini 4 und Don 1.0b (keine Überraschung, da Don ein Stockfish-Derivat ist) relativ gesehen gut gescort, hat aber gegen Fire 3, PanChess 00.537 und Robbolito 0.085g3 auffallend schlecht gespielt.

Komodo hat, wie ich schon geschrieben habe, gegen PanChess 00.537 mit 11 Elo mehr Score als erwartet seinen Lieblingsgegner gefunden.
Gegen Stockfish und Don 1.0b hat Komodo jedoch federn lassen.

Gruß
Hauke

By Patrick Götz Date 2014-04-20 12:50

Diese drei Versionen betrachtet

Stockfish 140412 x64s   3175   
Stockfish DD x64s       3120   
Stockfish 4 x64s        3068

kann man feststellen, dass von
Stockfish 4 auf Stockfish DD = +52 Elo
Stockfish DD auf Stockfish 140412 =+55 Elo
herauskommen.
Damit ist der Abstand von DD zu heute schon größer als der Abstand der Version 4 zu DD.
Insofern wäre eine neue Version nach dem 6. TCEC durchaus angemessen.
Vielleicht wartet Marco aber noch mit einer neuen Version, bis Houdini 4 überholt wird.

Was aber überrascht, ist dass im Fishtest Regressionstest vom 12-04-14 nur ELO: +49 zu Stockfish DD herausgekommen sind.
Ist es nicht früher immer umgekehrt gewesen, so dass ELOs aus dem Regressionstest im LS-Test zusammenschmolzen?
Oder hatte diese Version im LS Test nur einen sehr guten Lauf?

Grüße
Patrick

By Hauke Lutz Date 2014-04-20 23:08

Die offizielle Version kann meine Meinung nach bis zum Ende des TCECs warten.

Bei einem zu gutem Lauf wäre der Score auf meiner Hardware gegen Houdini und Komodo nicht nur um 0,35% schlechter gewesen.

Gruß
Hauke

By Benno Hartwig Date 2014-04-21 10:15 Edited 2014-04-21 10:20

> Die offizielle Version kann meine Meinung nach bis zum Ende des TCECs warten.

Klar.
Falls es noch irgendwelche SF-Änderungen für Stage4 oder Finale gibt (egal, ob die war reißen oder nicht!), dann möchte ich die auch gern in der offiziellen Version haben.
Dann sollte es aber auch gern ein neues Release geben.
Allein schon, damit CEGT und CCRL wieder etwas 'Offizielles' haben, was sie in ihre Listen werfen können!
(Für meinen persönlichen Gebrauch ist es natürlich recht egal, ob ein offizielles Release oder eine Development-Version nutze)

Benno

By Tom Paul Date 2014-04-20 09:37

Besonders interessant finde ich die Ergebnisse des Top 10 Tournaments.
Dort hat der neue Stockfish je nach Gegner besser oder schlechter als der vom 22. gespielt.
1. +32,5 mehr gegen Houdini als die Version vom 22.
3. +26,5 gegen Komodo.
4. +66,5 Don
5. +26,5 Gull
6. -1,5 Critter
7. -7,0 Strelka
8. -18,0 Fire
9. -1,0 Mars
10. +25,5 PanChess
11. -16,5 Robbolito

Stockfish hat sich gegen die starken Engines verbessert aber gegen die schwachen Engines spielt er schlechter.
Eigentlich hätte ich vermutet ~+10,0 gegen die untere Hälfte und +1,0 gegen die obere Hälfte.
Houdini holt gegen die schwachen Engines immer noch deutlich mehr Punkte als Stockfish. ~45 Punkte mehr pro Engine.

By Tom Paul Date 2014-04-21 14:11

Wenn du mit Gull und Firenzina demnächst fertig bist, dann solltest du den bis dahin neuesten Stockfish testen.
Der wird dann vor Houdini auf Platz 1 landen.
Es gab seit dem 12.04. 4 neue Benches und mehrere kleine Änderungen.
Die neueste Dev. ist saustark, vor allem gegen schwächere Engines.
Liegt wahrscheinlich am Contempt!
http://abrok.eu/stockfish/
Jetzt sollte Stockfish gegen die schwachen Engines genauso viele Punkte holen wie Houdini.

By Benno Hartwig Date 2014-04-21 14:52

> Die neueste Dev. ist saustark, vor allem gegen schwächere Engines.

Das wäre schön, sofern seine Stärke gegen die Starken nicht gelitten hat.
Gerade Stefan wird aber wohl von einem zuverlässigeren Spiel gegen deutlich Schwächere nicht zeigen können, oder?

Kann so was eigentlich mit dem seit geraumer Zeit praktizierten SF-gegen-SF-Testverfahren herausgetunt werden? Da sind dann doch gar keine schwachen Gegner da?

Benno

By Tom Paul Date 2014-04-21 20:19

Jetzt sind es sogar 5 neue Benches.

By Stefan Pohl Date 2014-04-22 15:58

Tom Paul schrieb:

Wenn du mit Gull und Firenzina demnächst fertig bist, dann solltest du den bis dahin neuesten Stockfish testen.
Der wird dann vor Houdini auf Platz 1 landen.
Es gab seit dem 12.04. 4 neue Benches und mehrere kleine Änderungen.
Die neueste Dev. ist saustark, vor allem gegen schwächere Engines.
Liegt wahrscheinlich am Contempt!
<a class='ura' href='http://abrok.eu/stockfish/'>http://abrok.eu/stockfish/</a>
Jetzt sollte Stockfish gegen die schwachen Engines genauso viele Punkte holen wie Houdini.

Es gab schon diverse Versuche, Stockfish mit einem neuen Contempt-verfahren gegen schwächere Gegner besser scoren zu lassen. Jörg Oster hat z.b. in diese Richtung einige sehr originelle (und auch einige weniger originelle) Methoden versucht. Hat bisher alles nichts genützt. Zumindest ging die Eloleistung nicht hoch.
Ob ich nach Firenzina gleich wieder Stockfish teste, weiß ich noch nicht. Wahrscheinlich erst mal Protector. Da dieser mit einiger Wahrscheinlichkeit an der 30%-Hürde der LS-Liste scheitern wird, sind es dann aber nur 5500 Partien, die er absolvieren muß. Würde also ergo nicht soooo lange dauern.
Da ich Firenzina nur auf einem PC testen werde, wird das eine gute Woche dauern. Anfang Mai sehe ich dann mal weiter.
Wer so lange nicht warten kann oder will, dem steht es ja frei, sich meine 500 LS-Vorgabestellungen herunterzuladen und mit möglichst LS-nahen Bedingungen selber mal einen Testdurchlauf mit einem Stockfish zu machen.
Ich habe immer gesagt, daß andere Engines mit offiziellen Releaseversionen Vorrang vor Stockfish-developmentversionen haben, da ich letztere ja nun wirklich sehr oft teste. Und andere Autoren, die sich nach längerer Zeit zu einem offiziellen Release entschliessen, haben auch einen Anspruch auf einen (zumindest halbwegs) zeitnahen LS-Test.

Stefan

By Tom Paul Date 2014-04-23 10:47

Ist wahrscheinlich auch besser wenn du erst mal Protector testest, damit der nächste Stockfish auch wirklich auf Platz 1 landet.
Jetzt sind es sogar 6 neue Benches. Heute eine neue Dev.
Sagen wir mal 1 ELO pro Bench, dann hat sich Stockfish um 6 ELO gesteigert.
Für das Top 10 braucht Stockfish mindestens 8 ELO um an Houdini mit einem ELO vorbeizuziehen.
Um in der Ratinglist vorbeizuziehen braucht Stockfish mindestens 10 ELO.

By Ralf Mueller Date 2014-04-21 20:40

Hallo Stefan,
welche Version vom 12. April hast du denn getestet? Es gibt da 12 Versionen, du solltest den Timestamp mit angeben.

By Stefan Pohl Date 2014-04-22 05:54

Ralf Mueller schrieb:

Hallo Stefan,
welche Version vom 12. April hast du denn getestet? Es gibt da 12 Versionen, du solltest den Timestamp mit angeben.

Auf meiner Website ist der timestamp immer angegeben. Zudem teste ich 99% der Fälle die letzte Version eines Tages, da ich dann immer den nächsten Morgen abwarte.

Stefan

By Tom Paul Date 2014-04-23 08:17

Der neueste Stockfish ist nur 927 KB groß also ~70 KB kleiner als die alten Versionen.

By Hauke Lutz Date 2014-04-23 08:33

Gut beobachtet!
Stockfish DD ist 973 KB groß und der ist ja nur etwa 7 Monate alt.

By Tom Paul Date 2014-04-23 10:27

Die Versionen dazwischen (nicht alle) hatten 996, 997, 998 KB.

By Hauke Lutz Date 2014-04-23 10:46 Edited 2014-04-23 10:49

Das klingt für mich als würden die mal den Code von (möglicherweise unnötigen) Ballast befreien, wenn auf einmal 70 KB fehlen