LS-Rangliste: Stockfish 140106

By Hauke Lutz Date 2014-01-09 16:27

Zu einem schnellen weiteren +38 Elo um auf deiner Liste die Nr. 1 zu werden

By Stefan Pohl Date 2014-01-09 16:39

Hauke Lutz schrieb:

Zu einem schnellen weiteren +38 Elo um auf deiner Liste die Nr. 1 zu werden

Immerhin ist Stockfish jetzt schon auf nur 5 Elopunkte an Houdini 3 dran. Und das im Bullet. Vor 6 Monaten war das noch Science-Fiction!!!

Stefan

By Stefan Pohl Date 2014-01-09 17:44

Stefan Pohl schrieb:

Hauke Lutz schrieb:

Zu einem schnellen weiteren +38 Elo um auf deiner Liste die Nr. 1 zu werden

Immerhin ist Stockfish jetzt schon auf nur 5 Elopunkte an Houdini 3 dran. Und das im Bullet. Vor 6 Monaten war das noch Science-Fiction!!!

Stefan

Ich lasse mal über Nacht Stockfish 140106 gegen Houdini 3 unter LS-Bedingungen einen kompletten 1000 Partien Einzelvergleich spielen. Nur interessehalber. In die LS-Rangliste geht das Ergebnis nicht ein. Vielleicht kann diese Stockfishversion als erste Engine Houdini 3 unter LS-Bedingungen im Direktvergleich schlagen. Houdini 3 hat ja bis zu seiner "Ablösung" durch Houdini 4 alle (ca. 70!) Einzelvergleiche gegen alle Gegner unter LS-Bedingungen gewonnen und ist sozusagen ungeschlagen in den Engine-Ruhestand gegangen...
Ergebnis morgen vormittag.

Stefan

By Stefan Pohl Date 2014-01-10 07:19

Stefan Pohl schrieb:

Hauke Lutz schrieb:

Zu einem schnellen weiteren +38 Elo um auf deiner Liste die Nr. 1 zu werden

Immerhin ist Stockfish jetzt schon auf nur 5 Elopunkte an Houdini 3 dran. Und das im Bullet. Vor 6 Monaten war das noch Science-Fiction!!!

Stefan

Ich lasse mal über Nacht Stockfish 140106 gegen Houdini 3 unter LS-Bedingungen einen kompletten 1000 Partien Einzelvergleich spielen. Nur interessehalber. In die LS-Rangliste geht das Ergebnis nicht ein. Vielleicht kann diese Stockfishversion als erste Engine Houdini 3 unter LS-Bedingungen im Direktvergleich schlagen. Houdini 3 hat ja bis zu seiner "Ablösung" durch Houdini 4 alle (ca. 70!) Einzelvergleiche gegen alle Gegner unter LS-Bedingungen gewonnen und ist sozusagen ungeschlagen in den Engine-Ruhestand gegangen...
Ergebnis morgen vormittag.

Stefan

Hier nun das Ergebnis aus Sicht von Stockfish 140106 gegen Houdini 3: +283 =429 -288 = 49.75% also eine denkbar knappe Niederlage. Schade. Aber Houdini 3 bleibt weiter ungeschlagen, wenn auch nur hauchdünn.

Stefan

By Tom Paul Date 2014-01-09 16:43

Und damit sei die Frage auch schon beantwortet:)
Draws immer noch 45%, nur noch 5 ELO zu H3.

Könnte jemand testen wie oft der neueste Stockfish innerhalb der ersten 30 oder 40 Züge im Vergleich zu H3 remis spielt?
(3-Fold rep) wurde behoben oder nicht?
Vielleicht Stockfish mit Contempt in der LS spielen lassen, dann gibt es auch + 40 ELO oder eben nicht.

By Stefan Pohl Date 2014-01-09 16:46

Tom Paul schrieb:

Und damit sei die Frage auch schon beantwortet:)
Draws immer noch 45%, nur noch 5 ELO zu H3.

Könnte jemand testen wie oft der neueste Stockfish innerhalb der ersten 30 oder 40 Züge im Vergleich zu H3 remis spielt?
(3-Fold rep) wurde behoben oder nicht?
Vielleicht Stockfish mit Contempt in der LS spielen lassen, dann gibt es auch + 40 ELO oder eben nicht.

Jörg Oster hat dieses Problem ja mit seiner Stockfish-Mod mit dem adaptiven Contempt behoben. Hatte ich ja auch getestet. Nur ein Eloplus brachte das nicht. Kostete aber auch nichts. Leider hat Marco diese geniale Mod nicht in den offiziellen Stockfish integriert.

Stefan

By Stefan Pohl Date 2014-01-09 16:44

Auch bemerkenswert: 47.05% gegen Houdini 4. Stockfish 131223 lag noch bei 44.9%.
Bei längeren Bedenkzeiten dürfte dieser Stockfish 140106 schon mehr als 50% gegen Houdini 4 holen. Wäre schön, wenn das mal jemand ausprobieren würde (ein paar Hundert Partien müßten es aber schon sein).

Stefan

By Tom Paul Date 2014-01-09 16:47

Kann man 3-Fold rep Stockfish nicht einfach verbieten, wenn andere 0.00 Züge spielbar sind?

By Guest Date 2014-01-09 16:51

Welches andere remis hättest du denn gerne gesehen?

By Hauke Lutz Date 2014-01-09 18:02

Stockfish punktet gut gegen H4... normalerweise müsste H3 im direkten Vergleich mit Stockfish minimal schwächer sein

By docdwo Date 2014-01-09 18:19

Hier sind ein paar Partien auf einem i2600k mit folgender Stockfish-Leistung:

setoption name Min Split Depth value 7
bench 1024 8 22 default depth
Total time (ms) : 51206
Nodes searched : 447612643
Nodes/second : 8741410

Mit 4 Threads ist er 15% langsamer, deshalb teste ich mit 8 Threads. Allerdings profitiert Stockfish mehr von der hohen Parallelität als H4Pro.
Getestet wurden Stockfish_14010815_x64_modern_sse42 und Stockfish Rockwood 2014 mit Arena 3.5.

2 Turniere mit (1 min per Partie, Eröffnung http://kirill-kryukov.com/chess/tools/opening-sampler/pgn/swcr-fq-openings-v4.1.pgn, zufällig mit automatisch Brett umdrehen)
Stockfish jeweils mit Min Split Depth value 7

-----------------Houdini_4_Pro_x64B-----------------
Houdini_4_Pro_x64B - Komodo-tcecr-64bit : 107,5/219 60-64-95 49% -7
Houdini_4_Pro_x64B - Stockfish_14010815_x64_modern_sse42 : 78,5/219 35-97-87   36% -100
-----------------Komodo-tcecr-64bit-----------------
Komodo-tcecr-64bit - Houdini_4_Pro_x64B : 111,5/219 64-60-95 51% +7
Komodo-tcecr-64bit - Stockfish_14010815_x64_modern_sse42 : 75,5/219 22-90-107 34% -115
-----------------Stockfish_14010815_x64_modern_sse42-----------------
Stockfish_14010815_x64_modern_sse42 - Houdini_4_Pro_x64B : 140,5/219 97-35-87 64% +100
Stockfish_14010815_x64_modern_sse42 - Komodo-tcecr-64bit : 143,5/219 90-22-107 66% +115

-----------------Houdini_4_Pro_x64B-----------------
Houdini_4_Pro_x64B - Komodo-tcecr-64bit : 101,5/214 47-58-109   47%   -21
Houdini_4_Pro_x64B - StockFishRW : 79,0/214 38-94-82 37%   -92
-----------------Komodo-tcecr-64bit-----------------
Komodo-tcecr-64bit - Houdini_4_Pro_x64B : 112,5/214 58-47-109   53%   +21
Komodo-tcecr-64bit - StockFishRW : 83,0/214 28-76-110    39%   -78
-----------------StockFishRW-----------------
StockFishRW - Houdini_4_Pro_x64B : 135,0/214 94-38-82    63%   +92
StockFishRW - Komodo-tcecr-64bit : 131,0/214 76-28-110 61%   +78

By Benno Hartwig Date 2014-01-09 19:20

> Wo soll das noch hinführen???

"Robodini vernascht!!"

Etwas schwanken sicher auch deine Werte um die wahren Werte herum.
Vielleicht werden wir deshalb den nächsten Schluck ja auch als relativ klein erleben.
Benno

By Stefan Pohl Date 2014-01-10 07:16

Benno Hartwig schrieb:

"Robodini vernascht!!"

Etwas schwanken sicher auch deine Werte um die wahren Werte herum.
Vielleicht werden wir deshalb den nächsten Schluck ja auch als relativ klein erleben.
Benno

Das glaube ich auch. Der Test vor Stockfish 140106 (131223) lief ja z.B. eher mau. Man muß immer die Errorbar von +/-5 Elo im Auge behalten, die sich ja dummerweise zu +/-10 Elo addiert, wenn man 2 Stockfishe in meiner LS-Liste vergleicht. Erst die Betrachtung vieler Tests als Entwicklungskurve (wie dein schönes Diagramm -wäre gut, wenn du es hin und wieder aktualisieren und neu posten würdest) bringt sicherere Resultate.

Stefan

By Stefan Pohl Date 2014-01-10 08:06

Patrick Götz (Mod.) schrieb:

Danke!
Sehr bemerkenswert ist auch dass der Abstand zur Stockfish DD-Version im Framework-Selbsttest nur 25 ELO, in Deiner LS-Rangliste aber sogar 27 ELO beträgt!
Da die stockfish_140108 im Selbsttest weitere 5 ELO zugelegt hat, könnte sie damit jetzt in deiner Rangliste zusammen mit Houdini 3 bei genau 3151 Elopunkte liegen.

Der Test der neuesten Stockfish Development-Version vom 09.01. für die LS-Rangliste läuft bereits...und begann super!

Stefan

By Hauke Lutz Date 2014-01-09 20:01

Das ist trotzdem noch zu wenig... wir brauchen eher 20 Tester mehr, damit die Entwickler nicht schon im Vorfeld zu viel aussortieren.

By Hauke Lutz Date 2014-01-09 21:04

@Stefan: Was wirst du als nächstes testen?

By Stefan Pohl Date 2014-01-10 07:55 Edited 2014-01-10 07:58

Hauke Lutz schrieb:

@Stefan: Was wirst du als nächstes testen?

Da sonst nix neues im Top-Bereich los ist, lasse ich mal die neuste Stockfish-Dev-Version 140109 (Timestamp: 1389220684) laufen, da ja ein weiterer Regression-Test nach der von mir zuletzt getesteten Version 140106 nochmal ein schönes Plus von ca.+4.5 Elo ergab. Sollte das allerdings kein meßbares Plus bei mir ergeben, würde ich wohl in 24 Stunden (also nach gut 3000 Partien) abbrechen.
Der Start (nach 200 Partien) lief aber schon mal echt super! Aber das muß ja nicht so bleiben. 200 Partien sind fast nichts. Morgen gibts einen seriösen Zwischenstand oder die Abbruch-Meldung.

Stefan

By Stefan Pohl Date 2014-01-10 17:15

Stefan Pohl schrieb:

Hauke Lutz schrieb:

@Stefan: Was wirst du als nächstes testen?

Da sonst nix neues im Top-Bereich los ist, lasse ich mal die neuste Stockfish-Dev-Version 140109 (Timestamp: 1389220684) laufen, da ja ein weiterer Regression-Test nach der von mir zuletzt getesteten Version 140106 nochmal ein schönes Plus von ca.+4.5 Elo ergab. Sollte das allerdings kein meßbares Plus bei mir ergeben, würde ich wohl in 24 Stunden (also nach gut 3000 Partien) abbrechen.
Der Start (nach 200 Partien) lief aber schon mal echt super! Aber das muß ja nicht so bleiben. 200 Partien sind fast nichts. Morgen gibts einen seriösen Zwischenstand oder die Abbruch-Meldung.

Stefan

Ganz, ganz frühes Zwischenergebnis, kurz bevor ich zur Nachtschicht aufgebrochen bin: Nach 1050 Partien liegt Stockfish 140109 ca. +10 Elo zu Stockfish 140106. Glaube allerdings kaum, daß das so bleibt. Denn +10 Elo in 3 Tagen, das wäre außerirdisch. Zudem war der Start extrem gut. Davon zehrt auch dieser Zwischenstand noch. Morgen gibt es mehr Infos.

Stefan

By Patrick Götz (Mod.) Date 2014-01-10 20:38

Sollte Stockfish 140109 tatsächlich vor Houdini 3 landen können?
Das wird wahrscheinlich ganz knapp und spannend bis zum Schluß.

Patrick

By sachista Date 2014-01-11 00:29

Patrick Götz (Mod.) schrieb:

Sollte Stockfish 140109 tatsächlich vor Houdini 3 landen können?
Das wird wahrscheinlich ganz knapp und spannend bis zum Schluß.

Patrick

Würde mich ehrlich gesagt überraschen, aber auch freuen. Ich erinnere mal daran, dass für 140106 aufgrund der 80%-Schätzung für SF-Selftest vs LS ratinglist 3141 vorhergesagt worden waren und es da noch schwer fiel daran zu glauben - am Ende wurden es 3146 und damit ziemlich genau 100%. Ich vermute daher einfach mal, dass 131223 in der LS ratinglist unterbewertet war, 140106 vielleicht leicht überbewertet. Bei 140109 befürchte ich, dass ein sehr guter Start jetzt falsche Hoffnungen weckt, aber man lässt sich ja gerne positiv überraschen

By Patrick Götz Date 2014-01-11 07:54

Genau die Gedanken hatte ich auch.
Allerdings kommt noch der hinzu, das die +4.5 ELO für drei recht viel versprechende Elopatches vom Framework unterbewertet sein könnten.

By Stefan Pohl Date 2014-01-11 13:18

Patrick Götz schrieb:

Genau die Gedanken hatte ich auch.
Allerdings kommt noch der hinzu, das die +4.5 ELO für drei recht viel versprechende Elopatches vom Framework unterbewertet sein könnten.

Leider muß ich konstatieren, daß nach 3500 Partien Stockfish 140109 bei -4 Elo zu Stockfish 140106 lag. Da somit ein wirklich meßbar besseres Ergebnis mehr als unwahrscheinlich ist, habe ich den Test abgebrochen. Ich werde mal ein bißchen abwarten, bis es weitere Patches gegeben hat. In der Zwischenzeit teste ich mal ein paar Settings von Stockfish 140106, die mehr Aggressivität bringen sollen und auch einen mittleren und einen hohen Wert beim Contempt Factor. Insgesamt 10 verschiedene Settings, alles gegen Houdini 4 (mit LS-Bedingungen) Sollte eines davon wenigstens so gut scoren, wie Stockfish 140106 default, so könnte ich mit diesem Setting dann ggf. eine echten, kompletten LS-Testrun machen, da ein aggressives Setting gegen schwächere Gegner als Houdini 4 evt. besser scoren könnte als die default-Version.
Ich werde davon hier berichten.

Stefan

By Stefan Pohl Date 2014-01-10 08:05

Tom Paul schrieb:

Das Problem ist:
Früher war das so, dass die Anzahl der Tests (erstellt durch die Developer) sehr gut zur Anzahl der aktiven Tester gepasst hatte.
Bildhaft erklärt z.B.: 5 Tests werden an einem Tag erstellt und es bedarf 20 aktive Tester um diese 5 Tests an einem Tag abzuschließen.

Und jetzt hat sich die Anzahl der Developer verdoppelt, die Anzahl der aktiven Tester hat sich in der gleichen Zeit um 50% erhöht.
Es entstehen doppelt so viele Tests wie früher bei gerade mal 50% mehr Tester.
Somit haben wir (Bildhaft erklärt) z.B. 10 Tests bei gerade mal 30 aktiven Testern, wir bräuchten aber mindestens 40 aktive Tester um diese 10 Tests an einem Tag abzuschließen. Sonst werden die übrigen Tests auf den nächsten Tag verschoben + 10 neue Tests.
Das führt dazu das wir immer mehr Tests bekommen und es dauert länger bis die Tests die heute vorgeschlagen wurden drankommen. Oder einige Developer erstellen seltener Tests als früher, weil sie zu viele Tests in der Stockfish Testing Queue sehen.

Fazit: Wir sind vom Optimum entfernt und brauchen dringend viel mehr aktive dauerhafte Tester und mehr Werbung für die Stockfish Engine und die Entwicklungsumgebung!
Ein paar selbstgemachte Videos auf Youtube, Myvideo, Dailymotion und auch auf anderen Plattformen wo es noch keine gibt könnten helfen + Artikel in verschiedenen Schachforen schreiben + sich mit Schachspielern in Vereinen und auf Schachservern unterhalten.
Stelle immer wieder fest das die meisten Personen davon noch gar nichts wissen.
Die meisten aktiven Tester in der Stockfish Testing Queue sind übrigens aus Deutschland (12 Stück), gefolgt von den USA (11 Stück), wenn man jetzt die Einwohnerzahlen vergleicht sind wir einfach TOP

Ich habe ja keine Ressourcen frei wegen meiner LS-Rangliste, betrachte mich aber aufgrund meiner vielen Stockfish-Ranglistentests als inoffizieller Mitarbeiter...
Ich denke auch, es hakt primär an zuwenig Publicity/Werbung. Immerhin scheint ja der neu erstellte Installer die Bedienung erheblich zu vereinfachen, was sicherlich die Hemmschwelle für viele senkt. Hoffe ich zumindest.

Stefan