Großer Stockfish Skill-Level Test

By Stefan Pohl Date 2019-01-26 12:37 Upvotes 1

Auf meiner Website ab sofort in der Experiments-Sektion anzuschauen...

https://www.sp-cc.de/experiments.htm

Ich wollte mal eine seriöse Elo-Einstufung der Skill-Level von Stockfish 10, da ich eine "passende" Einstellung als Gegner für mein King-Element suchte. Hier das Ergebnis:

I made two large testruns with Stockfish 10, playing RoundRobin vs. itself with different Skill-Levels.
First testrun: Level 20-10 (11000 games, 1'+1'', singlecore)
Second testrun: Level 10-0 (5500 games 1'+1'', singlecore)
Then both game-pools were linked together and ORDO-calculated (fixed to 3450 Elo to Stockfish 10, Level 20, which is the Elo of Stockfish 10 in the CEGT-ratinglist (40m/4', singleCPU)).


     Program                        Elo    +    -   Games   Score   Av.Op.  Draws

   1 Stockfish 10 bmi2 (100%)     : 3450   47   47  2000    98.5 %   2601    2.8 %
   2 Stockfish 10 lev=19 (95%)    : 2905   22   22  2000    73.9 %   2656   16.9 %
   3 Stockfish 10 lev=18 (90%)    : 2872   22   22  2000    71.2 %   2659   17.6 %
   4 Stockfish 10 lev=17 (85%)    : 2815   22   22  2000    66.0 %   2665   17.7 %
   5 Stockfish 10 lev=16 (80%)    : 2761   21   21  2000    60.8 %   2670   20.4 %
   6 Stockfish 10 lev=15 (75%)    : 2657   21   21  2000    50.3 %   2681   19.9 %
   7 Stockfish 10 lev=14 (70%)    : 2571   21   21  2000    41.5 %   2689   15.6 %
   8 Stockfish 10 lev=13 (65%)    : 2483   21   21  2000    32.7 %   2698   13.9 %
   9 Stockfish 10 lev=12 (60%)    : 2406   22   22  2000    25.5 %   2706   12.4 %
  10 Stockfish 10 lev=11 (55%)    : 2320   21   21  2000    18.3 %   2714   10.5 %
  11 Stockfish 10 lev=10 (50%)    : 2221   16   16  3000    36.9 %   2386    5.9 %
  12 Stockfish 10 lev=9 (45%)     : 2129   26   26  1000    81.8 %   1720    4.0 %
  13 Stockfish 10 lev=8 (40%)     : 2067   25   25  1000    76.8 %   1726    4.2 %
  14 Stockfish 10 lev=7 (35%)     : 1976   25   25  1000    68.8 %   1735    4.9 %
  15 Stockfish 10 lev=6 (30%)     : 1881   25   25  1000    60.2 %   1745    3.4 %
  16 Stockfish 10 lev=5 (25%)     : 1823   25   25  1000    54.9 %   1751    2.8 %
  17 Stockfish 10 lev=4 (20%)     : 1678   26   26  1000    42.0 %   1765    2.5 %
  18 Stockfish 10 lev=3 (15%)     : 1538   28   28  1000    30.1 %   1779    1.1 %
  19 Stockfish 10 lev=2 (10%)     : 1443   29   29  1000    22.7 %   1789    1.0 %
  20 Stockfish 10 lev=1 (5%)      : 1341   32   32  1000    15.4 %   1799    0.3 %
  21 Stockfish 10 lev=0 (0%)      : 1231   36   36  1000     8.8 %   1810    0.3 %

(Stockfish 10: 3450 Elo is the CEGT-ranking 40m/4'), The percent-numbers in brackets are the value of the "strength-meter" in the Droidfish-App for Smartphones...

By Michael Scheidl Date 2019-01-26 13:37

Danke... aber sind die dann bei größeren Bedenkzeiten gleichstark, z.B. lev=4:1678 auch bei 3m+8s was ich gerne spiele? Ich meine gegen Menschen.

By Stefan Pohl Date 2019-01-26 14:07 Edited 2019-01-26 14:18

Michael Scheidl schrieb:

Danke... aber sind die dann bei größeren Bedenkzeiten gleichstark, z.B. lev=4:1678 auch bei 3m+8s was ich gerne spiele? Ich meine gegen Menschen.

Naja, im Prinzip wurde ja in diesem Experiment die relative Spielstärke zu Stockfish 10 mit maximaler Leistung gemessen. So, wie Stockfish mit mehr Bedenkzeit besser spielt als mit weniger, wird es auch bei den schwächeren Levels sein.
Ich wollte ja primär wissen, wie es aussieht, wenn ich Droidfish mit 2“/Zug singlecore auf meinem Smartphone gegen das King-Element mit 30“/Zug spielen lasse. Letzteres schafft dann eine knappe Million Knoten und Droidfish auf meinem Smartphone ca. 1.2 mN in 2“. Der Testrun hier auf meinem betagten 2Ghz Notebook war mit 1'+1“, weil dann so ca. knapp 1.5“/Zug gerechnet wird und das mit ca. 1.3-1.4 mN/s. Also ca. um 1.7 Millionen Knoten pro gespieltem Zug.

Die Ordo-Kalkulation wurde mit 3450 an Stockfish 10 gefixt. Dies ist der Wert in der CEGT mit 40moves/4 Minuten. Also ca. 6 Sekunden pro Zug Rechenzeit. Das ist ja nicht so weit weg von deiner bevorzugten Bedenkzeiteinteilung. Insofern könnte das schon in etwa hinkommen...
Mir ging es ja mehr um die Abstände (deswegen habe ich auch die Stockfish 8moves Eröffnungsvorgaben benutzt, nicht etwa meine Drawkiller-Eröffnungen) zwischen den Levels und zu Level 20, bei etwa vergleichbaren Knotenzahlen pro Zug wie beim King-Element mit 30“/Zug oder 60“/Zug (also so im Bereich von 1-2 Millionen Knoten pro Zug). Welcher Absolut-Elowert schlussendlich rauskommt, hängt eben auch von der Bedenkzeit ab...

By Michael Scheidl Date 2019-01-26 14:58

Mal ausprobieren was ich gegen Stockfish=Level3 erreiche... (ist das unabhängig von der Hardware?)

By Patrick Götz Date 2019-01-27 00:34

Danke!
Peter Österlund hat die Engines "CuckooChess" (auch in DroidFish enthalten) und den Nachfolger "Texel" entwickelt, die 1000 (wirksame) Spielstufen haben.
Dort würden mich eine vergleichbares Experiment auch sehr interessieren.

By Lothar Jung Date 2019-01-29 14:11

Schöner Test. Sehr nützlich!
Ist eine erste Einschätzung der Elo-Zahl des King-Elements darüber jetzt schon (vorsichtig) möglich?

By Stefan Pohl Date 2019-01-29 14:44

Lothar Jung schrieb:

Schöner Test. Sehr nützlich!
Ist eine erste Einschätzung der Elo-Zahl des King-Elements darüber jetzt schon (vorsichtig) möglich?

Durchaus erwartbar, daß (zumindest mit meinem sehr starken Pohl1-Setting), the King mit 30''/Zug bei 60%-Droidfish (mit 2''/Zug (15''+2'' Stufe) Bedenkzeit (auf meinem Smartphone schafft Droidfish im singlecore-Betrieb ca. 600.000 n/s (!))) noch mehr als 50% der Punkte holt. Erst bei 65% wirds dann etwa ausgeglichen. Bei 2“ Bedenkzeit rechnet Droidfish auf meinem Smartphone knapp 1.3 Millionen Knoten pro Zug durch und das King-Element mit 30“ eine knappe Million, das paßt also ganz gut.
Mein Pohl1-Setting ist aber insbesondere gegen andere Computer m.E. deutlich besser, als die Werkseinstellungen Normal und Aktiv, die immer wieder schreckliche Bauernstrukturen zulassen und zumindest fragwürdige Bauernopfer spielen. So ein Dschungelschach mag gegen Menschen stark sein, aber nicht gegen Computer. Davon abgesehen sieht es gruselig aus.

Pohl1-Setting (sehr einfallsreicher Name...):

Figurenwerte: alle 100/100
Raum: 50/50
Mobilität: 65/65
Königssicherheit: 70/70
Freibauer: 50/50
Bauernstruktur: 75/75
Selektivität: Auto

Dieses Setting spielt positionell (halbwegs) gesund, also keine fragwürdigen Bauernopfer, selten zertrümmerte Bauernstrukturen oder überoptimistisches Bauern-vorstürmen. Und es ist stark. In 20 Partien mit 30''/Zug gegen CGE ohne Eröffnungs-Bücher, dafür mit 10 Noomen-Kurzvorgaben (mit vertauschten Farben wiederholt) hat es den CGE geradezu vernichtet: +15 =4 -1 (also 85% Erfolgsscore!).
Und ein weiterer, großer Vorteil dieses Settings: Im Gegensatz zu allen anderen Settings und auch den King-Werkssettings, bis auf die Normal-Einstellung, ist es symmetrisch: Alle Änderungen sind gleich hoch für den King und den Gegner. Das hat den großen Vorteil, daß die Bewertung nicht hin- und herschwankt, wenn man den King im Analysemodus laufen läßt und er abwechselnd für Weiß und Schwarz rechnet (nur das Vorzeichen der Bewertung kehrt sich natürlich jedesmal um, da der King sich immer aus seiner Sicht bewertet, wie dies bei den meisten Brettcomputern üblich war bzw. ist).

Lohnt, das mal auszuprobieren!

By Lothar Jung Date 2019-01-29 16:45

Danke!
Mach ich!