Wasp 2.0

By Peter Martan Date 2017-04-22 13:05

Peter Martan schrieb:

Drum lasse ich die Engine jetzt noch durch die Strategic Test Suite von Swaminathan und Corbit laufen

Das sieht schon freundlicher aus: 1168 von 1300 auf der selben Hardware mit 512Mb Hash bei 5"/Stellung.

By Frank Quisinsky Date 2017-04-22 13:51

Hi Peter,

Wasp ist auf den Weg in die TOP-20 der Welt.
Das Problem ist nur ... viele andere auch bzw. eigentlich gar kein Problem!

Insofern mal schauen ...
Lasse mal gegen die ganzen Mitkonkurrenten einen 4.000 Partien Test-Run auf einer Maschine laufen (FCP Rating List Conditions).
Dauert natürlich ein bissel, muss eh testen ob die gesetzten Prios vom Grundgerüst meines neuen Buches stimmen.

Nun wird die Nummer härter ...
Es gilt die 2.900 zu knacken (FCP Rating List Conditions ... wenn Shredder 12 2.800 Elo hat).
John stapelt immer etwas tiefer ... eher 2.875 als 2.850 sind es sicherlich zur Zeit.

Danke für Deinen Test, kenne so einige Ergebnisse von den von Dir verwendeten Test.
Muss mich hier aber auf einen aktuellen Stand bringen.

Gruß
Frank

By Peter Martan Date 2017-04-22 17:21 Edited 2017-04-22 17:35

Frank Quisinsky schrieb:

Muss mich hier aber auf einen aktuellen Stand bringen.

Der aktuelle Stand im STS vom Brainfish 180417 bei 5"/Zug auf der zitierten Hardware ist 1196 von 1300.

Dass der Unterschied zu Wasp da so relativ klein ist, (relativ zum Eret z.B.) liegt am Prinzip der "Strategic" Suite, es wird mehr die statische als die dynamische Eval getestet, eigentlich sind hier die 5" schon unnötig viel, interessant wäre mal, solche Stellungen auf dieser site
https://hxim.github.io/Stockfish-Evaluation-Guide/
ganz ohne Suche bewerten zu lassen und dann die Eval mit der Output- Eval nach etwas Forward- Backward zu vergleichen, das ist aber eben wieder genau nicht der Sinn dieser Stellungen als Set.

Man könnte aus dem STS- Ergebnis gemeinsam mit dem aus dem Eret folgern, bei Wasp hapert's noch ein bisschen an der Suche, die statische Eval, auf die's in positionellen Stellungen mehr ankommt, ist schon ganz gut.

Die Bewertung aller solcher Tests ist aber sowieso nicht diskutierbar für mich, ohne die einzelnen Stellungen alle für sich genau zu beurteilen.

Und das muss ich jetzt mal wieder bei der Gelegenheit anbringen: das gilt natürlich genau so für alle ausgespielten Stellungstests, also auch für alle eng-eng-eng-Vergleiche auf reiner Matchbasis.

Das Testset, dass du zum Ausspielenlassen verwendest, macht das Ergebnis aus, so sehr einander auch die Ergebnisse von ähnlichen Testsets ähneln, und so sehr man mehr und mehr ganze Partien braucht um aus ähnlichen Testsets mit allein schon an Zahl immer mehr und einander zumindest im oberen Bereich immer ähnlicher werdenden Engines noch unterscheidbare Ergebnisse zu bekommen.

Aber das muss ich dir nicht erklären, Frank, soviel Arbeit wie du dir mit deinem Buch machst

Bei der Gelegenheit auch dafür mal wieder danke.

By Thomas Plaschke Date 2017-04-23 00:56

Auf meiner Hardware:

Wasp 2.00-1024MB/i5-3570K @ 4,2 GHz
Ergebnis: 39 aus 111 = 35.1%. Durchschnittszeit = 7.22s / 15.92

Den Test habe ich übrigens mit der Wasp_200-bmi2-x64.exe durchgeführt. - Wenn bmi2 für den Befehlssatz ab der Intel-Haswell-Architektur steht, sollte diese Engine-Version eigentlich nicht auf meiner CPU laufen - falls der erweiterte Befehlssatz genutzt wird, hihi.

Viele Grüße
Th. Plaschke

By Wolfgang Battig Date 2017-04-23 02:32

Kann ich bestätigen. Das so genannte "BMI2" Compile läuft hier sogar auf zwei Intel-Rechnern der 2. Generation, i3-2120 und i5-2400. Kann "eigentlich" ja nicht sein. Zumindest läuft kein BMI2-Compile irgendeiner anderen Engine (Stockfish, Andscacs usw.) auf den beiden PCs.

Hab natürlich nichts dagegen, zumal es 10-15% schneller zu sein scheint als die "normale" x64.

By Frank Quisinsky Date 2017-04-25 14:15 Edited 2017-04-25 14:18

Hallo Ihr Beiden Kämpfer ...

gerade Eure Diskussion verfolgt.
Hier mal eine aufklärende Information:

"This version is not compiled for Haswell which I guess uses BMI2 instructions, but for Nehalem which I think uses BMI instructions. I think I saw only 1 or 2 percent speed difference when compiling for Haswell, so decided to make my fastest version work with somewhat older processors."

Ansonsten weiter machen ...

Frank

PS: Bin seit zwei Tagen am Suchen ... bei mir nach 350 Partien ca. gleiches Level als die Vorgängerversion. Das kann nun wirklich nicht sein, denn John hat x-tausend Partien spielen lassen und er hat so lange ich ihn kenne mit Einschätzungen noch nie übertrieben. So suchte ich mich gestern dumm und fand nichts. Alles scheint bei mir korrekt zu laufen ... aber ich mache mir darüber auch keinen Kopf mehr, da keine Ratingliste mehr läuft zumal dieser Test-Run eh nur auf Schätzungen beruht weil ich nichts aktuelles an Elo mehr habe und haben will. Dennoch möchte ich natürlich ein bissel zusehen und daher ein 4.000 Engine Test-Run.

By Wolfgang Battig Date 2017-04-25 15:04

Frank Quisinsky schrieb:

... bei mir nach 350 Partien ca. gleiches Level als die Vorgängerversion. Das kann nun wirklich nicht sein, denn John hat x-tausend Partien spielen lassen und er hat so lange ich ihn kenne mit Einschätzungen noch nie übertrieben. ...

Bei mir nach 600 Partien, +73 zur 1.25, allerdings kürzere Bedenkzeit (40/3 repeated auf i7-4770). Natürlich noch viel zu wenig Partien, aber das Rating wird garantiert nicht mehr Richtung "gleiches Level" fallen. Abgesehen von einem kleinen Ausreißer nach oben (+50 zum Durchschnitt) und einem etwas größeren nach unten (-62) scort Wasp sehr gleichmäßig. Solche Engines fallen nach meiner Erfahrung praktisch nie mehr dramatisch ab oder steigen dramatisch an, wenn einmal ein gewisser Grundstock an Partien (da reichen 600 schon) vorhanden ist.

http://cegt.forumieren.com/t798-testing-wasp-2-00#1770

Viele Grüße

By Frank Quisinsky Date 2017-04-26 04:47

Hi Wolfgang,

ja, John beobachtet die Ergebnisse bei Euch natürlich, schrieb es mir.

Bei meiner ehemaligen Ratingliste waren es
35 Wasp 1.25 BMI2 x64 : 2780.23 3150 39.6 43.2 9.93 2873.32 8.81 63.0

Nun sind es hier nicht mehr nach nunmehr ca. 450 Partien. Eine langsame Steigerung von 39% auf 42% mit einigen Aussetzern nach unten.
Gehe davon aus das es noch 43%, vielleicht 44% werden könnten.

Mit einem nicht optimierten Buch allerdings sind die Varianten die gespielt werden alle OK.

Mal schauen ...

Gruß
Frank

By Peter Martan Date 2017-04-26 11:46 Edited 2017-04-26 12:46

Hallo Frank!

Sehe ich das richtig, dass Wasp 2.0 die erste SMP- Version ist?

Nun hätte ich natürlich das schon beim Eret berücksichtigen müssen, und auch 2.0 auf single core laufen lassen, das hab ich jetzt aber nicht mehr nachgeholt, weil 1.01 hatte da gerade mal 19 aus 111, auch bei 30"/Zug, auch auf dem Intel 2.67GHz- Kern mit 128 Mb Hash.

Der Test ist für eine an sich taktisch eher schwache Engine single core zu schwer, da müsste man so lange Bedenkzeiten geben, dass es mir zu langwierig und zu wenig aussagekräftig wird, das ist wie mit den numerischen Evals, je näher 0 sie gehen, umso mehr zählen einzelne cp, beim Stellungstest einzelne Treffer.
Bei den Celo ist's ja auch nicht anders, allerdings haben wir da das Problem mittlerweile eher oben, weil je höher die Phantasiezahlen klettern, die einzelnen Punkte relativ immer weniger zählen. (Die Phantasie besteht vor allem in der Elosion, es gäbe noch irgendeinen Zusammenhang mit den menschlichen Schach- Elo außer der Formel zur Berechnung.)

Das Problem ist ja da dann auch, dass die Gesamtzeiten bei vielen schnellen Lösungen viel kürzer werden, wenn man nicht unnötiger Weise mehrere Halbzüge Extrasuchtiefe eingibt, werden hingegen bei der überwiegenden Zahl der Stellungen die Maximalzeiten ausgeschöpft, weil die Lösung nicht gefunden wird, geht's insgesamt viel länger bei gleichen Vorgaben.

Vielleicht hole ich noch irgendwann 2.0 auf single core nach, aber momentan genügt es mir gesehen zu haben, dass hier zwar die SMP- Suche weitaus erfolgreicher ist als die nicht- SMP, allerdings bei letzterer in einem so schwachen Bereich, dass der Vergleich eigentlich nichts bringt.

Dass das daher in die Celo der Ranglisten auch nicht stärker eingeht, ist hingegen kein Wunder, finde ich.

Wenn man weiß, dass Wasp seine Stärken eben sowieso nicht in der Suche sondern in der (statischen) Eval hat und daher vermutlich damit auch seine Punkte im eng-eng macht, werden die dann halt durch SMP nicht soviel mehr, weil man jede Partie nur einmal gewinnen kann und die ganzen Punkte (seien's auch relativ wenige gegen starke und relativ viele gegen schwache Gegner) ohnehin schon mit der Eval erzielt werden oder eben nach wie vor nicht, wenn die (taktische) Suche relativ dazu nach wie vor schwach ist.

Oder einfacher: eine positionell starke und taktisch schwache Engine wird durch SMP weniger Spielstärke dazu gewinnen als eine, bei der das umgekehrt ist.

Und so hat Wasp 1.01 im STS immerhin auch 1020 von 1300 geholt, (2.67GHz- Kern, 5"/Stellung, 32Mb Hash) da ist also der Unterschied zwischen single core 1.01 und SMP 2.0 deutlich geringer als im Taktik- Test. (79 zu 89% STS, 17 zu 40% Eret)

By Thomas Plaschke Date 2017-04-23 11:47

Zum Vergleich musste ich den Test doch auch mal bei 30s/Zug und 2 GB für Hash-Tables auf meiner Hardware wiederholen

Wasp 2.00-2048MB/i5-3570K @ 4,2 GHz
Ergebnis: 44 aus 111 = 39.6%. Durchschnittszeit = 8.18s / 17.52

.
Erstaunlich nah dran, finde ich.

Viele Grüße
Th. Plaschke

By Peter Martan Date 2017-04-23 13:21

Thomas Plaschke schrieb:

Erstaunlich nah dran, finde ich.

Du meinst relativ zu meinem Versuch?
Hätte ich eigentlich eh so ähnlich erwartet, warum auch nicht?