Not logged inCSS-Forum
Forum CSS-Online Help Search Login
CSS-Shop Impressum Datenschutz
Up Topic Hauptforen / CSS-Forum / SWCR: Zum anstehenden Stockfish 2.1.1 JA x64 Test ...
- - By Frank Quisinsky Date 2011-06-08 19:44
Hallo zusammen,

Benno Hartwig wünscht sich einen Stockfish 2.1.1 JA x64 Test.
Stefan Pohl ist der Meinung ... besser wäre direkt Stockfish 2.1.1 JA x64 mit dem Selektiv Parameter zu testen.

Also bislang stimmte wirklich jede Einschätzung von Stefan zu den Programmen die er getestet hat.
Es macht aber keinen Sinn einen Parameter zu testen wenn die Default Einstellung nicht getestet ist.

Selbst habe ich auch kaum Zeit in den nächsten Tagen, kann eh kaum verfolgen!

Also wir machen das jetzt so ...

Auf 8/16 Cores läuft Stockfish default
Auf 8/16 Cores läuft zeitgleich Stockfish mit Selektiv Parameter

Die beiden neuen Spießroutenläufe werden im Anschluss an den von BugChess gestartet.
BugChess muss noch ca. 380 Partien spielen. Die beiden Spießroutenläufe starten dann am Freitag morgen!

Wird sicherlich spannend werden wenn die beiden Spießroutenläufe auch noch zeitgleich laufen.

So sind dann alle glücklich, ich kann mich um wichtigere Dinge kümmern und die Rechner sind beschäftigt.

Aber anschließend geht es dann endlich mit dem Oldie Mix weiter, auch Günther Höhne freut sich darauf.
Günther uns gehören dann die kommenden Wochen

An alle Leser und Beobachter ...
Weiterhin viel Spaß mit der SWCR!

Viele Grüße
Frank
Parent - - By Bernhard Meister Date 2011-06-08 20:07
Hallo Frank,

auch ich wünsche mir den Stockfish Test und freue mich gleich doppelt über die zwei parallelen Tests!

Finde den "Live Ticker" auf Deiner Seite echt toll! (auch den von Ingo's IPON Seite)

Danke + Grüße
Bernhard
Parent - By Frank Quisinsky Date 2011-06-08 20:53
Hallo Bernhard,

schön, glaube die Idee ist auch ganz gut.
So entsteht auch ein direkter Vergleich von default zu der Parameter-Einstellung.

Ja, Ingo macht eine wirklich gute Arbeit und seine Spießroutenläufe beobachte ich auch sehr gerne, fiebere richtig mit.
Hoffe er verliert nicht die Lust!

Die Motivationsfrage ist bei solchen Aktionen nicht zu unterschätzen.
Oft würde ich auch gerne mit der SWCR aufhören und oft kann ich nicht genug davon bekommen

Dir viel Spaß bei den kommenden Spießroutenläufen.

Gruß
Frank

News kommen derzeit wenig.
Tausche viele eMails mit Andrea wegen dem ganzen SWCR-Ablauf.
Bin echt froh das ein zweiter Tester hinzu gekommen ist.
Zur Zeit läßt Andrea mehr 40-Partien Matches mit Booot 5.1.0 spielen.
Die ELO schwankte noch zu stark nach 800-900 Partien, daher wichtig das bei dieser Engines noch Partien hinzukommen.
Parent - - By Benno Hartwig Date 2011-06-08 22:02
Fire 1.5 ist durch, und die Engine erreichte beachtliche 2937 ELO. Hauchdünn hinter Rybka 4 ( 3 Punkte) und 28 Punkte vor Stockfish 2.0.1.
Ich bin mal gespannt, ob Stockfish 2.1.1 soviel dazulegen kann.
Vielleicht. Ich rate mal: auf weniger als 10 ELO wird SF221 aber auf jeden Fall (frech! Ok) herankommen.
Mal sehen...

Benno
Parent - - By Frank Quisinsky Date 2011-06-09 00:09
Hi Benno,

auch noch interessant ist, dass ja zwischenzeitlich die Kompiles auch verändert wurden.
Es gibt glaube ich zwei 2.1.1 Versionen und mehrere 2.1.0 Versionen.

Selbst habe ich auch mit der ersten 2.1.0 die Testpartien gespielt.
Keine Ahnung ob das etwas ausmacht aber aufgrund der vielen Optimierungsversuche könnte SF dann wirklich ein besseres Ergebnis als bei IPON erreichen bzw. als bei meinen Testpartien. Und ganz interessant ist wie immer dann auch einen Parameter zu sehen. Vielleicht wird Stefan mal wieder Recht behalten und Stockfish 2.1.1 JA Agg. 150 ist auf dem gleichen Level wie Fire 1.5 xTreme x64 und wenn nicht, egal ... so wissen wir das sich der Parameter nicht auswirkt. Kann ja durchaus sein, dass sich der Parameter gegen die besseren auswirkt aber nicht gegen die schwächeren Engines. Und da mehr schwächere Engines im Vergleich zu Stockfish im Spießroutenlauf als bessere sind kann der Schuss auch nach hinten los gehen. Alles nicht so einfach ... zumal die ELO-Unterschiede sehr sehr gering sind.

Interessanter als diese ganzen Geschichten sind spätere Analysen. Ist Stockfish mit dem Parameter wirklich aggressiver ... sollte anhand von 1.200 Partien leicht zu beantworten sein.

Gruß
Frank
Parent - - By Benno Hartwig Date 2011-06-09 07:11
[quote="Frank Quisinsky"]Interessanter als diese ganzen Geschichten sind spätere Analysen. Ist Stockfish mit dem Parameter wirklich aggressiver ... sollte anhand von 1.200 Partien leicht zu beantworten sein.[/quote]Woran würde man bei 1200 Partien größere Agressivität erkennen?
OK, das Nachspielen einzelner Partien würde es offenbaren.
Und eine geringere Remisquote wäre zu erwarten.

Meines Erachtens sollte neben der SF-Agressivität auch die SF-Feigheit betrachtet werden.
Kleinere Feigheit-Werte würden das Nachvornstürmen noch mehr unterstützen.
Und ggf. ist auch das Vergrößern beider Werte interessant.

Benno
Parent - - By Frank Quisinsky Date 2011-06-09 21:58
Hi Benno,

habe den Parameter gar nicht gesehen.

Also wenn Aggr. auf 150 und Feigheit nach unten geschraubt wird muss das ausgeglichen werden durch weniger spekulative Züge, also weniger Selektivität.

Setzen wir Feigheit ein wenig nach unten, Aggressivität nach oben sollte die Selektivität nach unten gestellt werden.

Sollten wir das versuchen?
Taufen wir dieses Setting: Stockfish 2.1.1 JA x64 PHQ (für Pohl / Hartwig / Quisinsky) und senden den ganzen Quatsch ungetestet an die SWCR Rechner
Denke ich versuche das mal, oder?

Gruß
Frank
Parent - - By Benno Hartwig Date 2011-06-09 22:12
[quote="Frank Quisinsky"]Taufen wir dieses Setting: Stockfish 2.1.1 JA x64 PHQ (für Pohl / Hartwig / Quisinsky) und senden den ganzen Quatsch ungetestet an die SWCR Rechner [/quote] Ich denke, du hast genug in Planung, oder?
Nachdem mein erster Eindruck gut war mit Agressivität 150, denke ich inzwischen, dass die realen ggf. vorhandenen Vorteile z.B. bei 300 Partien noch dicke im Rauschen untergehen. Da sieht es bei =150 gut auf, bei 145 aber schlecht, und bei 120 wieder gut, 100 schlecht, 90 gut...
Rauschen!
Ich lasse bei kurzen Zeiten gerade mit sehr vielen Aggressiveness-Werten gegen Houdini spielen und will dann mal schauen, was die Methoden der Regression darauf angewandt so hervorbringen.
Und ich werde mir vermutlich nicht verkneifen können, hier darüber zu schreiben.

Benno
Parent - By Frank Quisinsky Date 2011-06-11 10:39
Ja, beschäftige Dich mal damit.
Hast ja offenbar auch viel Grundwissen zu statistisch möglichen Auswertungen.

Fraglich ist ob taktische starke Einstellungen gegen stärkere wirklich besser punkten und gegen schwächere wirklich schlechter. Komme nicht wirklich zu einem klaren Ergebnis, mal so mal so.

Aber, wenn viele schwächere gegen eine stärkere Engine spielen, wird das Ergebnis nicht sonderlich nach unten oder oben gehen. Statistisch gesehen geht es eher minimal nach unten, denn punktet 2.600 ELO gegen 2.900 ELO dann gehts Rating für 2.900 rapide nach unten. Ein 35:5 Ergebnis bei 300 ELO Unterschied ist schon schwach, aus Sicht der 2.900 ELO Engine.

Ich finde von allen statistischen Auswertungen die ich bislang für mich privat gemacht die wirklich schwierigste Auswertung. Weil die Ergebnisse schwanken und ich nicht wirklich zu einer klaren Aussage komme. Fest steht aber das solch großen ELO Unterschiede dann wieder in einer Liste mit vielen Partien pro Engine keine nennenswerten Auswirkungen haben.

Gruß
Frank
Parent - - By Benno Hartwig Date 2011-06-10 07:21
[quote="Frank Quisinsky"]Also wenn Aggr. auf 150 und Feigheit nach unten geschraubt wird muss das ausgeglichen werden durch weniger spekulative Züge, also weniger Selektivität.
Setzen wir Feigheit ein wenig nach unten, Aggressivität nach oben sollte die Selektivität nach unten gestellt werden.[/quote]Ich hatte bislang nicht den Eindruck, dass Aggressiveness und Cowardice Einfluss auf die Selektivität haben.
Nach dem Blick in dei Sourcen gewann ich den Eindruck, dass diese beiden Parameter einfach in gleicher Weise eine Gewichtung darstellen für die Königssicherheit (die des Engine-Königs und des Gegner-Königs). Die positionelle Bewertung wird dadurch etwas verschoben. "Der eigene König steht frei? Macht nix, Hauptsache ich bin dicht am Gegner dran!"

Benno
Parent - - By Benno Hartwig Date 2011-06-10 08:39
Ergänzung:
Nach meiner Meinung kann solch eine Einstellung
"eigene Schwächen bei der Königssicherheit akzeptiere ich ein Stück weit, wenn ich dafür den Gegnerkönig etwas mehr gefährden kann!"
erfolgreicher sein, wenn ich gegen deutlich schwächere Gegner spiele ("Die werden meine Schwäche vermutlich oft nicht ausnutzen können, und wenn sie doch gefährlich werden, dann traue ich mir zu, noch ganz gut dagegenzuhalten!")
Gegen starke Gegner ist dies aber vielleicht eine schlechte Strategie. Vielleicht sollte gegen stärkere Gegner sogar eher moderat entgegengesetzt parameterisiert werden. ("Meine Königssicherheit ist eher wichtiger als die des Gegners") Vielleicht.

Frank, in deinem Turnier spielen die starken Engines ja auch sehr viele Spiele gegen deutlich schwächere Gegner.
Ich bin gespannt, ob sich hier solch ein Bild abzeichnet, wie ich es skizzierte: PHQ weniger erfolgreich gegen die starken Gegner, dafür aber erfolgreicher gegen die schwächeren Gegner.
Und da du sehr viel gegen schwächere Gegner spielen lässt, darf PHQ vielleicht doch auf ein gutes ELO-Rating hoffen.
(Und es steht wieder die Frage im Raum: "Gegen welche Gegnerschaft wird tatsächlich ein ELO-Wert berechnet, der die Spielstärke so beschreibt, wie es einen am meisten interessiert?")

Benno
Parent - By Frank Quisinsky Date 2011-06-11 10:47
Hi Benno,

beim Blitz kommt es bei taktischer Schraube aggressiver zu negativen Ergebnissen gegen die besseren. Aber eine Engine ist und bleibt eine Engine, hat Ihr Grundwissen im Source-Code. Daran ändert der Parameter nichts. Das heißt das die Engine mit mehr Zeit immer weniger Fehler bei einer aggressiven Einstellungen spielt als eine Engine die ausgewogen eingestellt ist (default). Langfristig wird ein höherer taktischer Faktor mit mehr Zeit also ein besseres Ergebnis hervorbringen. Das ist meine Schlussfolgerung aus der Geschichte.

Wenn z. B. die Stockfish Leute immer nur SF - SF im Blitz testen und die Engine mit den besten Ergebnissen wird released wird das Programm langfristig immer passiver. Was bei den Versionen 1.8.0, 1.9.1, 2.0.1 auch sehr schön ersichtlich wird. Daher ist es nicht ratsam so zu testen.

Im Forum von Ahmed testete jemand SF PHQ - SF Deftaul bei 1-Minuten Partien, glaube er spielte 360 Partien und Default gewann. Aufgrund dessen kommt die etwas schwierig zu verstehende aber logische Schlussfolgerung ... PRIMA ... dann stehen die Chancen gut das bei längeren Bedenkzeiten das Ergebnis deutlich besser wird. Und so schaut es auch aus.

Testergebnisse zu verstehen ist nicht einfach und wenn immer nur auf eine blankes Ergebnis geschaut wird ohne zu hinterfragen ist der Nutzen = 0.

Gruß
Frank
Und
Meines Erachtens interessiert die ELO gemessen an der Konkurrenz.
Und diese besteht nicht nur aus Platz 1-5 sondern aus Platz 1- xxx fraglich.

Rechne mal die Bundesliga-Tabelle aus wenn nur die ersten 5 gespielt hätten. Wäre Dortmund wirklich Meister geworden? Und genauso so ist es mit jeder Liste bzw. Auswertung im Sport. Computerschach besteht nicht nur aus den TOP-5 ... und ganz sicher auch nicht aus den TOP-30 wie bei mir ... aber irgendwo muss eine Grenze gezogen werden, Ligen gebildet werden.
Parent - - By Stefan Pohl Date 2011-06-09 07:32
[quote="Frank Quisinsky"]
Hallo zusammen,

Benno Hartwig wünscht sich einen Stockfish 2.1.1 JA x64 Test.
Stefan Pohl ist der Meinung ... besser wäre direkt Stockfish 2.1.1 JA x64 mit dem Selektiv Parameter zu testen.

Also bislang stimmte wirklich jede Einschätzung von Stefan zu den Programmen die er getestet hat.
Es macht aber keinen Sinn einen Parameter zu testen wenn die Default Einstellung nicht getestet ist.

[/quote]

Hi Frank,

danke für die Blumen, aber das ist ein wenig übertrieben. Ich hatte Fire 1.5 auf 2920 +/-10 Elo geschätzt, also lag ich 6 Elo daneben. Aber immerhin stimmte meine Annahme, daß Ivanhoe B47cB nicht erreicht wird. Also hatte ich nur teilweise recht...
Daß Du nun Stockfish default und mit Aggr=150 testest ist natürlich optimal, so kann man sehen ob das Parameterschrauben was bringt und ob Stocki wirklich aggressiver spielt.
Daß Du Dir soviel Aufwand zumutest hatte ich gar nicht zu hoffen gewagt, nur deshalb hatte ich den Stockfish-Test mit Aggr=150 bevorzugt. Beides zu testen ist natürlich viel besser.

Ich möchte aber doch ein bißchen auf die Euphoriebremse treten: Ich habe Stockfish mit Aggr=150 nur gegen Houdini getestet und als Vergleich bzgl. zur default-Version die IPON-Erfolgsqoute von Stocki gegen Houdini herangezogen. Gegen Houdini scheint der Parameter mehr Erfolgsquote zu bringen, ob das gegen andere und vor allem schwächere Gegner auch so ist, das ist noch sehr die Frage! Gerade mein (rein subjektiver) Eindruck, daß Stockfish mit Aggr=150 auch wirklich aggressiver spielt und Angriffsstellungen höher bewertet als mit der default-Einstellung, kann gegen schwächere Gegner auch durchaus schlechtere Erfolgsquoten durch selbstmörderische Angriffsversuche nach sich ziehen. Ich bin daher keinesfalls sicher, daß Stockfish in einem echten SWCR-Ranking mit Aggr=150 besser abschneiden wird. Ich fand nur, daß die (subjektiv) aggressivere (und somit attraktivere) Spielweise und das bemerkenswert gute Abschneiden gegen Houdini einen Test rechtfertigen würden. Ein besseres Endresultat wäre zwar schön, aber ob das klappt ist m.E. durchaus fraglich.

Bin gespannt!!!  - Stefan
Parent - By Frank Quisinsky Date 2011-06-09 22:00 Edited 2011-06-09 22:03
Hi Stefan,

aber was soll ich jetzt genau testen?
Benno hat auch noch einen Vorschlag abgeliefert.

Agg. 150 (Dein Vorschlag)
Feigheit minimal runter (in Kombination zu Deinem von Benno)
Selektivität minimal runter (in Kombination zu Deinem und den von Benno von mir)

Denke das sollten wir versuchen und einfach mal ungetestet mit der Default Version gegenüber stellen, oder?
Kommt es zu einem schlechten Resultat muss dieses Setting ja nicht in der SWCR verbleiben und wenn es zu einem guten Resultat kommt melden wir uns im Fernsehen für die ganzen Interviews an.

Gruß
Frank
Parent - - By Benno Hartwig Date 2011-06-10 08:45
Frank, wie ermittelst du eigentlich die ELO-Werte?
Im Moment (die SF-Läufe haben gerade begonnen) wertest du nur die remis-Ausgänge, Siege und Niederlagen fallen im Moment raus.
Das ist natürlich jetzt auch OK so. Im Moment ist da alles OK.
Wie verfährst du weiter, wenn die meisten Paarungen 'vernünftige' Werte ausweisen (7:3 oder so) und wenn dort immer noch ein 10:0 auftaucht?
Wie verfährst du, wenn am Ende eine Paarung tatsächlich ein 40:0 beisteuert?

Viele Grüße
Benno
Parent - - By Benno Hartwig Date 2011-06-10 10:39
und außerdem:
wenn da zwei Gegner-Engines sind A mit 2600 ELO und B mit 2800 ELO.
Und Testkandidat T1 erreicht gegen A ein 25:15 und B ein 15:25
und Testkandidat T2 erreicht gegen A ein 20:20 und B ein 20:20 (also gleiche Punktzahl, nur gegen andere Gegner erspielt)
bekommen T1 und T2 bei dir dann daraus eigentlich gleiche ELO-Werte?
Stimmt also die Aussage: "Wenn ich einen Sieg und eine Niederlage habe, dann ist es egal, gegen wen aus der Gegnerliste ich diesen Punkt holte!"

Benno
Parent - By Frank Quisinsky Date 2011-06-10 18:29
Hi Benno,

komme später auf Deine Beiträge zurück ...
Gelesen, später ...

Gruß
Frank
Parent - By Frank Quisinsky Date 2011-06-11 10:34
Nein bzw. JA.

Nein bei Bayesian und JA bei ELOstat.

Beiden Programmen fehlen viele wichtige Berechnungsformeln.
Bayesian berücksichtigt aber offensichtlich die Remisquote anders und von daher kommt es bei Deiner Beispielkonstellation zu anderen Berechnungen bzw. Ausgaben. Leider berücksichtigen beide Programme nicht die Anzahl der Gegner.

Das ist wirklich schei...

Wenn Rybka 1 - Rybka 2 ... 4.000x gespielt haben sehe ich eine ErrorBar von 10.
Tatsächlich sollte diese aber bei 60 liegen. Bei 55 wenn Rybka 1 - Rybka 2 2000x und Rybka 1 - Rybka 3 2000x ... fällt mit mehr Gegnern. Sind so Geschichten und von daher, gerade bei den Berechnungsprogrammen gibt es noch ganz wesentliche Dinge die verbessert werden könnten.

Viele Grüße
Frank
Parent - By Frank Quisinsky Date 2011-06-11 10:30
Hallo Benno,

Ermittlung ELO:
Die Partien der vier Rechner gehen auf einem Corsair Stick, dem ein Netzwerk Laufwerk zugewiesen ist. So habe ich die neuen Partien in einer PGN Datenbank. Diese füge ich dann mit ChessBase 10 der SWCR-64 oder SWCR-32 Datenbank zu (je nachdem was läuft). Dann füge ich mittels ChessBase 10 die SWCR-32 und SWCR-64 wieder als PGN zusammen und lasse Bayesian drüber laufen. Keine extra Auswertung von Remis 1:0 oder 0:1 Ergebnisse. Habe aber 44 Statistiken die ich bei Zeitbedarf pflege. Was mich besonders interessiert werte ich hier und dort mal neu aus (ist sehr aufwendig).

Zu Null Ergebnisse:
Du darfst meine Auswertung nicht verwechseln mit der der Shredder Classic GUI. Was Du im LIVE Result Mode siehst ist eine HTML die von der Shredder GUI erstellt wird. Diese Auswertung funktioniert anders. Erst wenn eine Engine gepunktet hat geht die Bewertung dann in die erzeugte HTML Datei ein. Insofern ist beim LIVE Mode eigentlich erst die Auswertung interessant wenn es keine zu Null Ergebnisse mehr gibt. In dieser Zeit schaue ich eigentlich immer nur auf die ermittelten Prozente.

Zur Zeit liegt das PHQ Setting 2-3% besser als das Default Setting. 1% sind ca. 10 ELO. So kannst Du zu Beginn gut erkennen wie groß ca. der ELO-Unterschied zwischen Default und PHQ ist.

Ein 40:0 Ergebnis hatte ich noch nicht. Hat auch keine Auswertung bei Bayesian.
Selbst als Gaviota gegen Rybka spielte gab es ein 1:39 ... bei mehr als 650 ELO Unterschied konnte Gaviota dennoch 1x gewinnen.

Viele Grüße
Frank
Up Topic Hauptforen / CSS-Forum / SWCR: Zum anstehenden Stockfish 2.1.1 JA x64 Test ...

Powered by mwForum 2.29.3 © 1999-2014 Markus Wichitill