Not logged inCSS-Forum
Forum CSS-Online Help Search Login
CSS-Shop Impressum Datenschutz
Up Topic Hauptforen / CSS-Forum / Stockfish PHQ: Abschließende Betrachtung
- - By Frank Quisinsky Date 2011-06-17 11:14
Hallo zusammen,

so mal wieder ein wenig Statistik:

Frage:
Wurden auch weiterhin, wie schon nach ca. 200 und 500 Partien, die doppelte Anzahl der Partien bis zum Matt in 55 von PHQ im Vergleich zu default gewonnen.
Das wäre _ein_ Anhaltspunkt ob sich die Settings überhaupt auswirken?

PHQ (1.013 Partien)
88x gewonnen mit Matt bis zum Zug 55, gar 8,68% absoluter Rekord!
08x verloren mit Matt bis zum Zug 55, 0,78% (für die erreichte ELO minimal zu viele Partien schnell verloren)

Default (1.006 Partien)
41x gewonnen mit Matt bis zum Zug 55, 4,08% ... normale Statistik im Vergleich zu den Vorgängern
02x verloren mit Matt bis zum Zug 55, 0.20% ... sehr gute Statistik

PHQ bricht also hinsichtlich eines aggressiven Mittelspiels sämtliche bisherigen Rekorde!

47 mehr Gewinnpartien stehen 6 mehr Verlustpartien gegenüber.

Schwachpunkte bei PHQ:
Selten geht auch schon mal die höher eingestellte Aggressivität nach hinten los. Gegen einige Engines deutlich schwächere Ergebnisse. Auffällig hier: Rybka 4.1 (taktisch viel stärker als 4.0, vergleichbare Statistiken zu den EXP Settings), auch gegen den Taktiker Critter oder den Taktiker Smarthink schaut es nicht so gut aus. Dafür deutlich bessere Ergebnisse gegen positionelle Engines. Die Settings sorgen auch dafür, dass gegen die schwächeren minimal mehr Punkte abgeben werden.

Stärken der PHQ:
Deutlich weniger schnelle Remispartien. Vielleicht ist hierfür der Paramater Feigheit verantwortlich. Der von mir gesetzte Parameter wirkt sich auch nur im Mittelspiel aus, dieses ist deutlich besser. Der Parameter von Stefan sorgt wahrscheinlich hauptsächlich für die deutliche höhere Dynamik und Risikobereitschaft.

Die Remisquote liegt daher bei der PHQ auch ca. 2% niedriger.
Der Spielstärkeunterschied wird sich kaum messen lassen, liegt zwischen 5-10 ELO zu Gunsten von PHQ. Das kann sich je nach Einsatz anderer Gegner auch wieder ändern. Halte das aber jetzt nicht für so wichtig. Wichtiger ist der Spielstil und der ist bei der PHQ spannender, mitreißender.

Übrigens, PHQ verlor auch 1x mit Matt in 26 Zügen.
Gibt nicht viele Engines die zu so einer Leistung in der Lage sind.
Meist erspielen so extrem kurze Gewinnpartien Spark und Hiarcs.
In diesem Fall war es ... Hiarcs

Gegenbeispiel:
Auch GullChess spielt ein extrem passives Mittelspiel.
Trifft auf PHQ und musste in einer Partie nach 28 Zügen ein Matt kassieren.
Naum spielt ein passives Mittelspiel, spielt positionell sehr gut aber passiv.

Klar, gegen Naum gab es einige Matts unter 56 Zügen.
Passivität wird bestraft, passiert nicht oft aber wenn ... ja dann sind es lt. SWCR Statistik zu 87% 6 taktische Programme die hierzu in der Lage sind.

Der PHQ Parameter könnte noch ein wenig verbessert werden.
Mehr Verlustpartien im frühen Endspiel als Standard.
Die Parameter Feigheit und Aggressivität könnten noch etwas heruntergeschraubt werden.
Vielleicht Aggressivität auf 130 und Feigheit minimal hoch auf 80.

Diese Parameter habe ich erfolgreich an drei Stellungen ausprobiert die bei PHQ zum Verlust führten.
Vielleicht kommt dann eine Steigerung von 20 ELO zu default dabei heraus.

Fest steht, Stockfish lässt sich tunen!
Veränderungen bei den Parametern zeigen deutliche Änderungen im Spielverhalten.
Die Basisspielstärke bleibt dabei wahrscheinlich erhalten ... wenn mit den Parametern nicht übertrieben wird.

Der Test läuft noch bis morgen Abend.
Die SWCR Datenbank wird dann wieder upgedatet.

Viele Grüße
Frank
Parent - - By Frank Quisinsky Date 2011-06-17 11:32
Hi,

meine Empfehlung wäre:
Bei extrem schnellen Partien alles Default belassen!
Bei normal Blitz, default.

Bei Analysen: PHQ, andere Parameter ausprobieren, siehe Posting.
Bei Partien mit längeren Bedenkzeiten ganz klar an der Parameterschraube drehen.

Taktisch stark Engines finden auch gute positionelle Züge, benötigen aber hierfür mehr Zeit.
Das wird fast aus jedem Test ersichtlich wenn eine Engine zu einer Gruppe eingeschätzt werden kann.

Beispiel:
Ipps erreichen 3-4% schnelle Gewinnpartien, Remisquote ist hoch, Partien werden im frühen Endspiel gewonnen. Wenige schnelle Verlustpartien. Nach den Eröffnungszügen überdurchschnittlich passiv.

Nun:
Längere Bedenkzeiten: Taktiker trifft auf IPPs ... beide gleich stark ... Ergebnis: Taktiker wird gewinnen.
Kurze Bedenkzeiten: IPPs erreichen bessere Ergebnisse.

Wir können das z. B. auch sehr gut mit Hannibal simulieren.
Aber nur dann wenn wir ca. gleich starke Engines gegen Hannibal ins Rennen schicken. Hannibal spielt taktisch stark und das Verhalten ist dann wieder gleich. Smarthink ist hier sehr extrem ... wahnsinnig gute Resultate gegen gleich starke Engines hinsichtlich taktisch orientieren Statistiken.

Je mehr Partien in der SWCR dazu kommen, je besser die Einschätzungen werden desto klarer wird die Aussage ...

Die positionell geprägten Engines sind besser im Blitz, die Taktiker besser bei längeren Bedenkzeiten.
Eigentlich sollte das eher umgekehrt sein, aber die schnelle Hardware die uns heute zur Verfügung steht ...
Die allgemeine Meinung hierzu, vor noch nicht so langer Zeit ... war genau anders herum!

Gruß
Frank
Parent - - By Frank Quisinsky Date 2011-06-17 22:14
Hallo,

ich finde SF PHQ übertreibt ein wenig
Nun musste auch Houdini die Taktik über sich ergehen lassen und wurde im wahrsten Sinne des Wortes an die Wand gespielt.
Es werden immer mehr kurze Gewinnpartien, auch Rybka musste dran glauben und wurde heute deutlich unter 56 Zügen bis zum Matt genagelt.

Hier die Gewinnpartie gegen Houdini!
Beachtenswert ist das Houdini viele der angriffslustigen Züge von SF gar nicht gesehen hat, die Bewertung immer deutlich drunter lag.

Event:
Ort:
Datum:

Weiss:
Schwarz:

Ergebnis
Board


Denke der Test hat sich voll gelohnt.
SF PHQ erreicht mit Abstand die besten Statistiken bei den Datenbankauswertungen.
Keine jemals gesteste SWCR engine kommt auch nur annähernd heran.

Da muss Allard seinem Spark aber kräftig aufmöbeln und hier Platz 1 wieder zurückzugewinnen!

Viele Grüß
Frank
Parent - - By Frank Quisinsky Date 2011-06-18 09:37 Edited 2011-06-18 09:40
Hallo,

der ELO Unterschied kurz vor dem Ende des Vergleiches hat sich seit geraumer Zeit zwischen +8 und +13 eingependelt, derzeit +11 für PHQ. Da dieses Setting wirklich hochinteressant ist, weil die PHQ Version atemberaubende Partien spielt, werde ich den direkten Vergleich, durch die beiden kommenden Spießroutenläufe, weiter auf je 1.280 Partien ausbauen. Normaler Weise teste ich keine Settings weiter, spiele mit den Standardeinstellungen bei kommenden Matches. Also hier eine Ausnahme ...

Heute am frühen Abend starten die beiden Spießroutenläufe für 2 Engine Updates:

1. Komodo 2.03 JA x64
2. Equinox 0.97e x64 (könnte sich in der SWCR direkt um 4 Plätze verbessern und die 2.700 ELO Marke knacken).

Beide spielen dann je gegen Stockfish 2.1.1 JA x64 und Stockfish 2.1.1 JA x64 PHQ. So kommen also 80 Partien beim Stockfish Vergleich hinzu. Gerade daher interessant, um zu sehen, wie sich Komodo 2.03 gegen das PHQ Setting schlägt. Nach den bisherigen Vergleichsergebnissen dürfte ein positionelles Programm gegen PHQ chancenlos sein bzw. sollte PHQ einige Punkte mehr holen. Schwierig, weil Komodo auch extrem verbessert wurde, meine schwierig das einzuschätzen, ferner sind für solche Einschätzungen 40 Partien natürlich nicht genug. Aber egal ...

Gruß
Frank
Parent - - By Thorsten Czub Date 2011-06-18 09:58
ist dieses PHQ setting irgendwo veröffentlicht oder ist es ein geheimes setting ?

ich habe da im moment ein setting von erdo, aber kann da noch keinen grossen unterschied
zum original stockfish erkennen.
Parent - - By Frank Quisinsky Date 2011-06-18 10:13 Edited 2011-06-18 10:23
Hallo Thorsten,

Du findest:

1. Die Settings hier im Forum
2. Auf meinen Webseiten im News-Ticker
3. Auf meinen Webseiten im Download Bereich (Shredder Konfigurationen, in die *.eng schauen).



Also ein bissel bemühen musst Du dich schon, machst Du ja auch ... bei den ganzen IPPs die Du testest bist Du sicherlich fit im Umgang bei der Suche nach einem Programm.

Gruß
Frank

Zu den Erdo Settings:
Mobility (Middle Game)=150
Mobility (Endgame)=150
Space=150

Mobility (Middle Game), Wert erhöhen, halte ich ja auch für absolut richtig. Wahrscheinlich werden hierdurch auch schnelle Remispartien abgelehnt. Durch mehr Mobilität kann Stockfish seine Stärke besser ausspielen. Habe den Wert aber nicht so hoch gesetzt, keine Ahnung ob so hoch wirklich gut ist. Versuch kann nicht schaden.

Mobility (Endgame), Wert erhöhen, halte ich für nicht korrekt. Wäre korrekt wenn Stockfish 5/6 Steiner könnte. Vielleicht wäre es gar besser (aufgrund der sehr hohen Basis-Endspielstärke) das Programm hier passiver einzustellen und mit dem Wert gar nach unten zu gehen, vielleicht auf 85. Gingen mir bei PHQ zu viele Partien spekulativ im frühen Endspiel verloren.

Space ... weiß nicht!

Würde ich nochmals ein Stockfish Setting in der SWCR testen dann ...

Mobility (Middle Game)=130
wie bei PHQ belassen

Mobility (Endgame)=85

Aggressiveness=150
minimal runter auf 130

Cowardice=75
minimal hoch auf 85

Glaube das sind richtig gute Settings die zum Spielstil von Stockfish passen!
Parent - - By Dieter Eberle Date 2011-06-18 12:04
Hallo zusammen,
auch Stefan Pohls Aggressiveness=150 ohne weitere Änderung ist ein ernstzunehmender Kandidat unter den Stockfish-Settings.
Gruß, Dieter
Parent - - By Frank Quisinsky Date 2011-06-18 12:12
Hallo Dieter,

ja, auf jeden Fall!
Die ausgewogenen Grundsettings (habe den Eindruck das diese sehr ausgewogen sind) in Kombi mit diesem alleinigen Setting von Stefan könnte die Spielstärke auch nach oben bringen. Vermutlich eher im Blitz ... vermutlich heit. Vielleicht müsste noch eine zweite Setting Kombination getestet werden aber wenn ich jetzt damit anfange kann ich den Rest der SWCR knicken

Kurz zu Fire:
Norman arbeitet an einem Update und hat einige Ideen. Wahrscheinlich wird da noch etwas kommen und insofern habe ich den Test von Deinem Setting zurückgeschoben. Wir müssten das irgendwie so händeln, das wenn die neue Fire Version verfügbar ist, diese wieder zeitgleich mit Deinem Setting getestet wird. Schieben wir diesen Test daher noch etwas auf.

In der Zwischenzeit läuft ab dem späten Abend dann:

1. Equinox 0.97e x64
2. Komodo 2.03 JA x64

Viele Grüße
Frank
Parent - - By Dieter Eberle Date 2011-06-18 12:23
Kein Problem, Frank,
wir können locker abwarten, was Norman und Kallahad zustandebringen.
Gruß, Dieter
Parent - - By Frank Quisinsky Date 2011-06-18 12:44 Edited 2011-06-18 12:51
Hi Dieter,

wobei Fire Nova ein based on ... Fire xTreme wird.
Die gehen Ihre eigenen Wege.
Hier entsteht also so etwas wie ein neuer IPP unter dem gleichen Namen!

Sofern ich Norman richtig verstanden habe.
Norman versucht selbst Fire xTreme weiter zu verbessern!

Weiß nicht ob Du das wusstest, die anderen wissen es jetzt nun auch
Viele Grüße und ein schönes WE.

Bin auf Beide gespannt!
Natürlich mehr auf die von Norman.
Es gab schon viele solcher Ankündigungen und nichts passierte (Nova).
Aber wer weiß ...

Und bevor ich ein Setting teste muss die vergleichbare Grundeinstellung in der Liste sein.
Das werden richtig viele Fire's ... muss da aufpassen.
Bei IvanHoe hatte ich das letztendlich gut im Griff.

Glaube Norman hat da selbst auch etwas gefunden. Die letzte verfügbare Fire Version schaut nach Verbesserungspotential aus.
Bei IvanHoe war ich mir nie so richtig sicher, die Verbesserungen waren sehr gering dafür das über 100 Versionen in kürzester Zeit von den vier die kompiliert hatten gekommen sind.

Gruß
Frank
Parent - By Dieter Eberle Date 2011-06-19 10:30
Hallo Frank,
es ist mir neu, dass Norman und Kallahad eigene Wege gehen. Beste Voraussetzungen haben sie ja. Ich bin sicher, dass das e1 Setting das Verbesserungspotential bei weitem nicht ausschöpft,
obwohl es nach wie vor sehr gute Ergebnisse erzielt. Die einzigen Match-Niederlagen gab es gegen Houdini.
Hier noch einmal Resultate:
                                  
1   Fire 1.5 xTreme x64p e1   +21  +13/=80/-7 53.00%   53.0/100
2   Fire 1.5 xTreme x64p RB   -21  +7/=80/-13 47.00%   47.0/100 (RB steht für RobboBases)
4 cores, ponder off, Bedenkzeit 2m+2s, KLO-50-Eröffnungen, beide mit 5-Steiner RobboTripleBases und RobboTotalBases
                                  
1   Fire 1.5 xTreme x64p e1        +35  +21/=68/-11 55.00%   55.0/100
2   Critter 1.01 64-bit SSE4 gtb   -35  +11/=68/-21 45.00%   45.0/100
4 cores, ponder off, Bedenkzeit 2m+2s, KLO-50-Eröffnungen, Fire mit 5-Steiner RobboTripleBases und RobboTotalBases, Critter mit 5-Steiner Gaviota tablebases
                      
1   Fire 1.5 xTreme x64p e1   +42  +37/=38/-25 56.00%   56.0/100
2   Komodo64 2.03 DC          -42  +25/=38/-37 44.00%   44.0/100
1 core, ponder off, Bedenkzeit 2m+2s, KLO-50-Eröffnungen, Fire mit 5-Steiner RobboTripleBases und RobboTotalBases

Gruß, Dieter

Parent - - By Ludwig Bürgin Date 2011-06-18 19:18
Hallo Frank

Habe Heute mal im Maschinenraum Dein Stockfish-Setting gespielt.
Bei 3 min. Partien ging es noch so leidlich.
Bei 16 min.Partien war nichts zu erreichen.
Was auffällt,die Bewertung zeigt  große Schwankungen.
Eine auffällige Verbesserung der Spielweise von Stockfish konnte ich nicht feststellen.
Denke schon,dass der Maschinenraum nicht der geeignete Ort ist,kleine Verbesserungen  zu sehen.

Danke Dir für die Bereitstellung des Settings.

Gruß Ludwig
Parent - By Frank Quisinsky Date 2011-06-18 19:44
Hallo Ludwig,

im Schnellschach würde ich auch eher zu den Default Werten greifen.
Aber die Statistiken der 1.200 gespielten Partien sind hinsichtlich überragendes Mittelspiel absolut eindeutig.
Da gibt es keinen Zweifel dass dieses Setting nicht zu mehr Dynamik führt.

Wenn also jede 12 Partien unter 56 Zügen bis zum Matt endet, heißt das nicht das dies auch im Maschinenraum passiert weil.
Die meisten der Kurzpartien werden natürlich gegen schwächere Gegnerschaft erzeugt.

z. B. gegen die TOP 10 gab es bei 400 Partien, keine 40 sondern ich glaube 8 waren es.
Und dennoch deutlich mehr als default.

Um diese Dinge zu sehen, müssen wirklich viele Partien vorliegen.

Aber für Analysen oder längere Partien eignet sich das Setting sehr gut, wobei es kommt ja auch immer darauf an was analysiert wird.

Würde eine Mittelspielanalyse natürlich nicht mit Houdini oder Rybka durchführen, eher mit Spark, Hiarcs, Junior oder Stockfish als auch Critter.
Die finden mehr.

Schön das Du Dich damit beschäftigst.
Stockfish zeigt durch das Setting ein anderes Gesicht und zu den Stellungsbewertungen ...
Habe ich beim Zusehen aber bei Default und bei PHQ beobachten können ... meine die von Dir angesprochenen Schwankungen.
Denke bei Stockfish auch normal.

Dir ein schönes WE.

Viele Grüße
Frank
Parent - - By Frank Quisinsky Date 2011-06-18 22:48 Edited 2011-06-18 22:56
Hi,

hier noch ein weiteres Stockfish PHQ Ergebnis:

Auf meinen beiden Test-Systemen lies ich die beiden Spießroutenläufe parallel mitlaufen (ohne Ponder, spiele auf den beiden Test Q9550 Systemen immer ohne Ponder).

Vergleichen wir die Resultate:

SF PHQ: 76,42% SWCR
SF PHQ: 76,68% ohne Ponder, gleiche Zeitkontrolle und sonstige Bedingungen

SF Default: 75,54% SWCR
SF Default: 75,54% ohne Ponder, gleiche Zeitkontrolle und sonstige Bedingungen
Exakt die gleiche Punktzahl aber mit minimal abweichenden Einzelergebnissen!

Da ich keine Liste ohne Ponder führe, können nur die erreichten Prozente verglichen werden.

Was waren nun Zufallstreffer bei den Einzelmatches:
PHQ gewann nach 40 Partien sehr hoch gegen Protector, bei Ponder = off ein normales ELO-Ergebnis.

Die Probleme gegen Critter, Rybka und Smarthink hatte auch die ponderlose PHQ Version.
Spark 1.0 x64 hat ohne Ponder gegen PHQ ein deutliches besseres Ergebnis erzielt.

Die Niederlagen von Default und PHQ gegen Houdini sind etwas höher ausgefallen (ponder = off).
Beide Versionen hatten gegen Junior ein deutliches besseres Resultat mit Ponder = off.
Dafür spielte Gullchess besser bei ponder = off, gegen beide SF Versionen.

Hat mich einfach mal interessiert, vielleicht den einen oder anderen hier auch?

Zusammengefasst liegen also 2.400 Partien je SF Version vor.
Durchschnittliches Ergebnis = + 12 ELO (anhand der Prozentzahl ermittelt, können auch 11 sein ... mein Gott nochmal).

Gruß
Frank

Ach ja ...
Remiquote unterschied bei Ponder = off, 3% mehr für Default
Kurze Gewinnpartien unter 56 Zügen, 5% weniger bei ponder = on im Vergleich zu Ponder = off bei PHQ, bei Default ca. gleich.
Also fast doppelt so viele kurze Gewinnpartien.
Kann ja selbst jeder anhand der SWCR Datenbank sehen.
Parent - By Frank Quisinsky Date 2011-06-18 23:03
Hi,

einer noch ...
Zeitüberschreitungen bei Stockfish ...

14 in den 2x 1.200 Partien der beiden SF Versionen mit Ponder = on
00 in den 2x 1.200 Partien der beiden SF Versionen mit Ponder = off

Genug SF, muss jetzt Equinox sehen

Gruß
Frank
Parent - By Benno Hartwig Date 2011-06-19 11:44
Ich habe die abschließenden Tabellen auch noch mal Excel vorgeworfen und ein paar Bilder generieren lassen.
Spielkind eben.

Die Erfolgsquoten in % beider Engines für die 30 Gegnerengines sind hier abgebildet:



Die Erfolgskurfen schlängeln sich um einander herum. Wer ggf. wo Vorteile hat ist nicht wirklich erkennbar.

Dann habe dich die Differenzen der Erfolgsquoten ausgeben lassen:



Draufgelegt habe ich die Polynom-Trendlinien 1. Grades (grün), 2. Grades (rot) und 3. Grades (schwarzgestrichelt).
Die grüne Kurve verrät, dass von PHQ tendenziell eher gegen die stärkeren Engines besser gepunktet werden konnte.
Die beiden legen nahe, dass dies vor allem gegen die Engines im oberen Mittelfeld gelang.

Benno
Parent - - By Benno Hartwig Date 2011-06-19 12:06
Interessant fand ich auch, gegen wen die engines nun eigentlich besonders ELO-Argumente einsammeln konnten:

Der default-Stockfish 2.1.1 konnte gegen die einzelnen Gegner folgende ELO-Marken erreichen:



und der PHQ-Stockfish 2.1.1 sah folgendermaßen aus:



Jeweils mit linearer Trendlinie und der Parabel-Trendlinie.

Hier fällt ins Auge, dass beide Engines vor allem gegen die schwächeren Gegner ELO-Sammeln konnten.
Und mir stellt sich die Frage "Geht dies allen Engines so?"
*  Punkten die Engines gegen Gegner, denen sie sehr überlegen sind, stärker, als es ihrer ELO-Differenz entspricht?
*  Verlieren sie gegen sehr überlegene Gegner deutlicher, als es der ELO-Differenz entspricht?
*  Gehen Spiele gegen annähernd gleichstarke Gegner remislicher aus, als es den immerhin vorhandenen ELO-Differenzen entspricht?


Die Differenzen der jeweils erspielten ELO-Ratings ergeben übrigens folgendes Bild: (jeweils SF211PHQ - SF211)



Thanx, Frank, für deine Testreihen.
Dafür dass SF211 nun dabei ist. Ich finde, diese Version verdient schon eine  eigene Hausnummer.
Und auch für das 'kleine Experiment', welches auch vor Augen führte, wie leicht man ggf. schon nach ca. 300 Partien glauben möchte, einigermaßen verlässliche Werte zu haben. Und sie zeichneten dann doch noch ein ziemlich falsches Bild, wie das Endergebnis belegte.

Benno
Parent - By Frank Quisinsky Date 2011-06-19 17:23
Hi Benno,

danke für Deine Statistiken.
Schwierig zu deuten und Deine Fragen sind zumindest von meiner Seite auch nicht eindeutig zu beantworten.
Bin oft selbst hin- und hergerissen wenn ich auf meine Statistiken schaue.

Einiges kann schon ausgesagt werden aber letztendlich ist die Basis für Spekulationen immer noch sehr groß wenn Engines verglichen werden.
Wir sind nun mal alle keine GMs und selbst die würden sicherlich bei diesen Spielstärken auch schon fast passen müssen, es sei denn die wenigen Ausnahmetalente die wir haben und vielleicht noch etwas begründen könnten.

Ja, nach ca. 250 Partien lag PHQ glaube ich 30 ELO vor Default. Das hat sich reguliert und dann ca. nach 600 Partien eingespielt.
Default spielte sehr konstant, PHQ zwar im Grunde auch aber die Kurven gingen mehr auf und ab.
Was aber auch die Regel ist wenn Taktiker einen Spießroutenlauf spielen.
Gibt immer mal eine gute und eine schlechte Serie.

Beim Spießroutenlauf selbst hatte Default 3 sehr gute Serien und startete offenbar schlecht. PHQ startete gut und hatte dann eine sehr schlechte Serie und eine gute Serie. Die schlechte ca. von Partiennummer 300-500 verteilt. Bei den Spießroutenläufen ohne Ponder war es übrigens gleich. Auch hier startete PHQ nach 300 Partien mit + 20!

Also, die ganzen ELO-Statistikkurven sind wirklich verschieden. Abzulesen wäre maximal das mehr Schwankungen bei den Taktikern drin sind. Ausnahme war Komodo 1.3 beim letzten Test, siehe mein News-Ticker, die Tabelle zur ELO-Entwicklung, glaube Beitrag 171. Aber auch diese Aussage ist mit Vorsicht zu genießen!

Interessanter eher die speziellen Statistiken zum Spielverhalten in Kombination mit Remisquote, Dauer der Partie oder die sehr aufwendigen Statistiken zu verbliebenen Figuren auf dem Brett.

Z. B. welche Engine punktet in ausgeglichener Stellung besser wenn keine Türme mehr auf dem Brett sind.
Etc..

Sehr aufwendig zu erstellen.
Sagte ja, wir benötigen eine GUI, die eine Datenbank einliest und dann vorgefertigte Statistiken einfach auswertet.
Das fehlt uns und wir könnten auch zukünftig Programme die ca. 1.000 ELO stärker spielen als gute Vereinsspieler besser einschätzen.
Ansonsten ist das alles sehr sehr viel Arbeit ...

Gruß
Frank
Parent - - By Frank Quisinsky Date 2011-06-19 18:00 Edited 2011-06-19 18:03
Hi Benno,

vielleicht haben wir das falsche Setting getestet.
Aufgrund ein paar Partieanalysen und Stellungs-Testen habe ich das Setting verändert.

PHQ-2
Mobility (Middle Game)=115
Mobility (Endgame)=85
Aggressiveness=135
Cowardice=85

Auf meinen beiden Testsystem ohne Ponder lasse ich gerade 40 in 5 spielen.
Gerade wurde Partienummer 450 erreicht und das Ergebnis ist ...

+ 25 zu 2.1.1 default !!
Geht auf die 2.970 ELO hoch, schätze ich ... steigt müssten derzeit 2.962 sein!

Bin am überlegen ob ich noch einen SWCR Spießroutenlauf starte ...
Um das genauer zu messen!

Gruß
Frank
Parent - - By Frank Quisinsky Date 2011-06-19 18:31
Witzig und die Taktik geht wirklich wie nach den Einstellungen etwas zurück.
Bislang keine Verlustpartie unter 56 Zügen, aber auch deutlich weniger Gewinnpartien, 6,4 anstatt 8,0 ... bei default waren es ca. 4.2%

Könnte der optimale Mix sein ...
Tja, testen oder nicht!
Stehen so viele andere Dinge an!
Parent - - By Frank Quisinsky Date 2011-06-19 19:14
Test abgeschlossen mit 500 Partien.
Reicht!

Bringe ich die Partien in die SWCR sind es 2.957 ELO, also nochmals 12 ELO drauf, insgesamt zu default ca. 20 ELO mehr.
Könnte testen und sofern PHQ-1 ein besseres Ergebnis PHQ-1 in der Liste belassen, sofern PHQ-2 ein besseres Ergebnis die Ergebnisse von PHQ-1 raus nehmen, sonst verzerrt das die Liste, zu viele Versionen von einem Programm. Die Frage ist ob sich das alles lohnt, denn diese ganzen Parameter Einstellungen könnten mit einer neuen Version schon wieder hinfällig sein und die Prozedur geht von vorne los.

Endlosschleife!

Gruß
Frank
Parent - - By Thorsten Czub Date 2011-06-20 09:21
Parent - - By Benno Hartwig Date 2011-06-20 12:42 Edited 2011-06-20 12:50
[quote="Thorsten Czub"]also bei mir ist der phq bislang hinter dem default...
http://schachcomputerwelt.foren-city.de/topic,344,30,-kleine-turniere-intel-t7600-2x-2-33-ghz.html#2037[/quote]Genau wie in Franks Turnier ist doch alles sehr dicht beieinander.
Bislang bleibe ich bei "ca. gleich stark". Und leichte Schwankungen sind reiner Zufall.
(Vielleicht überraschend genug, dass dieses nur spontane, recht kräftige, dreifache Schraubendrehen die Spielstärke nicht total in den Keller brachte!
Und das insbesondere wenn man liest, wie gravierend sich laut Franks Beschreibungen der Spielstil tatsächlich geändert hat)

Benno

PS:
Du hast Stockfish 2.1 und 2.1.1 im Rennen.
Werden diesen beiden Versionen denn tatsächlich so unterschiedliche Spieleigenschaften zugetraut, dass sich dieser doppelte Start lohnt?
Gibt es da schon Erfahrungen von anderen?
Parent - - By Ingo Bauer Date 2011-06-20 14:56
Hi Benno

[quote="Benno Hartwig"]
...
Du hast Stockfish 2.1 und 2.1.1 im Rennen.
Werden diesen beiden Versionen denn tatsächlich so unterschiedliche Spieleigenschaften zugetraut, dass sich dieser doppelte Start lohnt?
...
[/quote]

Hier mal das was die Autoren auf ihrer Webseite dazu sagen:

This is a maintenance release to fix the book reading issue reported by some users. As an added benefit, Jim's build should be now a little faster on Intel CPU (4% on 64-bit and almost 6% on 32-bit).

This is a non functional change release so there is no need to retest Stockfish for people who have already done so; for people who still to test we suggest to use this one because it should be a bit faster on Intel hardware.


Also ein "Buchfehler" gefixt und vielleicht 4% schneller. Ich habe die Version bei mir auch voll eingespielt, aus Langeweile, und kam auf 10 Elo Differenz. Das ist alles nur Rauschen! Das Problem ist nur, das man mit zuviel Stockfish, Rybka, Litto ... eine Liste verzerrt. Deswegen habe ich die 2.1er Version komplett aus meiner Liste gelöscht.

Gruß
Ingo
Parent - By Thorsten Czub Date 2011-06-20 21:29
[quote="Ingo Bauer"]
Hi Benno

[quote="Benno Hartwig"]
...
Du hast Stockfish 2.1 und 2.1.1 im Rennen.
Werden diesen beiden Versionen denn tatsächlich so unterschiedliche Spieleigenschaften zugetraut, dass sich dieser doppelte Start lohnt?
...
[/quote]

Hier mal das was die Autoren auf ihrer Webseite dazu sagen:

This is a maintenance release to fix the book reading issue reported by some users. As an added benefit, Jim's build should be now a little faster on Intel CPU (4% on 64-bit and almost 6% on 32-bit).

This is a non functional change release so there is no need to retest Stockfish for people who have already done so; for people who still to test we suggest to use this one because it should be a bit faster on Intel hardware.


Also ein "Buchfehler" gefixt und vielleicht 4% schneller. Ich habe die Version bei mir auch voll eingespielt, aus Langeweile, und kam auf 10 Elo Differenz. Das ist alles nur Rauschen! Das Problem ist nur, das man mit zuviel Stockfish, Rybka, Litto ... eine Liste verzerrt. Deswegen habe ich die 2.1er Version komplett aus meiner Liste gelöscht.

Gruß
Ingo
[/quote]

mag sein. aber das kann man ja noch im nachhinein machen. rausnehmen, einfuegen etc.
ist mit arena ja nur ein eine sekundensache.
Parent - - By Frank Quisinsky Date 2011-06-20 17:12
66,0/89   =0=   0=1   =10   11    ==    00    10=   =0    ==    0=    1=1   11    10    ==    =

Mein Gott Thorsten,

so viele Verlustpartien hat weder SF noch SF PHQ nach 150 Partien nicht verloren, wie ich bei diesem kleinen Auszug sehe.
Ich muss eine Spezial Version von SF 2.1.1 haben

Sein mir nicht böse aber Deine Ergebnisse schauten immer etwas verdreht aus.
9x verloren bei 34 Partien ?????

Um das zu reproduzieren muss ich wahrscheinlich 1.000 Jahre alt werden

Gruß
Frank
Hidden post (unapproved)
Parent - - By Thorsten Czub Date 2011-06-20 21:32
[quote="Frank Quisinsky"]
66,0/89   =0=   0=1   =10   11    ==    00    10=   =0    ==    0=    1=1   11    10    ==    =

Mein Gott Thorsten,

so viele Verlustpartien hat weder SF noch SF PHQ nach 150 Partien nicht verloren, wie ich bei diesem kleinen Auszug sehe.
Ich muss eine Spezial Version von SF 2.1.1 haben

Sein mir nicht böse aber Deine Ergebnisse schauten immer etwas verdreht aus.
9x verloren bei 34 Partien ?????

Um das zu reproduzieren muss ich wahrscheinlich 1.000 Jahre alt werden

Gruß
Frank
[/quote]

und was meinst du kann ich dafuer oder dagegen machen das stockfish verliert ?
soll ich eine Kerze anzuenden während der Computer arbeitet ? oder lavendel
Duft verspruehen ? braucht man nur die richtigen Chakkren ?
Oder muss man jodeln während des durchlaufs ?
Fragen ueber Fragen.
Parent - By Benno Hartwig Date 2011-06-21 08:05
[quote="Thorsten Czub"]und was meinst du kann ich dafuer oder dagegen machen das stockfish verliert ?
soll ich eine Kerze anzuenden während der Computer arbeitet ? oder lavendel
Duft verspruehen ? braucht man nur die richtigen Chakkren ?
Oder muss man jodeln während des durchlaufs ?
Fragen ueber Fragen.[/quote]Interessante Fragen.
Was könnte jemand machen, der möchte, dass eine bestimmte Engine in einem Turnier schlecht aussieht. Was könnte unbeabsichtig geschenen?
(Nein, das unterstelle ich nicht, und glaube auch nicht, dass dies unbeabsichtigt passiert, wenngleich sowas natürlich nicht wirklich ausgeschlossen ist.)
*  Die Engine läuft noch mit falschen Parametern (Übrigbleibsel aus früheren Tests. Unmöglich?)
*  Sie hantiert mit dem falschen Buch
*  Sie läuft mit gravierend weniger Hash
*  im Gegensatz zu anderen spielt sie ohne Tablebases
*  Die Gegner pondern, sie selbst nicht (Ggf. besonders lustig, wenn die Engines nicht eigene Prozessorkerne haben)
Noch mehr Ideen?
(Und wie sich Jodeln und Lavendelversprühen dann darüber hinaus auswirken, musst du bitte selbst ausprobieren )

Benno
Parent - - By Benno Hartwig Date 2011-06-21 08:28
[quote="Thorsten Czub"]also bei mir ist der phq bislang hinter dem default...[/quote]Noch zwei Gedanken zu Testläufen über 90 Partien (aktueller Stand der Stockfische in deinem Test)

1)
Nach 90 Partien wird von zwei gleichstarke Engines mit Wahrscheinlichkeit 0,37 (immerhin!!) eine der beiden einen Vorsprung von mindestens 7 Punkten haben!
(dabei habe ich mal 0,4 als Remis-Wahrscheinlichkeit angenommen)

2)
Bei gleichstarken Engines A und B kommt der Ausgang 48,5:41,5 für Engine A mit Wahrscheinichkeit 0,0345.
Ist A tatsächlich mit Gewinnerwartung 48,5:90=0,539 überlegen, so ist die Wahrscheinlichkeit für Ausgang 48,5:41,5 für A auch nur vergleichsweise schlappe 0,0545.
Übrigens kann eine in dieser Weise schwächere Engine B solch einen 48,5:41,5-Vorsprung auch erreichen, und zwar mit Wahrscheinlichkeit 0,0088 (immerhin).
So richtig dolle unterscheiden sich diese 3 Wahrscheinlichkeiten bei 90 Spielen noch nicht, sodass eine Entscheidung für eine der Thesen
"A hat 0,539-Überlegenheit", "A und B sind gleichstark" und eigentlich auch noch "B hat 0,539-Überlegenheit" noch reichlich wackelig ist.

Fazit aus meiner Sicht:
Einen richtig deutlichen Hinweis darauf, dass A stärker ist, vermag ein 48,5:41:5 nicht zu geben.

Benno
Parent - - By Thorsten Czub Date 2011-06-21 11:51
im moment ist der punktunterschied zwischen den 2 stockfish versionen:
16: Stockfish-211-64-ja [t1]     95,0/118     6994,5
19: Stockfish-211-64-ja [t1_PHQ] 88,5/118  6327,5

ob sich der abstand verringert oder vergrössert werde ich ja sehen.

eine manipulation der engines weise ich von mir. welches motiv sollte ich haben irgendwelche engines
negativ oder positiv zu manipulieren. Ihr habt wohl zuviele Krimis gelesen.
Parent - - By Benno Hartwig Date 2011-06-21 13:15
[quote="Thorsten Czub"]eine manipulation der engines weise ich von mir.[/quote]Klar. Sorry, unterstelle ich auch nicht!
Aber die Frage "Wie könnte man überhaupt..." kam zunächst mal (scherzhaft) von dir.

Wenn jemand Ergebnisse präsentiert, die sich deutlich von anderen unterscheiden, dann darf man aber meiner Meinung nach schon nach Ursachen fragen.
Reiner Zufall ist prinzipiell immer möglich, wenngleich manchmal eben nicht wahrscheinlich.
Und irgendein Fehler (der vergessene Parameter, der verstellt wurde) erscheint mir tatsächlich gar nicht so unmöglich.
Und über die anderen Punkte, die ich erwähnte sollte man wenigstens kurz mal nachdenken, finde ich.
(und natürlich nicht nur du, sondern jeder, der Ratings produziert, die vergleichen werden.)

[quote="Thorsten Czub"]im moment ist der punktunterschied zwischen den 2 stockfish versionen:
16: Stockfish-211-64-ja [t1]     95,0/118     6994,5
19: Stockfish-211-64-ja [t1_PHQ] 88,5/118  6327,5[/quote]Gleichstarke Gegner liefern übrigens bei 118 Spielen einen Sieger mit mindestens einem Vorsprung von 6,5 Punkten mit der Wahrscheinlichkeit 0,44.

Benno
Parent - - By Frank Quisinsky Date 2011-06-21 17:01
Hallo Benno,

ich denke Thorsten möchte etwas nachweisen !!
PHQ ist schlechter

Dieses Spielchen hat er früher schon betrieben, ob in Ruffian Zeiten in Gandalf Zeiten oder auch in Arena Zeiten.
Wie schlecht doch Ruffian, Gandalf oder Arena ist.

Keine Ahnung warum er das macht, er wird seine Gründe haben.

Persönlich ist es mir nur Recht wenn wirklich nachgewiesen werden kann, dass PHQ schlechter ist. Ich kann es nicht sehen bzw. nur im Extrem Blitz. Aber das ist logisch weil je mehr Taktik desto schlechter im Blitz.

Vielleicht werde ich doch noch das PHQ-2 Setting testen. Wenn diese Zwischenlösung (Einstellungen zwischen Default und PHQ-1) schlechter abschneidet, muss im Umkehrschluss dann noch mehr Taktik noch besser abschneiden. PHQ-2 zu PHQ-1 ... Taktik wurde etwas herausgenommen.

Dieser Test wäre noch wichtig um wie gesagt festzustellen das ...

1. Führt mehr Taktik zu ca. 10 ELO mehr?
Wenn Ja ...
Dann möchte noch mehr Taktik zu noch mehr ELO führen.

2. Führen die etwas heruntergedrehten PHQ-1 Settings (jetzt PHQ-2) zu einer höheren ELO als PHQ-1 ... dann wissen wir, die Einstellungen waren zu aggressiv (meine Vermutung).

Also, lange Rede ...
Mit dem Test von PHQ-2 lassen sich im Grunde alle Fragen zu diesem Setting beantworten und gar im Umkehrschluss können wir folgern wie eine taktisch starke Engine, sich überhaupt verhält wenn diese noch spekulativer eingestellt wird.

Viele neue Erkenntnisse ... obwohl ich denke ich kann das Ergebnis vorhersagen
PHQ-2 wird 10 ELO besser punkten und ca. 20 ELO vor Stockfish default landen

Gruß
Frank
Parent - - By Benno Hartwig Date 2011-06-21 19:09 Edited 2011-06-21 19:12
[quote="Frank Quisinsky"]ich denke Thorsten möchte etwas nachweisen !!
PHQ ist schlechter [/quote]Ich will gar nicht spekulieren, welches Ergebnis ihm gefallen würde.
Absichtliches Verfälschen unterstelle und vermute ich aber nicht. Natürlich nicht.
Ich vermute, die Spielstärkeunterschiede zwischen Default und PHQ sind auch so gering, dass selbst deine 1200 Partien nicht befriedigend verlässliche Aussagen zum 'Ist eine Engine stärker' gestatten. Und Thorstens knapp oder inzwischen gut 100 schon gar nicht.
Benno
Parent - By Frank Quisinsky Date 2011-06-21 19:17 Edited 2011-06-21 19:20
Hi Benno,

Du vergißt, es sind 2.400 Partien pro Engine!
Wenn Du willst lade ich die restlichen 2.400 von default und PHQ auch noch hoch (sind aber ohne Ponder).

Aber selbst bei 2.400 Partien sind 10 ELO sehr sehr wenig, da hast Du natürlich Recht.

Bei der SWCR sind es übrigens nicht 1.200 sondern 1.240 ... Andrea hat beide gegen eine ältere IvanHoe Version spielen lassen.
Hinzu kommen jetzt für beide die 40 Partien gegen Equinox und Komodo ... wären ja auch schon 1.320 in der SWCR.
Wie gesagt insgsamt dann für beide gar 2.520!

Haben wir 5.000 können wir sagen ... reicht auch nicht um 10 ELO nachzuweisen.
Die durchschnittliche Abweichung von 1.000 auf 2.000 Partien beträgt in der SWCR bei den Engines die logischer Weise schon über 2.000 Partien gespielt haben 0.7 ELO.

Die 0.7 ELO sind mit der Datenbank (Partien haben ein Datum) sehr schnell selbst zu errechnen.
Alles keine Zauberei, Daten liegen offen!

Gruß
Frank
Parent - - By Thorsten Czub Date 2011-06-21 21:56
[quote="Frank Quisinsky"]
Hallo Benno,

ich denke Thorsten möchte etwas nachweisen !!



nö.

ich pack eine engine in ein turnier. mehr nicht.
warum sollte ich ein interesse haben nachzuweisen das xzy [xyz] stärker oder schwächer sei?
ich schmeiss die alle in ein turnier und beobachte was passiert.

Zitat:

PHQ ist schlechter

Dieses Spielchen hat er früher schon betrieben, ob in Ruffian Zeiten in Gandalf Zeiten oder auch in Arena Zeiten.
Wie schlecht doch Ruffian, Gandalf oder Arena ist.


da ist kein "Spielchen".
was fuer ein spielchen ?

und ich kann mich auch nicht entsinnen das ich gandalf kritisiert habe.
soweit ich mich in erinnerung habe, habe ich von gandalf immer geschwärmt.

setz mal hier keine märchen in die welt.
Parent - By Frank Quisinsky Date 2011-06-21 22:43
Hi Thorsten,

also sofern ich mich erinnere was Du schon alles für ein Unsinn veröffentlicht hast bist Du doch der Märchenerzähler.

Aber egal ...
Habe auch keine Lust auf derartige Diskussionen, hält mich nur unnötig auf.

Dennoch Dir einen schönen Abend!

Gruß
Frank
Up Topic Hauptforen / CSS-Forum / Stockfish PHQ: Abschließende Betrachtung

Powered by mwForum 2.29.3 © 1999-2014 Markus Wichitill