Not logged inCSS-Forum
Forum CSS-Online Help Search Login
CSS-Shop Impressum Datenschutz
Up Topic Hauptforen / CSS-Forum / Neue Eröffnungs-Vorgabe für niedrigere Remisquoten
- - By Stefan Pohl Date 2014-10-18 07:41
Hallo zusammen,

im letzten Monat haben Hauke Lutz und meine Wenigkeit 2 neue Eröffnungs-Datenbanken entwickelt, die die Remisquote in Engine-Engine Matches reduzieren sollen, ohne die Ergebnisse zu verzerren. Wir nennen sie SALC-Sets (Short and Long Castling). In allen Stellungen haben Weiß und Schwarz auf die gegenüberliegende Seite rochiert.
Die SALC-Sets können ab sofort auf meiner Website heruntergeladen werden und ich benutze sie ab sofort für meine Tests.

http://spcc.beepworld.de

Ich hänge hier das dazugehörige ReadMe-File an, in dem ich alles ausführlich erläutere (sowohl Idee als auch die Realisierung).

Stefan

This folder contains 2 PGN-databases and 2 EPD-databases:
- 10moves_SALC_500.pgn = 500 opening positions, well edited and mixed for serious testwork.
- 12moves_SALC_10k.pgn = 10000 opening positions for big tournaments or randomized opening selection.

- 10moves_SALC_500.epd and 12moves_SALC_10k.epd: Same (final) positions as in the .pgn-files but as EPD (final
board-positions only, without moves).
Use that files, when you use the LittleBlitzerGUI for testing, because the LittleBlitzerGUI has an
en-passant-bug (captured en-passant-pawns are not deleted by the LittleBlitzerGUI, if an en-passant-move
appears in the moves of the opening-PGN file (!!!))

Goal: Reduce the draw rate in engine-engine matches/testruns/tournaments (castling to opposite directions
with queens still on the board makes nice king-attacks possible...), because the faster the computers get,
the higher the quality of computerchess get and the higher the draw-rate in engine-engine-matches get...so
the computerchess is in danger to die the "draw-death" in the near future.
But we didnt want to go the simple way of using strange gambit-openings or positions with great (material)
imbalance. Take a look a the working steps-protocol below, where you can see, which filter-methods Hauke Lutz
used, in order to get only (nearly) balanced positions.

Idea and testwork/verification: Stefan Pohl
All work (editing, sorting) done by Hauke Lutz (using PGNscanner 0.92 (a really nice tool by Gabriel
Guillory) and EXCEL)

All games taken from Adam Hair's 12-moves-PGN openings database and his 10-moves-PGN openings-database.

So a big THANX to Adam Hair and Gabriel Guillory!!!

Here the protocol of the working steps:

Step 1 (by Stefan Pohl using the FritzGUI): Filter all games, where (at move 12 / 10) both sides still
have a queen and both sides castled to opposite directions.

= 17665 positions (12 moves deep) (out of 397457 games)
= 4602 positions (10 moves deep) (out of 199041 games)

Working steps 2-10 by Hauke Lutz (PGNscanner: thinking-time/position: 5 seconds (singlecore,
4.5 GHz (i7-4930k, Fritzmark 3367)):

Step 2: Checked both databases for duplicate games with the PGNscanner. Found nothing (nice work, Adam Hair!)

Step 3: Checked the 12moves-database with Komodo 8 (using PGNscanner (eval-interval of +/-0.50)) and deleted
all games with an evaluation outside the eval-interval.

Step 4: Deleted some games of the 12moves-database with ECO-code B and some games with white long castlings
for a better balance. Reduced the number of games to 10000. Used EXCEL for this.

Step 5: Mixed the games of the 12moves-database (by hand) by the castling-direction (we didnt want
some thousand games with white long castlings in a row followed by some thousand games with white short
castlings...)

Step 6: Checked the 10moves-database with Komodo 8, Houdini 4, Gull 3 (using PGNscanner (eval-interval
of +/-0.40)) and deleted all games if one engine-evaluation was outside the eval-interval.

Step 7: Checked the 10moves-database with Komodo 8 and Stockfish 5 (using PGNscanner (eval-interval
of +/-0.20)) and deleted all games if one engine-evaluation was inside the eval-interval, because we didnt
want positions which are too drawish.

Step 8: Counted/Analyzed the ECO-codes of the 10moves-database with EXCEL and deleted some ECO B+C positions
for a better ECO-code balance (and reduced the number of games/positions to 500).

Step 9: Mixed the 10moves-database (by hand) for a (nearly) uniform mixture of ECO-codes for better results,
if only a part of the database is used for an engine-testrun.

Step 10: 5 Bullet-testruns (singlecore, 20''+200ms, Stockfish 5 against Gull 3), using the complete 500
positions of the 10moves-database, and mixed the 10moves-database a second time, based on the
testrun-results (in 50 positions-blocks).

Step 11 (by Stefan Pohl): Changed the results of all games in the PGN-files to 1/2-1/2, deleted all
annotations (created by the PGNscanner) and created the EPD-files for using the SALC-openings in the
LittleBlitzerGUI.

A final gauntlet-testrun (singlecore, 70''+700ms) of Stockfish 140928 (1000 games against Houdini 4,
Komodo 7a, Gull 3, Fire 3 and Rybka 4.1 (=5000 games)) using the 10moves_500_SALC opening-positions-set
lowered the draw-rate down to 39.0% (original testrun (same conditions but using a "normal"
opening-positions-set (fq500n.pgn) with 500 positions) had a draw-rate of 47.9%.
So the number of draws was more than 18.5% lower with the SALC-set (!). And the overall score of Stockfish
was nearly the same (SALC-set: 1% lower (-7 Elo) = clearly inside the errorbars). And the aggressive
playing Stockfish-engine did not benefit from the SALC-positions (we were not sure about that...).
So the goal of the creation of the SALC-opening-positions-set was reached: a significant lower draw-rate,
while keeping the overall score nearly the same.
And - as a nice side effect - the testrun with the 10moves_500_SALC opening-positions-set took only 93 hours,
instead of the 100 hours, which the testrun with the "normal" opening-positions-set (fq500n.pgn) took.
That means around 7% less time- and power-consumption for the same number of played games...And all games
were adjusted as draw at move 120. With all games played to the end (technical draw), the timesaving would be
definitly higher (around 10%, we guess)...

Enjoy this next step of chess-engine matchplay and testwork. Less draws, more spectacular games/mates,
without distorting the test-results and scores !
Parent - - By Peter Martan Date 2014-10-18 08:19
Hab ich das richtig verstanden, dass die Evalrange für 12 Züger -20 bis -50 bzw. +20 bis +50 cp sein soll und die für die 10 Züger um 10 cp mehr, was die Außengrenzen angeht, es aber jedenfalls nix zwischen - und + 20 drin haben soll?
Parent - - By Stefan Pohl Date 2014-10-18 08:27
Peter Martan schrieb:

Hab ich das richtig verstanden, dass die Evalrange für 12 Züger -20 bis -50 bzw. +20 bis +50 cp sein soll und die für die 10 Züger um 10 cp mehr, was die Außengrenzen angeht, es aber jedenfalls nix zwischen - und + 20 drin haben soll?


Nein.

Die 12-Züger wurden nur darauf gecheckt, daß nichts ausserhalb von +/-0.50 liegt. Alles von [-0,5 bis +0.5] war erlaubt. Sonst wären zu viele Stellungen rausgeflogen. Wir wollten wenigstens 10000 Stellungen erhalten.

Die 10-Züger darauf, daß nichts außerhalb von +/- 0.40 liegt und nichts innerhalb von +/- 0.20. Also [-0.4 bis -0,2] und [+0.2 bis +0.4] war erlaubt.

Stefan
Parent - - By Peter Martan Date 2014-10-18 08:34 Edited 2014-10-18 08:37
Aha. Zwar verstehe ich nicht wirklich, warum eine Stellung 2 Züge später näher dem Ausgleich des Anzugsvorteils sein darf als 2 Züge früher (zumindest zwischen 10 und 12 nicht, zwischen z.B. 6 und 8 noch eher), aber dass du nicht zu wenige Stellungen haben willst, ist natürlich auch klar.
Jedenfalls ein guter Ansatz für mich, Stefan, danke für die viele Arbeit, auch an Hauke Lutz, Adam Hair und Gabriel Guillory!
Parent - - By Stefan Pohl Date 2014-10-18 12:46
Peter Martan schrieb:

Aha. Zwar verstehe ich nicht wirklich, warum eine Stellung 2 Züge später näher dem Ausgleich des Anzugsvorteils sein darf als 2 Züge früher (zumindest zwischen 10 und 12 nicht, zwischen z.B. 6 und 8 noch eher), aber dass du nicht zu wenige Stellungen haben willst, ist natürlich auch klar.
Jedenfalls ein guter Ansatz für mich, Stefan, danke für die viele Arbeit, auch an Hauke Lutz, Adam Hair und Gabriel Guillory!


Die 12er Datenbank sollte groß sein und bleiben und ist nicht so streng editiert und nicht so gut durchmischt. Mehr so eine More-Fun Datenbank für zufällige Stellungswahl oder große Turniere, wo auch mal merkwürdigeres gespielt werden kann.

Die 10er Datenbank enthält nur 500 Stellungen und ist mit viel mehr Aufwand erstellt, editiert, gemischt worden und ist für seriöse Testreihen gedacht, die in einer Einzelbegegnung 1000 Partien nicht überschreiten.

Stefan
Parent - - By Peter Martan Date 2014-10-18 12:57 Edited 2014-10-18 13:10
Schon gut, Stefan, ist ja dein Baby.
Ich persönlich hätte ruhig die 10er Datenbank auf -50 bis -20 und 20-50 eingestellt, oder auch ruhig 12er- Längen hineingenommen, wenn's sonst zu wenige Stellungen geworden wären, aber wie ich dir schon im CCC- thread geschrieben habe, ich bin ja bekanntlich diesbezüglich Extremist. Die Einwände von Uri Blass scheinen mir nicht schlüssig, weil deshalb, weil man bestimmte engines (sind ja auch immerhin nicht irgendwelche und es ist nicht nur eine) zum Evaluieren nimmt, heißt das ja nicht, dass die Stellungen, die da von denen mit bestimmten numerischen Evals bewertet werden, diesen engines besser oder schlechter liegen beim Ausspielen gegen die anderen engines, nicht mehr oder weniger als wenn die Evals andere wären oder die engines. Irgendein konkretes Maß anzulegen und sich darüber im Klaren zu sein, was es für eines ist, halte ich allemal für besser, als so zu tun, als spielte das alles keine Rolle aber dann erst recht ein großes Geheimnis aus dem Testset machen zu müssen, weil es klein ist und die Autoren zu internen Büchern oder Anlassprogrammierung verleiten könnte.
Ist es groß und bunt genug, kann's ruhig öffentlich sein, finde ich, und es hat den großen Vorteil, dass man dann auch die Partien dazu veröffentlichen kann.
http://www.talkchess.com/forum/viewtopic.php?topic_view=threads&p=593039&t=54078
Parent - - By Peter Martan Date 2014-10-18 19:53 Edited 2014-10-18 19:56
Parent - - By Michael Scheidl Date 2014-10-18 20:08
Wie wär's jetzt mit einem praktischen Vergleichstest? Zum Beispiel

A) mit gewöhnlichem Buch ohne Seitenwechsel-Wiederholung (die Dosis Praxischaos)
B) mit 10moves_SALC und Seitenwechsel-Wiederholung (der Laborstandard)


Der Rest wäre egal sofern es solide vernünftige Bedingungen sind, vorzugsweise je ein paar Hundert Partien.
Parent - By Peter Martan Date 2014-10-18 20:15
Ich habe Stefan so verstanden, dass er bereits ganz gute Daten hat im Vergleich zu seiner bisherigen Rangliste.
Parent - By Stefan Pohl Date 2014-10-18 20:22
Michael Scheidl schrieb:

Wie wär's jetzt mit einem praktischen Vergleichstest? Zum Beispiel

A) mit gewöhnlichem Buch ohne Seitenwechsel-Wiederholung (die Dosis Praxischaos)
B) mit 10moves_SALC und Seitenwechsel-Wiederholung (der Laborstandard)


Der Rest wäre egal sofern es solide vernünftige Bedingungen sind, vorzugsweise je ein paar Hundert Partien.


Nur zu!
Ich bin für jedwede Rückmeldung dankbar. Für A würde ich allerdings eher irgendein anderes, normales Eröffnungsvorgabeset anstatt eines Buches empfehlen. Dann hättest du in beiden Fällen Laborstandard.

Stefan
Parent - - By Stefan Pohl Date 2014-10-18 20:19
Peter Martan schrieb:

Und was Larry Kaufmann einzuwenden hatte, hat Adam Hair recht gut beantwortet, finde ich.
<a class='urs' href='http://www.talkchess.com/forum/viewtopic.php?topic_view=threads&p=593087&t=54078&sid=f5b4c66fdc0f0cd4a5ad81a57a278351'>http://www.talkchess.com/forum/viewtopic.php?topic_view=threads&p=593087&t=54078&sid=f5b4c66fdc0f0cd4a5ad81a57a278351</a>
(ich übrigens auch, finde ich
<a class='urs' href='http://www.talkchess.com/forum/viewtopic.php?topic_view=threads&p=593081&t=54078'>http://www.talkchess.com/forum/viewtopic.php?topic_view=threads&p=593081&t=54078</a>
)


Finde ich auch. Ich habe ja schließlich auch nicht ohne Grund Adam Hairs Datenbanken als Ausgangsmaterial genommen. Mir war durchaus bewußt, daß diese nur "vernünftige" Partien enthalten. Somit war das Ausgangsmaterial für die SALC-Sets ja nicht rein zufällig zusammengeklaubtes Partienmaterial. Das wäre sicher auch nicht empfehlenswert gewesen. Und das Ausfiltern mit einigen Top-Engines muß einfach sein, sonst sind Partien ggf. schon entschieden, wenn die Engines anfangen zu rechnen.

Ergänzend kann ich noch hinzufügen, daß ich ursprünglich gar nicht geplant hatte, nur Stellungen mit Rochaden auf verschiedene Seiten zu verwenden. Die allererste Versuchsversion eines Remisquoten senkenden Stellungssets hatte auch Stellungen mit offenen/halboffenen Linien Richtung gegnerischer König und auch Stellungen mit weit vorgerückten Bauern auf dem gegnerischen Königsflügel enthalten (in beiden Fällen durchaus mit Rochaden auf die gleiche Seite). Diese Stellungstypen senkten aber - zu meiner Überraschung - die Remisquote fast gar nicht. Aber eben die Stellungen mit den Rochaden auf verschiedene Seiten schon, und das ohne noch zusätzlich nach offenen Linien oder schon vorgerückten Bauernformationen zu suchen. Das war wie gesagt durchaus überraschend (ich hätte es eher umgekehrt erwartet). Erst aufgrund dieser Testergebnisse habe ich dann beschlossen, ein komplettes Stellungsset nur mit Rochaden auf verschiedene Seiten zu erstellen.
Und da dann weiterführende Testreihen mit diversen Entwicklungsversionen eines solchen Stellungssets sehr ermutigende Resultate zeigten, habe ich dann den unglaublich motivierten, gründlichen und geduldigen Hauke Lutz ins Boot geholt, um eine finale Version zu erstellen, nämlich das 10moves_SALC_500 er Set. Das große 12moves Set mit den 10000 Stellungen kam noch dazu, damit ich ein großes Eröffnungsset für mein Endless RoundRobin Tournament bekomme und andere auch ein sehr großes Eröffnungsset für sehr große Turniere oder lange laufende Selftests von Engines (wo 1000 Partien nicht reichen) erhalten. Dieses große Set ist aber (schon aufgrund seiner Größe) nicht so streng editiert und auch nicht so gut gemischt. Und es sollte daher nur benutzt werden, wenn das kleine 500er Set nicht ausreicht.

Stefan
Parent - - By Peter Martan Date 2014-10-18 20:32 Edited 2014-10-18 21:31
Naja, und jetzt kann man dann natürlich mit Larry Kaufmann meinen,  die Stellungen mit verschiedenen Rochade- Seiten wären ein zu selektives Kollektiv, aber das kann man dann mit mindestens ebenso viel Recht gegen jede andere Art der Selektion einwenden, gegen die Zahl der Züge, gegen die willkürliche Auswahl nach Eco- Schlüssel, gegen die Remisrate in der Meisterpraxis, das alles sind ja auch nur Versuche, zwar fair und mehr oder weniger bunt zu streuen, willkürlich sind sie aber doch immer.
Chaos, wie's Michael einfordert, gibt's nicht, in dem Moment, wo du aus einem noch so großen und vielfältigen Buch das GUI oder die engines aussuchen lässt, ist's auch nicht Zufall, es ist nur eine andere Art der Notwendigkeit, die du irgendwie vorgibst.
Ich finde halt, wenigstens zu wissen, was man aussucht, ist zielbewusster und weniger biased als der Selbstbetrug der Zufallsillusion, ich würde das Prinzip Scheinrandomisierung nennen, genau das, was ich unter bias by selection verstehe, man könnte auch einfacher sagen, man lügt sich in die eigene Tasche.

Recht hat, finde ich, Bob Hyatt, wenn er meint, noch besser als einzelne numerische Evals, wären die Evalverläufe, die in den ersten Zügen der relevantesten Abspiele entstehen, herzunehmen, nach den Evals richtet er sich dabei dann aber doch auch.

In wie weit die gegensinnigen Rochadestellungen wirklich die Ergebnisse beeinflussen, müsste man sich mal mit vielen einzelnen Partien anschauen, zusätzlich zu den Statistiken allein, das riecht aber auch stark nach sehr viel Arbeit.
Ich finde jedenfalls prinzipiell jeden Ansatz gut, der die Remisraten senkt, ohne offensichtlich bestimmte engines zu bevorzugen. Larry Kaufmann meint, er würde dann Komodo an diese Anforderungen anpassen, das schau ich mir aber auch erstmal an, einfach die Königssicherheit hochzuschrauben oder zu senken, kann's ja dafür wohl auch nicht bringen.
Parent - By Stefan Pohl Date 2014-10-19 04:37
Peter Martan schrieb:

Naja, und jetzt kann man dann natürlich mit Larry Kaufmann meinen,  die Stellungen mit verschiedenen Rochade- Seiten wären ein zu selektives Kollektiv, aber das kann man dann mit mindestens ebenso viel Recht gegen jede andere Art der Selektion einwenden, gegen die Zahl der Züge, gegen die willkürliche Auswahl nach Eco- Schlüssel, gegen die Remisrate in der Meisterpraxis, das alles sind ja auch nur Versuche, zwar fair und mehr oder weniger bunt zu streuen, willkürlich sind sie aber doch immer.
Chaos, wie's Michael einfordert, gibt's nicht, in dem Moment, wo du aus einem noch so großen und vielfältigen Buch das GUI oder die engines aussuchen lässt, ist's auch nicht Zufall, es ist nur eine andere Art der Notwendigkeit, die du irgendwie vorgibst.
Ich finde halt, wenigstens zu wissen, was man aussucht, ist zielbewusster und weniger biased als der Selbstbetrug der Zufallsillusion, ich würde das Prinzip Scheinrandomisierung nennen, genau das, was ich unter bias by selection verstehe, man könnte auch einfacher sagen, man lügt sich in die eigene Tasche.

Recht hat, finde ich, Bob Hyatt, wenn er meint, noch besser als einzelne numerische Evals, wären die Evalverläufe, die in den ersten Zügen der relevantesten Abspiele entstehen, herzunehmen, nach den Evals richtet er sich dabei dann aber doch auch.

In wie weit die gegensinnigen Rochadestellungen wirklich die Ergebnisse beeinflussen, müsste man sich mal mit vielen einzelnen Partien anschauen, zusätzlich zu den Statistiken allein, das riecht aber auch stark nach sehr viel Arbeit.
Ich finde jedenfalls prinzipiell jeden Ansatz gut, der die Remisraten senkt, ohne offensichtlich bestimmte engines zu bevorzugen. Larry Kaufmann meint, er würde dann Komodo an diese Anforderungen anpassen, das schau ich mir aber auch erstmal an, einfach die Königssicherheit hochzuschrauben oder zu senken, kann's ja dafür wohl auch nicht bringen.



Sehr treffend ausgeführt.

Und wenn man sich die Stellungen und ECO-Schlüssel des 500er SALC-Sets ansieht, stellt man fest, daß diese durchaus sehr verteilt sind. Es gibt nämlich in fast allen Eröffnungsystemen Abspiele/Varianten mit Rochaden auf gegenüberliegende Seiten. Darauf haben wir ja auch sehr geachtet. Hauke hat in mühevoller Kleinarbeit solange Stellungen rausgefiltert und Excel-Statistiken erstellt, bis die ECO-Verteilung fast gleichförmig war (ursprünglich hatten wir starkes ECO-B Übergewicht).
Wenn man sich die Stellungen dann mal auf dem Brett ansieht, so stellt man fest, daß die meisten "ganz normal aussehen", bis eben auf die Rochaden. Und diese bringen eben ein gewisses Angriffspotential. Das heißt aber nicht, daß die Engines dann immer sofort mit einem Bauernsturm wie verrückt angreifen müßten. Mann kann solche Stellungen auch ganz normal "abspielen", was auch oft passiert. Mir gefällt besonders, daß durch die Rochadesituation aber immer ein möglicher Angriff "in der Luft liegt", sodaß selbst eher langweilige, normale Partieverläufe dadurch mehr Spannungspotential erhalten, auch wenn es nicht immer genutzt wird.

Stefan
Parent - - By Tom Paul Date 2014-10-18 08:49
Wie viel Material wird maximal abgetauscht, bevor die Vorgabestellung erreicht wird?
Parent - - By Stefan Pohl Date 2014-10-18 12:48
Tom Paul schrieb:

Wie viel Material wird maximal abgetauscht, bevor die Vorgabestellung erreicht wird?


Da gabs kein Limit. Einzige Bedingung in dieser Richtung war beim Filtern, daß die Damen noch auf dem Brett sind. Und sooo viel kann ja nach 10 bzw. 12 Zügen sonst nicht abgetauscht sein.

Stefan
Parent - - By Tom Paul Date 2014-10-18 16:53
Könnte mir schon vorstellen, dass in einigen Vorgabestellungen bei euren vorgegebenen +-Eval., ~4 Leichtfiguren (je zwei für weiß und zwei für schwarz) abgetauscht wurden.
10 bzw. 12 Züge sind ja 20 bzw. 24 Halbzüge.
Parent - By Stefan Pohl Date 2014-10-18 17:09
Tom Paul schrieb:

Könnte mir schon vorstellen, dass in einigen Vorgabestellungen bei euren vorgegebenen +-Eval., ~4 Leichtfiguren (je zwei für weiß und zwei für schwarz) abgetauscht wurden.
10 bzw. 12 Züge sind ja 20 bzw. 24 Halbzüge.


2 Halbzüge muß man aus deiner Rechnung schon mal abziehen, weil beide Seiten auf jeden Fall rochieren, was definitiv kein Schlagzug ist. Aber es könnten sicherlich ein paar Leichtfiguren abgetauscht sein. Darin kann ich aber beim besten Willen kein Problem erkennen.

Stefan
Parent - - By Wolfgang Battig Date 2014-10-18 10:45
Danke Stefan + Hauke! Und natürlich auch alle anderen evtl. Beteiligten!
Werde die Datenbanken mal für CEGT-Tests verwenden!

Wolfgang
Parent - By Stefan Pohl Date 2014-10-18 12:50
Wolfgang Battig schrieb:

Danke Stefan + Hauke! Und natürlich auch alle anderen evtl. Beteiligten!
Werde die Datenbanken mal für CEGT-Tests verwenden!

Wolfgang


Für seriöse Tests bitte möglichst die kleine 500er 10moves Datenbank benutzen! Diese ist wesentlich strenger editiert, besser gleichverteilt, was die ECO-Codes angeht, und auch besser durchmischt.

Stefan
Parent - - By Jörg Oster Date 2014-10-18 11:05
Ein dickes Danke schön an dich und an Hauke!

Eine niedrigere Remisrate käme auch meinen Tuning-Versuchen für Stockfish zugute. Hoffe ich zumindest mal ... 
Ich werde auf jeden Fall die 12moves_SALC_10k.pgn mal antesten.

Gruß, Jörg.
Parent - - By Stefan Pohl Date 2014-10-18 12:52
Jörg Oster schrieb:

Ein dickes Danke schön an dich und an Hauke!

Eine niedrigere Remisrate käme auch meinen Tuning-Versuchen für Stockfish zugute. Hoffe ich zumindest mal ... 
Ich werde auf jeden Fall die 12moves_SALC_10k.pgn mal antesten.

Gruß, Jörg.


Mach das! Gerade Stockfish hat ja in Selftests sehr hohe Remisquoten. Wäre schön, wenn du mal hier postest, ob und wieviel die Remisquote herunterging.

Stefan
Parent - - By Jörg Oster Date 2014-10-20 10:19
Stefan Pohl schrieb:

Jörg Oster schrieb:

Ein dickes Danke schön an dich und an Hauke!

Eine niedrigere Remisrate käme auch meinen Tuning-Versuchen für Stockfish zugute. Hoffe ich zumindest mal ... 
Ich werde auf jeden Fall die 12moves_SALC_10k.pgn mal antesten.

Gruß, Jörg.


Mach das! Gerade Stockfish hat ja in Selftests sehr hohe Remisquoten. Wäre schön, wenn du mal hier postest, ob und wieviel die Remisquote herunterging.

Stefan

Auch bei meinen Tuning-Versuchen mit CLOP zeigt sich eine niedrigere Remisquote! Im Schnitt so 6 - 7%.
Allerdings ist die Remisquote naturgemäß schon niedriger als bei 'normalen' Matches.

Trotzdem werde ich mir ein Eröffnungsset aus den 10k SALC-Stellungen und ca. 20k Standard-Eröffnungen zusammenstellen, um einfach möglichst viele Stellungstypen abzudecken.

Gruß, Jörg.
Parent - By Stefan Pohl Date 2014-10-20 12:26
Jörg Oster schrieb:

Stefan Pohl schrieb:

Jörg Oster schrieb:

Ein dickes Danke schön an dich und an Hauke!

Eine niedrigere Remisrate käme auch meinen Tuning-Versuchen für Stockfish zugute. Hoffe ich zumindest mal ... 
Ich werde auf jeden Fall die 12moves_SALC_10k.pgn mal antesten.

Gruß, Jörg.


Mach das! Gerade Stockfish hat ja in Selftests sehr hohe Remisquoten. Wäre schön, wenn du mal hier postest, ob und wieviel die Remisquote herunterging.

Stefan

Auch bei meinen Tuning-Versuchen mit CLOP zeigt sich eine niedrigere Remisquote! Im Schnitt so 6 - 7%.


Schön! Das bedeutet ja, daß in Absolutzahlen gerechnet, die Zahl der Remisen ca. 12-14% runtergeht. Das ist im erwartbaren Bereich.

Gruß - Stefan
Parent - - By Tom Paul Date 2014-10-18 17:45
Tuning ist gut, nur sollte das Stockfish Team auch mal etwas öfter neue Ideen ausprobieren.

Stockfish spielt seit sehr langer Zeit immer noch mit Dame vs ...z.B. 3 Leichtfiguren oder 2 Türme und zieht gegen Komodo 8 zu 95% den kürzeren.

Stockfish denkt sehr oft das er eine Stellung vor sich hat, wo es 5-30 spielbare Züge gibt die alle mit z.B. 0.00 oder +0.10 oder +1.00 bewertet werden. Eine Planungslosigkeit die noch von keinem einzigen Schachspieler übertroffen wurde.
Und der MV Modus spiegelt wieder was in der normalen Suche vor sich geht.

Abtauschvermeidung hat Stockfish immer noch nicht implementiert bekommen.
Z.B. Bauern
Oder Springer
Oder Läufer
Oder Türme
Oder die Dame
Oder Leichtfiguren
Oder Schwerfiguren
Oder ein anderer Mix.
Z.B. wenn es um das jeweilige Material geht den Abtausch mit aktueller Bewertung -0.01 bewerten um dann den Zug in der Suche zu spielen, der zuvor gleich bewertet wurde. Oder eben mehr als -0.01.

Stockfish ist inzwischen ~750 ELO stärker als Crafty.
Und spielte tatsächlich in einer Partie auf meinem Rechner eine Variante aus einer 0.00 Stellung heraus, wo sage und schreibe 12 Figuren (außer Bauern und Damen) abgetauscht wurden.
Die Partie endete Remis.
Später schaute ich im MV Modus nach ob es keine andere 0.00 Variante gab und es gab eine wo keine einzige Figur hätte abgetauscht werden müssen = Crafty hätte später gepatzt und Stockfish gewonnen.

Eine SMP Steigerung von 8 auf 16 Kerne ist quasi nicht vorhanden.
Und die Steigerung von 4 auf 8 Kerne ist im Vergleich zu anderen Engines (z.B. K8) auch nicht gut genug.

Außerdem hat Stockfish bereits über 3200 SPCC ELO, (da reicht es nicht mehr aus) nur einen Bereich im Code zu verändern und dann zu testen ob die Engine stärker geworden ist, sondern man muss mehrere Bereiche gleichzeitig verändern und dann testen. Bei nur einem Bereich der verändert wurde könnte der Test durchfallen, weil ein anderer Bereich den zuvor geänderten behindert. Also eine Mischung aus zwei Ideen die nur gemeinsam zu einer Spielstärkesteigerung führen, weil eben nur durch beide Veränderungen der Spielstil verbessert wurde und somit die Spielstärke.
Parent - - By Kurt Utzinger Date 2014-10-18 19:09
Hallo Tom

Für unbedarfte Leser wirst Du bald als "Stockfish-Hasser" in der
Computerschachszene verschrien werden  
Parent - By Michael Scheidl Date 2014-10-18 19:23
Das mußt Du verstehen, es ist ja wirklich eine sehr, sehr, sehr schlechte Engine wo rundherum alles falsch ist
Parent - By Benno Hartwig Date 2014-10-20 12:54 Edited 2014-10-20 12:57

> Stockfish ist inzwischen ~750 ELO stärker als Crafty.
> Und spielte tatsächlich in einer Partie auf meinem Rechner eine Variante aus einer 0.00 Stellung heraus, wo sage und schreibe 12 Figuren (außer Bauern und Damen) abgetauscht wurden.
> Die Partie endete Remis.


Und waren die Züge von Crafty tatsächlich überaus schwach?
Waren sie als als fehlerhaft erkennbar, nur dass SF dies nicht begriff?

Wenn die schwächere Engine es mit Können und Glück schafft gute Züge zu machen, dann wird die stärkere Engine damit umgehen müssen.
SF weiß auch nicht, dass gegenüber ein Schwächerer sitzt. SF darf dann auch keine scharfen Stellungen produzieren, die er selbst eigentlich als nachteilig erkennt.
Verführungen darf und kann er schon gar nicht erzeugen.
Das macht den Unterschied zum GM, der weiß dass sein Gegner ein Noname ist.
Kurzfristige Remisen bei leichtem eröffnunsbedigten Nachteil kommen natürlich hinzu, weil der Gegner ja ein Starker sein könnte.

> Eine Planungslosigkeit die noch von keinem einzigen Schachspieler übertroffen wurde.


Keinem einzigen? Bei diesem Satz hattest du selbst keinen Plan, richtig?

Benno
Up Topic Hauptforen / CSS-Forum / Neue Eröffnungs-Vorgabe für niedrigere Remisquoten

Powered by mwForum 2.29.3 © 1999-2014 Markus Wichitill