Not logged inCSS-Forum
Forum CSS-Online Help Search Login
CSS-Shop Impressum Datenschutz
Up Topic Hauptforen / CSS-Forum / SALC half-closed: Erstaunliches Testergebnis
- - By Stefan Pohl Date 2017-10-22 09:50 Edited 2017-10-22 10:06
Hallo,

ich hatte letzte Woche die Idee, aus meinen SALC-Eröffnungsstellungen (Rochaden immer auf gegenüberliegende Brettseiten, beide Damen auf dem Brett) halb-geschlossenen Stellungen herauszufiltern. Das heißt, zusätzlich müssen in den Endstellungen der Eröffnungslinien folgende drei Kriterien erfüllt sein:

1) Auf einer der beiden Zentrumslinien muß sowohl ein weißer als auch ein schwarzer Bauer vorhanden sein (die d- oder e-Linie ist damit komplett geschlossen)
2) Es darf nicht die Zentrums-Bauerkonstellationen geben, die schnelles Bauern-wegschlagen im Zentrum ermöglichen (also kein weißer Bauer auf e4, wenn ein schwarzer Bauer auf d5 steht und kein weißer Bauer auf d4, wenn ein schwarzer Bauer auf e5 steht).
3) Die d-Linie darf nicht komplett Bauerfrei sein, wenn beide Damen noch auf der d-Linie stehen. Das soll verhindern, daß die Damen schnell abgetauscht werden können.

Das soll die Wahrscheinlichkeit minimieren, daß schnell viel Material abgetauscht wird und Partien schnell ins Endspiel verflachen, was viele Remisen nach sich zieht.

Nun ist mein 1000 Partien Testrun (5'+3'', singlecore) durch. Die Ergebnisse, auch die Verlgeichsergebnisse mit dem Standard 8move Eröffnungsset aus dem Stockfish-Framework und mit dem "normalen" SALC-Set und auch dem FEOBOS v01 Contempt 5 Set kann man auf meiner Website begutachten:

http://www.sp-cc.de/experiments.htm

Hier nur mal ganz kurz die Remisqouten, denn darum geht es ja beim SALC-Projekt (Remisoquten senken, um das Computerschach vor dem Remistod zu bewahren):
Stockfish Framework 8 move: 63.4%
FEOBOS v10 Contempt 5: 60.0%
SALC "normal": 53.9%
SALC half-closed: 48.8%

Man sieht, daß SALC "normal" die Remisqoute im Vergleich zum Standard Stockfish Eröffnungsset um 9.5% absenkt und SALC half-closed nochmals um 5.1%. Das macht klar, welch großer Schritt vorwärts SALC half-closed ist, bei meinen Bemühungen die Remisqouten im Computerschach zu senken.

Das bedeutet nämlich, daß die Zahl der Remisen (nicht die Remisqoute) von SALC half-closed (488 von 1000 Partien) um 23% niedriger ist, als mit dem Standard Framework Eröffnungsset (634 von 1000), d.h. die Zahl der Remispartien sinkt um fast ein Viertel ab (!). Und daß, ohne die Elo-Abstände und Erfolgsscores der Engines zusammenzudrücken. Denn es wäre ja nichts leichter, als die Remsiqoute auf 0% zu drücken, wenn man immer mindestens einen Turm vorgibt. Nur wäre dann der Erfolggscore der Engines gegeneinander immer 50%, wenn die Bevorteilung durch die Eröffnungsstellung gleichverteilt wäre. Daher muß man die Remisqoute immer zusammen mit dem Erfolgsccore betrachten. Und hier tritt bei SALC keine Verschlechterung (also näher an 50%) ein, sondern im Gegenteil: Der Ergebnisabstand von asmFish und Komodo im Testrun wird sogar meßbar größer (Score von asmFish steigt von 60.3% (StandardSet) auf 63.1% (SALC half-closed))(!)
Ganz nebenbei sinkt ebenfalls die durchschnittliche Partiedauer weiter ab. Der SALC half-closed Testrun war fast 12 Stunden früher fertig, als der Testrun mit dem StandardSet oder mit FEOBOS. Aber diese Details kann man sich auf meiner Website anschauen.

Aufgrund dieses herausragenden Testergebnisses, habe ich mich nun entschlossen, sofort die Entwicklung von SALC V4 (hc) anzugehen, also neue SALC-Bücher und Stellungssets, die nur noch half-closed Positionen enthalten. Da half-closed SALC Positionen noch seltener sind, als schon SALC "normale", bin ich leider gezwungen, nun 12 Züge (24 plies) tiefe Varianten zu benutzen, anstatt wie bisher 10 Züge. Sonst bekomme ich einfach nicht genügend Material zusammen, um Eröffnungsbücher zu erstellen...Die Entwicklung wird natürlich einige Zeit dauern, da ja alle Stellungen mit Komodo gefiltert werden müssen. Glücklicherweise konnte ich mir einen zusätzlichen Rechner von einem Freund leihen. Bis zum Release empfehle ich nachdrücklich, die 7053 SALC V3 half-closed Positionen zu nutzen, die ich ja dem bisherigen SALC-Downloadpaket beigefügt habe - denn SALC half-closed ist ein großer Fortschritt!

Stefan (SPCC)

PS: Das Tolle an meinen half-closed Kriterien ist, daß sie sich außerdem auf jedes beliebige Eröffnungsset anwenden lassen, nicht nur auf SALC-Sets. Auch in normalen Eröffnungssets sollte die Remisoqute meßbar sinken, wenn nur half-closed Stellungen herausgefiltert werden. Hier muß nur noch das zusätzliche Kriterium angewendet werden, daß beide Damen in den Endstellungen der Eröffnungslinien noch auf dem Brett sind.
Es müssen dann also folgende Kriterien in den Endstellungen (nur dort!) der Eröffnungslinien erfüllt sein:

0) Beide Damen noch auf dem Brett.
1) Auf einer der beiden Zentrumslinien muß sowohl ein weißer als auch ein schwarzer Bauer vorhanden sein (die d- oder e-Linie ist damit komplett geschlossen)
2) Es darf nicht die Zentrums-Bauerkonstellationen geben, die schnelles Bauern-wegschlagen im Zentrum ermöglichen (also kein weißer Bauer auf e4, wenn ein schwarzer Bauer auf d5 steht und kein weißer Bauer auf d4, wenn ein schwarzer Bauer auf e5 steht).
3) Die d-Linie darf nicht komplett Bauerfrei sein, wenn beide Damen noch auf der d-Linie stehen. Das soll verhindern, daß die Damen schnell abgetauscht werden können.

(dazu muß man aber anmerken, daß diese Filterungen recht schwierig werden, wenn die Eröffnungslinien nicht alle gleich lang sind, wie z.B. bei FEOBOS, denn man muß die Kriterien ja immer in den Endstellungen der Eröffnungslinien prüfen. Zumindest mit Fritz/ChessBase geht das nicht. Man müßte dort zu dem Trick greifen, für jede Zuglänge eine eigene Datenbank zu erstellen, und dort die Linien der jeweiligen Länge separat filtern, und später alles wieder zusammensetzen. Das ist recht aufwendig...)
Parent - - By Clemens Keck Date 2017-10-22 11:16
Hallo Stefan

Remisen vermeiden schön und gut. Grundsätzlich aber befürchte ich hierbei wird oft die aktuelle Theorie vernachlässigt. Außerdem sind Remisen auch stark von der engine paarung abhängig.
DAs gilt für Deine sets - außer HERT von dem ich mir viel verspreche- und auch andere Buchprojekte.

Die 3 neuen Kriterien von Dir finde ich trotzdem einen guten Ansatz. Wenn jetzt noch symetrische Rochaden mit dabei wären, dann könnte es aus schachlicher Sicht schon ziemlich komplett sein.
Außerdem gefällt mir Deine Methode der schnellen Umsetzung und des sofortigen Vergleichstests. Es muß nicht so ein riesen hype gemacht werden, es geht nicht um den heiligen engine-Gral.

Ich glaube allerdings, das es fast egal ist was aufs Brett kommt, wenn es nur genug Partien sind wird sich eine sehr ähnliche Rating Liste mit nur geringen Unterschieden abbilden.

Clemens
Parent - - By Frank Quisinsky Date 2017-10-22 12:27 Edited 2017-10-22 12:37
Hallo Clemens,

doch, genau darum geht es ...
Der heilige Engine-Gral.

Schluss mit, bin mir nicht sicher ob die Varianten gut sind?
War das Buch auschlaggebend für ein Testergebnis?

Dafür wird hier mit Engels-Geduld eine Excel erschaffen mit der in der Zukunft auch andere Varianten einfach überprüft werden können.
Läuft ein Rechner ein ganzen Jahr um alles erdenkliche zu tunen und zu optimieren.

Im Hinterkopf bei der Geschichte:
Wenn denn die finalen Ergebnisse gut sind sollte die Entwicklung in das Phönix Modul von Ruud.
Am liebsten mit Programmen wie Hakkapeliitta / Wasp und bei 200 Mhz dann mit einer Grundspielstärke von echten 2.450 - 2.600 Elo.

Voll die Angriffsengine und die Engine die dem Spielstil eines Menschen nach meinem dafürhalten sehr Nahe kommt.
Der perfekte Schachcomputer mit dem "Heiligen-Gral" als Buch.
Genau so stelle ich mir das vor.

Und die Computerschachrente ist sicher.
Mit dem was da ist kann ich mich einfach nicht zur Ruhe begeben.
Muss selbst noch ein wenig Hand anlegen, hier und da noch organisieren.



Gruß
Frank

Kurz:
Ist das Buch nicht ausgewogen betrifft es mehr die sehr starken Engines, die dann gegen das Groh an schwächere Gegnerschaft zu viele Remise abgeben.
Keine genaue Elo-Aussage ist möglich. Je stärker die Engines also werden, desto wichtiger wird die Buchoptimierung.
Genau das sollte mal endlich gebührend berücksichtigt werden als immer Ergebnisse zu vergleichen bei deren genauer Untersuchung festgestellt wird das 25% der Buchvorgaben mehr als zweifelhaft sind.

Und natürlich ist maßgeblich wichtig ...
Die Theorie muss stimmen und das Ausspielverhalten innerhalb der Theorie sollte natürlich nach Beliebtheit die einzelnen ECO Codes abdecken.
Und optimal wäre es nun ... hierbei dennoch die Remisquoten zu senken.

Insofern sind die Experimente von Stefan gar nicht so uninteressant.
Schon allein um festzustellen welche Schwerpunkte bei der Bucherstellung die Remisquoten drücken. Klar, ich könnte einfach alle Partien die ich habe in einem Topf schmeißen ein paar Statistiken erstellen lassen welche Varianten zu den wenigsten Remisen geführt haben. Habe ja schon über 1.4 Millionen Partien selbst erspielen lassen. Daraus ein Buch erstellen und toppe jede Bemühung. Aber das ist gar nicht Sinn der Sache. Dennoch, die Experimente sind interessant und gute Anhaltspunkte für die Bucherstellung.
Parent - - By Stefan Pohl Date 2017-10-22 14:33 Edited 2017-10-22 14:43
Frank Quisinsky schrieb:
. Klar, ich könnte einfach alle Partien die ich habe in einem Topf schmeißen ein paar Statistiken erstellen lassen welche Varianten zu den wenigsten Remisen geführt haben. Habe ja schon über 1.4 Millionen Partien selbst erspielen lassen. Daraus ein Buch erstellen und toppe jede Bemühung.


Das glaubst du doch selbst nicht. Du würdest nicht mal in die Nähe der SALC half-closed Remisqouten kommen, zumindest nicht, ohne die Ergebnisabstände stark zu reduzieren, weil die Stellungen viel zu vorteilhaft für eine Seite wären.
Behaupte ich. Und zwar solange, bis du ein entsprechendes Eröffnungsset vorlegst und ein Testrun mindestens 500 Partien belegt, daß ich falsch liege.

Stefan
Parent - By Frank Quisinsky Date 2017-10-22 15:10
Hallo Stefan,

kommt darauf an!
Welche Engines die Ergebnisse erspielt haben.
Müsste also zunächst mal die Programme aussortieren die generell mit den Eröffnungen Probleme haben.

Dann schauen zu welchen Varianten habe ich wie viele Partien.
Wahnsinns Arbeit beim selektieren und ich müsste von 0 anfangen.
Bis eine Stellung z. B. in FEOBOS rein geht, sind schon mehrere Filterungen vorher passiert.

So richtig Lust dazu habe ich nicht.
Beginne nicht wieder mit Step 1 wenn ich schon bei Step 5 kurz vor dem Abschluss stehe.

Hatte es schon geschrieben:
Gehe ich hin und nehme Stellungen aus ausgewählten ECO Codes mit generell niedriger Remisquote und setze die Settings für aussortieren höher starten Engines mit Vorteil. Die stärkeren Engines nutzen den Vorteil und es enden weniger Partien mit Remis. Das Geheimnis ist also das Tuning. Engines starten ausgeglichen, alle 500 ECO Codes nach Beliebtheit und dennoch die Remisquote senken. Genau das ist schwierig wenn ein Buch dann von über 1000 und mehr Engines genutzt werden könnte. Tuning auf Stockfish oder Komodo bei deren extrem hohe 0,00er Ausgaben die unberechtigt sind ist eine andere Geschichte.

So richtig fehlt mir die Idee genau das zu testen.
Bzw. die Idee wäre die Bücher zu vergleichen mit Engines die generell eine niedrige Remisquote haben.
z. B. Match: Andscacs - Houdini ... natürlich bei beiden Contempt dann ausstellen.

Habe ich aber keine Kapazitäten für frei ... hier läuft FEOBOS upd.1 und das dauert mindestens noch 3 Monate.
Allerdings werkelt Klaus an interessanten Dingen, die Dir sicherlich auch gefallen werden.
Die Excel könnte also schon jetzt auf interessante Neuerungen optimiert werden.

Gruß
Frank
Parent - - By Stefan Pohl Date 2017-10-22 14:48
Frank Quisinsky schrieb:
.
Ist das Buch nicht ausgewogen betrifft es mehr die sehr starken Engines, die dann gegen das Groh an schwächere Gegnerschaft zu viele Remise abgeben.
Keine genaue Elo-Aussage ist möglich.


Mein großer Vergleich der SALC- und HERT-gamebase vom 23.8.(zu finden auf meiner Website, Experiments, etwas runterscrollen), belegt ganz klar, daß diese Aussage schlicht falsch ist.
2x15000 Partien, 6 Engines mit 320 Elo Spielstärkenbandbreite, und SALC hat eben keine verzerrten Ergebnisse geliefert. Sondern bessere: weniger Remisen und erhöhte, statistische Ergebnissicherheit aufgrund leicht erhöhter Ergebnisbreite (Letztere beweist, daß die starken Engines sogar besser abschnitten, andernfalls wäre die Ergebnisbreite geringer geworden!)

Stefan
Parent - - By Clemens Keck Date 2017-10-22 14:59
hihi
jetzt machst Du's schon wie der Frank
Posting, Nachtrag zum Posing...evtl. nachtrag zum Nachtrag 

Das Thema beschäftigt die Gemüter.

Schönen Sonntag an Alle
Ich geh mal ins Kino, muß mal abschalten, zuviel Arbeit bis Ende 2017.
Da freu ich mich immer a Bissl wenn bei mir was läuft aufm Dachboden, so wie aktuell.
Am Ende könnte ein Halber Punkt oder gar nur die feiwertung entscheiden
http://www.clemens-keck.de/livegames
Parent - By Frank Quisinsky Date 2017-10-22 15:12
Hallo Clemens,

das hier ist harmlos.
Bei der Entwicklung der Excel gingen sicherlich mehr als 1.000 eMails zwischen Klaus und mir hin- und her.
Gedankengänge, Änderungen, Optimierungen, neue Ideen generieren ...

Ideen kommen auch oft beim Schreiben oder natürlich von anderen Lesern.
Alles extrem hilfreich auf dem Weg zum "Heiligen Gral"



Dir auch einen schönen Sonntag!

Gruß
Frank

Mit anderen Worten bei Dir wäre der "Dachbodenfund" ein Highlight!

Parent - By Frank Quisinsky Date 2017-10-22 15:19 Edited 2017-10-22 15:23
Hallo Stefan,

hier haben wir ganz sicher unterschiedliche Meinungen.
Nicht nur Du testest ich habe das vor FEOBOS drei Jahr gemacht.

Kleine Vorteile in der Eröffnung entscheiden Partien zwischen ca. gleich starken Engines.
3 Züge nach Buch - 10 Züge nach Buch bei Vorteil größer als x.
Das hatte ich mit Tools von Ferdinand schon ...
Das ist Test-Geschichte für mich!
Genau nach diesen Stats setzte ich trotz unterschiedlicher Bewertungen von Engines die FEOBOS Settings.
Vertretbar bis Bewertung 0.x habe ich für die TOP-50 bei Abschluss der FCP Rating Liste im Rahmen der Vorarbeit zu FEOBOS schon lange erledigt.

Du senkst die Remisquote wenn höhere Settings, wie z. B. 0.8 / -0.5 bei Prüfen der Varianten gewählt werden.
Das wäre auch wichtig um z. B. mehr Stellungen mit unterschiedlichen Rochaden zu generieren.
Aber auch das beeinflusst weil der kleine Vorteil entscheidet zu oft die Partie.
Und da dann wieder alle die gleichen Stellungen nutzen fällt das bei der Gesamtstatistik nicht auf.

Und klar ...
Ist das Buch vernünftig optimiert dann steigen die Ratings der stärkeren Programme weil weniger Remise.
Da sind wir wieder zusammen! Die schwächeren bekommen keine Geschenke mehr durch die Vorgaben.

So, genug für heute!
Dir noch einen schönen Sonntag.

Gruß
Frank
Parent - - By Guenter Stertenbrink Date 2017-10-22 15:42
Stefan Pohl schrieb:

1) Auf einer der beiden Zentrumslinien muß sowohl ein weißer als auch ein schwarzer Bauer vorhanden sein (die d- oder e-Linie ist damit komplett geschlossen)
2) Es darf nicht die Zentrums-Bauerkonstellationen geben, die schnelles Bauern-wegschlagen im Zentrum ermöglichen (also kein weißer Bauer auf e4, wenn ein schwarzer Bauer auf d5 steht und kein weißer Bauer auf d4, wenn ein schwarzer Bauer auf e5 steht).
3) Die d-Linie darf nicht komplett Bauerfrei sein, wenn beide Damen noch auf der d-Linie stehen. Das soll verhindern, daß die Damen schnell abgetauscht werden können.


ist das nicht im Wesentlichen Sizilianisch ?

Drachen, Rauser, Najdorf, Scheveninger-Englischer Angriff
Parent - - By Frank Quisinsky Date 2017-10-22 16:33 Edited 2017-10-22 16:54
Hallo Guenter,

unterschiedliche Rochaden z. B. entstehen ja nicht bei allen erdenklichen Eröffnungen. Das gewünschte Brett Szenario mit Gewalt zu produzieren, damit 2 Engines auf höchsten Niveau mit zu hohen 0,00er Prozentsatz an Bewertungen ohne Contempt dann weniger Remise ausspielen ist genau deswegen ja schon fraglich.

Könnte auch hingehen und sagen ... beim GM Schach aus früheren Zeiten war Königsgambit ein Thema. Wunderschöne Partien die entstanden sind mit äußerst geringer Remis Wahrscheinlichkeit. Königsgambit wurde bis zum Abwinken analysiert und heute gelten um die 90% der Abspiele als "nicht brauchbar". Schaue mal in die GM-Theorie von heute wie oft Königsgambit auf höchsten Niveau gespielt wird. Und auch unsere Engines bestätigen das, wir können kaum etwas brauchbares in FEOBOS zu C30-C39 was ausgeglichen ist anbieten.

Nun könnten wir auch auf den Standpunkt stehen ... wir lassen doch einfach die Engines auf höchsten Niveau Königsgambit gegeneinander spielen um die Remisquoten zu senken und generieren 5.000 Testpositionen hierzu die alles andere als ausgeglichen sind.

Klar, lassen wir dann Stockfish und Komodo diese Positionen gegeneinander spielen wird das Ergebnis weniger Remise zu Tage führen und da beide mal mit guter oder schlechter Position ins Rennen gehen stimmen auch wieder die Statistiken.

Die einzige Frage die ich mir bei den ganzen Diskussionen stelle ...
Es ist natürlich nicht nur Unwahres drin sondern auch logisch Gutes.

Ein Buch zu verstärken, welches alle Systeme abdeckt und zunächst mal ausgeglichen ist, keine Fehler mehr beeinhaltet (sollte nach 10 Engine Analysen auf höchsten Niveau so sein, zumindest zu 99,5%) macht durchaus Sinn. Feintuning würde ich mal sagen.

Stefan hat durchaus gute Ideen aber bei allen Überlegungen muss auch immer beachtet werden was verschlechtere ich mit einer evtl. Verbesserung. Lohnt sich das überhaupt, geht der Schuss nicht nach hinten los.

So wie wir z. B. einen Contempt Parameter für Bücher ins Leben gerufen haben könnten wir auch einen Taktik Parameter ins Leben berufen.
Wir setzen die Taktik eines Buches nach oben durch mehr Vorgabestellungen die weniger Remise im Endergebnis erzeugen.

Eigentlich das was Stefan gerne möchte!
Muss aber gut überlegt werden im Fall von FEOBOS wie das eingearbeitet werden kann.

Wenn ich mir überlege wie viele Stellungen ich schon auf höchsten Niveau schon hatte und nicht berücksichtigt wurden für die FEOBOS Basisdaten ist das eine echte Hausnummer.

Wenn ich z. B. hingehe und mit Gewalt und höheren Settings mehr unterschiedliche Rochade Stellungen in FEOBOS reinnehme passiert folgendes.

Bei Abschluss einer Variante kommen die Extrem-Engines wie Fizbo, Smarthink und ICE um die Ecke und geben als Bewertung nach Buchzug 1 direkt ein 1.5 aus ... Horror Szenario!

So richtig überzeugt wäre ich eigentlich nur dann wenn ich wissen würde wie viele Stellungen von Stefan einer ICE und Fizbo Analyse nicht überstehen würden.
Die 26.146 Stellungen die in FEOBOS bisher drin sind ... beruhen auf 85% der FCP Rating List Partien. Die Stellungen sind immer wieder von 50 Engines 3 Züge nach dem Buch aufs Korn genommen wurden (mit Tool von Ferdinand). Bin ja eigentlich froh das das Datenmaterial welches in FEOBOS noch drin meines Erachtens erste Sahne ist. Insofern bin ich vorsichtig mit mixen aus anderen Quellen. Muss fremdes Datenmaterial komplett überprüfen lassen und bei 3 Züge nach ECO-Code Bildung gibt es einfach nicht mehr sehr viel was bei FEOBOS noch fehlt.

Im Grunde müsste ich die Stellungen mit unterschiedlichen Rochaden zuzüglich den 10 Standard Engines von einer Gruppe ganz anderer Engines prüfen lassen.
Und ich bin mir sicher das nicht mehr als 2.000 Stellungen überlegen würden wenn alle Engines durch sind ... auch nur dann wenn ich die Settings anhebe.

Das wäre eine Wahnsinnsarbeit aber dennoch keine die uninteressant wäre.

Andere Punkte die Stefan beschrieben hat führen in der Tat dazu das ein Ungleichgewicht zwischen den ECO Codes herrscht und dann ein Buch ebend nicht mehr nach Beliebtheit der GM / Fernschachtheorie Systeme anwählt.
Auch das ist wichtig bei FEOBOS. Dennoch bin ich ja dankbar für jeden Hinweis, Idee und Tipp wie wir z. B. noch weiter verbessern könnten. Und definitiv macht Feintuning immer Sinn wenn wirklich bestehendes dadurch nicht schlechter wird.

Gruß
Frank
Parent - - By Stefan Pohl Date 2017-10-22 17:47 Edited 2017-10-22 17:56
Frank Quisinsky schrieb:


Nun könnten wir auch auf den Standpunkt stehen ... wir lassen doch einfach die Engines auf höchsten Niveau Königsgambit gegeneinander spielen um die Remisquoten zu senken und generieren 5.000 Testpositionen hierzu die alles andere als ausgeglichen sind.

Klar, lassen wir dann Stockfish und Komodo diese Positionen gegeneinander spielen wird das Ergebnis weniger Remise zu Tage führen und da beide mal mit guter oder schlechter Position ins Rennen gehen stimmen auch wieder die Statistiken.


Und genau das ist eben komplett falsch. Wenn man so vorgeht, und irgendwelche Gambits spielen läßt, die eine Seite klar bevorteilen, dann stimmen die Statistiken eben NICHT. Wie ich schon zig mal erläutert habe, ist es natürlich leicht, mit stark bevorteilenden Stellungen die Remisqoute zu senken. Aber dann drückt man die Erfolggscores der Engines immer Richtung 50% Marke, weil diese Vorteile bei Gleichverteilung die Engineergebnisse glattbügeln. Extrembeispiel: Dame vorgeben. Dann man hat man garantiert 0% Remisqoute, aber eben bei Gleichverteilung dieses immensen Vorteils auch nur noch 50%-Erfolgsscores der Engines, selbst wenn Stockfish gegen Crafty spielt.
SALC macht genau das eben NICHT. Sondern SALC steigert die Ergebnisabstände sogar. Und das bei sinkenden Remisqouten. Das ist ja gerade das, was SALC auszeichnet. Und was man mit irgendwelchen Gambits oder sonstigen bevorteilenden Stellungen eben NICHT SCHAFFT.

Stefan
Parent - - By Frank Quisinsky Date 2017-10-22 17:58
Hallo Stefan,

wenn genau das passiert ist das gut!

Hast Du mal Salc Stats mit Engines gemacht die grundsätzlich nicht dazu neigen 0,00er zu produzieren?
Paradebeispiel auf hohen Niveau ist Andscacs !!

Ferner hat Andscacs eine extrem gute Eröffnungsbewertung und fällt hier bei allen Statistiken immer wieder positiv auf.

Eigentlich die optimale Engine um Bücher zu prüfen!
Auch Houdini eignet sich deutlich besser als Stockfish oder auch besser als Komodo für Überprüfungen.

Vielleicht mal gegen prüfen mit Matches Andscacs - Houdini (meine Deine Ausführungen zur Remisquote).

Viele Grüße
Frank
Parent - - By Hauke Lutz Date 2017-10-22 19:24
Hallo,

ich denke falls Stefan eine zweite Paarung benötigt, dann sollte er auf Don 1.0b und Gull 3.0 zurückgreifen.
Diese Engines unterscheiden sich ziemlich von einander und haben trotzdem eine sehr vergleichbare Spielstärke.
Mit diesen Engines wurde auch die Performance des ersten SALC-Sets überprüft.

Hauke
Parent - - By Stefan Pohl Date 2017-10-22 19:35 Edited 2017-10-22 19:42
Hauke Lutz schrieb:

Hallo,

ich denke falls Stefan eine zweite Paarung benötigt, dann sollte er auf Don 1.0b und Gull 3.0 zurückgreifen.
Diese Engines unterscheiden sich ziemlich von einander und haben trotzdem eine sehr vergleichbare Spielstärke.
Mit diesen Engines wurde auch die Performance des ersten SALC-Sets überprüft.

Hauke


Moin Hauke, schön mal wieder von dir zu lesen. Wenn der Release von SALC V4 (hc) erfolgt ist, kann jeder damit soviele Tests machen, wie er mag. Ich sehe den Resultaten mit größter Gelassenheit und Zuversicht entgegen.
Sicher werde auch ich noch einen größeren Praxistest machen. Mit sicher mehr als nur 2 Engines. Welche genau, das muß ich mal sehen. Zu ähnlich sollte die Spielstärke aber lieber nicht sein, denn es geht ja bei einem Praxistest eben nicht nur um die Remisquote, die sinken soll, sondern auch um das nicht Richtung 50% Marke Zusammendrücken der Erfolgsscores. Insofern sollte es schon einen meßbaren Spielstärkeunterschied zwischen den eingesetzten Engines geben. Denn wie nun schon x mal erläutert: Remisqoute senken ist einfach. Aber dabei die Ergebnisse nicht Richtung 50% zu drücken, das ist das, was es schwierig macht. Und wenn die Engines (fast) gleichstark sind, kann man diesen Parameter nicht mehr messen.

Grüße - Stefan
Parent - - By Guenter Stertenbrink Date 2017-10-22 23:03
Hallo Frank,
die Start-Test-Stellungen muessen ja nicht "vernuenftig" sein, in dem Sinne, dass sie
aus gespielten Partien stammen.
Das kann ja wild konstruiert sei, sogar unmoeglich zu erreichen aus der normalen
Startstellung.
Ziel ist moeglichst einfach und moeglichst genau, die Spielstaerke einer engine zu bestimmen.
Eine Programmaenderung, ein "Patch" zu testen.
Anhand von Partien oder Teststellungen.

Das Analysieren von normalen Stellungen oder das Spielen von Menschenaehnlichen Partien
oder die Assistenz bei Eroeffnungsanalyse, Fernpartien, Vorbereitungen ist dann ein anderes Thema.
Aber engines die das eine gut koennen , koennen vermutlich das andere auch gut.
--------------------------------
Hallo Stefan,
minimieren wir also nicht die Remisquote, sondern die Zahl der 1:1 Ergebnisse aus 2 Partien
mit vertauschten Farben.
--------------------------------------
Parent - By Frank Quisinsky Date 2017-10-22 23:10
Hallo Günter,

auch eine Betrachtungsweise ...

Müssen mit unserer Logik auch gar nicht versuchen die extrem hohen Spielstärken der Engines zu verstehen.
Das kann ja wahrscheinlich noch nicht mal unser Weltmeister.

Insofern ist jedes gerechtfertigte Querdenken erwünscht um zum Ziel zu kommen.

Vieles hat also wirklich auch nichts mehr mit Menschen Logik zu tun.

Tja ...
Da hast Du natürlich Recht sofern ich das richtig verstanden habe.

Gruß
Frank
Parent - - By Stefan Pohl Date 2017-10-23 12:43
Guenter Stertenbrink schrieb:


Hallo Stefan,
minimieren wir also nicht die Remisquote, sondern die Zahl der 1:1 Ergebnisse aus 2 Partien
mit vertauschten Farben.
--------------------------------------


Im Prinzip ja. Ich finde es allerdings besser, die beiden Meß-Parameter Remisqoute und Erfolgsscore-Bandbreite (Elo-Abstände) separat zu betrachten. Beides geht (und soll gehen!) Hand in Hand, das stimmt natürlich. Aber für mich als Buchentwickler ist die Betrachtung der Einzelparameter einfacher, weil ich mir so nur die Ergebnis-Ausgabe der LittleBlitzerGUI anschauen muß. Dazu kommt, wenn ich einen großen Stellungspool mit der LittleBlitzerGUI in einem Praxistest durchteste (wie bei SALC, FEOBOS, wo ich 1000 Partien spielen lasse, obwohl es jeweils viel mehr Stellungen in dem  EPD-Vorgabefile gibt), dann nutze ich den RoundRobin-Modus der LBG. Und in diesem wird für jede neue Partie eine Vorgabestellung aus dem EPD-File zufällig ausgewählt. Ein erneutes Durchspielen mit vertauschten Farben findet nicht statt. Insofern gibt es kein Partienpaar mit vertauschten Farben, daß ich auf 1:1 untersuchen könnte. Aber dieser Modus hat den großen Vorteil, daß er das EPD-Vorgabeset eben wie ein Eröffnungsbuch behandelt. Auch dort wird eine Variante zufällig ausgespielt. Und in der nächsten Partie eine andere.
Würde ich den Gauntlet Modus der LBG nutzen, würde jede EPD-Stellung von Stellung 1 an, sequentiell abgespielt und mit vertauschten Farben wiederholt. Aber dann müßte ich alle Stellungen des EPD-Files abspielen. Und das doppelt. Da wäre ich bei 10000 oder mehr Vorgabestellungen im EPD-File (wie eben bei SALC oder FEOBOS) bei 20000 und mehr Partien. Das ist nicht praktikabel.

Stefan
Parent - - By Guenter Stertenbrink Date 2017-10-23 14:13 Edited 2017-10-23 14:22
nehmen wir 3 Varianten, eine immer gewonnen fuer Weiss, eine immer Remis
eine immer gewonnen fuer Schwarz.
Alle ungeeignet fuer's Buch, aber als Set ergib sich 33% Remisquote, 50% Weiss-Performance.
------------
wie waer's mit kleineren Zufalls-sets aus den 10000 ?
z.B  nehm ich SALC-half_closed-500.pgn etc.
Parent - - By Stefan Pohl Date 2017-10-23 17:41 Edited 2017-10-23 17:56
B
Guenter Stertenbrink schrieb:

nehmen wir 3 Varianten, eine immer gewonnen fuer Weiss, eine immer Remis
eine immer gewonnen fuer Schwarz.
Alle ungeeignet fuer's Buch, aber als Set ergib sich 33% Remisquote, 50% Weiss-Performance.
------------
wie waer's mit kleineren Zufalls-sets aus den 10000 ?
z.B  nehm ich SALC-half_closed-500.pgn etc.


Von dem SALC V3 gibt es drei 500er Sets im Downloadpaket. Von SALC V4 (half closed) wird es sicher ähnliches geben. Der jetzige Testrun mit den half-closed Stellungen, die ich aus dem V3-Set rausgefiltert hatte, war ein Test, ob das half-closed Konzept überhaupt erfolgreich ist. Wäre es das nicht gewesen, hätte ich das Ganze nicht weiterverfolgt. Da der Testrun aber so erfolgreich verlief, habe ich jetzt das Projekt SALC V4 (half-closed) in Angriff genommen. Wenn es abgeschlossen ist, wird es voraussichtlich auch wieder drei 500er Sets geben, eines mit relativ neutral bewerteten Stellungen, eines mit etwas bevorteilenden Bewertungen, und eines mit rel. stark bevorteilenden Bewertungen (solid, normal, extreme). Mit dem normalen Set werde ich dann auch mal einen Testrun im Vergleich zum Hert500 Set machen. Dann werden alle Stellungen abgespielt, auch mit vertauschten Farben, dann kann man so eine erweiterte Auswertung auch mal machen.
Zusätzlich ist in meinen SALC-PGN Dateien im Kommentar-Tag immer die Bewertung der Endstellung durch Komodo mit abgespeichert (val=X). Daher kann jeder mit einem brauchbaren Datenbankprogramm selber beliebige Bewertungsintervalle herausfiltern und sich eigene Teil-Stellungssets zusammenstellen. Steht auch alles in der ReadMe-Datei des Download-Paketes

Übrigens ist das von dir genannte Beispiel durchaus instruktiv und beleuchtet, was ich immer sage: Remis senken mit klar gewonnenen Stellungen ist einfach, aber damit hat man eben keine Ergebnisspreizung mehr. So wie in diesem Beispiel. Zwei von drei Stellungen sind einfach gewonnen. Damit erhält man eine tolle Remisqoute (33%), aber eine Ergebnisspreizung ist nicht mehr vorhanden (Ergebnis eben 50%). Genau das, was ich nicht will. Und was bei SALC eben auch nicht passiert. Siehe die Testergebnisse. SALC spreizt Ergebnisse weiter von 50% weg, als ein Standard Eröffnungsset und als FEOBOS. Und das sieht man eben auch in der klassischen Auswertungsform (Remisqoute und Erfolgsscore), sofern man zwei Engines gegeneinander testet, die einen meßbaren Spielstärkeunterschied haben.

Stefan
Parent - By Guenter Stertenbrink Date 2017-10-24 01:17
was ich sagen wollte ist, dass man jede Ausgangsstellung einzeln bewerten sollte
(nach Wahrscheinlichkeit der 1:1 Ergebnisse) , und nicht nur Remisquote
und Weiss-Performance der ganzen Datei betrachtet.
Ausserdem kann man dann jeweils die besten Exemplare aus verschiedenen Dateien
herauspicken.

eine Ratingliste der Engine-Partien-Ausgangsstellungen.
eine Ratingliste der Engine-Testpositionen

mit Klassifizierung der verschiedenen Typen , ECO, Material, Rochaden, evals, eval-Schwankungsbreiten
Taktik-Index, offen-zu, erwartete Partielaenge,...
Parent - - By Hauke Lutz Date 2017-11-04 11:04
Guenter Stertenbrink schrieb:

Das kann ja wild konstruiert sei, sogar unmoeglich zu erreichen aus der normalen
Startstellung.


Hallo Günter,

bei diesem Satz ist mir in den Sinn gekommen, dass im Prinzip ruhig Stellungen sein können die bei Chess960 entstehen würden um auf viele Stellungen zu kommen die dem Anforderungsprofil entsprechen.
Angenommen es rotieren ausschließlich Springer und Läufer, dann wären es schon 4 Grundstellungen aus denen Stellungen entstehen können die spielbar sind.

Hauke




Parent - - By Guenter Stertenbrink Date 2017-11-05 22:19
da muesste man jetzt testen, wie hoch bei diesen 4 die Remisquote oder
"Ergebnisspreizung" ist ... [...laeuft --> eine Woche]
Komodo hat ja Probleme mit 960, ist das wegen der ungewoehnlichen Rochiererei ?
Ohne Rochade sinkt bei mir die Remisquote von 86.9 auf 80.8 und steigt die
Ergebnisspreizung von 24% auf 34% . [ bei SALC500 sind es 66.9% und 39% ,
bei SALC-hc500 sind es 67.9% und 45%]
(1000 Partien asmFish gegen asmFish , 120+1 , 4 Kerne , 1800kn/s in der Startstellung)
Parent - - By Hauke Lutz Date 2017-11-09 07:24
Bis auf die Rochaderegeln sind bei 960 im Prinzip nur 959 Stellungen ungewöhnlich.
Solange die Türme und Könige auf a, h und e bleiben sollte es keine Probleme geben, weil sich die Rochaderegel nicht verändert.
Sofern die Dame ebenfalls rotiert wären es schon 16 Startpositionen aus denen mit kurzen Vorgabezügen viele Teststellungen entstehen würden.
Ich werde leider erst am Wochenende dazu kommen mich intensiv damit zu befassen.
Parent - - By Guenter Stertenbrink Date 2017-11-09 08:44 Edited 2017-11-09 08:47
erste Tests ergeben keine wesentliche Verbesserung der Remisquote mit den ersten beiden Varianten

120s+1s,tablet,1800kn/s,asmfish-asmfish,1000 Partien

Weiss-score,Remisquote,Ergebnisspreizung

58.4%,66.9%,39.2%,SALC500
50.5%,86.7%,25.2%,hauke1
53.1%,87.4%,22.6%,normal ohne Buch
61.9%,89.8%,19.0%,hauke2
Parent - - By Stefan Pohl Date 2017-11-09 11:33 Edited 2017-11-09 11:45
Guenter Stertenbrink schrieb:

erste Tests ergeben keine wesentliche Verbesserung der Remisquote mit den ersten beiden Varianten

120s+1s,tablet,1800kn/s,asmfish-asmfish,1000 Partien

Weiss-score,Remisquote,Ergebnisspreizung

58.4%,66.9%,39.2%,SALC500
50.5%,86.7%,25.2%,hauke1
53.1%,87.4%,22.6%,normal ohne Buch
61.9%,89.8%,19.0%,hauke2


SALC rules!!!

Es ist ein weitverbreiteter (Irr-)glaube, daß besonders kurze Eröffnungsvorgaben, oder gar das direkte Losspielen aus der Grundstellung heraus, auch besonders niedrige Remisqouten ergibt.
Ich habe vor vielen Jahren ja sogar mal eine FRC-Rangliste (Fischer-Random-Chess) geführt (die Älteren werden sich erinnern), wo die von Hauke hier skizzierten Stellungen zum Einsatz kamen. Also König immer auf e, Türme immer auf a und h. Und immer ungleichfarbige Läufer. Das sind dann FRC-Stellungen, die alle Engines spielen können, auch wenn sie Chess960 nicht beherrschen.
Schon damals war ersichtlich, daß das keine nennenswert geringeren Remisqouten ergibt, obwohl keinerlei Eröffnungsvorgabe stattfand und aus diesen “Grundstellungen“ direkt losgerechnet wurde.
Das ist ja auch vollkommen logisch, da diese Stellungen sowohl total ausgeglichen als auch total symmetrisch sind. Wie sollte das geringe Remisqouten ergeben?
Remisqouten kann man nur senken, wenn man entweder einer Seite einen meßbaren Vorteil einräumt (das ist dann aber logischerweise schlecht für die Ergebnisspreizung), oder Stellungen benutzt, die möglichst asymmetrisch sind (die Grundidee von SALC, weil nur dieser Weg gangbar ist, wenn man Remisqouten senken will, ohne die Ergebnisspreizung zu verschlechtern). Alle anderen Ansätze, die nicht auf Vorteile für eine Seite oder Asymmetrie setzen, werden scheitern, also Remisqouten nicht nennenswert senken. Meine ich jedenfalls. Und ich habe mittlerweile einige (auch enttäuschende) Erfahrungen auf diesen Gebiet gemacht.

Stefan
Parent - By Guenter Stertenbrink Date 2017-11-09 13:49
Materialungleichheit (gambit)
Spiel auf verschiedenen Fluegeln trotz gleicher Rochade (mar del plata)
Raumvorteil, Zentrum (pirc)

oder einfach offener Sizilianer , scheveninger oder so

sind andere Ideen

Die Eroeffnungsstatistik zeigt ja bereits deutliche Unterschiede in der Remisquote,
auch bei gleichen Bewertungen

Damenindisch ist Remistraechtig, Rauser weniger
slawisch Abtauschvariante ,<--> Meraner
etc.
Parent - By Hauke Lutz Date 2017-11-10 19:38
Hallo Günter,

die Idee war auch nicht unbedingt, dass andere Grundstellungen als Teststellung, sondern eine Basis für kurzzügige Teststellungen wäre.
Zeit um die Idee andere Grundstellungen als Basis (inkl. Dame immerhin 16 Stück) für Teststellungen zu nehmen habe ich leider nicht vor Donnerstag.

Gruß
Hauke
Up Topic Hauptforen / CSS-Forum / SALC half-closed: Erstaunliches Testergebnis

Powered by mwForum 2.29.3 © 1999-2014 Markus Wichitill