Not logged inCSS-Forum
Forum CSS-Online Help Search Login
CSS-Shop Impressum Datenschutz
Up Topic Hauptforen / CSS-Forum / Fachsimpeln mit Larry Kaufman
- - By Stefan Pohl Date 2017-07-19 12:20 Upvotes 1
Ich habe einen kurzen Austausch von PMs auf talkchess mit GM Larry Kaufman vom Komodoteam gehabt, dessen Inhalt ich hier mal sinngemäß wiedergeben möchte, da ich glaube, er könnte von allgemeinem Interesse sein. Es ging um die Problematik des drohenden Remistodes des  Computerschachs in näherer Zukunft. Bereits heute sehen wir ja Remisquoten von 85% und darüber, wenn nur Top-Engines auf schneller Hardware mit längeren Bedenkzeiten gegeneinander spielen. L.K. ist sich dieser Problematik ebenso bewußt wie meine Wenigkeit. Er stimmt weiterhin mit mir überein, daß dieser Remistod nur abgewendet oder zumindest verzögert werden kann, wenn man den bisher benutzten Ansatz für die Auswahl der Eröffnungsvorgabestellungen für Enginematches verwirft - nämlich möglichst neutrale Eröffnungsvorgaben bzw. Bücher zu verwenden. Dieses - in früherer Zeit sicher sehr sinnvolle - Konzept hat das Computerschach ja überhaupt zu den exorbitant hohen Remisqouten im High-End Bereich hingeführt, die wir schon heute sehen. Insofern ist sowohl L.K. als auch mir klar, daß es in Zukunft verworfen werden muß. Vor diesem Hintergrund hat sich L.K. auch mit meinem Konzept der SALC-Vorgabestellungen (nur Stellungen mit Rochaden auf gegenüberliegende Brettseiten, für mehr Angriffspotential, Taktik, Königsangriffe) befaßt. Diesen, meinen Ansatz sieht L.K. allerdings kritisch, weil er seiner Meinung nach zu einseitig bestimmte Stellungstypen bevorzugt. Immerhin findet er die Idee aber nicht uninteressant und - viel wichtiger - er macht sich auch eigene Gedanken zu dem Problem des drohenden Remistodes und dessen Lösung. Seine Idee, die er auch bereits auf die To-do Liste des Komodoteams gesetzt hat (interessante Info - das zeigt, daß das Ganze für ihn mehr als nur eine Idee ist, der man eventuell mal nachgehen sollte), sieht nun folgendermaßen aus: Er möchte Eröffnungsvorgabestellungen nutzen, die absichtlich unausgewogen sind, deren Bewertungen durch Engines also in einem Bereich sehr deutlich jenseits von 0.00 liegen. Damit diese Vorgaben möglichst “normal“ sind, plädiert L.K. zudem dafür, daß alle Vorgabestellungen immer Weiß bevorteilen sollen. Wegen des natürlichen Anzugsvorteils, den Weiß immer hat, seien Eröffnungsstellungen, in denen Schwarz besser steht, tendenziell eben nicht-normal und daher zu vermeiden. Ich hatte ihm nämlich, aufgrund meiner Erfahrungen beim Filtern von Eröffnungsstellungen für meine SALC-Stellungssets, empfohlen, Stellungen zu filtern, die außerhalb des Bewertungsuntervalls [-0.25,+.0.25] und innerhalb des Intervalls [-0.6,+0.6] liegen. L.K. bevorzugt stattdessen Vorgabestellungen, die alle um eine Bewertung von +0.5 liegen sollen, er denkt also momentan an ein Filterintervall von ca. [+0.25,+0.75], in dem sich die Bewertungen der Eröffnungsvorgabe-Endstellungen befinden sollten. Damit soll die Remsiqoute in Enginematches dann deutlich gesenkt werden, ohne bestimmte Stellungstypen zu bevorzugen.
Diesem Ansatz stehe ich nun wiederum nicht ganz unkritisch gegenüber. Prinzipiell scheint diese Idee die naheliegendste Lösung zu sein, um Remisqouten zu senken. Dies war auch der Grund, warum ich schon 2013 diese Idee in sehr ähnlicher Form getestet hatte. Nur leider waren die Resultate nicht so, wie ich sie erhofft hatte. Denn: befinden sich die Bewertungen der Vorgabestellungen zu nah an 0.00, sinkt die Remisquote wenig bis gar nicht. Sind die Bewertungen von 0.00 sehr weit entfernt, so fällt (natürlich) die Remsiqoute, aber es gewinnt dann logischerweise immer öfter die Farbe, die den Vorgabevorteil bekommt und dadurch nähern sich die Erfolgsscores der Engines bei Gleichverteilung der Farbzuweisung, immer stärker der 50%-Marke, wenn jede Engine in etwa gleich oft den Vorgabevorteil hat. Was bedeutet, daß die Spielstärkeunterschiede zwischen den Engines immer schlechter und schwieriger meßbar werden. Und das ist ja das Letzte, was man in Enginematches, Turnieren und Ranglisten haben will. Mein - nach diesem Fehlschlag - entwickelter Ansatz der SALC-Stellungen ist der einzige mir bekannte Ansatz, der sowohl die Remisqouten signifikant senkt, als auch die Engine Erfolgsscores eben NICHT in Richtung 50%-Marke drückt. Dazu habe ich vor kurzem auch ein ausführliches und aufwendiges Experiment auf meiner Website veröffentlicht: http://spcc.beepworld.de/experiments.htm
Dennoch bin ich natürlich gespannt, ob Larry Kaufman und das Komodoteam ihre Idee umsetzen werden und (hoffentlich) damit mehr Erfolg haben werden, als ich damals hatte. Immerhin liegt das Schachverständnis von L.K., der ja GM ist, ein paar Lichtjahre über meinem. Und das Komodoteam hat sicher zudem weit mehr Rechnerkapazitäten als ich. Ich bin auf jeden Fall gespannt, ob und was dem Komodoteam zur Lösung des Remistod-Problems einfällt und wie sie es schlußendlich realisieren werden. Generell begrüße ich natürlich jeden Versuch, den Remistod des Computerschachs zu verhindern oder zu verzögern. Und auch jeden Beitrag, der hilft, das Remistod-Problem mehr in das Bewußtsein der Computerschach-Community zu rücken. Darum auch dieser - zugegebenermaßen sehr lange - Textbeitrag hier im Forum...

Stay tuned.

Stefan (SPCC)
Parent - By Guenter Stertenbrink Date 2017-07-19 12:56
kritisch evtl. auch deshalb, weil besonders Komodo diese SALC-Stellungen nicht so sehr
mag im Gegensatz zu Stockfish ?!

Sollten Computer-Start-Eroeffnungsstellungen moeglichst nahe an menschlichen
Eroeffnungsstellungen sein, oder sollte man auch Praxisferne konstruierte
Anfangsstellungen zulassen ?

Anstatt SALC koennte man auch einfach nach Eroeffnungsstatistiken filtern,
entgegengesetzte Rochaden ist ja nur eins von mehreren Kriterien, um die
Remisquote zu senken.

we had a thread here:
http://hiarcs.net/forums/viewtopic.php?t=7918
Parent - - By Tom Paul Date 2017-07-19 14:24 Upvotes 1
Der Anzugsvorteil ist doch nur für Menschen ein Vorteil, weil diese im Vergleich zu TOP Engines schwach spielen.
Und wenn ich sehe das selbst Stockfish mit seinen 3500 ELO tot remis Endspiele mit +0.50 und mehr bewertet, mit und ohne TB, dann weiß ich schon von der Logik her das das Schachspiel remis ist = Der Anzugsvorteil beim Beginn der Schachpartie den Stockfish anzeigt ist somit falsch und das liegt daran das Stockfish immer noch zu wenige ELO hat bzw. keine Eröffnungsphase im Code hat um das richtig zu erkennen.

Anderes Beispiel sind viel frühere Schachpartien wo Engines und Großmeister Stellungen mit +2.00, +3.00 eingeschätzt haben was quasi in 99,9% der Fälle eine garantierte Niederlage für den Gegner bedeutet. Und somit würde keine Mensch diese Stellungen verteidigen wollen. Aber Stockfish schaut und sieht 0.00.
Also kann eine Engine für sich selbst die Stellung so bewerten wie sie ist oder für Menschen so bewerten wie super GMs sie sehen. Die Frage ist wer was will?
Sonst spielt bald jeder -3.00 Stellungen, weil Stockfish in der Analyse 0.00 anzeigte und dann wundert sich jeder warum man seine neue Eröffnungs/Mittelspielstellung zu 90% verliert.

Oder anders ausgedrückt: Alle +0.50 Stellungen(wo auch nichts gefunden werden kann) sind in 5 Jahren 0.00 Stellungen, weil Stockfish in der Spielstärke bis dahin extrem zulegen wird.

Und den Remistod kann man bei fairem Spiel nicht vermeiden, es sei denn jemand spielt mit einem Bauern weniger oder bekommt eine scheiß Stellung = das ist quasi das Gleiche.

Teste doch mal deine Stellungen mit der ersten Rybka Engine, da wirst du über +2,00 und 3,00 Stellungen und mehr nur so staunen.
Parent - - By Guenter Stertenbrink Date 2017-07-19 16:12
grundsaetzlich gilt wohl wie bei aehnlichen Problemen,
dass es einfacher ist komplizierte Stellungen
zu erzeugen, als diese zu "loesen".

Gehst du einfach mit der eval immer naeher dran an die Grenze
Gewinn/Remis ... das  ist extrem schwer entscheidbar.
Und das vermutlich auch noch in 10 Jahren.
Parent - - By Kurt Utzinger Date 2017-07-20 12:28
Guenter Stertenbrink schrieb:

grundsaetzlich gilt wohl wie bei aehnlichen Problemen,
dass es einfacher ist komplizierte Stellungen
zu erzeugen, als diese zu "loesen".


Ein sehr gute Aussage, die die Schwierigkeiten auf
den Punkt bringt.

Zitat:
Gehst du einfach mit der eval immer naeher dran an die Grenze
Gewinn/Remis ... das  ist extrem schwer entscheidbar.
Und das vermutlich auch noch in 10 Jahren.


Da sind die Menschen eben überfordert ... so bleibt für Tester, die Engine-Matches
durchführen ein breites Betätigungsfeld, wie weit man gehen darf. Trifft man für
komplizierte Stellungen dann die richtige Wahl, mag wohl die Remisquote sinken,
hingegen wird sich nichts an der vergleichbaren Spielstärke der Engines ändern.
Ob die Einschätzung der Spielstärke (Elo-Wertung) durch gleich viele Siege/Niederlagen
oder eben mehrheitlich durch Remispartien zustanden kommt, ist für die Statistik doch
wurst, oder?
Gruss
Kurt
Parent - - By Frank Brenner Date 2017-07-20 15:25 Upvotes 1
Zitat:
Ob die Einschätzung der Spielstärke (Elo-Wertung) durch gleich viele Siege/Niederlagen
oder eben mehrheitlich durch Remispartien zustanden kommt, ist für die Statistik doch
wurst, oder?


Worauf stützt sich deine Vermutung ?

Wenn du einmal heute die verschiedenen ELO Listen anguckst, so wirst du - je nach Liste - einmal einen größeren und einmal einen minimalen Unterschied in der Spielstärke zwischen Stockfish und Komodo erkennen.
Bei Stefan Pohl und bei CCRL/FRC  ist Stockfish deutlich besser als Komodo, während bei Ingo Bauers IPON Komodo sogar vor SF leicht führt.
Der Tenor der Startstellungen scheint also sehr wohl einen Einfluß auf das Ergebnis zu haben.

Im Stockfish Framework haben die Framework Entwickler glaube ich durch Tests herausgefunden, dass ein Zufallsbuch über die ersten n Züge  (wo auch 1.h4 Sh6 2.h5 Sg8 möglich ist) das am besten geeignete "Buch" ist um kleinste Spielstärkeverbesserungen zu identifizieren.
Parent - - By Kurt Utzinger Date 2017-07-20 16:02
Frank Brenner schrieb:

Zitat:
Ob die Einschätzung der Spielstärke (Elo-Wertung) durch gleich viele Siege/Niederlagen
oder eben mehrheitlich durch Remispartien zustanden kommt, ist für die Statistik doch
wurst, oder?


Worauf stützt sich deine Vermutung ?

Wenn du einmal heute die verschiedenen ELO Listen anguckst, so wirst du - je nach Liste - einmal einen größeren und einmal einen minimalen Unterschied in der Spielstärke zwischen Stockfish und Komodo erkennen.
Bei Stefan Pohl und bei CCRL/FRC  ist Stockfish deutlich besser als Komodo, während bei Ingo Bauers IPON Komodo sogar vor SF leicht führt.
Der Tenor der Startstellungen scheint also sehr wohl einen Einfluß auf das Ergebnis zu haben.

Im Stockfish Framework haben die Framework Entwickler glaube ich durch Tests herausgefunden, dass ein Zufallsbuch über die ersten n Züge  (wo auch 1.h4 Sh6 2.h5 Sg8 möglich ist) das am besten geeignete "Buch" ist um kleinste Spielstärkeverbesserungen zu identifizieren.


Hallo Frank

Da reden wir ein wenig aneinander vorbei. Deine Feststellungen bezüglich der
Unterschiede zwischen den verschiedenen ELO-Listen sind mir bewusst. Ich
wollte nur ausdrücken, dass mit den SALC-Stellungen von Stefan Pohl die
Remisquoten wohl sinken. Dass hingegen eine Gesamtrangliste unter
Berücksichtigung aller vorhandenen Listen kaum relevant anders als
heute aussehen dürfte.

Gruss
Kurt
Parent - By Frank Quisinsky Date 2017-07-20 17:36 Edited 2017-07-20 17:42
Hallo Kurt,

um wirklich festzustellen wie hoch die Remisquote eines Buches ist ... muss von allen Positionen die sich im Buch befinden x Engines Analysen gemacht werden. Wir haben ja nicht nur Stockfish und Komodo (wäre auch langweilig). Genau das machen wir bei FEOBOS.

Wenn 10 Engines analysieren und 7 geben 0,00 aus bedeutet das nach Hochrechnung.
Es ist zu 62% wahrscheinlich das es in einer Engine Kombination zu einem schnellen Remis durch dreifache kommt.

Es ist gefährlich nun hinzugehen und zu sagen ...
Alle 0,00 müssen raus, weil wir dann zu große Buchlücken hätten.

Mit den Parametern ... wenn bei 10 Engines drei sagen ... oder bei 10 Engines vier sagen 0,00 können wir zwar ein wenig Einfluss nehmen aber definitiv werden ca. 5-7% spielbare Varianten die dann nicht in einem schnellen Remis enden geopfert. Geopfert für eine grundsätzlich allgemein geltende niedrige Remisquote.

Das ist z. b. auch mir bewusst und ich errechne mittels Excel den optimalen Wert ... wann dürfen die 0,00 aussortiert werden oder nicht.
Aber selbst wenn ich einen optimalen Wert ermittelt haben verlassen wie beschrieben 5-7% spielbare Buchzüge die Theorie und bleiben auf der Strecke.

Es gibt dafür eigentlich nur eine Lösung.
Die 0,00er Züge müssen auch im Buch sein aber eine niedrigere Ausspielpräferenz bekommen. Somit habe ich kein Verlust von 5-7% spielbaren aber senke dennoch die Remisquote. So die Idee bei der FEOBOS Buchversion 7. Ich sammel derzeit die aussortieren 0,00 und werde bei dem nächsten Shredder Buch alle reinbringen mit Prio "d" und einer Ausspielwahrscheinlichkeit von 0.5% - 1.0%. Verliere so nicht 5-7 gute Buchzüge ... die werden dann zwar seltener gespielt aber das Buch hat die Lücken nicht und kann zumindest passiv auch wieder reagieren.

Sehe sonst keinen Weg.

Bedeutet, ich habe auf 100 Partien ca. 0.35 Partien dabei die mit Remis unter 20 Zügen enden.
Das teste ich seit geraumer Zeit mit FEOBOS Test-Buch Versionen.

Setzte dann Wasp - 20 andere um Ergebnisse zu überprüfen.

Gruß
Frank

PS: Anfangs dachte ich korrekt wäre es wenn 7 von 10 Engines 0,00 ausgeben ... erst dann deaktivieren.
Mittlerweile bin ich eines besseren belehrt ... wenn 3 von 10 Engines 0,00 ausgeben ... reicht schon für die 3-fache Gefahr.

Bei FEOBOS wird also später alles aussortiert an 0,00er Bewertungen von 3 von 10 sagen 0,00.
Diese dann aber wieder ins Buch gebracht mit Prio "D".

Denke die Buchversion 7 die ich nächste Woche fertig stelle wird richtig gut.
Werde dann wieder experimentieren aber nach dem was ich jetzt schon habe kann ich die Remisquote fast auf Rekordwerte nach unten drücken obwohl in FEOBOS nur ausgeglichene Varianten drin sind.
Parent - - By Frank Brenner Date 2017-07-20 18:09
Code:
Ich wollte nur ausdrücken, dass mit den SALC-Stellungen von Stefan Pohl die
Remisquoten wohl sinken. Dass hingegen eine Gesamtrangliste unter
Berücksichtigung aller vorhandenen Listen kaum relevant anders als
heute aussehen dürfte.


Nun ja, wenn du die Spielstärke nur über Pi mal Daumen messen möchtest, könntest du recht haben: Stockfish, Houdini, Komodo sind gleichstark
Dann gibt es mit einigem Abstand von ca 200 Elo eine Verfolgergruppe  von rund  7  Engines und der Rest tummelt sich sehr weit unten.

Guckst du aber einmal genau hin, so ändert sich die Reihenfolge und die Abstufungen der Engines untereinander  ganz schön kräftig, jenachdem welche Startstellungen zugrunde gelegt werden.

CCRL/FRC 

1  Stockfish 8 64-bit  3628 
2  Houdini 5.01 64-bit  3610 
3  Komodo 10.4 64-bit  3572 

IPON

1 Komodo 11.01       :   3299  
2 Stockfish 8            :   3297    
3 Houdini 5.01          :   3279  

Stefan Pohl
1 Stockfish 170526 bmi2    : 3420
2 Houdini 5 pext           : 3357  
3 Komodo 11.01 x64         : 3346  

Für die Schachprogrammierer die ihre Programmiererweiterungen testen wollen sind die Startstellungen der IPON Batterie
möglicherweise eher nicht geeignet,  da kleinste Verbesserungen an der Engine wahrscheinlich kaum zu einem verbesserten Endresulatat führen.

Du siehst, daß bei Stefans salc Eröffnungen die Spielstärke stärker gespreizt wird.

Das Stockfishframework Team hat für das Framework Zufallszüge für die Eröffnung gewählt, da nach deren Tests Zufallszüge in der Eröffnung zur stärksten Spreizung der Ergebnisse führt um möglichst mit guter Wahrscheinlichkeit sogar kleinste Verbesserungen zu identifizieren, so jedenfalls die Hoffnung der Frameworkprogrammierer.
Parent - By Frank Quisinsky Date 2017-07-20 18:19 Edited 2017-07-20 18:26
Frank,

so spannend die Vergleiche auch immer sind.
Der Beeinflussungsfaktor Buch ist zwar einer aber auch nur einer von vielen.

Bedenkzeit, Hardware, Hash, Endspieldatenbanken etc..

Bei extrem hohem Level entscheiden sich die Partien erst ab Zug 65 ... das hat wenig mit dem Buch zu tun.

Filtere mal die Gewinn und Verlustpartien von Stockfish und Komodo gegeneinander dann schauen wann gehen die Bewertungen sprunghaft nach oben, drei Züge ab diesem Zeitpunkt abziehen.
Statistik drauf legen ... 66,7 Züge ... die Kurve schlägt am höchsten aus (geht natürlich nur wenn bis zum Ende ohne Aufgabefaktor gespielt wird und auch nicht so viele schnelle Remis Partien die Statistik beschönigen).

Da bei Stefan stärker gespreizt wird liegt an der extrem schnellen Bedenkzeit. Klar, je niedriger die Bedenkzeit desto mehr Entscheidungen mit 1:0 oder 0:1 ... je höher die Bedenkzeit desto mehr 0.5 : 0.5.
Sicherlich kannst Du mit einem Buch Einfluss nehmen aber es ist ebend auch nur ein Beeinflussungsfaktor ... nicht mehr und nicht weniger.

Das Geheimnis ist alle Beeinflussungsfaktoren auszuschalten!
Viele Gegner, also viele unterschiedliche Spielstile ...
Ausgeglichenes Buch ... alles muss drin sein, die komplette Theorie sollte im Verhältnis zu was ist gut und was weniger angespielt werden.
Bedenkzeit ist gut zu wählen
Im Grunde alle Settings ...

Aber selbst wenn das alles gemacht wurde ...

Bei der FCP Ratingliste spielten teils 50 Engines jeder gegen jeden!
Nehme ich 50 andere Engines schaut es wieder anders aus und auch dann schlägt der Beeinflussungsfaktor wieder zu.
Kannst Du Dir noch so viel Mühe machen ... es wird nie so genau wie gewünscht.

Wir wollen wissen wie stark sind die Engines.
Alle geben sich Mühe und versuchen es herauszufinden aber niemals werden die Ergebnisse gleich sein und morgen ist schon wieder alles überholt ... wenn eine neue Version kommt.
Die unendliche Geschichte als Beschäftigungsmaßnahme wenn wir nichts besseres zu tun haben.

Finde derzeit eine andere Frage spannender als die unendliche Geschichte.
Wie können wir die vielen Engines zusammen einsetzen.
Das Thema Dreihirn in der Grundidee war richtig gut und schlummert immer noch im Verborgenen ... gerät ins Vergessenheit ... dabei ist genau das bei immer stärker werdenden Engines immer wichtiger. Wir können mehr lernen, die eigene Spielstärke verbessern wenn uns die Engines in Verbundenheit die Wege aufzeigen.

Finde Ratinglisten interessanter wenn wir mixen könnten.
Stockfish und Booot - Stockfish und Chiron ... experimentiere damit schon eine Zeit.
Viel viel spannender!

Geht nicht mit den GUIs die wir haben, die GUI Entwickler wollen nicht mehr so richtig ... obwohl es gibt nun CuteChess 1.0.
Sehr gute Arbeit.

Gruß
Frank
Parent - - By Frank Quisinsky Date 2017-07-20 18:36 Edited 2017-07-20 18:39
http://www.amateurschach.de/common/feobos/excel/rating_all_eco.png

Zu jedem ECO Code.
Und nun ziehe die ECO Codes bei den Wasp gut ist in eine PGN.
Wasp hätte einen Vorteil von 50 Elo (natürlich wird im Verlauf der Partie dann dennoch gegen deutlich stärker der Vorteil wieder aus der Hand gegeben). Aber dennoch die Remise steigen gegen deutlich stärker an und das Rating geht hoch. Auch damit experimentiere ich.

Und wenn das mal klar ist dann ist auch klar das wenn nicht alles im Verhältnis zur Theorie ausgespielt wird die schwächeren Engines teils Vorteile haben.
Wenn ein Buch z. B. kaum was drin hat zu B00 oder anderen Systemen bei denen Wasp besonders gut ist ... kann das bei vielen Gegnern durchaus bis zu 10 oder gar 15 Elo ausmachen, geht die ELO nach unten.

Alles muss rein in ein Buch oder genau das passiert mit dem was hinten raus kommt.

Zeugt die KECR Ratingliste schon deutlich auf.
Jede Engine hat aufgrund des eigenen Gesichtes ECO Codes mit denen besser oder schlechter gepunktet wird.
Wenn etwas fehlt oder überproportional oft vertreten ist ... die ELO sinkt und fällt.

Für diese Aussage muss niemand ein Prophet sein, ist einfach nur logisch.
Aber die Excel Dateien von Klaus zeigen genau das z. B. auch sehr deutlich auf, wie so viele andere Geschichten die schon eingearbeitet sind.

Tja, Computerschach kann zu einem echten Thema werden bei dem uns niemals langweilig wird.
Und je mehr Wissen wir aufbauen desto besser können wir etwas einschätzen.
Und lernen ... wir lernen nie aus, erst Recht wenn die Engines heute mindestens 1.000 Elo besser sind als wir.

Gruß
Frank
Parent - - By Frank Brenner Date 2017-07-20 23:59 Upvotes 1
Vor einigen Tagen wurde hier im Forum der Google-Translator gelobt, weil der  in den letzten Jahren bei der Übersetzung von Fremdsprachen Fortschritte erzielt hat.

Leider ist die Qualität von Google-Translate immer noch nicht gut genug um deine Beiträge in eine für mich verständliche Sprache auf einen Punkt zu bringen.
Parent - By Frank Quisinsky Date 2017-07-21 00:52
Hallo Frank,

habe ich gelesen und natürlich mit einer ordentlichen Anrede und wie es sich gehört ...

UND
Einem ordentlichen Abschluss der sogleich folgt

...

Viele Grüße
Frank
Parent - - By Kurt Utzinger Date 2017-07-20 20:37 Upvotes 1
Frank Brenner schrieb:

Code:
Ich wollte nur ausdrücken, dass mit den SALC-Stellungen von Stefan Pohl die
Remisquoten wohl sinken. Dass hingegen eine Gesamtrangliste unter
Berücksichtigung aller vorhandenen Listen kaum relevant anders als
heute aussehen dürfte.


Nun ja, wenn du die Spielstärke nur über Pi mal Daumen messen möchtest, könntest du recht haben: Stockfish, Houdini, Komodo sind gleichstark
Dann gibt es mit einigem Abstand von ca 200 Elo eine Verfolgergruppe  von rund  7  Engines und der Rest tummelt sich sehr weit unten.

Guckst du aber einmal genau hin, so ändert sich die Reihenfolge und die Abstufungen der Engines untereinander  ganz schön kräftig, jenachdem welche Startstellungen zugrunde gelegt werden.
[...]


Hallo Frank

Alles klar und kein Widersspruch meinerseits. Zur Verdeutlichung nochmals mein pragmatischer
Ansatz. Zähle ich die Elo-Werte für jede Engine aus CCRL/FRC, IPON und Stefan Pohl zusammen,
dann ergibt sich folgendes Bild:

1. Rang Stockfish mit 10,345 Elo : 3 ergibt einen Durchschnittswert von 3,448 Elo
2. Rang Houdini mit 10,246 Elo : 3 ergibt einen Durchschnittswert von 3,415 Elo (- 33 Elo zu Stockfish und +10 Elo zu Komodo)
3. Rang Komodo mit 10,217 Elo : 3 ergibt einen Durchschnittswert von 3,405 Elo (- 43 Elo zu Stockfish bzw. - 10 Elo zu Houdini)

Wenn man also die Gesamtwertung betrachtet, sind die Elo-Differenzen zwischen diesen Engines weitaus geringer als in den
einzelnen Listen. Und wird dann gar noch der Umstand berücksichtigt, dass sich diese Werte tendenziell weiter annähren
bei steigenden Bedenkzeiten, so lässt sich die Meinung vertreten, dass alle drei Engines in etwa gleicht stark sind. So gesehen
zweifle ich an einem (zu) starken Einfluss von unterschiedlichen (guten) Eröffnungsbüchern, werden doch die meisten Partien
zwischen diesen Engines im späten Mittelspiel und Endspiel entschieden.

Gruss
Kurt
Parent - By Frank Brenner Date 2017-07-20 23:40 Edited 2017-07-20 23:43 Upvotes 1
Hallo Kurt

Zitat:
Wenn man also die Gesamtwertung betrachtet, sind die Elo-Differenzen zwischen diesen Engines weitaus geringer als in den
einzelnen Listen.


In der Ipon Liste waren die Abstände zwischen den Engines deutlich knapper als bei der Durchschnittsrechnung.

Was die Eloabstände bei größeren Bedenkzeiten angeht, so geben die 3 (Blitz) Listen allein überhaupt keinen HInweis darauf, wie es bei großen Bedenkzeiten sein könnte:

Man sieht aber bei den letzten beiden TCEC Turnierne, daß hier die Remisquote bei langen Bedenkzeiten sehr stark ansteigt und die Engines zusammenrücken.

Diesen Effekt kannst du nicht durch Duschnittsbildung bei geringeren Bedenkzeiten ableiten.

Zitat:
So gesehen
zweifle ich an einem (zu) starken Einfluss von unterschiedlichen (guten) Eröffnungsbüchern, werden doch die meisten Partien
zwischen diesen Engines im späten Mittelspiel und Endspiel entschieden.


"ZU" stark sind die Einflüsse natürlich nicht. Stockfish wird immer stärker sein als Moorhuhn, egal welche Startstellungen gewählt werden.

Aber du siehst an meinem vorherigen Posting bei den 3 Listen schon beträchtliche Unterschiede.

Und genau das ist es was einige Leute gerne sehen möchten:

Keine Startstellung  die bereits Figurenarm ein selbst für einen 2500 ELO Spieler einsichtiges spieletheoretisches Remis darstellt, sondern
eine Startstellung die möglichst noch geeignet ist einen 4300 ELO Spieler von einem 4400  ELO Spieler zu separieren.

Bei Eröffnungsbüchern aus der Vergangenheit, also lange Linien, und figurenarme Endzustände würde ein 4300 ELO spieler gegen einen 4400 ELO spieler immer Remis spielen.
Natürlich hätten dann beide auch den gleichen ELO Wert, wenn dieser auf Partien aus diesem alten Buch basiert ....

Aber gesucht ist halt ein Set an Startstellungen bei denen es möglich ist , einer Engine möglichst hohe ELO Werte zuzuordnen.

Dann könnte es in Zukunft  mit geeigneten Startstellungen X (die man gerne finden möchte) und  zb 10.000  Partien pro Engine eine Tabelle  so aussehen:

Engine A: 5000 ELO
Engine B: 4600 ELO
Engine C: 4300 ELO
....
Engine Referenz: 3000 ELO

Verwendet man jedoch die Startstellungen Y, zb ein Buch mit langen Linien und figurenarmen Endstellungen so endet es in folgender Tabelle:

Engine A: 3500 ELO
Engine B: 3500 ELO
Engine C: 3500 ELO
....
Engine Referenz: 3000 ELO

Die Werte sind gewiss etwas in de größenordnung übertrieben um zu verdeutlichen worauf es ankommt, aber es ist das was man gerne haben möchte.

Grüße
Frank
Parent - - By Kurt Utzinger Date 2017-07-20 15:30
Tom Paul schrieb:

Der Anzugsvorteil ist doch nur für Menschen ein Vorteil, weil diese im Vergleich zu TOP Engines schwach spielen.


Eine bezüglich Menschen überhebliche und des weiteren m.E. auch nicht stimmige Aussage. Lässt man die Engines ohne speziell
präpierte und auf sie abgestimmte Bücher spielen, werden sich mehr Weiss-Siege ergeben dank des Anzugsvorteils.

Zitat:
Und wenn ich sehe das selbst Stockfish mit seinen 3500 ELO tot remis Endspiele mit +0.50 und mehr bewertet, mit und ohne TB, dann weiß ich schon von der Logik her das das Schachspiel remis ist = Der Anzugsvorteil beim Beginn der Schachpartie den Stockfish anzeigt ist somit falsch und das liegt daran das Stockfish immer noch zu wenige ELO hat bzw. keine Eröffnungsphase im Code hat um das richtig zu erkennen.[...]


Gerne würde ich zu tot remis Endspielen +0.50 und mehr (mit und ohne TB) einige Beispiele von Stockfish sehen. Ferner ist mir schleierhaft, weshalb man aus der erst genannten Behauptung die von dir geäusserte Logik von wegen "das Schachspiel ist remis" ableiten kann.

Zitat:
Anderes Beispiel sind viel frühere Schachpartien wo Engines und Großmeister Stellungen mit +2.00, +3.00 eingeschätzt haben was quasi in 99,9% der Fälle eine garantierte Niederlage für den Gegner bedeutet. Und somit würde keine Mensch diese Stellungen verteidigen wollen. Aber Stockfish schaut und sieht 0.00.


Die Feststellung, dass in menschlichen Analysen von früher Fehler enthalten sind, hat nichts mit Stockfish zu tun.
Jede moderne Engine kann solche Fehlurteile aufdecken.

Zitat:
Also kann eine Engine für sich selbst die Stellung so bewerten wie sie ist oder für Menschen so bewerten wie super GMs sie sehen. Die Frage ist wer was will?


Was du hier sagen willst, versteh ich schlicht und einfach nicht. Die Engines spucken das aus, was sie aus
ihren Bewertungskriterien ableiten ... und oftmals genug sind sich die Engines nicht einig. Die super GMs
bewerten nicht mit +0.10 oder -0.35 usw., sondern aufgrund von diversen gewichteten Kriterien und ihrer
Erfahrung und Intuition. Und solange es nicht hochtaktisch wird, spielen sie erstaunlich oftmals Züge, die
den Vorschlägen der Engines entsprechen oder diese gar übertreffen.

Zitat:
Sonst spielt bald jeder -3.00 Stellungen, weil Stockfish in der Analyse 0.00 anzeigte und dann wundert sich jeder warum man seine neue Eröffnungs/Mittelspielstellung zu 90% verliert.


Man kann keine -3.00 Stellungen spielen, weil GMs nicht so denken. Und wenn du damit (sehr) schlecht bzw. (sehr) gut
aussehende Stellungen meinst, die nicht verloren bzw. nicht zu gewinnen sind, dann lassen sich solche Stellungen eben
problemlos spielen von Menschen, die gerne im Trüben fischen und auf Fehler des Gegners warten.

Zitat:
Oder anders ausgedrückt: Alle +0.50 Stellungen(wo auch nichts gefunden werden kann) sind in 5 Jahren 0.00 Stellungen, weil Stockfish in der Spielstärke bis dahin extrem zulegen wird.


Das ist unmöglich vorauszusehen. Eine +0.50 Bewertung bedeutet nicht, dass schon etwas gefunden wurde, sondern lediglich,
dass sich das Programm im Vorteil sieht. Und beim Fortgang der Partie wird sich dann möglicherweise (plötzlich) zeigen, dass
der Vorteil sich ausbauen lässt, bis es irgendwann später keine genügende Verteidigung geben wird. Davon auszugehen, dass
heute alle mit +0.50 bewertete Stellungen in 5 Jahren als 0.00 anzusehen sind, halte ich für nicht realistisch.

Zitat:
Und den Remistod kann man bei fairem Spiel nicht vermeiden, es sei denn jemand spielt mit einem Bauern weniger oder bekommt eine scheiß Stellung = das ist quasi das Gleiche.


Das sehe ich auch so.

Zitat:
Teste doch mal deine Stellungen mit der ersten Rybka Engine, da wirst du über +2,00 und 3,00 Stellungen und mehr nur so staunen.


Das ist normal und sieht man regelmässig beim Nachspielen alter Computerpartien.

Mfg
Kurt
Parent - - By Frank Quisinsky Date 2017-07-20 17:22
Hi Kurt,

anhand vom banalen C37 / C38 lässt sich viel ableiten.
Früher sehr beliebt und dann in den 80er und 90er Jahren, ja schon in den 70er unbeliebt weil es tiefere Analysen gab.
Es gibt kaum Fortsetzungen die zu Ausgleich führen. Sehr schön aufgearbeitet von John Shaw mit logischen und wirklich guten Kommentaren in seinem Buch "The Kings Gambit". Setzen wir heute dann die besten Engines auf die Stellungen sehen wir das was einst unsere Großmeister versuchten darzulegen. Diese Eröffnungen sind definitiv nicht spielbar bzw. dann spielbar wenn wirklich alle Abspiele bekannt sind und dann auch nur wenn der Gegner diese nicht kennt. Computerschachprogramme rechnen das locker aus weil die Vorteile die erzielt werden klar sind und im Horizont liegen.

Anders bei so vielen anderen Systemen die nicht durchschaubar sind und in Abspielen enden die weit über 30 Züge gehen. Hier immer wieder neues auf dem Weg zu diesen Abspielen entdeckt wird. Tiefe Eröffnungstheorie die nicht für Engines direkt errechnet werden können. Daher bilden sich auch Evals die eigentlich nicht korrekt sind. Je tiefer dann die TOP Engines sich innerhalb der Abspiele bewegen desto mehr wird an der Eval korrigiert. So werden dann schon richtig gute Varianten von Engines aufs Brett gelegt aber die Engines rechnen sich in die Tiefe von Zug zu Zug innerhalb der Varianten, nicht direkt wenn eine Eröffnungsstellung untersucht wird. So kommen dann oftmals auch Evals zu Stande die eigentlich nicht der Einschätzung von Eröffnungsexperten entsprechen. Zumindest nicht wenn nach dem Buch dann eine Engine ... egal wie tief ... die Stellung analysiert.

Es ist daher "eigentlich" unmöglich optimale Bücher nur mit Rechenpower zu erstellen. Selbst wenn wir 500 Rechner Zug für Zug sehr tief rechnen lassen. Wir können oberflächlich Bücher mit Rechenpower erstellen die zumindest dafür sorgen das zunächst die Stellung ausgeglichen ist und keine Engine direkt mit Vorteilen startet. Wichtig ist Remis in der Eröffnung zu vermeiden.

Daran arbeite ich z. B. seit 4 Jahren beim FCP Live Buch. Die schnellen Remisvarianten wurden mit Prio "E" deaktiviert, die Partien bei der Ratingliste direkt wiederholt und auch gesammelt. Sammelte die Datenbank und liegt in den FCP Rating List Download Verzeichnis (die komplette Ratingliste wurde dokumentiert).

Wir haben einfach mehr Spaß an den Partien wenn weniger Remis endet. Dies zu versuchen mit Eröffnungsvorgaben wird eine echte Aufgabe für die kommenden Jahre. Wir haben bei FEOBOS einiges drin in der Excel um diese Stellungen zu finden und zu eliminieren. Stefan möchte das erreichen mit seinen Ideen bei seinem eigenen Buchprojekt. Der Ansatz von Stefan ist gut und richtig.

Als Schachspieler finde ich Deine Kommentare aber auch treffend und logisch.

Mit den Eröffnungszügen leiten wir die Partie ein.
Gute Bücher für die Erstellung immer stärker werdender Engines sind enorm wichtig.
Ich brauche gar nicht mit dem Testen beginnen wenn diese Arbeit nicht als Vorarbeit geleistet wurde. Leider sieht es heute so aus und insofern muss dieses Manko auch in Angriff genommen werden. Ich nehme mir dafür 1 1/2 Jahre Zeit und versuche ein gutes Resultat zu erzielen bzw. greife genau das Thema seit 4 Jahren auf. Die FCP Rating Liste hatte ein großes Ziel ... erstelle die Basis für eine richtig geiles Buch.

Wobei ...
Für mich wird es zu 95% perfekt.
In Wirklichkeit scheitert aber jeder Versuch etwas wirklich perfektes in Angriff zu nehmen, weil das Thema ist zu gigantisch.
Ein Einzelner kann das nicht lösen aber ein Einzelner kann Lösungsvorschläge erarbeiten und mittels entsprechender Beispiele diese dann auch schön präsentieren.

Wir werden es nicht mehr erleben.
Meine die Zeit wenn auch das Schachspiel ausgerechnet ist.

Wenn diese Zeit mal gekommen ist könnten wir genau sehen welche Bücher auf den besten Weg waren bzw. die entsprechenden Zugfolgen aus den ersten beinhaltet hatten oder nicht. Das wird dann die Nachwelt in Angriff nehmen und sich wundern über uns.

Da werden 1.000 ELO Nasen mit Kommentaren um die Ecke kommen ...
Schau mal wie schlicht im Jahr 2020 diese Buch da war.

So wie wir heute sagen ...
Schau mal wie schlecht die Engine ist ... verliert gegen Stockfish mit 0.5 : 19.5 und hat vielleicht gerade mal 2.400 Elo.

Viele Grüße
Frank
Parent - - By Frank Quisinsky Date 2017-07-20 17:55 Edited 2017-07-20 17:58
Hallo Kurt,

vergessen, was derzeit nicht mit Rechenpower zu bewerkstelligen ist, kann vielleicht mit unterschiedlichen Spielstilen ... Ansätzen bei der Bewertung simuliert werden. So meine Theorie. Ich denke wenn ich arg unterschiedlich agierende Engines auf die Eröffnungen ansetze werde ich ein besseres Ergebnis erhalten anstatt tiefere Analysen durchzuführen. Gerade wenn es Engines sind die aufgefallen sind durch: Verlieren wenige Partien schnell (muss die Eröffnungsbehandlung gut sein ... Wasp, Booot).

So passiert folgendes.
Ich setzte auf die Eröffnungen 10 unterschiedliche Bewertungsfunktionen an die sich in meiner Ratingliste als optimal bei der Buchoptimierung herauskristallisiert haben. Ok, es fehlt noch Spark und Junior (die können das auch, gewinnen sehr oft schnell und verlieren kaum schnell). Allerdings fallen diese dann wieder von Spielstärke zu sehr ab. Vielleicht werde ich in 2018 noch Spark und Junior folgen lassen.

Damit kann ich kompensieren was eine Bewertungsfunktion nicht gesehen hat.

Die Meisten von uns denken immer noch ... wenn Komodo und Stockfish so stark sind ist auch die Eröffnungsbehandlung perfekt. Das ist völliger Unsinn. Sie sind vielleicht hier und da, gerade bei offenen Stellungen, stärker aber auch nicht mehr oder weniger. Die enorme Spielstärke von Komodo und Stockfish entwickelt sich immer mehr mit immer weniger Figuren auf dem Brett (siehe FCP Move Stats, davon erstellte ich hunderte in den letzten Jahren und die waren immer gleich, egal wie viele Partien ich dann hatte).

Also Rechenpower die nicht ausreicht um das Wunschergebnis zu erzielen mit Spielstilen.
So meine Theorie und ich bin mir sicher (sonst würde ich mir die Zeit für FEOBOS schenken) das das finale Ergebnis gut wird.

Daher schreibe ich auch immer ...
Eine Engine für die Eröffnungsanalyse reicht nicht aus ... ist eher die Nadel im Heuhaufen. Maximal für die grobe Fehleranalyse von einem Buch. Mache ich ja auch, Stockfish und Komodo untersuchen die Stellungen bevor diese auf alle anderen los gelassen werden. Die beiden holen mit die groben Blunder raus und dann geht es ans Feintuning.

Und daher ...
Spielstile sind extrem wichtig für alles was wir im Detail mit der Vielzahl an verfügbaren Engines so treiben wollen.
Das A und O von Allem!!

Ohne Wissen zu Spielstilen tappen wir absolut im dunkeln und können nur spekulieren!

Gruß
Frank
Parent - By Frank Quisinsky Date 2017-07-20 18:12
Um die Remisquote definitiv deutlich nach unten zu schrauben gibt es ferner noch ein ganz einfaches Mittel.

Ranking bei den FEOBOS Stellungen.

Nehme die TOP-500 oder TOP-1000 oder TOP-2000 im FEOBOS Ranking und setzte darauf die Engines an.
Niedriger geht keine Remisquote ... sollte lt. der Excel Tabelle schon klar sein.

Denn im Ranking ist alles oben was keine bad moves, keine 0,00 moves ... und vor allem ganz wichtig ... möglich viele ausgeglichene Gegenzüge in einer Stellung zulässt.
Das Beste vom Besten aus der Eröffnungstheorie filtert FEOBOS raus.

Dann z. B. mal die TOP-500 nehmen ...
Wenn dann immer noch 2 drin sind die schnelle Remise verursachen, was ich nicht glaube ... diese killen und Stellung 501 und 502 als Ersatz nehmen.
Alles ganz einfach nur diese verflixte Excel bzw. alle Engine Analysen sollten mal so langsam fertig sein.

Klaus und meine Wenigkeit können es kaum abwarten bis die nächste Engine in die Tabelle kommt.
Ultra spannender Augenblick denn wir sehen wieder alles über die Engines und lesen wie in einem spannenden Buch (schrieb es die Tage schon).
Parent - - By Kurt Utzinger Date 2017-07-20 20:42
Frank Quisinsky schrieb:

Hi Kurt,

anhand vom banalen C37 / C38 lässt sich viel ableiten.
Früher sehr beliebt und dann in den 80er und 90er Jahren, ja schon in den 70er unbeliebt weil es tiefere Analysen gab.
Es gibt kaum Fortsetzungen die zu Ausgleich führen. Sehr schön aufgearbeitet von John Shaw mit logischen und wirklich guten Kommentaren in seinem Buch "The Kings Gambit". Setzen wir heute dann die besten Engines auf die Stellungen sehen wir das was einst unsere Großmeister versuchten darzulegen. Diese Eröffnungen sind definitiv nicht spielbar bzw. dann spielbar wenn wirklich alle Abspiele bekannt sind und dann auch nur wenn der Gegner diese nicht kennt. Computerschachprogramme rechnen das locker aus weil die Vorteile die erzielt werden klar sind und im Horizont liegen.
[...]

Viele Grüße
Frank


Hallo Frank

Danke für diesen ausführlichen Beitrag.

Gruss
Kurt
Parent - By Frank Quisinsky Date 2017-07-21 01:43
Hallo Kurt,

wollte nur sagen, dass es ca. 30 ECO Codes gibt die zu Recht unbeliebt sind weil wir wissen das ...

Wobei ich immer denke aus menschlicher Sicht.
Aus Computersicht kann der ECO Code dann wieder interessant sein.

Es sei denn es handelt sich um solche Eröffnungen wie C37 und C38, da sind sich Mensch und Computer mehr als einig.
Aber anhand von diesem Beispiel konnte ich gut einleiten zum Beitrag denn die Aussage des Postings war ...

Wenn uns eine Engine 0.50 bei einer Eröffnung gibt, der Mensch die Eröffnung in und auswendig kennt kann und muss er die 0.50 nicht annehmen.
Nimmt er nicht an und spielt das was er kennt und mit dem er erfolgreich ist dann durch, korrigiert sich eher die Bewertung der Engine ... zumindest bei den komplexen Systemen.

Sind sich nun viele Engines einig die unterschiedlich spielen und durch unterschiedliche Spielstile auffallen schaut es ein wenig anders aus.
Behält der Mensch Recht oder die Gesamtheit der Engines. Das ist dann in der Tat von ECO zu ECO Code unterschiedlich ... wahrscheinlich behalten dann meist die Gruppe der Engines Recht.

Also ich denke das tendenziell Stellungen in einer Gruppe von Engines zumindest nicht deutlich schlechter eingeschätzt werden als von einem sehr starken Spieler der seine favorisierte Eröffnung sehr gut kennt.

Meyer - Shredder war so genial beim Schachwelt Interview ...
GM Meyer spielte seine favorisierte Eröffnung gegen Shredder runter (gab ich als Vorgabe der Partie). Nach der Vorgabe die ersten drei Züge von Shredder ... alles nach Plan und normal gespielt. Dann spielte Shredder einen Zug und Meyer sofort ... siehst Du Frank jetzt ist es für mich Remis, kann Shredder nicht mehr gewinnen und spielte das im Blitz Tempo vor ... viele viele Züge und erklärte.

Das war krass ...
Fand den Zug von Shredder selbst weder gut noch schlecht beim Zusehen.
Meyer kannte den ...

Und genauso schaut es auch aus unabhängig von der Bewertung der Engine die ausgegeben wird, wenn denn im Rahmen.

Gruß
Frank
Parent - By Guenter Stertenbrink Date 2017-07-19 16:29
apropos SALC , kannst du bitte einfuegen :

1.e4 c5 2.Nf3 d6 3.d4 cxd4 4.Nxd4 Nf6 5.Nc3 a6 6.Be3 a6 7.a3 Be7 8.Qe2 O-O 9.O-O-O b5 10.g4 Bb7
1.e4 c5 2.Nf3 d6 3.d4 cxd4 4.Nxd4 Nf6 5.Nc3 a6 6.Be3 a6 7.a3 Nc6 8.Qd2 Be7 9.f3 O-O 10.O-O-O Nxd4

der Hauptzweck von 7.a3 (selten gespielt, bester Zug laut Stockfish) ist es g4 und O-O-O
vorzubereiten, dann b5-b4 zu verhindern , die eigenen Karten noch nicht ganz aufzudecken
und und die genaue Zugfolge der schwarzen Antwort anzupassen.
7.g4 e5 oder 7.Qe2 b5 sind nicht so gut, f3 kann evtl. eingespart werden.
Parent - - By Clemens Keck Date 2017-07-20 21:10
Ist Larry Kaufmann damit einverstanden, dass Du aus privater Korrespondenz mit ihm "berichtest ?
C.K.
Parent - - By Stefan Pohl Date 2017-07-20 21:46 Edited 2017-07-20 21:50
Clemens Keck schrieb:

Ist Larry Kaufmann damit einverstanden, dass Du aus privater Korrespondenz mit ihm "berichtest ?
C.K.


Ich hatte ihn kontaktet, weil meine Komodo Jahresabo-Verlängerung nicht geklappt hat. Als sie dann geklappt hatte, hab ich ihm das mitgeteilt. Er hat sich für das Feedback bedankt und brachte dann von sich aus das Thema SALC-Vorgabenstellungen und Remisqouten zur Sprache. Ich gab ihm dann noch ein paar Tipps bzgl. meiner Erfahrungen mit den Bewertungsintervallen, um geeignete Stellungen zu filtern. Das war nun sicher kein Geheimgespräch. Per PM lief es nur, weil ich ihn anders nicht erreichen konnte und das Problem meines nicht funktionierenden Abos hatte. Und um das kommerzielle Produkt Komodo-Engine ging es inhaltlich nie. Und das Problem des drohenden Remistodes des Computerschachs betrifft schließlich die gesamte Computerschachcommunity. Insofern sehe ich da kein Problem, hier zu posten, worum es in dem kurzen Informationsaustausch ging. Sofern mein Gesprächspartner nicht ausdrücklich Diskretion wünscht, nehme ich mir bei Themen von allgemeinem Interesse die Freiheit das auch öffentlich zu machen.
Parent - - By Frank Quisinsky Date 2017-07-21 01:20 Edited 2017-07-21 01:34
Hallo Stefan,

die Aussage von Larry ist zu pauschal.
Wenn Engine A mit 0.5 bewertet macht das Engine B nicht und insofern kann anhand der Stellungsbewertung einer Engine keinesfalls das gewünschte Ergebnis erzielt werden. Er sieht das natürlich aus der Sicht seiner Engine und macht das für Vorgaben im Spiel seiner Engine fest gegen die Gegner die er zum Test einsetzen kann (sind bekanntlich nicht so viele). So liegt Komodo im Normbereich mit der durchschnittlichen Bewertung.

Also wenn für Komodo 0.5 bedeutet das für Texel ca. 0.75, für Chiron ca. 0.75, für Houdini ca. 0.75.
Das wären die FEOBOS Einstellungen beim Aussortieren ... muss für jede Engine also immer gesondert betrachtet werden.

Wobei ich bei Houdini absichtlich minimal anders auswählte weil ich beim ersten Engine Testlauf krasser aussortieren wollte.

Andere Einstellungen gehen natürlich auch aber dann zeigt sich schon sehr schnell das zu viel oder zu wenig aussortiert wird wenn wir bei den jeweiligen ECO Codes im Detail schauen.

Grundsätzlich entscheiden Vorgaben die nicht tief gehen keine Schachpartie. Sie leiten vielmehr in Systeme ein mit denen mehr oder weniger gut oder schlecht umgegangen wird.

Daher maximal interessant per Engine zu wissen ...
Mit welchen System überproportional gut oder schlecht die Engine spielt um den Spielstil zu finden bzw. die Beurteilung zu starten ob gut oder schlecht für die jeweilige Analyse.

Nachvollziehen kann ich die Aussage von Larry nicht wirklich.
Erscheint mir nicht logisch genug und vor allem eher auf Vermutungen beruhend.

Vor ca. 3 Monaten machte ich folgendes Experiment ...

Schaue hier:
http://www.amateurschach.de/common/feobos/excel/eval%20exp.%201.png

Ich zog mir bei Houdini 500 Stellungen die im Bewertungsschema: 0.60 - 0.56 lagen.
Weitere 500 Stellungen die im Bewertungsschema: 0.10 - 0.06 lagen.

Dann habe ich Houdini gegen Shredder diese je 500 spielen lassen zumal Houdini sehr aggressive ist und Shredder auch mal hier und da zu passiv.
Wollte sehen ob ich beim Aussortieren richtig liege oder ob das Ergebnis noch vertretbar ist.

Houdini machte bei 0.60 - 0.56 gegen Shredder 62%
Houdini machte bei 0.10 - 0.06 gegen Shredder 61%

Wenn Du solche Ergebnisse kennst und von solchen Experimenten mache ich hier eine Menge dann stellst Du fest ... wurde nicht korrekt getestet bzw. muss auf Vermutungen beruhen und legst das wieder zur Seite.

1% ist auch ein Ergebnis in Elo.

Wenn wir zu viele zu hohe Evals in den Büchern haben beeinflussen wir die regulären Endergebnisse bei den von mir verwendeten sonstigen Testbedingungen um ca. 10 Elo bzw. zumindest beim Beispiel Houdini - Shredder und das sind zwei Engine die fast gleich auf sind.

Spielt deutlich schlechter gegen deutlich besser wird aus 10 Elo dann schon 20-30 Elo je nach ECO Code und Spielstil.

Gruß
Frank

Kernfrage bei FEOBOS ... wann wird gekillt.
Sind meine Beobachtungen, bei FEOBOS kann natürlich vor dem entfernen aus dem gewünschten Buch jeder User selbst sein Setting anlegen und dann mittels der Excel aus der Basisdatenbank herausfiltern, muss meine Einstellungen nicht verwenden. Alle maßgeblichen Einstellungen können beeinflusst werden durch die Excel. Die Daten liegen offen, jeder kann dann so aussortieren wir er möchte. Ganz wichtig für das ganze Projekt !!!! Der Gestaltungsspieltraum soll offen bleiben und die Experimentierlust fördern, keinesfalls fest vorgegeben werden.
Parent - - By Guenter Stertenbrink Date 2017-07-21 05:36
eine wesentlich groessere Stichprobe haben wir bei Weiss/Schwarz.
Hier geben 0.30-0.40 Bewertung etwa 8% oder 50Elo
Parent - By Frank Quisinsky Date 2017-07-21 14:43
Hallo Günther,

jedes Tabellenblatt in der Excel ist Gold wert für Experimente.
Nur ich habe die Zeit nicht neben den laufenden Analysen.

Eigentlich müsste ich den Ball absolut flach halten solange nicht alles durchgelaufen ist.
Das dauert noch bis Ende des Jahres. Dann haben 10 Engines alle 38375 Stellungen analysiert.

Weitere werden dann folgen aber ich weiß noch nicht welche.
Spark, Junior oder die Fizbo, ICE, Smarthink wenn die Probleme weg sind.

Gruß
Frank

Beispiel:
Texel läuft Mitte der Woche aus.
Ich muss aus zwei Datenbanken gefundenes raus bringen. Das ist ca. 6-8 Stunden Arbeit weil es
absolut genau sein muss, sonst stimmt keine Statistik mehr die in Excel ausgeben wird.
Horror die Arbeit an diesem Projekt aber ich bin mir nach wie vor sicher, das finale Ergebnis wird zumindest
ausgezeichnet werden.
Parent - - By Stefan Pohl Date 2017-07-21 10:45 Edited 2017-07-21 10:54
Moin,

Larry hat sich ja auch nur allgemein geäußert. Es ging nicht um die Frage, wieviele Engines und welche man zur Beurteilung der Stellungen bzgl. der Bewertungen um +0.5 heranzieht. Und wie schon erwähnt, ich stehe dieser Idee auch skeptisch gegenüber, weil ich sie schon selber ausprobiert hatte und mich die Ergebnisse auch nicht überzeugt haben.
Ich benutze die Bewertung von Komodo bei meinen SALC-Stellungen ja nur, um ganz schlechte Varianten herauszufiltern. Daß SALC weniger Remisen produziert, liegt einfach an dem erhöhten “Spannungspotential“ (so nenne ich es einfach mal), welches sich durch die Rochaden auf verschiedene Brettseiten ergibt. Wie ich schon mit Klaus hier erörterte, ist (bzw. wäre) es bei “normalen“ Stellungen nur durch massenweises Ausspielen der Vorgabestellungen mit diversen Engines und Bedenkzeitstufen und der anschließenden statistischen Auswertung der Partien möglich, in nicht-SALC-Stellungen diejenigen herauszufiltern, die wirklich spannende Partien und wenig Remisen ergeben. Das ist aufgrund der Menge der dazu nötigen Partien eigentlich nicht praktikabel, es sei denn, man hätte so was wie das Stockfish-Framework zur Verfügung. Genau deshalb bin ich ja zu dem Konzept der SALC-Bücher gekommen. Die Rochade auf gegenüberliegende Brettseiten ist ein in Datenbanken leicht und automatisiert auffindbares “Spannungskriterium“. Damit kann man mit hoher Erfolgsquote Eröffnungsstellungen leicht und schnell finden, die spannendere Partien und geringere Remisqouten nach sich ziehen. Eigentlich ist das SALC-Konzept also nur ein “Trick“, um sich massenweises Ausspielen einer Unmenge von möglichen Eröffnungen zu ersparen und trotzdem eine halbwegs große Zahl von Eröffnungsstellungen mit erhöhtem Spannungspotential zu finden...und glücklicherweise zeigen alle meine Tests und Experiments, daß dieser Trick wirklich funktioniert. Natürlich zahlt man einen Preis für solch einen Trick, das ist klar. Gleichmäßig alle Stellungstypen und ECO-Codes in einer Eröffnungsstellungssammmung bzw. Buch abzubilden, kann man sich dann natürlich abschminken. Das ist aber letzlich akzeptabel. Weil alles - wirklich alles - besser ist, als der Remistod des Computerschachs. Und weil ich es letzlich eigentlich sogar gut finde, wenn meine SALC-Stellungen offensiv spielende und taktisch starke Engines etwas bevorteilen. Denn das sind doch “Tugenden“, die für eine Engine erstrebenswert sind. Also finde ich nichts Schlimmes dabei, wenn die Eröffnungsvorgabe Engines, die so spielen, ein bißchen bevorteilt. Auch, wenn es da sicher Leute gibt, die das anders sehen. Aber damit kann ich leben..
Parent - By Frank Quisinsky Date 2017-07-21 14:34
Hallo Stefan,

nein alles gut!
Ich finde mehrere Ideen die von Dir gekommen sind richtig gut und auch die Bemühungen um SALC finde ich absolut spannend.

Egal wie wir es drehen und wenden ...
Kann selbst mit allen Tricks die ich mir einfallen lasse dennoch nichts 100%iges erstellen.

Mich plagt derzeit eine einzige Frage:
Was mache ich mit den aussortieren 0,00er ...
Komplett deaktivieren oder aktivieren mit niedriger Prio.

Muss damit experimentieren.

Gruß
Frank

PS: Kannst ja mal ein Stichproben machen mit Engines wie Chiron oder Fizbo ... lasse die mal 5.000 Deiner Stellungen analysieren. Wenn Du dann siehst das etliches weit über 1.00 landet, solltest Du nicht die Lust verlieren. Ich verlor die Lust oft bei der FCP Rating Liste und kämpfte mich oft mit Krampf immer wieder durch. Bin froh wenn die Analysen mal alle durch sind.

Stockfish Framework:
Ich glaube wirklich das wir bessere Ergebnisse erzielen wenn viele Engines analysieren anstatt wenige Engines. Selbst wenige Engines und ein riesiger Pool an Hardware ... glaube einfach nicht daran das dies zusammengezogene Analyseergebnisse von mehreren Engines toppt.

Erneut ... würde ich nur eine Engine einsetzen um die groben Fehler zu finden, würde ich wahrscheinlich auch Komodo nehmen. Aber schaue mal bei dem KECR Rating wie stark Booot ist. Bin mal gespannt wenn alle 10 durch sind ob Booot dann immer noch vorne steht oder ob Komodo oder Stockfish überholt haben.
Up Topic Hauptforen / CSS-Forum / Fachsimpeln mit Larry Kaufman

Powered by mwForum 2.29.3 © 1999-2014 Markus Wichitill