TCEC-S13/Superfinale ab heute

By Michael Scheidl Date 2018-10-25 20:47

Grauenhaft!

Aber ich bin sicher, das wird sich noch ein wenig ausbalancieren.

By Guenter Stertenbrink Date 2018-10-26 11:35 Edited 2018-10-26 11:37

es ist das, was wir seit Jahren beobachten.
(ausser bei diesen "shuffling" , kein-Fortschritt Stellungen)

An eine Ausnahme im letzten Jahr erinnere ich mich, wo Komodo tiefer
rechnete und Stockfish einen Bauern abkombinierte.

Da dachte ich schon : nanu. Aber mittlerweile hat Stockfish weiter zugelegt und Komodo kaum.

Seit Feb.2018 hat Stockfish jetzt allerdings "contempt" und die evals sind erhoeht.

By Michael Scheidl Date 2018-10-28 11:41

Zitat:

da koennten jene ja auch gleich spielen

Stimmt

Das ist als ob die kleinen Brüder spielen, und die großen Brüder in die Partie reinquatschen. Besser wären andere Engines, aber wie ich höre gibt es Houdini nicht für Linux - womit die Kibitzengines offenbar laufen müssen - und für Lc0 haben sie derzeit keine geeignete GPU zur Hand.

By Guenter Stertenbrink Date 2018-10-28 11:49 Edited 2018-10-28 11:55

Houdini laeuft auf Linux mit "wine" , war aber umstaendlich fuer mich als Linux Neuling.

z.B. verstecktes .wine-directory !

m.E. dauern die Partien zu lange zum Zuschauen. Bei den grossen Bruedern koennte man dann ja die
Bedenkzeit halbieren mit demselben Effekt.
Eildiweil sich die kleinen beim Blitz amuesieren : nach jedem Zug wird die Position ausgeblitzt

Jeroen_TCEC : Next line is the craziest one in this sufi.

Kiebitze auf 20 Koepfen sind mehrheitlich fuer Remis, evals jetzt horizontal

By Klaus S. Date 2018-10-28 18:07

Soeben gewonnen von Komodo.

By Michael Scheidl Date 2018-10-29 09:10

Doch Stockfish hat sich den 4 Punkte-Vorsprung bald wieder zurück geholt. Somit kann mit einem Endergebnis von 12-2 oder 12-3 nach Siegen gerechnet werden, oder 55% für SF. Diese Prognose steht aber auf dünnen Beinen. Die Behebung von Komodos Startup-Bug scheint jedenfalls nichts großartiges zu bewirken.

Für Saison 14 wurde inzwischen die Teilnahme mehrerer NNs, sowie einige Änderungen des Reglements (z.B. der Remisabschätzung) in Aussicht gestellt.

By Heiko Krauß Date 2018-10-29 09:39

Michael Scheidl schrieb:

Für Saison 14 wurde inzwischen die Teilnahme mehrerer NNs, sowie einige Änderungen des Reglements (z.B. der Remisabschätzung) in Aussicht gestellt.

Wenn mehrere NN´s spielen dürfen , sollten auch andere Stockfish-Derivate wie SugaR zugelassen werden.
Besonders Raubfisch (private Engine ?) wäre interessant

By Lothar Jung Date 2018-10-29 09:45

Ich würde asmbrainfish mitspielen lassen.

By Benno Hartwig Date 2018-10-29 19:16

Wenn das Wissen dieser NNs mit demselben Analysetool generiert wurden, dann mag dein Hinweis nachdenkenswert sein.
Wenn NNs aber mit selbstgeschriebenen Tools generiert wurden, dann hat natürlich jede einzelne auf jeden Fall seine Beechtigung, dabei zu sein.

BTW:
Sollten NNs nicht auch sehr unterschiedlich sein können, selbst wenn dasselbe Tool genutzt wurde?
Die Machenden haben vermutlich reichlich Möglichketen der Einflussnahme, sodass sehr verschiedene NNs herauskommen können, oder?
Ich wäre auf jeden Fall sehr daran interessiert, hier mehr zu sehen! (Vergleichsweise interessiert mich SugaR gar nicht!)

Benno

By Heiko Krauß Date 2018-10-29 19:35

Hallo Benno,
wir haben halt interschiedliche Interessen.
Ich bin Fernschachspieler und nutze die Engines zur Analyse
SugaR , Raubfisch und auch CorChess sind bei diesen langen Bedenkzeiten
(zum Teil mehrere Stunden pro Zug) stärker als der Original-Stockfish
Die NN´s sind momauch nicht nutzbar (werde kein Geld für eine entsprechende Grafikkarte ausgeben)
Dich interessieren da andere Dinge

Heiko

By Benno Hartwig Date 2018-10-29 20:20 Edited 2018-10-29 20:26

> SugaR , Raubfisch und auch CorChess sind bei diesen langen Bedenkzeiten (zum Teil mehrere Stunden pro Zug) stärker als der Original-Stockfish

Diese These finde ich interessant. Woran machst du das fest?
Subjektiver Eindruck? Oder gibt es da tatsächlich Belastbares, was dafür spricht?

Sehr lange Bedenkzeiten sorgen ja für größere Tiefen.
3 Stunden statt 3 Minuten pro Zug bedeutet ja einen Faktor 60, mithin also vielleicht 5 bis 6 Plys mehr.
Hättest du eine Erklärung dafür, dass beispielsweise bei 30 plys Tiefe Stockfish die stärkere Engine ist, bei 36 aber SugaR?

Die NNs interessieren mich übrigens nicht, weil ich mir damit saustarkes Schach ins Arbeitszimmer stellen will, sondern weil dies ein ziemlich neuer Weg ist und ich erfahren möchte, wie das Potential hier ist. Und auf meinen Knien werkelt dabei einfach ein ziemlich schlappes Notebook weiter.

Benno

By Heiko Krauß Date 2018-10-29 23:00

Benno Hartwig schrieb:

Diese These finde ich interessant. Woran machst du das fest?
Subjektiver Eindruck? Oder gibt es da tatsächlich Belastbares, was dafür spricht?

Diese Derivate haben zusätzliche Einstellungsmöglichkeiten
wie eine spezielle Fernschachanalyse.
Ab und an wird dann schon mal ein Zug gefunden mit dem man Vorteil erlangen kann
Subjektiv erscheint mir das Spiel aggressiver

Heiko

By Horst Sikorsky Date 2018-10-30 10:16

Hallo Heiko
geht es dir auch so, das man manchmal einer Engine die guten Züge zeigen muss,
obwohl man selber ein Allerwelts- Spieler ist

By Horst Sikorsky Date 2018-10-30 10:20

Horst Sikorsky schrieb:

Hallo Heiko
geht es dir auch so, das man manchmal einer Engine die guten Züge zeigen muss,
obwohl man selber ein Allerwelts- Spieler ist

das dumme ist, dafür brauche ich die Hilfe der Engine

By Heiko Krauß Date 2018-10-30 14:06

Horst Sikorsky schrieb:

das dumme ist, dafür brauche ich die Hilfe der Engine

Als Deutschlands Nr. 1 im No-Engine-Schach brauche ich das nicht

By Heiko Krauß Date 2018-10-30 14:03

Hallo Horst,
wir FS-Spieler wissen doch , dass man die "dumme" Engine
im richtigen Moment überstimmen muss

By Michael Scheidl Date 2018-10-30 20:12

Ja sicher, bessere Daten als von diesem Finale werden wir für diese speziellen Versionen und Bedingungen nicht bekommen. 2-5 Siege sieht halt optisch schlecht für Komodo aus. Vielleicht geht sich noch ein 5-9 im Endergebnis aus, das wären dann -14 Elo. Auch wurscht; mehr ist nicht drin.

Mit einem neuen Houdini ist kurzfristig wohl nicht zu rechnen, da Programmierer Robert Houdart als R&D Manager zu einer Firma zurückgekehrt ist, die er mitbegründet hatte: https://www.efficy.com/efficy-appoints-robert-houdart-rd-director/

Somit entbrennt ein Kampf um Rang drei zwischen Houdini 6, der heranstürmenden neuen Engine Ethereal, und der geheimnisvollen Leela

By Benno Hartwig Date 2018-10-30 21:40

> Somit entbrennt ein Kampf um Rang drei zwischen Houdini 6, der heranstürmenden neuen Engine Ethereal, und der geheimnisvollen Leela

Sicher, Komodo ist jetzt hier in das Finale gekommen.
Aber ist deiner Meinung nach K wirklich eine stärkere Engine als H?
Ich habe eher den Eindruck, es ist tatsächlich aktuell ein großes Gerangel um alles ab Platz 2.

Benno

By Ernest Bonnem Date 2018-10-31 02:52

Michael Scheidl schrieb:

Mit einem neuen Houdini ist kurzfristig wohl nicht zu rechnen, da Programmierer Robert Houdart als R&D Manager zu einer Firma zurückgekehrt ist, die er mitbegründet hatte: <a class='ura' href='https://www.efficy.com/efficy-appoints-robert-houdart-rd-director/'>https://www.efficy.com/efficy-appoints-robert-houdart-rd-director/</a>

Danke für die Information, Michael !

By Heiko Krauß Date 2018-11-05 13:21

In Partie 85 holt sich Stockfish Sieg Nr 12 (bei 4 Niederlagen)
Wie erwartet eine klare Sache , aber die bisherigen 4 Niederlagen
zeigen , dass auch SF schlagbar ist

Heiko

By Benno Hartwig Date 2018-11-05 18:53

>...aber die bisherigen 4 Niederlagen zeigen , dass auch SF schlagbar ist

Und angesichts der laaangen Serie von Siegen und bestenfalls Remisen gegen alle möglichen Engines ist es doch erfrischend, überhaupt auch mal wieder zu sehen, dass der aktuelle SF tatsächlich auch verlieren kann.

Benno

By Klaus S. Date 2018-11-05 18:54

Heiko Krauß schrieb:

In Partie 85 holt sich Stockfish Sieg Nr 12 (bei 4 Niederlagen)
Wie erwartet eine klare Sache , aber die bisherigen 4 Niederlagen
zeigen , dass auch SF schlagbar ist

Heiko

gerade gewinnt Komodo game 86 (12:5 nach Siegen)

By Heiko Krauß Date 2018-11-07 22:50

Partie 100 wird remis
Endstand damit 16:6 nach Siegen
eine (wie erwartet) klare Sache für den Fisch

By Benno Hartwig Date 2018-11-08 00:39

Und 55.0 : 45.0 lässt auf einen Elo-Vorsprung 35 schließen.
Ich finde das ist, gerade bei diesen langen Zeiten, schon ein sehr stattlicher Wert!
Benno

By Stefan Pohl Date 2018-11-08 05:41 Edited 2018-11-08 05:52

Benno Hartwig schrieb:

Und 55.0 : 45.0 lässt auf einen Elo-Vorsprung 35 schließen.
Ich finde das ist, gerade bei diesen langen Zeiten, schon ein sehr stattlicher Wert!
Benno

Warum? Weil die 50 Eröffnungsstellungen von J.Noomen handverlesen wurden bzgl. einer möglichst niedrigen Remisquote (Gambits, SALC-Stellungen). Dadurch gab es nur eine Remisquote von 78%. Mit “normalen“ Eröffnugsvorgaben wäre die Remisquote bei über 90% gewesen (90% hatten wir ja schon vor einigen Seasons in den TCEC-Superfinals, weswegen ja J.Noomen jetzt seit einigen Seasons gegensteuert) - dann wäre der Eloabstand weit kleiner als 35 Elo geworden. Vermutlch nur 15 Elo oder so.
In diesem High-End-Bereich des Computerschach (was Enginestärke, Hardware und Bedenkzeit angeht), sind normale, ausgewogene Eröffnungsvorgaben/Bücher genau aus diesem Grund schon heute unbrauchbar geworden. Und mit dem unvermeidbaren Fortschritt von Hard- und Software wird sich dies vom High-End-Bereich in den Normalbereich ausweiten. Nur eine Zeitfrage.

Hier die Infos von J.Noomen bzgl. der Stellungsauswahl:
“There are sharp lines in the set, as well as positional lines, more complex lines, lines with opposite castling ("SALC", i.e. short and long castling) and gambits
The complexity of a position is one of my main selection criteria, i.e. most pieces are still on the board and there should be a lot of play left, with a reasonable chance for a decisive result
In each line one side typically has a slight advantage, with book exits mainly between +0.20 and +0.55 (note: this is with contempt = 0)
I have avoided positions that could lead to many exchanges and/or have a high draw rate, as well as positions with symmetrical pawn structures and positions that could lead to easy wins for the side with an advantage.“

By Benno Hartwig Date 2018-11-08 10:38

Stimmt.
So gesehen taugen diese Stellungen natürlich sehr gut, um zu sehen, welche Engine welcher anderen überlegen ist.
Die Spielstärkeunterschiede mögen auch vergleichbar sein.
Sie sind aber nur bedingt vergleichbar mit denen, die mit anderen Eröffnungsvorgaben ermittelt wurden.

Benno

By Peter Martan Date 2018-11-08 11:42 Edited 2018-11-08 11:46 Upvotes 1

Benno Hartwig schrieb:

Sie sind aber nur bedingt vergleichbar mit denen, die mit anderen Eröffnungsvorgaben ermittelt wurden.

Ebenso ist das hingegen auch wieder mit diesen (allen) anderen Eröffnungvorgaben, es ist eine Gemeinsamkeit, die Eröffnungsvorgaben so an sich haben.

Als hier noch militante Stellungstest- Gegner regelmäßig posteten, schrieb ich denen immer wieder gerne mal, nur aus Spaß daran, sie zu ärgern, Testsets und Bücher bestünden auch samt und sonders nur aus Teststellungen, es gibt nur Stellungstests zum Engine- Testen, man kann sie ausspielen lassen oder nicht ausspielen lassen, das ist der einzige Unterschied.

Und der ist eigentlich ebenso willkürlich gemacht, wie jede anderen diesbezügliche Unterscheidung, weil wie weit man ausspielen lässt, ob bis zu bestimmten Eval- Grenzen des GUIs (willkürlich festsetzbarer Höhe) oder bis zum Matt und ob mit oder ohne tbs- Unterstützung, das ist ja auch alles reine Willkür.

Die einzig relevanten Unterschiede, die zwischen den einzelnen Teststellungen der Stellungstests ebenso wie zwischen denen der Eröffnungswahl, werden schön langsam doch auch immer offensichtlicher in der Relevanz, je mehr man selektivere und selektivere Teststellungen und Eröffnungsvorgaben braucht, um überhaupt noch statistisch belastbare Unterscheidungen in der Engine- Spielstärke in halbwegs machbarer Hardware- Zeit mit den heutigen Engines, der heutigen Hardware und dem heutigen Eröffnungswissen zu bekommen.

By Guenter Stertenbrink Date 2018-11-08 11:44 Edited 2018-11-08 11:48 Upvotes 1

es wurde versucht, trotzdem einigermassen "vernuenftige" Eroeffnungen zu waehlen,
Stellungen die auch aus richtigen Partien entstehen koennen.
Das bezieht sich aber auf Menschen-Partien, die beteiligten Engines
wuerden von sich aus in einigen Faellen kaum so spielen.

Im naechsten Schritt koennte man nun ganz davon abgehen,
und absurde hochkomplizierte Stellungen konstruieren ...

Ich denke, man wird immer Stellungen konstruieren koennen,
wo die Remisquote gering ist (ca.50%), nur sind die dann
praktisch nicht mehr aus der Grundstellung erreichbar fuer die engines
bei normalem Spiel.

Also einfach Eroeffnungen waehlen aus Partien, wo in der Vergangenheit
Siege vorkamen geht m.E. vermutlich auch bald nicht mehr.
(in vernuenftiger Zeit -- man muss zu viele Partien spielen)

Ich hoffe auf das Turnier der Eroeffnungserzeuger !
Das Eroeffnungsset mit der groessten "Ergebnisspreizung" gewinnt.

By Stefan Pohl Date 2018-11-08 12:11 Edited 2018-11-08 12:23 Upvotes 1

Guenter Stertenbrink schrieb:

es wurde versucht, trotzdem einigermassen "vernuenftige" Eroeffnungen zu waehlen,
Stellungen die auch aus richtigen Partien entstehen koennen.
Das bezieht sich aber auf Menschen-Partien, die beteiligten Engines
wuerden von sich aus in einigen Faellen kaum so spielen.

Das ist doch aber ein ganz wesentlicher Punkt. Die allermeisten Eröffnungen, die Menschen spielen, sowohl die Gambits aus dem TCEC-Superfinal, als auch "normalere" Systeme, würde keine Engine doch von sich aus spielen, wenn man sie von der Grundstellung aus losrechnen läßt. Daher kann und sollte man das Computerschach zumindest für Tests und Ranglisten endlich von menschlichen Eröffnungssystemen abkoppeln, denn diese menschlichen Systeme sind für die Engines letzlich genauso "unvernünftig", wie eine konstruierte Stellung, beide würden die Engines nämlich nicht von sich aus anstreben. Und letzlich wird man es in Zukunft tun müssen, weil man sonst so hohe Remisqouten bekommt, daß an statistisch belastbare Ergebnisse außerhalb der Errorbars nicht mehr zu denken ist.

Guenter Stertenbrink schrieb:

Im naechsten Schritt koennte man nun ganz davon abgehen,
und absurde hochkomplizierte Stellungen konstruieren ...
Ich denke, man wird immer Stellungen konstruieren koennen,
wo die Remisquote gering ist (ca.50%), nur sind die dann
praktisch nicht mehr aus der Grundstellung erreichbar fuer die engines
bei normalem Spiel.

Das ist der daher der nächste, logische Schritt, der letzlich unvermeidbar sein wird. Das Gute ist aber, daß ich eine Art von Stellungen gefunden (und konstruiert) habe, die dabei eben nicht "hochkompliziert" sind, sondern im Gegenteil total simpel und vor allem total "unentwickelt". Ich kann schon mal verraten, daß alle nicht-Bauern Figuren in diesen Stellungen noch auf den beiden Grundlinien (1 und 8) stehen werden - unentwickelter geht es nicht. Die Engines müssen alle Figuren selbst ins Brett hineinentwickeln. Nur 5 der 16 nicht-Bauern-Figuren stehen nicht mehr auf den normalen Plätzen und nur ein paar Bauern haben die zweite und siebte Reihe verlassen und es sind alle 32 Figuren noch auf dem Brett - kein einziger Schlagzug! Dennoch werden die Remisqouten unfaßbar niedrig sein, das kann ich jetzt schon versprechen. Die Remisqouten, die die TCEC-Superfinal-Eröffnungen und meine SALC-Stellungen erreicht haben, werde ich nicht unterbieten, ich werde sie pulverisieren! Das wird eine ganz neue Ära im Computerschach einläuten. Wenn man sich diesem Ansatz vorurteilsfrei nähert. Bin schon gespannt, wer dazu fähig sein wird und wer nicht.
Ich möchte mich hier schon mal bei Hauke Lutz bedanken, der dieses Projekt durch Grundlagenarbeit erst möglich gemacht und mich unbeabsichtigt auf die richtige Fährte gelenkt hat. Ohne ihn würde es das Ganze nicht geben, was ich bald releasen werde (noch in 2018).

By Guenter Stertenbrink Date 2018-11-08 13:46

Man moechte aber auch gerne, so als Nebeneffekt, Eroeffnungstheoretisch interessante
Partien bekommen. So, dass Menschen aus den Partien lernen koennen.
Das schliesst dann solche Gambits mit ein.

Die Stellungen, die du beschreibst erinnern mich an eine der CCCC-Grundstellungen :
alle weissen Steine eine Reihe nach oben.
Ich habe mich gewundert, wieviele gute Zuege es dann gibt , >20 , jedenfalls so etwa bis Tiefe 30

By Stefan Pohl Date 2018-11-08 14:31

Guenter Stertenbrink schrieb:

Man moechte aber auch gerne, so als Nebeneffekt, Eroeffnungstheoretisch interessante
Partien bekommen. So, dass Menschen aus den Partien lernen koennen.

Das ist natürlich mit konstruierten Stellungen nicht möglich, das ist klar. Dieses Opfer muß man bringen. Will man die Remisquoten extrem weit unter die klassischen Eröffnungen senken, muß man dafür auch einen Preis bezahlen.Zaubern kann ich auch nicht...

By Peter Martan Date 2018-11-08 21:15 Edited 2018-11-08 21:19

Guenter Stertenbrink schrieb:

Ich hoffe auf das Turnier der Eroeffnungserzeuger !
Das Eroeffnungsset mit der groessten "Ergebnisspreizung" gewinnt.

Da gewinne ich sicher!
Ich nehme einfach eine enginefeindliche Studiensammlung wie die von Mihai Neghina auf seiner Chichitza Site.
http://chichitza.ro/index.html?lang=en&intro=4
(Leider wieder gerade im Umbau, aber sicher bald wieder online).

Sind Eröffnungsstellungen, wenn die Engines die als Anfangsstellungen vorgesetzt bekommen, weil sie dann von denen aus das Spiel eröffnen.

Dann spielen zwar in kurzen Bedenkzeiten alle von Zügen ausgehend los, die den single best move- Lösungen nicht entsprechen werden, aber die Spreizung ist spätestens dann groß, wenn die TC lang genug ist und die Engines, die mitspielen, gut genug sind, dass manche die Lösungen doch finden und andere nicht.

Wird hier endlich mal jemand einsehen, dass ausgespielte Stellungstests, und sei's von der Grundstellung aus, auch nur Stellungstests sind?

By Michael Scheidl Date 2018-11-08 22:58

Zitat:

Wird hier endlich mal jemand einsehen, dass ausgespielte Stellungstests, und sei's von der Grundstellung aus, auch nur Stellungstests sind?

Niemals!

Stellungstests sind Sammlungen von schwierigen Positionen, wo es einen einzigen Bestmove gibt, den es zu finden gilt. Nicht irgendeine zufallsbeknackte Schaspartie die man ausspielen läßt... Der maßgebliche Unterschied: In einem richtigen Stellungstest geht es nur um den nächsten Zug, nicht darum was nach zehn, zwanzig, dreißig Zügen praktischen Spiels herauskommen mag.

Bitte nicht bös sein

Eröffnungsvorgaben sind keine Stellungstests.

By Peter Martan Date 2018-11-08 23:14 Edited 2018-11-08 23:48

Ich bin nicht bös, Michael, aber das ist einfach nur eine einzelne beknackte Schasdefinition von Stellungstest und bei weitem nicht die einzige, die es gibt.

Auch meinst du ja offenbar ausschließlich die eine Sonderform der single best move Stellungstest- Suite, eine ganz eigene für sich, ein eigener Sport wie der Ranglistensport innerhalb der Randsportart Schach, darin der Randsportart Computerschach, darin der Randsportart Stellungstest, ich weigere mich, in eine so minimal flexible Randsportgruppe gezwängt zu werden, wenn ich eigentlich nur schachspielen wollte.

Und gut, ja, ich weiß, dass es nicht nur deine ist, diese eine Definition von Stellungstest, aber Stellungen sind Stellungen und die Übergänge zwischen Eröffnung, Mittel- und Endspiel sind so fließend wie die zwischen single best move, two, three, some single best moves, more or less game changing candidate moves, winner, probable winner, probable draw saving move und zwischen sehr viel, wenig und kaum Dynamik, mehr oder weniger forcierten Abspielen und so weiter und so fort.

Du weißt das alles, und wenn du trotzdem an antiquierten Schas- (reinen Computer-) Schachdefinitionen festhältst, die unter "normalen" Schachspielern so wenig relevant sind, wie die Frage, ob Stockfish oder Brainfish besser ist, dann nur, weil du ein alter Computerschach- Stellungstester bist.
Mach dich mal locker.

By Stefan Pohl Date 2018-11-08 11:55 Edited 2018-11-08 12:34

Benno Hartwig schrieb:

Stimmt.
So gesehen taugen diese Stellungen natürlich sehr gut, um zu sehen, welche Engine welcher anderen überlegen ist.
Sie sind aber nur bedingt vergleichbar mit denen, die mit anderen Eröffnungsvorgaben ermittelt wurden.

Das ist eine These, die bisher nicht belegt wurde. Im Gegenteil. Die einzigen Spielstärkestärkeunterschiede durch Eröffnungsvorgaben, die gemessen werden, hängen immer umgekehrt proportional mit der erspielten Remisquote zusammenn, also je höher die Remisqoute, desto geringer die gemessenen Spielstärkeunterschiede.
Daß bestimme Arten, also andere Stellungstypen, von Eröffnungen wirklich andere Ergebnisse produzeren (also eine Verschiebung von Rangfolgen der Engines in Ranglisten), ist ein unbelegter Mythos, den einige Buchautoren, insbesondere Frank Q. immer wieder propagieren. Ohne je irgenwelche statisitsch relevanten Daten dafür vorgewiesen zu haben.
Ich hingegen habe einen großen Datensatz, der das genaue Gegenteil aussagt: Als ich seinerzeit meine Stockfish-Testruns von meinen SALC-Vorgaben auf das HERT-Eröffnungsset umgestellt habe, war ich gezwungen, meine Datenbank mit den seinerzeit aktuellen Engines neu auszuspielen unter ansonsten identischen Bedingungen. Und meine SALC-Stellungen sind nun mit Sicherheit ein anderer Stellungstyp, als die HERT-Stellungen von Thomas Zipproth, der ja sehr breit gefächerte Eröffungslinien aus Menschen- und Computerschach beinhaltet. Das Ergebnis war eindeutig. Ich kopiere es mal von meiner Website hier rein. 2x15000 Partien, also statitisch relevant. Exakt identische Bedingunen, bis auf das unterschiedliche Eröffnungsset. Und die Rangfolge der Engines in dieser kleinen Rangliste änderte sich nicht. Lediglich die Eloabstände waren mit den SALC-Stellungen größer, weil eben die Remsiqoute mit SALC geringer ist.

Hier der Text:

And, finally, a lot of people said, that SALC-positions are only a small part of all possible chess-openings (thats true), and that using SALC-openings for engine-play will lead to distorted results – and that is not true. Here the proof:

Using the new HERT openings-set (by Thomas Zipproth) for my Stockfish-testing was a great opportunity to compare the gamebases played with HERT (contains positions selected from the most played variations in Engine and Human tournaments) and played with my SALC openings So, here the results. Both gamebases were played with 3'+1'', singlecore, 512 MB Hash. The only difference was the opening-set (HERT / SALC)... 2x 15000 games (!)

HERT:


Program                    Elo + - Games Score Av.Op. Draws

1 Stockfish 170526 bmi2 : 3346 7 7 5000 71.3 % 3171 45.6 %
2 Komodo 11.2.2 x64     : 3314 6 6 5000 66.9 % 3177 45.8 %
3 Houdini 5 pext        : 3299 6 6 5000 64.7 % 3180 48.5 %
4 Shredder 13 x64       : 3119 6 6 5000 37.8 % 3216 43.7 %
5 Fizbo 1.9 bmi2        : 3096 6 6 5000 34.4 % 3221 38.2 %
6 Andscacs 0.91b bmi2   : 3026 7 7 5000 24.9 % 3235 34.9 %

Elo-differences:
1-6: 320 (overall)

1-2: 32
2-3: 15
3-4: 180
4-5: 23
5-6: 70

Games: 15000 (finished)

average game length: +13.7% compared to SALC games (moves), +10% compared to SALC games (time)
White Wins: 5129 (34.2 %)
Black Wins: 3455 (23.0 %)
Draws: 6416 (42.8 %)

SALC V3:


Program                    Elo + - Games Score Av.Op. Draws

1 Stockfish 170526 bmi2 : 3359 7 7 5000 72.7 % 3168 39.9 %
2 Komodo 11.2.2 x64     : 3327 7 7 5000 68.3 % 3175 38.5 %
3 Houdini 5 pext        : 3298 6 6 5000 64.4 % 3180 42.2 %
4 Shredder 13 x64       : 3108 6 6 5000 36.4 % 3218 35.4 %
5 Fizbo 1.9 bmi2        : 3097 7 7 5000 34.8 % 3221 31.1 %
6 Andscacs 0.91b bmi2   : 3012 7 7 5000 23.5 % 3238 27.7 %

Elo-differences:
1-6: 347 (overall)

1-2: 32
2-3: 29
3-4: 190
4-5: 11
5-6: 85

Games: 15000 (finished)
White Wins: 5476 (36.5 %)
Black Wins: 4154 (27.7 %)
Draws: 5370 (35.8 %)

Conclusions:

1) SALC lowers the draw-rate a lot (35.8%) , compared to the HERT openings-set (42.8%) - mention, that the HERT-set was optimized for a low draw-rate. Thomas Zipproth has chosen only lines, which were not too drawish. Using other "classical" openings-sets should lead to a higher draw-rate, than using HERT.
2) The order of rank is the same for all engines in both gamebases = no distorted results playing SALC.
3) The scores of the engines are not getting closer to 50%, using SALC. The Elo-differences are not getting smaller (in fact, they are getting higher! (Elo-differences rank 1 to 6: 320 Elo using HERT, but 347 Elo using SALC), which proofs, that SALC does not contain a lot of lines, which are leading to a clear advantage (and easy wins) for white or black. And bigger Elo-differences make the results statistical more reliable.
4) SALC lowers the average game duration around 10%. That means, that in the same time, +10% more games can be played, which leads to statistical more valuable results in the same time.

By Peter Martan Date 2018-11-08 12:55 Edited 2018-11-08 13:08

Stefan Pohl schrieb:

Benno Hartwig schrieb:

Stimmt.
So gesehen taugen diese Stellungen natürlich sehr gut, um zu sehen, welche Engine welcher anderen überlegen ist.
Sie sind aber nur bedingt vergleichbar mit denen, die mit anderen Eröffnungsvorgaben ermittelt wurden.

Das ist eine These, die bisher nicht belegt wurde. Im Gegenteil. Die einzigen Spielstärkestärkeunterschiede durch Eröffnungsvorgaben, die gemessen werden, hängen immer umgekehrt proportional mit der erspielten Remisquote zusammenn, also je höher die Remisqoute, desto geringer die gemessenen Spielstärkeunterschiede.

Aber damit sagst du ja selbst, dass ein ein direkter, messbarer und sogar vorherberechenbarer Zusammenhang besteht.

Und es sind, wie du selbst richtig schreibst, auch die Abstände, die sich ändern, nicht nur die Absolutwerte der Elo, die noch mehr egal wären, aber auch schon nicht mehr egal sind, wenn du sie zwischen verschiedenen Listen vergleichen willst.

Und wenn du eine einzelne Engine aus einer so erstellten Liste herausnimmst, ändert sich spätestens damit dann auch die Reihenfolge der Listenplätze, selbst wenn die eine Engine Unterschied nicht gerade LC0 ist, die am meisten Unterschied machen würde vermutlich.
So what?
Benno hat schon recht, vergleichbar ja, aber nur bedingt, eben alles relativ zu den Voraussetzungen zu sehen.

Den größten Unterschied wird ja demnächst (wie zur Zeit der Ivans und der beginnenden SF- Branch- Vielfalt) zusätzlich machen, ob und wieviele NN- Engines mitspielen.
Und der Unterschied in den Elo der NN- Engines noch mehr als bei reinen A-B-Engine- Listen, ob und wieviele Elo- Schwächere, weil die Performance einer Fallenstellerengine gegen Stärkere relativ weniger leidet als gegen Schwächere, unter den Selbüberlistungen durch Fallen, in die der Fallensteller selbst fällt, gegen Schwächere nämlich fast ebenso wie gegen Stärkere.

By Guenter Stertenbrink Date 2018-11-08 13:54

ich glaube du ueberschaetzt diesen Effekt. Hast du ein Beispiel ?

Lc0 hat mehr Turnier-Elo-Leistung in Partien gegen staerkere Gegner.
Wieviel macht das aus ? Vielleicht 10-20 je 100 Elodurchschnitt, schaetz ich mal

So, als ob contempt abgeschaltet wird

By Stefan Pohl Date 2018-11-08 15:15

Guenter Stertenbrink schrieb:

ich glaube du ueberschaetzt diesen Effekt. Hast du ein Beispiel ?

Lc0 hat mehr Turnier-Elo-Leistung in Partien gegen staerkere Gegner.
Wieviel macht das aus ? Vielleicht 10-20 je 100 Elodurchschnitt, schaetz ich mal

So, als ob contempt abgeschaltet wird

Ob und wie NN-Engines das Ranking der AB-Engines in Ranglisten/Turnieren beeinflussen, ist noch Spekulation. Zudem keine echte Vergleichbarkeit bei den Hardwarebedingungen (GPU vs. CPU) besteht und wohl letztendlich auch nicht bestehen kann. Dafür sind die Ansätze NN und AB zu konträr. Und die NN-Engines sind zudem etwas völlig Neues, da sie nicht nur völlig anders bewerten (Mustererkennung in mehreren Schichten, was eher dem menschlichen Sehen als Rechnen entspricht), sondern auch ganz anders suchen (MCTS statt AlphaBeta-Rekursion). Hier ist noch viel Testarbeit und Erforschung vonnöten.

By Peter Martan Date 2018-11-08 20:57 Edited 2018-11-08 21:04

Guenter Stertenbrink schrieb:

ich glaube du ueberschaetzt diesen Effekt. Hast du ein Beispiel ?

Also, ich glaube, da gab's Beispiele genug aus den vielen stündlich eintreffenden Selbstspiel- Elo von LC0, Elo von Jubelmeldungen einzelner Partien gegen 1, 2,4- Thread SF8, Elo aus CCCC und TCEC- Partien und vor allem seriösen Statistiken von z.B. Kai Laskos, der die Elodifferenzen gegen schwächere und stärkere Engines immer wieder ganz gut verglichen hat, Beispiele, wie stark zu relativieren Elo von Engines aus reinen Computerschachpartien, nicht nur, aber ganz bestonders von LC0 sind.

Ich mag jetzt keine Links zu alten und neuen Postings aus Foren und Blogs bringen, die kennst du alle besser als ich, du siehst das Glas halt gern halb voll, ganz (voll) wird's aber dadurch auch nicht.

Warten wir doch einfach ab, wie die dann definitiv zur LC0 0.19 erklärten Version (jetzt haben wir ja erst noch nur Beta- Versionen) in Ranglisten wie CEGT, wo gegen einen bunten Engine- Mix getestet wird und mit "herkömmlichen" Teststellungen und Büchern und dem Rating (und Ranking

, das Smiley deutet an, dass in Listen, in denen, sagen wir mal 6 Engines mitspielen, natürlich die Nr. 6 nicht wirklich gleich viel an Listenplatz zählen kann, wie in solchen mit über 100 Plätzen) im Vergleich zu Stefans Liste, wenn er sie mit seinem neues Testset in seinem Enginepool spielen lassen wird haben.

By Stefan Pohl Date 2018-11-08 15:01

Peter Martan schrieb:

Stefan Pohl schrieb:

Benno Hartwig schrieb:

Stimmt.
So gesehen taugen diese Stellungen natürlich sehr gut, um zu sehen, welche Engine welcher anderen überlegen ist.
Sie sind aber nur bedingt vergleichbar mit denen, die mit anderen Eröffnungsvorgaben ermittelt wurden.

Das ist eine These, die bisher nicht belegt wurde. Im Gegenteil. Die einzigen Spielstärkestärkeunterschiede durch Eröffnungsvorgaben, die gemessen werden, hängen immer umgekehrt proportional mit der erspielten Remisquote zusammenn, also je höher die Remisqoute, desto geringer die gemessenen Spielstärkeunterschiede.

Aber damit sagst du ja selbst, dass ein ein direkter, messbarer und sogar vorherberechenbarer Zusammenhang besteht.

Und es sind, wie du selbst richtig schreibst, auch die Abstände, die sich ändern, nicht nur die Absolutwerte der Elo, die noch mehr egal wären, aber auch schon nicht mehr egal sind, wenn du sie zwischen verschiedenen Listen vergleichen willst.

Ja, dieser Zusammenhang besteht natürlich, aber nur im Rating, nicht im Ranking. Das sind zwei paar Schuhe und es wichtig, das zu verstehen. Das Rating, also die Eloabstände, ist hochgradig abhängig von der Remisquote. Und diese wiederum ist von der gesamten Testumgebung abhängig, also von Bedenkzeit, Hardwaregeschwindigkeit, der Spielstärke der beteiligten Engines und (auch) von der Remislastigkeit der Eröffnungsvorgaben.
Das Ranking, also die Rangfolge in einer Rangliste, einem Turnier, ist sehr viel stabiler, sofern genügend Partien gespielt werden, um die einzelnen Ratingabstände außerhalb der Errorbar zu halten. Das sieht man ja sofort, wenn man sich die diversen Ranglisten anschaut, die sich ja in ihrer Testumgebung teils deutlich unterscheiden. Die Rangfolge der Engines ist in allen schlussendlich sehr, sehr deckungsgleich, es gibt nur sehr wenige Abweichungen.

Der Kniff besteht nun einfach darin, daß Eröffnungsvorgaben mit geringer Remisquote das Rating spreizen und damit die Ergebnissicherheit des Rankings erhöhen. Aber das Ranking wird dadurch eben nicht verändert (siehe meine 2x15000 Partien mit dem SALC- und dem HERT-Set)

Peter Martan schrieb:

Und wenn du eine einzelne Engine aus einer so erstellten Liste herausnimmst, ändert sich spätestens damit dann auch die Reihenfolge der Listenplätze.

Und genau das stimmt eben nicht. Das kann zwar passieren, muß aber nicht. Meine Minirangliste, wo die Engines nur gegen 5 bzw. 6 Gegner spielen, ist im Ranking auch sehr ähnlich zu anderen Ranglisten, bei denen die Engines gegen viel mehr Gegner spielen. Und vor allem: Das hat, falls es denn zu einzelnen Abweichungen im Ranking kommt, nichts mit der Eröffnungsvorgabe zu tun! Das ist also keinesfalls ein Argument gegen speziell gewählte, wenig remislastige Spezialeröffnungen.

By Benno Hartwig Date 2018-11-08 16:41

Zitat:

Benno Hartwig schrieb:

So gesehen taugen diese Stellungen natürlich sehr gut, um zu sehen, welche Engine welcher anderen überlegen ist.
Die Spielstärkeunterschiede mögen auch vergleichbar sein.
Sie sind aber nur bedingt vergleichbar mit denen, die mit anderen Eröffnungsvorgaben ermittelt wurden.

> Das ist eine These, die bisher nicht belegt wurde

Stefan, da hast du bei deinem Zitieren nun gerade das Entscheidende weggelassen.
Ich schrieb halt: Die Spielstärkeunterschiede sind nur bedingt vergleichbar.
Dass die Reihenfolge übertragbar bleibt, will ich nicht bezweifeln, aber ob SF nun 20 oder 40 Elo stärker als K ist, ist so übergreifend nicht zu beantworten.

Benno

By Stefan Pohl Date 2018-11-08 16:51

Benno Hartwig schrieb:

Stefan, da hast du bei deinem Zitieren nun gerade das Entscheidende weggelassen.
Ich schrieb halt: Die Spielstärkeunterschiede sind nur bedingt vergleichbar.
Dass die Reihenfolge übertragbar bleibt, will ich nicht bezweifeln, aber ob SF nun 20 oder 40 Elo stärker als K ist, ist so übergreifend nicht zu beantworten.

Benno

Das stimmt natürlich.

By Tom Paul Date 2018-11-08 17:06

Benno Hartwig schrieb:

Zitat:

Benno Hartwig schrieb:

So gesehen taugen diese Stellungen natürlich sehr gut, um zu sehen, welche Engine welcher anderen überlegen ist.
Die Spielstärkeunterschiede mögen auch vergleichbar sein.
Sie sind aber nur bedingt vergleichbar mit denen, die mit anderen Eröffnungsvorgaben ermittelt wurden.

Stefan, da hast du bei deinem Zitieren nun gerade das Entscheidende weggelassen.
Ich schrieb halt: Die Spielstärkeunterschiede sind nur bedingt vergleichbar.
Dass die Reihenfolge übertragbar bleibt, will ich nicht bezweifeln, aber ob SF nun 20 oder 40 Elo stärker als K ist, ist so übergreifend nicht zu beantworten.

Benno

Die Unentschieden mal außen vor gelassen, da Schach schließlich remis ist, stellen wir fest das Stockfish 16 Siege und 6 Niederlagen gegen Komodo erreicht hat. Stockfish hat fast 3x so viele Siege wie Niederlagen erreicht.
Das ist ein Unterschied von 170 ELO die Stockfish einfach stärker gespielt hat.
Bzw. 72,73% erreicht hat.

By Michael Scheidl Date 2018-11-08 19:05

Zitat:

Die Unentschieden mal außen vor gelassen

Ich stelle den Score nach Siegen auch gerne in den Vordergrund, allerdings, zwecks Eloperformance muß man schon die Remisen mitrechnen. Somit hat Stockfish genau 55% erzielt, das sind heiße +36 Elo. - Überakzentuiert könnte man sagen, Stockfish hat in 84 von 100 Partien nicht gewonnen... (und Komodo in 94 nicht).

By Benno Hartwig Date 2018-11-08 20:06

Na, das ist aber mal ein originelles Vorgehen.
Auf diese Weise bekämst du auch für Menschen-Begegnungen ganz muntere Elo-Differenzen. Aber was soll man damit anfangen können???
Benno