Nun ist Lc0 mit Leelenstein 13 klar die Nr. 1 vor Stockfish

By Reinhold Stibi Date 2020-01-11 07:18 Edited 2020-01-11 07:27

Nun ist der Test mit Leelenstein 13 nach 220 Partien zu ende.

+38 =165 -17 =54,77 % = + 33 Elo

Die Anfangsergebnisse - um die 50 Partien - verzeichneten ein Ergebnis um + 50 Elo.
Leelenstein rutschte dann zum Schluss auf + 33 Elo ab.

Trotzdem, ein Superergebnis für Leelenstein 13; verbesserte sich gegenüber 12.2 um 10 Elo
und dürfte nun in der Rangliste Platz 1 belegen.

Leider ist Leeelenstein 13 noch nicht in den offiziellen Ranglisten aufgenommen.

Die Ergebnisse von der "kleinen Rangliste" von Stefan Pohl waren aber ziemlich deckungsgleich;
wird aber nun auch nicht mehr weitergeführt.

By Benno Hartwig Date 2020-01-11 16:52

+33 Elo ist schon eine Nummer. Ja!

Nicht ganz vergessen sollte man, das die 95%-Grenzen bei 220 Partien wohl so bei +-50 Elo liegen.
Aber trotzdem ist +33 Elo erstmal ein schönes Ergebnis. Da stimme ich zu.

Mich verunsichert aber immer noch und immer wieder, dass ich nicht wirklich Grund habe anzunehmen, dass die Hardware so tatsächlich "gerecht" verteilt ist.
"Gerechtigkeit" ist hier ja aus meiner Sicht ein durchaus offenes Thema. Ein Plus oder Minus bei der Hardware, wie es beispielsweise eine Kernverdopplung darstellt, kann ja durchaus Elo-Verschiebungen in der Größenordnung von +33 Elo bedeuten.
Und ich weiß auch nicht, was hier "gerecht" ist.

Tatsächlich haben wir hier einen Vergleich der Schachsysteme, die jeweils aus Software und Hardware bestehen (wenn sie unterschiedlich sind/wären auch noch Buch und Tablebases).
Ja: Und da lag das NN-System nun mit +33 Elo vorn.

By Ernest Bonnem Date 2020-01-12 02:05

Benno Hartwig schrieb:

Nicht ganz vergessen sollte man, das die 95%-Grenzen bei 220 Partien wohl so bei +-50 Elo liegen.

Nein ! Mit +38 =165 -17 finde ich eine 95% Error-bar ungef. +- 24 Elo.

By Benno Hartwig Date 2020-01-12 19:39

Oh, so wenig?

Zugegeben, ich lag vielleicht etwas zu hoch.
Andererseits werden bei
https://ccrl.chessdom.com/ccrl/4040/
für Partienumfänge von über gut über 300 Bereichsgrenzen um +-30 angegeben.
Deine +-24 für 220 erscheinen da doch sehr überraschend klein.

Ich denke, entweder irrt CCRL oder du
(oder doch ich? Dann wäre ich aber für einen konkreten Hinweis auf meinen Denkfehler dankbar.)

Benno

By Wolfgang Battig Date 2020-01-12 21:09

Doch! Wie kommst Du auf das Intervall von +/- 24?

Wenn ich in unsere 40/120-Liste schaue (die einzige in der es Engines mit so wenig Partien gibt) sehe ich deutlich höhere Werte. Auswertung erfolgt mit ORDO und es ist nicht nur gegen einen Gegner (diese "Tests" halte ich eh für schwachsinnig) sondern einen Mix. Natürlich viel zu wenig Partien, aber das ist nochmal ein anderes Thema...
Guckst Du hier: http://www.cegt.net/40120new/40_120_ratinglist/40_120_purelist/rangliste.html und erklär mir bitte wie ein ausgereiftes Berechnungsprogramm wie Ordo auf so exorbitant andere Werte kommt bzw. woher du die 24 hast.

By Ernest Bonnem Date 2020-01-12 22:17

Wolfgang Battig schrieb:

Doch! Wie kommst Du auf das Intervall von +/- 24?

Tja, Grund Statistik !
Wenn das Ergebnis nicht zu weit von 50% ist (sagen wir von 35% bis 65%), kann man diese Formel benützen :
2sigma = [sqrt(Wins+Losses)]/TotalNumberofGames
Also das gibt hier 0.0337 oder 3.37%. Und wenn man das mit 700 multipliziert, gibt das 23.6 Elo.

Und EloStat 1.3 von Frank Schubert gibt allerdings 95% : (+23,-22)

ORDO kann sicher nicht sehr weit von diesen Nummern sein...

By Peter Weise Date 2020-01-13 10:26

Wolfgang Battig schrieb:

Doch! Wie kommst Du auf das Intervall von +/- 24?

Wenn ich in unsere 40/120-Liste schaue (die einzige in der es Engines mit so wenig Partien gibt) sehe ich deutlich höhere Werte. Auswertung erfolgt mit ORDO und es ist nicht nur gegen einen Gegner (diese "Tests" halte ich eh für schwachsinnig) sondern einen Mix. Natürlich viel zu wenig Partien, aber das ist nochmal ein anderes Thema...
Guckst Du hier: <a class='urs' href='http://www.cegt.net/40120new/40_120_ratinglist/40_120_purelist/rangliste.html'>http://www.cegt.net/40120new/40_120_ratinglist/40_120_purelist/rangliste.html</a> und erklär mir bitte wie ein ausgereiftes Berechnungsprogramm wie Ordo auf so exorbitant andere Werte kommt bzw. woher du die 24 hast.

Das liegt an der niedrigeren Remisquote in der CEGT-Liste.

Beispiele:
+40 =80 -40 (50 % Remisquote)

Wins   = 40
Draws = 80
Losses = 40
Av.Op. Elo = 3000

95 %   : (+ 38,- 38)

Wäre die Remisquote so wie im Beispiel hier im Thread bei 75 %(!) dann bekommen wir:
Wins   = 20
Draws = 120
Losses = 20
Av.Op. Elo = 3000

95 %   : (+ 27,- 27)

Je höher die Remisquote desto kleiner die Errormargins bei identischer Anzahl an Partien.

Und ein krasses Gegenbeispiel:
+78 =4 -78 (2,5 % Remisquote)

Wins   = 78
Draws = 4
Losses = 78
Av.Op. Elo = 3000

95 %   : (+ 54,- 54)

By Benno Hartwig Date 2020-01-14 07:12

> Je höher die Remisquote desto kleiner die Errormargins bei identischer Anzahl an Partien.

Auf den ersten Blick überraschend wirkte diese Aussage für mich.

Aber eigentlich wird es schon verständlich.
Weniger Remis bedeutet: mehr Streuung und damit auch größeres Error-Intervall.

Ich hatte die Errorbars bislang im Wesentlichen als Funktion des Partienumfanges gesehen.
Jetzt sehe ich, dass sie vom erspielten Ergebnis abhängen, dass sie also mithin auch "nur" Schätzwerte sind, die eben nur "mehr oder weniger richtig" sein können.

Benno

By Peter Weise Date 2020-01-14 10:25

Dass sich die "Listen-ELO" von der "Zweikampf-ELO" zum Teil deutlich unterscheidet ist auch (nicht nur) einem weiteren Umstand geschuldet. Alle mir bekannten Auswertungsprogramme (ELO-Stat, Ordo, Bayesian) behandeln die Partienmengen so als ob ein grosses Turnier gespielt worden wäre. Dabei ist es egal ob jeder gegen jeden angetreten ist so lange kein(e) Cluster entsteht/entstehen. Diesbezüglich steht diese Auswertungsmethode sogar im Einklang mit der Intension des Arpad Emrick Elo!

By Ernest Bonnem Date 2020-01-14 17:22

Peter Weise schrieb:

Je höher die Remisquote desto kleiner die Errormargins bei identischer Anzahl an Partien.

Absolut !

By Peter Martan Date 2020-01-16 09:48 Edited 2020-01-16 09:52

Was aber auch gerne noch übersehen wird, Ernest: die 1:1- Paare, damit meine ich diejenigen Partien, bei denen zuerst die eine und dann die andere Engine mit vertauschten Farben jeweils für die selbe Seite gewinnt, wirken sich ebenso aus, wie die Remis, nämlich beim Match einer einzelnen Engine gegen eine einzelne andere.

Nimmt man also einfach als Eröffnungsstellungen solche, die einen starken Vorteil für eine Seite haben, senkt man damit zwar die Remisquote, die Errobar bleibt aber trotzdem gleich groß, weil es ebenso wenig Übergewicht einer Seite an ganzen Punkten gibt, wenn der eine Sieg für Weiß immer gleich durch einen zweiten der Gegner- Engine wieder für Weiß ausgeglichen wird. Das wirkt sich dann auf die Performance genau so aus, wie wenn 2 Remis in Folge zur selben Eröffnung gespielt werden.

By Peter Weise Date 2020-01-16 10:25

Nein, diese "1:1-Paare" steigern die Errobar!

Beispiel:
Engine 1 vs Engine 2 / Einzelwettkampf über 100 Partien

30 x 1:1 Paar, d.h. 30 zu 30 Gewinne.
Dazu siegt Engine 1 (ohne 1:1 Paar) in 15 Partien,
Engine 2 in deren 10.

Engine 1 also im gesamten: +45 =15 -40

Wins   = 45
Draws = 15
Losses = 40
Av.Op. Elo = 2000

Result    : 52.5/100 (+45,=15,-40)
Perf. : 52.5 %
Margins :
68 % : (+ 4.6,- 4.6 %) -> [ 47.9, 57.1 %]
95 % : (+ 9.0,- 9.1 %) -> [ 43.4, 61.5 %]
99.7 % : (+ 13.5,- 13.8 %) -> [ 38.7, 66.0 %]

Elo : 2017
Margins :
68 % : (+ 32,- 32) -> [1985,2049]
95 % : (+ 64,- 63) -> [1954,2081]
99.7 % : (+ 98,- 97) -> [1920,2115]
(lt. ELO-Stat v 1.3)

Wären die "1:1-Paare" anstatt dessen Remis ausgegangen:

Wins   = 15
Draws = 75
Losses = 10
Av.Op. Elo = 2000

Result    : 52.5/100 (+15,=75,-10)
Perf. : 52.5 %
Margins :
68 % : (+ 2.5,- 2.5 %) -> [ 50.0, 55.0 %]
95 % : (+ 4.9,- 4.8 %) -> [ 47.7, 57.4 %]
99.7 % : (+ 7.5,- 7.3 %) -> [ 45.2, 60.0 %]

Elo : 2017
Margins :
68 % : (+ 17,- 17) -> [2000,2035]
95 % : (+ 35,- 34) -> [1984,2052]
99.7 % : (+ 53,- 51) -> [1967,2070]
(lt. ELO-Stat v 1.3)

By Peter Martan Date 2020-01-16 10:40 Edited 2020-01-16 10:58

Peter Weise schrieb:

Nein, diese "1:1-Paare" steigern die Errobar!

Sag ich ja, auch in deinem Beispiel. Größer heißt für mich halt, du brauchst nicht wirklich um das weniger Partien für gleiche statistische Signifikanz. Es hilft dir also nicht so viel (gar nicht wohl auch nicht, kommt drauf an, wie sich die Eröffnungsstellungen in Summe auswirken und wieviele Nicht- 1:1- Paare gespielt werden) wie sich durch das Senken der Remisquote erhoffen ließe.
Reden wir aneinander vorbei?

Ich editiere hier übrigens schon wieder dauern rum, vielleicht ist's so klarer, was ich meine:

Remisquote hoch macht große Errorbar.

Remisquote geringer, aber dafür mehr 1:1 Paare macht Errorbar sogar (in deinem Beispiel) eventuell noch größer, je nach Verhältnis Gesamtpartiezahl zu entschiedenen zu 1:1 entschiedenen Partien.

Kleiner wird sie aber duch 1:1 Paare nicht, durch Senken der Remisquote ohne (oder mit weniger) 1:1 Paaren schon.
Unterscheiden müsste man an den 1:1 Paaren vor allem, wie häufig sie relativ zu 2:0 und 0:2 auftreten, also einfach Remis durch 1:1 zu ersetzen, trägt dem noch keine Rechnung.

So finde ich's am Klarsten: großer Abstand an ganzen Punkten zwischen 2 Engines passt auch in eine große Errorbar immer noch nicht hinein, übersteigt der Punkteabstand die Errorebar, ist das Ergebnis statistisch signifikant, ist eine Errorbar zwar klein, aber der Punkteabstand (in Elo oder einfach nur Game- Points) ist das Konfidenzintervall nicht bestätigt.

By Peter Weise Date 2020-01-16 11:14

Ganz durchsteigen tue ich jetzt nicht, vor allem die letzten zwei Absätze stellen mich vor Rätsel?!

Ich versuche es mit weiteren Beispielen, jeweils ermittelt via ELO-Stat 1.3.

Zuerst ein sehr krasses:
Wins   = 0
Draws = 100
Losses = 0
Result    : 50.0/100 (+0,=100,-0)
Perf. : 50.0 %
Margins :
95 %   : (+ 0,- 0) -> [2000,2000]

Jedoch gilt ebenso:
Wins   = 0
Draws = 2
Losses = 0
Result    : 1.0/2 (+0,=2,-0)
Perf. : 50.0 %
Margins :
95 %   : (+ 0,- 0) -> [2000,2000]

Und nun die (zugegeben) krasse Umkehrung:
Wins   = 50
Draws = 0
Losses = 50
Result    : 50.0/100 (+50,=0,-50)
Perf. : 50.0 %
Margins :
95 %   : (+ 69,- 69) -> [1931,2069]

nun aber:
Wins   = 1
Draws = 0
Losses = 1
Result    : 1.0/2 (+1,=0,-1)
Perf. : 50.0 %
Margins :
95 %   : (+600,-600) -> [1400,2600]

By Peter Martan Date 2020-01-16 13:56 Edited 2020-01-16 14:07

Genau!

Und die zwei Absätze, durch die du nicht mehr gestiegen bist, ob du's glaubst oder nicht, sagen einfach das gleiche.

Peter Weise schrieb:

Ganz durchsteigen tue ich jetzt nicht, vor allem die letzten zwei Absätze stellen mich vor Rätsel?!

Errorbar ist durch die Zahl der Partien, der Remisquote und der Differenz der ganzen Punkte der Teilnehmer definiert.

Errorbar steigt mit der Remisquote und der Zahl der 1:1- Paare, sinkt mit der Zahl der Partien und dem Ansteigen vom Abstand an Punkten, die die eine Engine mehr als die andere erspielt.

Das war eigentlich wieder nur der vorletzte Absatz, der letzte sagte dann (einfach?

) noch, dass die Errorbar auch kein Absolutwert im Sinne von klein=gut und groß=schlecht ist, sondern nur klein genung sein muss, die Punktedifferenz zu unterschreiten, oder von der anderen Seite betrachtet, die Punktedifferenz nur groß genug sein muss, die Errorbar zu überschreiten.
In beiden Fällen, eigentlich egal, wie groß oder klein die Errorbar absolut ist, ist das Ergebnis im Konfidenzintervall oder eben nicht.

Wenn ich in der Mittelschule mit einem Lehrer dort diskutiert habe, der im Unterrricht gerne zu solchen Diskussionen aufrief, hat der immer gemeint, ich würde besser argumentieren, wenn ich nicht immer so viele Einzelbeispiele für das brächte, was ich sagen will, dennoch danke für deine instruktiven solchen.

By Peter Weise Date 2020-01-16 14:27

Zitat:
"Errorbar steigt mit der Remisquote und der Zahl der 1:1- Paare"

Aber genau das (... und der Zahl der 1:1-Paare) hatte ich (ELO-Stat) doch deutlich wiederlegt. Das Rätsel bleibt ungelöst meinerseits.

By Peter Martan Date 2020-01-16 15:50 Edited 2020-01-16 15:55

Peter Weise schrieb:

Meinerseits aber leider auch, Peter.

Peter Weise schrieb:

Nein, diese "1:1-Paare" steigern die Errobar!

Also jetzt dann aber doch wieder nicht?

Peter Weise schrieb:

Beispiel:
Engine 1 vs Engine 2 / Einzelwettkampf über 100 Partien

30 x 1:1 Paar, d.h. 30 zu 30 Gewinne.
Dazu siegt Engine 1 (ohne 1:1 Paar) in 15 Partien,
Engine 2 in deren 10.

Engine 1 also im gesamten: +45 =15 -40

Wins   = 45
Draws = 15
Losses = 40
Av.Op. Elo = 2000

Result    : 52.5/100 (+45,=15,-40)
Perf. : 52.5 %
Margins :
68 % : (+ 4.6,- 4.6 %) -> [ 47.9, 57.1 %]
95 % : (+ 9.0,- 9.1 %) -> [ 43.4, 61.5 %]
99.7 % : (+ 13.5,- 13.8 %) -> [ 38.7, 66.0 %]

Elo : 2017
Margins :
68 % : (+ 32,- 32) -> [1985,2049]
95 % : (+ 64,- 63) -> [1954,2081]
99.7 % : (+ 98,- 97) -> [1920,2115]
(lt. ELO-Stat v 1.3)

Wären die "1:1-Paare" anstatt dessen Remis ausgegangen:

Wins   = 15
Draws = 75
Losses = 10
Av.Op. Elo = 2000

Result    : 52.5/100 (+15,=75,-10)
Perf. : 52.5 %
Margins :
68 % : (+ 2.5,- 2.5 %) -> [ 50.0, 55.0 %]
95 % : (+ 4.9,- 4.8 %) -> [ 47.7, 57.4 %]
99.7 % : (+ 7.5,- 7.3 %) -> [ 45.2, 60.0 %]

Elo : 2017
Margins :
68 % : (+ 17,- 17) -> [2000,2035]
95 % : (+ 35,- 34) -> [1984,2052]
99.7 % : (+ 53,- 51) -> [1967,2070]
(lt. ELO-Stat v 1.3)

Errorbar im Fall der häufigen 1:1- Paare +-67 im 95%- Intervall, im Fall der Remispartien statt der 1:1-Paare +-35.
Errorbar durch 1:1 Paare gestiegen.
Passt du zu deiner Aussage am Anfang (das "Nein" voraus war mir nur gleich etwas komisch vorgekommen) stimmt mit den Beispielen.
Warum zweifelst du wieder und woran genau?

Vielleicht liegt das Missverständnis da: du verstehst, wenn ich sage, die Errobar steigt mit der Remisquote und sie steigt mit der Zahl der 1:1- Paare, vielleicht dahingehend etwas falsch, dass das für mich bedeuten würde, sie steigt mit der Zahl der 1:1- Paare stärker oder schwächer als mit der Remisquote (der Zahl an Remis), ich meine einfach nur das, was ich schreibe: sie steigt mit der Remisquote und sie steigt mit den 1:1 Paaren. Dass wahrscheinlich das eine das andere konkurrenziert, ist ja klar, hat aber eigentlich überhaupt keinen weiteren Belang für mich, wenn was evident (eh klar) ist, wozu muss ich das extra mit eigens so konstruierten Zahlenbeispielen belegen, in denen das ausschließlich so ist? Davon abgesehen, dass du auch willkürlich Beispiele konstruieren könntest, bei denen sowohl die Remisquote steigt als auch die 1:1- Paare im Verhältnis zu den ganzen Punkten aus Nicht-1:1- Paaren, also aus 1:0 und 0:1.

Was durch welche Zahlen wieviel bewirkt, hängt vom Verhältnis zueinander und zu den übrigen Partiezahlen ab, besonders von ihrer Gesamtzahl.
Period.

Informiere mich gerne neuerlich, wenn du mich immer noch nicht verstanden hast oder immer noch etwas anderes meinst, an Beispielen gezeigt zu haben (auch etwas anderes, als du selbst sagst, wie mir scheint).
Wenn's dir nur darum geht, dass du mir sagen wolltest, die Remis werden weniger werden, wenn du (nur) an ihrer Stelle (und nicht auch statt aus Partien von 0:1 und 1:0- Paaren) 1:1- Paare erspielst, dann danke ich für diese Zusatzinfo und die eigens dazu erdachten Beispiele, das hatte ich aber ohnehin auch schon so vermutet.

By Peter Weise Date 2020-01-16 16:14

Also: (Zitat) "Errorbar steigt mit der Remisquote ..."

Richtig.

(Zitat): ... und der Zahl der 1:1- Paare"

Falsch!

Das meinte ich.
Und "steigen" im Sinne von "wird größer" versteht sich.

By Peter Martan Date 2020-01-16 16:30

Peter Weise schrieb:

Also: (Zitat) "Errorbar steigt mit der Remisquote ..."

Richtig.

(Zitat): ... und der Zahl der 1:1- Paare"

Falsch!

Das meinte ich.
Und "steigen" im Sinne von "wird größer" versteht sich.

Aber gesagt hast du: (hier, ich hab's vorhin schon gerade zitiert)

https://forum.computerschach.de/cgi-bin/mwf/topic_show.pl?pid=127015#pid127015

Peter Weise schrieb:

Nein, diese "1:1-Paare" steigern die Errobar!

Und dann hast du's, im Posting vom obigen Link, anhand von Beispielen gezeigt.

Wenn du's dir jetzt anders überlegt hast, oder es anders gemeinst hast, bring' gern nochmal Beispiele, die deine Beispiele vom Link vom Posting gemeinsam mit der entsprechenden Aussage widerlegen.
Du musst es aber auch nicht machen, Peter, weil ich weiß eigentlich nicht, ob es mich noch ausreichend überraschen wird, was du vielleicht noch zum Besten gibst zu unserem Thema, um nochmal drauf zu antworten, aber gib' auch nicht nur meinetwegen auf, wenn's dir ein echtes Anliegen ist.
Ich kenne das von mir, man will sich einfach nicht und nicht damit abfinden, wenn man nicht verstanden wird.

By Peter Weise Date 2020-01-16 18:14

Mist, ich sehe meinen Fehler. Besser erst Denken und dann schreiben, sorry!

Hier noch einmal und nun hoffentlich richtig:

Also: (Zitat) "Errorbar steigt mit der Remisquote ..."

Falsch. Je höher die Remisquote ist desto kleiner der Wert der Errorbars,
siehe auch das Beispiel mit nur einer einzigen Remispartie: +0 -0.

(Zitat): ... und der Zahl der 1:1- Paare"

Richtig!

Steigen im Sinne von "wird größer".

By Peter Martan Date 2020-01-16 18:38 Edited 2020-01-16 18:42

Uups!
Ich hab' mich auch geirrt.

By Clemens Keck Date 2020-01-11 09:32 Edited 2020-01-11 09:42 Upvotes 2

Irgendwie langts mir jetzt langsam mit den immer neuen Ankündigungen welche NN gerade an Stockfish vorbei gezogen ist.
Ich finde das irreführend. In deinem setup ist die RTX 2070 dem alten 12 Kerner überlegen.
spiel doch mal die Noomen Testsuite 2016. Sind nur 100 Spiele. Wirst staunen wie die NNs da absacken .
Im cccc Turnier ist SF mit contempt 0 am start, das ist auch eine Überlegung wert.

C.K.

By Thomas Müller Date 2020-01-11 10:57 Upvotes 1

In das Thema selbst bin ich nie richtig eingestiegen, aber lese hier (zwangsläufig

) ja viel mit.
Es gibt so rein vom Gefühl her min 327 verschiedene NNs und 3x soviele Netze die man benutzen kann.
Ich habe hierfür überhaupt keinen Überblick....liegt aber evtl. auch tatsächlich daran, dass ich nie richtig damit eingestiegen bin ?!

gruß

By Walter Knobloch Date 2020-01-11 11:14 Upvotes 1

Es gibt Leela (Lc0), ein paar Derivate davon und einige wenige eigenständige NN-Engines, z.B. Stoofvlies.
Leela ist die ausgereifteste NN-Engine. Das eigentliche neuronale Netz ist jedoch eine komprimierte Textdatei, die Millionen von sogenannten weights (oder Gewichtungen) enthält.
Diese Netze werden im Zuge eines Trainingsprozesses am laufenden Band produziert, wie hier zu sehen http://lczero.org/networks/?show_all=0 und es gibt Tausende davon.
Die engine ruft also das verwendete Netz zur Bewertung jeder einzelnen Stellung auf und entnimmt dieser die Zugsortierung und Bewertung.
FatFritz ist ebenso Leela, also lediglich umbenannt und verwendet nicht öffentlich generierte Netze, die jedoch etwas schwächer sind.

By Stefan Pohl Date 2020-01-11 13:29 Edited 2020-01-11 13:31 Upvotes 1

Thomas Müller schrieb:

In das Thema selbst bin ich nie richtig eingestiegen, aber lese hier (zwangsläufig

Wichtig ist, sich für die jeweilige Hardware die richtige Netzgröße herauszusuchen. Auf einem Smartphone oder auf einer PC-CPU sind unbedingt kleine 10x128 Netze zu empfehlen (LD2 oder späte T58/T59-Netze).
Wirklich hohe Spielstärke (im Stockfish-Bereich) erreicht man aber nur mit einer RTX-GPU (2060 aufwärts). Dann sollten es mindestens 20x256 Netze sein, also die letztenT40-Netze, das Fat Fritz Netz. Am stärksten sind die Leelenstein Netze, die aber über patreon kostenpflichtig sind (3€ pro Monat Abo).
Die T60-Netze lernen noch und sind zudem auch etwas größer (=langsamer). Inwieweit hier eine Benutzung schon sinnvoll ist, ist nicht ganz klar. Mein Testrun läuft gerade, da kann ich in 5 Tagen mehr sagen. Dann gibt es noch die richtig großen S.Vieri Netze. Deren Benutzung macht, wenn überhaupt, nur auf wirklich schnellen GPUs und/oder mit langer Bedenkzeit Sinn.

By Tom Paul Date 2020-01-11 15:41

Clemens Keck schrieb:

Im cccc Turnier ist SF mit contempt 0 am start, das ist auch eine Überlegung wert.

Stockfishs standard Contempt ist ganz klar nicht mehr die beste Einstellung für Stockfish aus Sicht von Stockfish.
Inzwischen schneidet Stockfish mit einem leicht negativen Contempt sogar noch besser ab gegen LC0.
Da braucht man eigentlich nicht mehr zu überlegen.

By Reinhold Stibi Date 2020-01-11 23:05 Upvotes 1

Zur Clemens Keck Meinung:

Ich bin auch ein Stockfish-Fan und möchte nicht Lc0 bevorzugen.

Mein Xeon X5690 Computer besteht aus 2 Prozessoren X5690 mit je 6 echten Kernen und je 3,46 GHz und je Prozessor 12 MB L3 Cache.

Trotz seines Alters kann meine Workstation auch mit den neueren Prozessoren mithalten, diese schaffen halt mit 1 Prozessor
12 echte Kerne, wozu meine Workstation 2 Prozessoren braucht.
Die Leistung ist mit Stockfish 10.12.19 und 12 echten Kernen in der Grundstellung 15.525 Kn/s.

Dies dürfte schon ein echter Gegenpart zur RTX 2070 darstellen

Werde auch einen Test mit deinen Empfehlungen durchführen. Bin gespannt wie dann Leelenstein 13 abschneidet.

By Clemens Keck Date 2020-01-12 10:56

Moin Reinhold

ich finde Deine tests interesannt, blicke aber nicht so ganz durch ob Du immer unter vergleichbaren Bedingungen testest.
Vielleicht könntest Du mal so eine Gesamttabelle erzeugen?
Gerade Leelenstein und die Sergio Versionen würden mich intressieren.

Wegen der LeelaRatio

Als ich die T40 NN testete kam ich zu dem Schluß das 12 cpu / ~ 17.500 kNs, und die RTX 2060 / ~ 26.000 nPs nahe an eine Ratio von 1.3 rankommt.
Dieses setup behalte ich bei.
Bei Dir dürfte mit der RTX 2070 die LeelaRation bei 1.7 liegen.
Finde ich alles ok, es geht ja nur um die Vergleichbarkeit.
Nur Aussagen "Stockfish klar überholt" oder "neue Nr. 1" halte ich für übertrieben.
Stockfish 251219 spielt bei mir saustark gegen die NNs. Liegt evtl. auch am contempt 0.

Leelenstein 12.2 minus 12 elo, wird aber nochmal wiederholt weil ich mittlereweile mit testsuite spiele
SV 1705 minus 30 elo, aber teilweise phantastische Siege gegen SF.
Leelenstein 13 läüft gerade, minus 30 elo aktuell

C.K.

By Reinhold Stibi Date 2020-01-12 12:07

Hallo Clemens,

ich teste immer unter gleichen Bedingungen und zwar mit Fritz 15 GUI
und bei den Engines mit Grundeinstellungen (bei Lc0 natürlich mit cudnn-fp16 )
Bei Lc0 auch Einstellung 2 Threads; komischerweise wurden Teststellungen damit schneller gelöst
als mit Einstellung 6 oder 12 Threads.

Wichtig finde ich auch, dass jede Eröffnung mit Weiß und Schwarz gespielt wird. Dies kann man ja
bei Fritz 15 GUI gut einstellen.

Die Stefan Pohl Eröffnungs-Vorgaben 4 Züge finde ich auch sehr gut.

Als Zeit: 1 Min. + 1 Sek. pro Zug ist auch vollkommen genügend, da mit sehr guter Hardware damit
auch schon sehr hohe Rechentiefen zustande kommen.

Damit kommen auch bei den Spielen noch genügend Gewinnpartien zustande, ca. 30 %.
Bei noch längerer Bedenkzeit oder noch stärkerer Hardware würden die Softwareschwächen ausgebügelt
und es würden noch mehr Remispartien zustande kommen.

Dein Computer ist bei 12 CPUs nur 2000 Kn/s schneller; das ist kaum von Bedeutung.

An einer Gesamttabelle werde ich noch arbeiten.

Leelenstein 13 dürfte ca. 10 Elo besser sein als 12.2. ; wird bei Dir wahrscheinlich noch aufholen.

Das bei Sergio tolle Siegpartien zustande kommen wundert mich nicht da dieses Netz taktisch bedeutend
stärker ist. Dies zeigt auch der Eigenmann Test.

Werde aber nun einen Test mit deinen Testbedingungen durchführen. Bin gespannt was dabei herauskommt.

Von klar besser bei der Spielstärke würde ich bei +35 Elo sprechen. Leelenstein 13 hat dies mit + 33 Elo so gut wie erreicht.
Aber vielleicht fällt ja Leelenstein 13 unter Deinen Testbedingungen zurück.

By Reinhold Stibi Date 2020-01-13 08:40 Edited 2020-01-13 08:54

Hinsichtlich Error-bar:

Es ist doch einfach Quatsch bei 220 gespielten Partien gegen eine Engine anzunehmen dass da noch
eine wesentliche Änderung des Ergebnisses mit noch mehr Partien stattfinden könnte.

+ - 35 Elo ist doch vollkommener Unsinn und entspricht nicht den praktischen Tatsachen.

+ - 23 Elo finde ich auch noch zu hoch.

Nach meiner Meinung wären bei 400, 600, 1200 Partien gegen eine Engine eine Veränderung der
erzielten Ergebnisse von vielleicht + - 15 Elo denkbar.

Viel mehr Sinn macht es mehrere Engines von 10 oder 20 für die Errechnung der Spielstäre einzubeziehen.
Aber das ist sehr aufwendig und die Testergebnisse sind dann nicht mehr aktuell.

Faktoren wie Eröffnungsbuch und Zeit spielen die größere Rolle.

Kaum jemand testet gegen eine Engine über 200 Partien.

Wahrscheinlich müsste man Stockfish gegen RTX 2070 15 echte Kerne geben um Hardwareausgleich zu erzielen.
Aber die Frage wäre ob das etwas für Stockfish bringen würde, da die Rechentiefe bei 12 CPUs schon recht hoch
ist und eine weitere Steigerung der CPUs immer weniger bringt.

By Benno Hartwig Date 2020-01-13 12:21 Edited 2020-01-13 12:24

> Es ist doch einfach Quatsch bei 220 gespielten Partien gegen eine Engine anzunehmen dass da noch eine wesentliche Änderung des Ergebnisses mit noch mehr Partien stattfinden könnte.

Natürlich haben 220 Partien eine Aussagekraft.
Und wenn man nicht will, dann muss (und man MUSS ja sowieso nicht!) nicht mehr spielen.
Man sollte dann nur gern im Hinterkopf behalten, mit welchen Wahrscheinlichkeiten das ermittelte Ergebnis einen wie großen Fehler aufweist.
Dieses +-25 würde beispielsweise bedeuteten, dass durchschnittlich jedes 20te derart ermittelte Ergebnis um mindestens dieses Wert daneben liegt.
Kleinere Abweichungen als +-25 kommen entsprechend (noch) häufiger vor.

Das kann einem ausreichend sicher erscheinen, klar, und das kann einem ausreichend genau erscheinen,
aber man kann auch höhere Ansprüche haben. Gerade wenn man Engines vergleichen will, die eben nur kleinere Elo-Werte auseinanderliegen.
Oder wenn man genauere Aussagen machen möchte zur Größe des Elo-Abstandes.

By Lothar Jung Date 2020-01-13 21:06

Bei einer Errorbar von -/+ 20 % und einem Elozuwachs von 40 Punkten.
Sind die 40 Punkte am wahrscheinlichsten.
+ 20 % und - 20 % sind am unwahrscheinlichsten.
Die Wahrscheinlichkeiten sind normalverteilt, d.h. sie haben eine Glockenform.

By Benno Hartwig Date 2020-01-13 23:27

> + 20 % und - 20 % sind am unwahrscheinlichsten.

Nein, so ist das überhaupt nicht. Und das Prozentzeichen hat bei den Errormargins auch nichts zu suchen, es sind hier tatsächlich Elo-Differenzen.

Meistens gehören diese Errorbar-Werte eines Schätzwertes w zu einer 95%-Wahrscheinlichkeit.
Und dass bedeutet dann: mit 5%-Wahrscheinlichkeit liegt der letztlich unbekannte wahre Wert außerhalb des angegebenen Intervalls,
also mit 2,5% größer als w+20 und mit Wahrscheinlichkeit 2,5% kleiner als w-20.
Aber es ist immer noch möglich, dass der wahre Wert w-25 ist oder auch w+30. Dies ist nur eben nicht sehr wahrscheinlich.

By Peter Martan Date 2020-01-13 15:03 Edited 2020-01-13 15:21

Reinhold Stibi schrieb:

Naja, Reinhold, wenn von den 220 Partien 165 Remis sind, dann aber halt doch, vor allem, wenn sich diejenigen, die überhaupt entschieden sind, auch nicht soo stark einseitig mit 38:17 aufteilen.
Die Errorbar mag hier etwas größer oder etwas kleiner sein, der Jammer ist der geringe Elo- Abstand, den du selbst nach 220 Partien immer noch nur hast (den musst du ja auch wieder im Verhältnis zu den Absolutwerten sehen, bei 2000 ist 30 eine Hausnummer Unterschied, bei 3400 ist die Hausnummer eine Nummer kleiner, was die Relation der beiden zueinander angeht), und der passt halt auch in eine kleine Errorbar hinein. Und wenn er innerhalb der Errorbar liegt, heißt das einfach nicht mehr und nicht weniger als, es kann immer noch genau so gut die Engine, die in diesem Durchlauf die Nase vorn hatte, im nächsten ebensolchen zufällig die Nase gezeigt bekommen.

Das ist ja das wahre Dilemma an der Sache.

Und dabei haben wir noch nicht wieder darüber gesprochen, dass das nur ein Einzelmatch mit bestimmten Eröffnungen und bestimmter Hardware- TC war, im bunten Mix an Engines, anderen Eröffnungen und anderer Hardware- TC (vor allem auch, was die Nutzung von verschiedener GPU- Leistung durch verschieden große Netze und die Nutzung der CPU durch verschiedene A-B-Engines angeht) kannst du das ja verhältnismäßig leise kleine statistische Rauschen deines einen speziellen Matches noch einmal in einen ziemlich lauten Sturm aufblasen.

By Benno Hartwig Date 2020-01-13 18:30 Edited 2020-01-13 18:33

> Und wenn er innerhalb der Errorbar liegt, heißt das einfach nicht mehr und nicht weniger als, es kann immer noch genau so gut die Engine, die in diesem Durchlauf die Nase vorn hatte, im nächsten ebensolchen zufällig die Nase gezeigt bekommen.

Na, "genau so gut" ist es sicher nicht. Wenn wir beispielsweise +-30 als 95%-Errorbar haben, dann bedeutet auch ein 20-Elo-Vorsprung von Engine A vor B, dass wahrscheinlich A auch die tatsächlich stärkere Engine ist. Nur je kleiner der Vorsprung ist, um so weniger liegt diese Wahrscheinlichkeit eben über 0,5.

Ob einem diese Wahrscheinlichkeit ausreicht für die Aussage "A ist stärker als B", hängt dann aber ab

a) von der persönlichen Vorstellung davon, welche Sicherheit solch ein Statement erfordert
(und prinzipiell gilt dies auch, wenn das Ergebnis außerhalb der Errorbar liegt.)
b) vom Grad der Unkenntnis dessen, was ich hier ansprach

By Horst Sikorsky Date 2020-01-13 09:00

Bei mir führt t40-swa-1705 gegen T40B.4-swa-160000 durch den einzigen Sieg nach 32 Partien
IM 4mvs Blitz 2+5 eine RTX 2060
vielleicht nehme ich mal weniger Remislastige Anfangszüge. PS es gibt denn Ausgleich 33.Partie
Französisch ... Das kann LcO mit Weiß sehr gut. aber das Große Netz gewinnt 34. nicht.

By Reinhold Stibi Date 2020-01-13 09:52

Nochmals zur Error-bar:

Übertragen bei menschlichen Spielen könnte doch die Nr.3 der Welt Ding Liren behaupten
ich bin genauso stark wie Magnus Carlsen da der Unterschied nur 65 Elo beträgt und nach
Error-bar die Spannweite bei den wenigen Spielen bei vielleicht 100 Elo liegt; aber das ist doch Unsinn.

Wenn, sagen wir bei bei 5 Turnieren, immer Lc0 die Nr. 1 ist (könnte auch umgekehrt Stockfish sein),
dann ist für mich Lc0 die Nr. 1 auch wenn die Error-bar etwas anderes besagt.

Die Praxis ist für mich aussagekräftiger wie die sich wandelte Theorie.

By Benno Hartwig Date 2020-01-14 08:15

> Übertragen bei menschlichen Spielen könnte doch die Nr.3 der Welt Ding Liren behaupten, ich bin genauso stark wie Magnus Carlsen ...

Diese These von dir bleibt Unsinn, auch wenn du sie beharrlich wiederholst.

Ein Vorsprung aus Turnierergebnissen bedeutet ja schon, dass der Führende wahrscheinlich tatsächlich der Stärkere ist.
Große Errorbar-Werte bedeuten dann nur: die Wahrscheinlichkeit, dass hier doch ein Irrtum vorliegt ist nicht sooo klein, wie man es gern hätte.
Aber so eine Behauptung darum überhaupt nicht zu rechtfertigen.

Außerdem:
Bei Sportlern sind Elo-Werte IMMER nur ein Spiegel der tatsächlich erspielten Resultate.
Bei Engines hingegen existiert zu gegebenen Rahmenbedingungen tatsächlich ein Erwartungswert für Duelle dieser Engines.
Denn man könnte theoretisch unter identischen Bedingungen viele tausende von Partien durchführen. Theoretisch.

Dieser Erwartungswert ist eine konkrete reale Zahl, sie existiert. Sie ist keine Bereich, sondern eine konkrete Zahl. Nur dass wir sie nicht kennen und uns darum:
a) um ein möglichst gutes Schätzverfahren bemühen
b) versuchen, die Qualität dieser Schätzung einzuschätzen.

By Peter Martan Date 2020-01-14 09:06 Edited 2020-01-14 09:26

Benno Hartwig schrieb:

Dieser Erwartungswert ist eine konkrete reale Zahl, die wir dadurch hinten raus bekommen, dass wir am Anfang rein willkürlich Ausgangswerte einsetzen, um uns dann darüber zu streiten, wie genau die Ergebnisse mit dem übereinstimmen, was wir erwartet haben.

Ich würde ja noch einsehen, dass es mit der Errorbar so genau genommen wird, wenn man dann nicht doch, auch wenn sie unterschritten wird im Ergebnis, munter daran vorbei argumentierte, dass es mit soundso großer Wahrscheinlichkeiten eben schon auch genau so stimmen könnte, wie's unten rausgekommen ist, auch wenn im einzig wirklich relevanten Sinn der Fragestellung, die man an eine Statistik knüpfen kann (über das nächste bevorstehende Einzelereignis sagt sie bekanntlich sowieso just gar nix aus) im Sinn von, ist die eine Engine sicher besser (statistisch signifikant bei bestimmten Matchvoraussetzungen, Partiezahlen und Performances, die Remisquote ist nur die eine Seite der Sache, die 1:1- Paare wirken sich just genau so Errobar- hebend aus) als die andere. Ist die Antwort auf diese Kernfrage, nein, kann man nicht statistisch signifikant sagen mit den Partien, die man hat, nicht einmal in Hinblick auf das eine Einzelmatch, sollte man drei Dinge vielleicht einfach lieber lassen: die Argumentation, wie wahrscheinlich es wäre, dass es vielleicht doch so ungefähr stimmt, erst recht die Argumentation, wie es höchst wahrscheinlich auf die Centielo genau stimmen könnte, und vor allem:
man sollte nicht die Zahlen, die man jetzt herausbekommen hat, einfach ins nächste Match getrost als neue Ausgangswerte derselben Engines nehmen, nicht einmal unter genau gleichen Voraussetzungen, schon gar nicht unter Beteiligung anderer Engines, mit anderen Hardware- TCs und anderen Eröffnungen.

Wenn du die Qualität der Schätzungen zum Schluss beurteilst, Benno, rechne doch bitte schon auch irgendwie im Kopf ein, dass du die Ausgangswerte an Elo der Kontrahenten zuerst einfach aus anderen mehr oder weniger ähnlichen Matches übernommen hast, du hättest genau so gut (und ich bitte das "genau so" wieder genau so wenig mathematisch exakt zu betrachten, wie das letzte, das du in dem Zusammenhang von mir zitiert hast und perfekt widerlegt) ganz andere Ausgangswerte nehmen können oder etwas andere oder für die eine und etwas anders andere für die andere oder für die eine schon und für die andere nicht.

Schätzung ist in dem Zusammenhang der einzig richtige Ausdruck jedenfalls.

Und nein, etwas anderes hast du ja auch gar nicht gesagt, aber ja, beim Schätzen kommt es außer darauf, möglichst genau zu schätzen, halt schon auch darauf an, dass man die Schätzung nicht als Gewissheit verkauft, nicht sich selbst und nicht den Anderen.

Und um deine nächste Frage nach dem positiven Ausblick meinerseits sein könnte ("wie würdest du es denn machen?") nach all dem neuerlichen Repetieren der Schwächen der Computerschach- Elo- Messungen:
ich würde Reinholds Vergleich mit den menschlichen Schachspielern diesbezüglicxh gar nicht soo schlecht finden, weil für die (Menschen) hat Arpad Elo die Formel erdacht, und weil bei denen ist man sich eben im Klaren, dass man eine Elo- Performance eines Spielers in einem bestimmten Turnier, in einem bestimmten Match gegen einen bestimmten anderen, oder als Elo- Performance übers Jahr, als Elo-Performance im Blitzschach, im Schnellschach, im Fernschach zu betrachten hat, würde man das bei den Engines hin und wieder auch ein bisschen im Auge behalten, dass die Elo, die gemessen werden, immer als numerische Zahlenwerte in ihrer genauen Höhe für ein bestimmtes Einzelmatch zwischen 2 bestimmten Engines unter bestimmten Bedingungen oder eine bestimmte Rangliste unter bestimmten Bedingungen gelten und sowieso immer nur für einen begrenzten Zeitraum, müsste man weniger um die Errorbar eines Einzelmatches rumstreiten und um die einzelnen Dezielo, die mit soundsogroßer Wahrscheinlichkeit eben doch mehr oder weniger genau stimmen könnten

Ist doch auch positiv, oder? Was für Grund und Anlass hätte man sonst überhaupt noch, immer wieder neuerlich Unmgengen von Partien spielen zu lassen, wenn die Erwartungswerte ohne schon vorher exakt genug wären?

By Benno Hartwig Date 2020-01-14 07:18

> spiel doch mal die Noomen Testsuite 2016. Sind nur 100 Spiele. Wirst staunen wie die NNs da absacken .

Wenn sich NN in praktischen Partien sehr erfolgreiche gegen andere Engines zeigen, und wenn sie aber in Noomens Testsuite "absacken", dann verdient höchstens und dann in erster Linie diese Testsuite Kritik und nicht die Engines! Diese Testsuite ist es dann ja, die das wirkliche Leben doch nur sehr unzureichend abbildet.

By Clemens Keck Date 2020-01-14 07:33

ich kann diese Ansicht nicht teilen.
Die Noomen 2016 testsuite betsteht aus 50 Stellungen, sehr abwechslungsreich von ECO A - E.
Mir ist aufgefallen das bei meinen Tests die NN engines sich schwer tun gegen Stockfish.
Ich kann mir aber nicht erklären, wieso das an der Testsuite liegen sollte.
Die Ausspielbedingungen sind fair mit vertauschten Farben.

Wie müsste denn eine Testsuite aussehen, die SF bevorzugt? Gibts das überhaupt?

C.K.

Benno Hartwig schrieb:

By Benno Hartwig Date 2020-01-14 11:20

Testsuites können verschiedene Zielrichtungen haben. Klar. Und welche einem wichtig ist, wird jeder selbst entscheiden.

Ich finde eine Testsuite besonders dann gut, wenn sie mit vglw. wenig Aufwand eine Einschätzung der Spielstärke (für ganz normale Partien!) der Engines erlaubt.
Wenn sie genau dies aber für eine ganze Klasse von Engines deutlich nicht leistet, erscheint mir ihr Einsatz sehr fragwürdig.

Interessant ist dann ggf. aber zu verstehen, woran das hier denn liegt, dass die Logik der NNs nicht besonders gut greift.
Als Suite zum Einschätzen der Engine-Spielstärke aber wäre solch eine Suite dann kaum noch brauchbar.

By Clemens Keck Date 2020-01-16 09:02

Die Noomen 2016 Testsuite ist nicht außergewöhlich oder unterliegt einem Eröffnungsthema oder ist taktisch bzw. possitionell geprägt.
Warum Lc0 sich damit in meinen Tests so schwer tut gegen Stockfish verstehe ich nicht.
Aber ich könnte mir vorstellen, das gerade so ein Test Fortschritte bei Lc0 gut aufzeigt.
Jedenfalls konnte ich schon nur durch die cccc settings bei LS 13 ein Plus von ca 30 Elo erzielen.
Aktuell läuft LS 13 mit 2 GPU (RTX 2060) und hat aktuell nochmal 20 Elo dazu gewonnen.

C.K.

By Benno Hartwig Date 2020-01-16 15:16

Ich stimme zu, dass die Beschäftigung mit Lc0 und Noomen gewinnbringend sein kann.
- entweder weil man erkennt, warum Noomen doch noch nicht total praxistauglich ist
(Weil eben gerade eine besonders spielstarke Engine hier tatsächlich nicht gut abschneidet)
- oder (!!!) weil man erkennt, wo Lc0 tatsächlich noch schwächelt,
weil man dadurch einen Hinweis erhält, wo Dinge in Lc0 (wie auch immer) verbessert werden könnten.

By Guenter Stertenbrink Date 2020-01-14 15:37

Clemens Keck schrieb:

Wie müsste denn eine Testsuite aussehen, die SF bevorzugt? Gibts das überhaupt?

taktisch doch .
Und Endspiele
und Sizilianisch

By Tom Paul Date 2020-01-14 16:51

Guenter Stertenbrink schrieb:

Clemens Keck schrieb:

Wie müsste denn eine Testsuite aussehen, die SF bevorzugt? Gibts das überhaupt?

taktisch doch .
Und Endspiele
und Sizilianisch

Und offenere Stellungen.