Not logged inCSS-Forum
Forum CSS-Online Help Search Login
CSS-Shop Impressum Datenschutz
Up Topic Hauptforen / CSS-Forum / Entwicklung von Lc0 Test30 NN
1 2 Previous Next  
- - By Lothar Jung Date 2018-11-14 10:25
Auf einer RTX 2080ti liegt das Test30 31116 140 Elo hinter NN 11248.

https://groups.google.com/forum/m/#!topic/lczero/wu3_pEtrB7E

Die Selfplay-Elo liegen derzeit um 4.800.
Parent - - By Tom Paul Date 2018-11-14 11:07
Lothar Jung schrieb:

Auf einer RTX 2080ti liegt das Test30 31116 140 Elo hinter NN 11248.

<a class='ura' href='https://groups.google.com/forum/m/#!topic/lczero/wu3_pEtrB7E'>https://groups.google.com/forum/m/#!topic/lczero/wu3_pEtrB7E</a>

Die Selfplay-Elo liegen derzeit um 4.800.


31116  2  d04a15b2  4700.54
11248  1  994de36c  4785.12

Die Selfplay ELO liegt 85 ELO auseinander.
Da halte ich es für ganz normal, dass jemand die Engines unter den eigenen Bedingungen hat spielen lassen und 140 ELO Unterschied das Ergebnis sind.
Da hätten genauso gut auch 20 ELO Unterschied herauskommen können.

Wer etwas starkes haben will: 31145  2  edd82cb0  4809.41 ELO.

Und diese ist stärker als die schwache 11248, welche auch nicht die stärkste verfügbare Version ist.
Parent - - By Lothar Jung Date 2018-11-19 21:05 Edited 2018-11-19 21:08
Parent - - By Lothar Jung Date 2018-11-20 11:28 Edited 2018-11-20 11:31
Test NN 31319 ist auf einer RTX 2080 bei TC 1min, 1sec nur 43 Elo von SF9 4 cores entfernt:

https://groups.google.com/forum/m/#!topic/lczero/yOfms8oV1sg

Bitte keine Beiträge zu Self-Elo!
Parent - By Horst Sikorsky Date 2018-11-20 12:17
so eine schnelle Karte. so wenig Zeit. so ein. bei diesen Bedingungen. schwacher Gegner
Parent - - By Ernest Bonnem Date 2018-11-21 02:06
Lothar Jung schrieb:

...nur 43 Elo von SF9 4 cores entfernt


In eine Woche gibt es SF10, 50 Elo besser als SF9...  
Parent - By Lothar Jung Date 2018-11-21 08:10
Ich weiß!
Ich bin ein großer Stockfish-Fan.
Lc0 ist halt ein anderer Ansatz und spannend.
NN bringt unter den ersten Drei frischen Wind.
Parent - - By Lothar Jung Date 2018-11-22 12:41 Edited 2018-11-22 12:48
Gestern hat auf meinem Ryzen 1800x, SLI GTX 1080 System LcO 018.1 mit dem aktuellen 31417 NN in einem 5min/5sec Blitztunier knapp gegen SF9 4 cores mit 1:0:9 gewonnen.
SF9 und LcO spielten ohne Eröffnungsbibliothek und TBs.
Parent - - By Tom Paul Date 2018-11-22 13:59
Es ist ja auch kein Wunder das LC0 knapp gewonnen hat, da du eines der schwächeren Networks genommen hast und wegen der GPU.
Nur 6638 Selfplay ELO.
Auf einer RTX 2080 Ti würde dieses Network auch gegen (Stockfish 9 mit 8 Kernen) gewinnen.

Testet doch lieber mal:
31449  2  f92062ef    6954.59 Selfplay ELO
31451  2  0489395e  6952.42 Selfplay ELO
Parent - - By Horst Sikorsky Date 2018-11-22 14:41
Begann auf einer GTX 1070 31449 zu testen bevor ich hier las.
20 min+10s gleiche 19.0 Engine gegen 11250 12 Parien 
Parent - - By Lothar Jung Date 2018-11-22 17:47
Ich bin auf das Ergebnis gespannt!
Parent - - By Horst Sikorsky Date 2018-11-23 09:37
Lothar Jung schrieb:

Ich bin auf das Ergebnis gespannt!

LcO 19 alt-LcO 19 neu, Schnellschach 20  2018

                        123456789012
1   Lc0 v0.19.0   +191   ½½1½111½1½½1   9.0/12
2   Lc0 v0.19.0n  -191  ½½0½000½0½½0    3.0/12

Parent - - By Horst Sikorsky Date 2018-11-23 09:46
hier merkt man den Unterschied deutlich. mit getauschten Farben dauerte es nur 47 Züge. - siehe später
Event:
Ort:
Datum:

Weiss:
Schwarz:

Ergebnis
Board
Parent - By Horst Sikorsky Date 2018-11-23 09:52
[Event "LcO 19 alt-LcO 19 neu, Schnellschach 20"]
[Site "?"]
[Date "2018.11.22"]
[Round "6.1"]
[White "Lc0 v0.19.0n"]
[Black "Lc0 v0.19.0"]
[Result "0-1"]
[ECO "B12"]
[Annotator "0.37;0.22"]
[PlyCount "94"]
[EventDate "2018.11.22"]
[EventType "tourn"]
[SourceTitle "Fritz Engine Tournament"]

{AMD Ryzen 7 1800X Eight-Core Processor     3593 MHz W=15.3 plies; 10kN/s B=16.
6 plies; 14kN/s} 1. e4 c6 2. d4 d5 3. e5 Bf5 4. Nf3 e6 5. c3 {[%eval 37,10]
[%emt 0:00:28]} c5 {[%eval 22,9] [%emt 0:00:23]} 6. Be2 {[%eval 33,12] [%emt 0:
00:44]} Nc6 {[%eval 18,10] [%emt 0:00:35]} 7. O-O {[%eval 28,12] [%emt 0:00:14]
} Bg6 {[%eval 18,12] [%emt 0:00:29] (cxd4)} 8. Qa4 {[%eval 34,10] [%emt 0:00:
40] (a3)} a6 {[%eval 0,10] [%emt 0:00:27]} 9. Be3 {[%eval 26,12] [%emt 0:00:23]
} c4 {[%eval -3,11] [%emt 0:00:28]} 10. Qd1 {[%eval 17,13] [%emt 0:00:53]} Nh6
{[%eval -10,11] [%emt 0:00:26]} 11. Nbd2 {[%eval 15,15] [%emt 0:00:52] (Lxh6)}
Be7 {[%eval -18,12] [%emt 0:00:34]} 12. Bxh6 {[%eval 14,16] [%emt 0:00:00]}
gxh6 {[%eval -20,12] [%emt 0:00:15]} 13. Re1 {[%eval 13,13] [%emt 0:00:24]} b5
{[%eval -32,12] [%emt 0:00:34]} 14. a3 {[%eval 18,15] [%emt 0:00:22]} a5 {
[%eval -31,15] [%emt 0:00:29] (0-0)} 15. Nf1 {[%eval 14,14] [%emt 0:00:25]
(Dc1)} b4 {[%eval -44,14] [%emt 0:00:39] (0-0)} 16. axb4 {[%eval 2,18] [%emt 0:
01:02] (Dd2)} axb4 {[%eval -46,23] [%emt 0:00:35]} 17. Qd2 {[%eval -1,19]
[%emt 0:00:09]} h5 {[%eval -43,20] [%emt 0:00:16]} 18. h4 {[%eval -1,21] [%emt
0:00:00]} Ra5 {[%eval -39,21] [%emt 0:00:16]} 19. Ng3 {[%eval -18,20] [%emt 0:
01:17]} Qa8 {[%eval -36,22] [%emt 0:00:00]} 20. Rxa5 {[%eval -30,23] [%emt 0:
00:20]} Qxa5 {[%eval -34,20] [%emt 0:00:38]} 21. Ng5 {[%eval -29,21] [%emt 0:
00:00]} Qa2 {[%eval -35,21] [%emt 0:00:31]} 22. Qc1 {[%eval -30,20] [%emt 0:00:
02]} Bxg5 {[%eval -34,19] [%emt 0:00:03]} 23. hxg5 {[%eval -34,17] [%emt 0:00:
17]} h4 {[%eval -33,18] [%emt 0:00:13]} 24. Nh5 {[%eval -34,16] [%emt 0:00:02]}
Kd7 {[%eval -62,21] [%emt 0:01:31]} 25. Nf6+ {[%eval -45,16] [%emt 0:00:57]}
Kc7 {[%eval -61,28] [%emt 0:00:00]} 26. Bf3 {[%eval -47,15] [%emt 0:00:32]} Rd8
{[%eval -69,21] [%emt 0:00:19]} 27. Bh5 {[%eval -47,12] [%emt 0:00:00] (Kh2)}
Ra8 {[%eval -79,15] [%emt 0:01:19] (Kb6)} 28. Rf1 {[%eval -59,13] [%emt 0:01:
25]} Qb3 {[%eval -82,18] [%emt 0:00:39] (Kb6)} 29. Bd1 {[%eval -62,16] [%emt 0:
01:00]} Qa2 {[%eval -81,17] [%emt 0:00:00]} 30. Bh5 {[%eval -61,18] [%emt 0:00:
00]} Rb8 {[%eval -84,16] [%emt 0:00:31] (Kb6)} 31. Bxg6 {[%eval -45,16] [%emt
0:01:09]} hxg6 {[%eval -84,14] [%emt 0:00:14]} 32. Ng4 {[%eval -45,14] [%emt 0:
00:01]} Kb6 {[%eval -82,12] [%emt 0:01:00] (Ta8)} 33. Nf6 {[%eval -63,13]
[%emt 0:01:59] (Kh2)} Rd8 {[%eval -91,14] [%emt 0:01:12] (Ta8)} 34. Kh2 {
[%eval -49,12] [%emt 0:00:50]} Na5 {[%eval -90,13] [%emt 0:00:34] (Kb5)} 35.
Rg1 {[%eval -63,12] [%emt 0:01:19] (Td1)} Kb5 {[%eval -88,16] [%emt 0:00:51]
(Sb3)} 36. Qa1 {[%eval -55,11] [%emt 0:00:26] (Td1)} Qxa1 {[%eval -125,13]
[%emt 0:01:13] (Da4)} 37. Rxa1 {[%eval -53,14] [%emt 0:00:26]} Nc6 {[%eval
-131,15] [%emt 0:00:37] (Tc8)} 38. f4 {[%eval -75,13] [%emt 0:00:57] (g3)} bxc3
{[%eval -232,23] [%emt 0:00:44] (b3)} 39. bxc3 {[%eval -191,16] [%emt 0:00:20]}
Nxd4 {[%eval -214,27] [%emt 0:00:27]} 40. cxd4 {[%eval -202,19] [%emt 0:00:15]}
c3 {[%eval -205,26] [%emt 0:00:17]} 41. g3 {[%eval -227,15] [%emt 0:00:13]
(Sg4)} Kc4 {[%eval -414,14] [%emt 0:00:40]} 42. gxh4 {[%eval -267,14] [%emt 0:
00:14]} Kxd4 {[%eval -454,13] [%emt 0:00:23]} 43. h5 {[%eval -369,13] [%emt 0:
00:50]} c2 {[%eval -492,12] [%emt 0:00:23] (Ke3)} 44. h6 {[%eval -531,11]
[%emt 0:00:56]} Ke3 {[%eval -594,12] [%emt 0:00:35] (Kc3)} 45. Kg3 {[%eval
-677,11] [%emt 0:00:43]} d4 {[%eval -715,12] [%emt 0:00:34]} 46. Ng4+ {[%eval
-865,11] [%emt 0:00:25]} Ke2 {[%eval -774,12] [%emt 0:00:27] (Kd2)} 47. Rg1 {
[%eval -762,11] [%emt 0:00:31] (Th1)} d3 {[%eval -898,12] [%emt 0:00:34]} 0-1
Parent - - By Lothar Jung Date 2018-11-23 11:57
Vielen Dank auch für die beiden Partien!
Ist neu=31449 und alt=11250?
Parent - By Horst Sikorsky Date 2018-11-23 12:12
ja klar
Parent - - By Lothar Jung Date 2018-11-22 17:45 Edited 2018-11-22 17:52 Upvotes 3
Du hast doch die entsprechende Hardware.
Mich würde sehr interessieren wie Deine RTX 2080ti mit einem aktuellen NN 31xxx gegen SF9 mit 8 Kernen abschneidet.
Parent - - By Reinhold Stibi Date 2018-11-23 12:44
Horst, bei Dir sieht Lc0 19.31449 neu gegen Lc0 alt sehr alt aus  -191.

Das mag auch daran liegen, dass Lc0 neu mehr Zeit braucht.
Mir fiel auf dass Lc0 neu so um die 40 Züge bei Zeitvorgabe 2 Min.+ 6 Sek. je Zug im späten Mittelspiel
und im Endspiel  plötzlich stark abfiel.

Daraufhin verlängerte ich beim Match Lc0 19.31449 die Bedenkzeit  auf 1 Min.pro Zug
und tatsächlich schlug sich Lc0 19.31449 GTX 960 gegen  Stockfish 25.10.18  1 CPU
recht wacker.  8 Partien  +0  =7  -1  = -44 Elo.

Mir scheint dass die neueren Netzwerke von Lc0, inzwischen bei 7200, doch aufgeholt haben.
Evtl., sogar wahrscheinlich, in den nächsten Tagen besser als die alten Netzwerke.

Wer hätte das gedacht, bei der anfänglichen großen Enttäuschung.
Parent - - By Lothar Jung Date 2018-11-23 13:25 Edited 2018-11-23 13:27
Wie ihr wisst habe ich ein 2x1080-System.
Mit Lc0 19 kann ich mit meinen gewohnten Parametern kein Multiplexing starten.
Also bleibt mir nur Lc0 18.1 übrig.
Mit welchem Nezt 31xxx und mit welcher Bedenkzeit soll ich ein 10-Partien-Tunier starten?
Parent - - By Reinhold Stibi Date 2018-11-23 13:52
Interessant wäre doch ein Match

Lc0 Netzwerk 31484  7270 Elo  30.835 Partien  gegen einen neueren Stockfish
(sehr gut vom 25.10.18 Demetz, oder 3.9.18 Nicolet)  mit 8 Threads.

Die Bedenkzeit könnte bei dieser hervorragenden Hardware auf 12 Sek.pro Zug
angesetzt werden,  bei 20 Spielen.

Schön wäre auch ein Match Lc0 altes bestes Netzwerk 11198  gegen neues Neztwerk
31484.

Wäre sicher aufschlussreich.
Parent - By Lothar Jung Date 2018-11-23 14:08 Edited 2018-11-23 14:12
Mach ich!
Bei mir läuft zur Zeit noch ein Match SF9 4 cores gegen neuestes NN 31484 bei 5min/5sec.
Danach gegen 11198! (Ist nicht 11248 besser?)
Parent - By Tom Paul Date 2018-11-23 14:10
Reinhold Stibi schrieb:

Wer hätte das gedacht, bei der anfänglichen großen Enttäuschung.


Ich.
Parent - - By Tom Paul Date 2018-11-23 14:14
Reinhold Stibi schrieb:

Mir scheint dass die neueren Netzwerke von Lc0, inzwischen bei 7200, doch aufgeholt haben.
Evtl., sogar wahrscheinlich, in den nächsten Tagen besser als die alten Netzwerke.


Das neueste Netzwerk:
31486  2  9f31a3cf  7300.13
http://testserver.lczero.org/networks/
Parent - - By Tom Paul Date 2018-11-23 20:28
Tom Paul schrieb:

Reinhold Stibi schrieb:

Mir scheint dass die neueren Netzwerke von Lc0, inzwischen bei 7200, doch aufgeholt haben.
Evtl., sogar wahrscheinlich, in den nächsten Tagen besser als die alten Netzwerke.


Das neueste Netzwerk:
31486  2  9f31a3cf  7300.13
<a class='ura' href='http://testserver.lczero.org/networks/'>http://testserver.lczero.org/networks/</a>


Und 5 Stunden später sind wir schon bei:
31493  2  98401815  7404.20
Parent - By Peter Martan Date 2018-11-23 20:54
Parent - - By Tom Paul Date 2018-11-24 01:05
4,5 Stunden später:
31502  2  911f1e73  7512.30 ELO
Parent - - By Thomas Müller Date 2018-11-24 09:37 Upvotes 2
vermutlich wird erst bei ca. 15218,37 ELO eine Steigerung vorliegen, also in 23,7 Tagen
Parent - - By Reinhold Stibi Date 2018-11-24 10:23
Zu früh gefreut ?

Mir scheint auch das neueste Netzwerk 31510  7579 Elo   31.551 Partien
kann gegen neueren Stockfish nicht anstinken.

Ob die Stärke des besten alten Netzwerkes in nächster Zeit  erreicht werden kann
dürfte fraglich sein.
Lc0 11198 GTX 960  gegen  Stockfish 25.10.18  1 CPU  2Min+6 Sek.Z.
26 Partien   +3  =18  -5  =-27 Elo

Dieses Superergebnis erreichen die neuen Netzwerke nicht und besonders
bei kurzer Bedenkzeit
Parent - - By Lothar Jung Date 2018-11-24 10:32 Edited 2018-11-24 10:50
Eine realistische Einschätzung gibt die nachstehende Tabelle (TC 1,1 ; 1080ti)
Danach liegt ein aktuelles Test30 NN 31474 28 Elo unter SF7 4 cores.
Vom stärksten Test20 Netz 11258 ist es rd. 150 Elo entfernt.

https://docs.google.com/spreadsheets/d/1ZAIuHR6n-5JTxKQc0XUSx1jyUrgVEcj8DNLKA7-urBw/htmlview#gid=763519729

Auf stärkerer Hardware und längerem TC ist ein aktuelles Test30 Netz gegenüber SF stärker.
Auf meinem SLI  1080-System haben jeweils aktuelle Test30 NN in einem 5min/5sec 10er-Tunier gegen SF9 jeweils einmal knapp gewonnen (1:0:9) und einmal knapp verloren (1:2:7).
Parent - - By Horst Sikorsky Date 2018-11-24 13:38 Edited 2018-11-24 13:41
31513 ist schon mal besser als 31499. jetzt teste ich 11250 gegen 11258  BZ 10min + 60s pro Zug.
mit den letzten 6 vorgaben =12 Partien. ( remis tot oder? )
Parent - By Lothar Jung Date 2018-11-24 14:16
Ich habe Lc0 0.19 unter multiplexing ans laufen bekommen.
Die Entwickler hatten den Syntax leicht geändert.
Jetzt läuft SF9 4 cores gegen 0.19 aktuelles Test30 net mit 10 5/5 Partien.
Parent - By Horst Sikorsky Date 2018-11-24 19:19
das musste ja Unsinn sein
Parent - - By Tom Paul Date 2018-11-24 13:39
Lothar Jung schrieb:

Du hast doch die entsprechende Hardware.
Mich würde sehr interessieren wie Deine RTX 2080ti mit einem aktuellen NN 31xxx gegen SF9 mit 8 Kernen abschneidet.


Tom Paul schrieb:

Reinhold Stibi schrieb:

Diese Elozahlen sind einfach nur lächerlich.

Nach wie vor ist das alte Netzwerk 11198 weitaus besser.

Wenn Du eine RTX 2080 Ti haben solltest, 

warum lässt Du sie dann nicht gegen Stockfisch antreten ??


Warum sollte ich LC0 auf der besten Grafikkarte gegen einen Stockfish antreten lassen???
Da nur 4 CPU Kerne für Stockfish zur Verfügung stehen, macht das alles keinen Sinn.
Parent - By Lothar Jung Date 2018-11-24 14:11 Edited 2018-11-24 14:30
Probier’s aus!

Mit 6 cores hat SFdev gegen Lc0 31503 mit einer RTX 2080ti  mit 2 Siegen und 7 Remis verloren (TC 2min/inc 12sec).
Siehe:

https://groups.google.com/forum/m/#!topic/lczero/IFEeBgJLycA
Parent - - By Stefan Pohl Date 2018-11-24 16:44 Edited 2018-11-24 16:49
Lothar Jung schrieb:

Auf einer RTX 2080ti liegt das Test30 31116 140 Elo hinter NN 11248.

<a class='ura' href='https://groups.google.com/forum/m/#!topic/lczero/wu3_pEtrB7E'>https://groups.google.com/forum/m/#!topic/lczero/wu3_pEtrB7E</a>

Die Selfplay-Elo liegen derzeit um 4.800.


Nimmt man meine Drawkiller openings, sieht man schnell klar.
LC0 0.19.0 mit Net 11250 gegen Net 31515. Drawkiller Tournament Eröffnungen, jede Eröffnung mit vertauschten Farben wiederholt,  5'+5“ auf GTX950m.
Nach nur 18 Partien weiß man schon Bescheid... dank Drawkiller gab es nur 3 Remisen (=16.7% Remisquote) und das Ergebnis ist aus Sicht von Net 11250:
+14 =3 -1 (!!!) = 86.1% Erfolgsscore = +317 Elo.
Ergo: die 30XXX Nets kann man momentan in die Tonne treten.
An einem Nachmittag geklärt, dank Drawkiller, weil Drawkiller die Ergebnisse so weit spreizt. Paßt! Das zeigt exemplarisch, welch ungeheurer Fortschritt Drawkiller fürs Engine-testen ist.
Parent - - By Peter Martan Date 2018-11-24 16:55 Edited 2018-11-24 17:01
Stefan Pohl schrieb:

An einem Nachmittag geklärt, dank Drawkiller.

Na, jetzt bist du aber wieder ein bisschen sehr enthusiastisch, Stefan!
Randomness ist immer noch ein Monster, und du wirst es immer noch nur mit volume besiegen können.

Deshalb, weil du jetzt eine niedrigere Remisrate hast, wirst du die Errorbar soo weit wohl doch nicht verkleinern können. Um das quantitativ zu wissen, müsste man die sogenannte Merkmalsdifferenz genauer kennen, die du jetzt, wollen's mal weiter annehmen, ein Stück vergrößert hättest.

Um das jetzt für den Sonderfall LC0 19 mit einem Netz gegen ein anderes im 1:1- Test statistisch untermauern zu können, müsstest du wieder erst mal noch genau dazu big data haben, dass das nicht vielleicht doch wieder ein ganz anderes Paar Schuhe ist, als wenn du gegen hauptsächlich A-B-Engines ausspielen lässt.

Und wieviel die einzelnen Netze von welcher Hardware profitieren, wird wieder ein weiterer Test für sich, wenn man's wirklich genau wissen will.
Parent - - By Stefan Pohl Date 2018-11-24 17:10 Edited 2018-11-24 17:14 Upvotes 1
Peter Martan schrieb:

Stefan Pohl schrieb:

An einem Nachmittag geklärt, dank Drawkiller.

Na, jetzt bist du aber wieder ein bisschen sehr enthusiastisch, Stefan!
Randomness ist immer noch ein Monster, und du wirst es immer noch nur mit volume besiegen können.

Deshalb, weil du jetzt eine niedrigere Remisrate hast, wirst du die Errorbar soo weit wohl doch nicht verkleinern können. Um das quantitativ zu wissen,


Die Errorbar verkleinert man mit Drawkiller nicht, man spreizt aber die Ergebnisse und schiebt sie so aus den Errorbars hinaus:
Ich habe die 19 Partien (eine lief noch ein, noch ein Sieg für 11250) durch ORDO gejagt. Und Ordo sagt, die Errorbar ist +/-91
Und das Net 11250 ist dank Drawkiller bei +330 Elo laut Ordo. Also ist das Ergebnis weit, weit außerhalb der Errorbar!
Also kein übermäßiger Enthusiasmus meinerseits, ORDO ist ganz meiner Meinung.
An einem Nachmittag geklärt, daß die 30XXX Nets nichts taugen. Dank Drawkiller.
Punkt.
Parent - - By Peter Martan Date 2018-11-24 17:16 Edited 2018-11-24 17:24
Stefan Pohl schrieb:

Ich habe die 19 Partien (eine lief noch ein, noch ein Sieg für 11250) durch ORDO gejagt. Und Ordo sagt, die Errorbar ist +/-91
Und das Net 11250 ist dank Drawkiller bei +330 Elo laut Ordo. Also ist das Ergebnis weit, weit außerhalb der Errorbar!

Naja, aber eben doch wieder nicht soo soo weit, dass man sich zu einer Differenz von 330 nach 18 Partien schon wirklich im sicher aussagekräftigen Bereich sollte festlegen, finde ich halt.
Ob jetzt nämlich die 330 vielleicht doch nur 239 sind, ist ja vielleicht nicht ganz egal, oder?

Und wie das Ganze nach wengistens 100 Partien ausschaut, weißt du einfach noch nicht, weil über ein Einzelereignis sagt ja Statistik bekanntlich gar nichts aus, das ist bei 18 Einzelereignissen einfach immer noch Kaffesatzleserei, und dann ist eben auch noch überhaupt nicht gesagt, dass das nicht gerade bei diesen beiden Netzen stark Hardware- abhängig sein mag (und oder TC- abhängig) und wie es aussähe, würde man da jetzt wenigstens auch noch SF mitspielen lassen.
Parent - - By Stefan Pohl Date 2018-11-24 17:20
Peter Martan schrieb:

Stefan Pohl schrieb:

Ich habe die 19 Partien (eine lief noch ein, noch ein Sieg für 11250) durch ORDO gejagt. Und Ordo sagt, die Errorbar ist +/-91
Und das Net 11250 ist dank Drawkiller bei +330 Elo laut Ordo. Also ist das Ergebnis weit, weit außerhalb der Errorbar!

Naja, aber eben doch wieder nicht soo soo weit, dass man sich zu einer Differenz von 330 nach 18 Partien schon wirklich im sicher aussagekräftigen Bereich sollte festlegen, finde ich halt.
Ob jetzt nämlich die 330 vielleicht doch nur 239 sind, ist ja vielleicht nicht ganz egal, oder?



Ich habe auch nicht gesagt, daß das Ergebnis in der Höhe ganz sicher ist, sondern nur, daß ich dank Drawkiller nach nur 19 Partien mit mehr als 95%-Sicherheit feststellen kann, daß Net 30XXX momentan noch deutlich schlechter als 11250 ist. Mehr will ich auch nicht wissen. Wollte ich es genauer haben, müßte ich natürlich mehr Partien spielen.
Parent - By Peter Martan Date 2018-11-24 17:22
Schon klar, ich hab', während du geantwortet hast, noch ein bisschen was editiert in meinem Posting, aber nichts Essentielles mehr, was du nicht ohnehin auch schon lange weißt.
Parent - - By Lothar Jung Date 2018-11-25 09:07 Edited 2018-11-25 09:11
Parent - - By Stefan Pohl Date 2018-11-25 09:25
Mach doch einfach mal selbst einen Test mit v0.19.0 gegen sich selbst, mit 11250 gegen ein 30xxx Net. Auf deiner schnellen Hardware. Dann siehst du selber, daß die 30xxx (noch) gegen 11xxx kein Bein auf den Boden bekommen.
Gerne auch mit "normaler" Eröffnungsvorgabe, dann mußt du eben mehr Patien spielen. Aber das Ergebnis wird dennoch deutlich sein. Nicht so deutlich, wie mit Drawkiller, das ist klar, aber dennoch deutlich. Dann siehst du auch, daß die angezeigt Suchtiefen im Schnitt nicht unterschiedlich sind.
Wenn du das jetzt mit 5'+5'' startest, siehst du Montag früh schon, wie es aussieht. Ungefähr zumindest.

Selber machen ist immer besser, als nur auf Ergebnisse anderer zu schauen!
Parent - - By Lothar Jung Date 2018-11-25 11:43
Mach ich!
Zunächst 10 Partien ohne TB und Eröffnungen.
Bei eindeutigem Ergebnis für 11250, reicht das, sonst noch 20 Partien mit TB.
Parent - By Stefan Pohl Date 2018-11-25 12:29 Edited 2018-11-25 12:36
Lothar Jung schrieb:

Mach ich!
Zunächst 10 Partien ohne TB und Eröffnungen.
Bei eindeutigem Ergebnis für 11250, reicht das, sonst noch 20 Partien mit TB.


Naja, also 10 Partien ist schon arg wenig. 30-50 wären unbedingt empfehlenswert. Bedenke, daß meine 19 Partien mit Drawkiller openings gespielt wurden und nur deswegen sooooo eindeutig waren, weil es fast keine Remisen gab. Mit mehr Remisen muß man auch mehr Partien spielen, um sicher zu sein. Wie ORDO sagte: Nach 19 Partien ist die Errorbar +/-91, aber für jedes der beiden Engine-Ergebnisse! Das heißt, das worst-case Szenario wäre, daß beide Ergebnisse am Rand der Errorbar liegen, dann hätte man 182 Elo. Dann muß man also mehr als 182 Elo Unterschied in so einem Zweikampf erzielen, um sagen zu können, ein Net ist besser als das andere. Mit Drawkiller war das bei mir der Fall (über 300 Elo (!)), aber ohne Drawkiller wird der Abstand viel geringer ausfallen!

Und seit gestern sind die 30xxx im Elo-Graph auf der Website fast +400 Elo nach oben gegangen. Mal schauen, was bei dir herauskommt.
Parent - - By Thomas Plaschke Date 2018-11-25 12:33
Ergebnis für 11260 gegen 31464 nach 24 Partien 15:9 für 11260, das nach Siegen 6:0 führt. Engine bei beiden lc0 v0.19, "normale" Eröffnungsvorgabe (Nunn2), Bedenkzeit 5'/3".
Habe dann abgebrochen. Nimmt man die anderen Berichte dazu, liegt die Schlussfolgerung auf der Hand ... Aber ich hör's ja schon jetzt: falsche Hardware für die 31xxx (war 'ne 1080), zu geringe Bedenkzeit (wie viel wäre denn genehm), 31xxx ist von der Knotenleistung benachteiligt (beide in etwa gleich) oder die Wildschweine hatten was falsches gefressen (frei nach Asterix bei den Olympischen Spielen).

Viele Grüße
Th. Plaschke
Parent - - By Stefan Pohl Date 2018-11-25 12:37
Thomas Plaschke schrieb:

Ergebnis für 11260 gegen 31464 nach 24 Partien 15:9 für 11260, das nach Siegen 6:0 führt. Engine bei beiden lc0 v0.19, "normale" Eröffnungsvorgabe (Nunn2), Bedenkzeit 5'/3".
Habe dann abgebrochen. Nimmt man die anderen Berichte dazu, liegt die Schlussfolgerung auf der Hand ... Aber ich hör's ja schon jetzt: falsche Hardware für die 31xxx (war 'ne 1080), zu geringe Bedenkzeit (wie viel wäre denn genehm), 31xxx ist von der Knotenleistung benachteiligt (beide in etwa gleich) oder die Wildschweine hatten was falsches gefressen (frei nach Asterix bei den Olympischen Spielen).

Viele Grüße
Th. Plaschke


Das neueste 31551 Net ist laut Elo-Graph auf der Website ja schon 950 Elo besser als 31464 (LOL)...
Parent - - By Lothar Jung Date 2018-11-25 12:46
Ich habe das Netz 31549 genommen. Tunier läuft.
Werde bei Bedarf die Partienzahl auf 40 erhöhen, dann hätten wir insgesamt 50 Partien.
Parent - - By Stefan Pohl Date 2018-11-25 12:49
Lothar Jung schrieb:

Ich habe das Netz 31549 genommen. Tunier läuft.
Werde bei Bedarf die Partienzahl auf 40 erhöhen, dann hätten wir insgesamt 50 Partien.


Schön. Gegen welches 11xxx Net und welche Bedenkzeit? Und wieviel Knoten schafft Leela bei dir so?
Parent - - By Lothar Jung Date 2018-11-25 13:46
Netz: 11250, Bedenkzeit: 5min/5sec, KNods/sec: meist 13, hängt aber von der Stellung ab, doppelt so schnell wie 1080, da Lc0 wirklich gut skaliert
Parent - - By Stefan Pohl Date 2018-11-25 14:35
Super. Dann stoppe ich meinen Testrun, ich hab sowieso noch was anderes mit meinem PC vor...
Up Topic Hauptforen / CSS-Forum / Entwicklung von Lc0 Test30 NN
1 2 Previous Next  

Powered by mwForum 2.29.3 © 1999-2014 Markus Wichitill