Not logged inCSS-Forum
Forum CSS-Online Help Search Login
CSS-Shop Impressum Datenschutz
Up Topic Hauptforen / CSS-Forum / Das Stockfish nicht mehr die Nr.1 sein soll ist voreilig.
- - By Reinhold Stibi Date 2020-01-28 23:23 Upvotes 2
Stefan Pohl testet seine Long-Time NN Partien mit SALC Eröffnungen.
Diese Eröffnungsvorgaben sind abenteuerlich und haben mit dem normalen Schach wenig zu tun.
Dadurch werden die Engines viel zu sehr eingeschränkt und bilden nicht die Schachwirklichkeit ob.
Auch der Austragungsmodus ist nicht praxisgerecht.
Es ist gar nicht nötig solche "Klimmzüge" zu machen. Wenn ich mit seinen 4-Züge-Vorgabeeröffnungen spiele,
habe ich noch über 20 % Gewinnpartien und das genügt. Die menschlichen Spitzenspieler haben auch gegeneinander
keine höheren Quoten.

Außerdem ist die Leela Ratio von 1.3 nicht ausgeglichen. Man kann sie noch tolerieren, aber es ist halt kein Gleichstand.
Da sieht es bei mir mit 24 Threads, entspricht 16 echten Kernen und Lc0 mit RTX 2070 besser aus.

Lc0 muss sich auch gegen andere Engines bewähren. Für eine Behauptung, dass Lc0 die Nr. 1 sein soll müssen
auch Ergebnisse gegen andere Engines her; da sind die Ranglisten aussagekräftiger. Stockfish 11 muss natürlich
mit vielen Kernen gegen Lc0 spielen. Mit nur 1 CPU gegen RTX 2060 oder RTX 2070 ist natürlich eine totale Überlegenheit
von Lc0 in der Hardware.
Die bisherige Testweise von Stefan Pohl war besser und nicht so verbogen.

Dadurch kam nach meiner Meinung sein großer Vorsprung von +49 Elo zustande der nicht der Wirklichkeit entspricht.

Glaube auch nicht dass die Kiudee-Settings soviel Zuwachs an Elos bringen.

Stockfish 11 hat auch im letzten Monat ziemlich an Spielstärke dazugewonnen und ist besser als Stockfish vom 10.12.19;
da bin ich anderer Meinung wie er.

Die 57 % Score gegen Stockfish vom 10.12.19 sind ja unglaublich; das liegt aber an seinen Testbedingungen.

Nach meinem Test Stockfish 11 Xeon X5690 24 Threads (entspricht 16 echten Kernen)   gegen  Lc0 mit dem besten Net Leelenstein 13
                            mit Contempt  0                                                                                                               mit Kindee Settings

204 Partien   +22   =160   -22  ist totale Ausgeglichenheit und somit Gleichstand.

Habe mit Fritz 15 GUI getestet  und wie es ausschaut haben die Settings auch angeprochen. 

Die Aussage dass Lc0 die Nr. 1 sein soll ist voreilig und unausgegoren.
                          

Ich hoffe dass Stefan Pohl meine Ausführungen  nicht als Angriff wertet, sondern als gegensätzliche Meinung wertet, die man wohl haben darf.
Parent - - By Wolfgang Battig Date 2020-01-29 01:56
Reinhold Stibi schrieb:

.....
Da sieht es bei mir mit 24 Threads, entspricht 16 echten Kernen und Lc0 mit RTX 2070 besser aus.


Das behauptest Du immer, aber hast Du es auch mal gemessen? Welche Ratio hat diese Kombi denn?

Zitat:
....Mit nur 1 CPU gegen RTX 2060 oder RTX 2070 ist natürlich eine totale Überlegenheit
von Lc0 in der Hardware.


Der Satz an sich ist natürlich korrekt.

Auf Stefans Tests bezogen ist er aber KOMPLETTER Unsinn.
Du solltest dich über seine Testmethodik erst informieren und dann "meckern".
Im Gegensatz zu manch anderen, die nur "plus/gleich/minus-Ergebnisse" posten, praktiziert er auf seiner Webseite weitgehende Transparenz, da kann man eigentlich alles schön nachlesen.
Wenn man denn will und sich etwas Mühe gibt...

Aber ich helfe gerne:

1.) https://www.sp-cc.de/nn-longtime-testing.htm aufrufen

2.) Und jetzt kommts: Lesen was da steht!

u.a. zur Hardware (ich zitiere und hoffe, dass Stefan nix dagegen hat):

Zitat
"Hardware: i7-8750H (Hexacore) Notebook with RTX 2060 GPU, Windows 10 64bit, 16GB RAM
CPU-Speed: Stockfish with 97% CPU-Speed (to switch off the Intel Turbo Boost): 7.5 MN/s in starting-position, running on 11 threads.
GPU (used by LC Zero): Nvidia RTX 2060 (6GB). LC Zero calculates around 11500 n/s in the starting position (I used the MSI-Afterburner-tool to reduce the speed of the RTX-Card as far as possible) (measured with "go infinte") with Net 32930 (Netsize 20x256), which means a Leela-Ratio (what is Leela Ratio? look here) of 1.3.The Leela-Ratio-value of AlphaZero (used a 20x256 net, too) in the match vs. Stockfish 8 was 1.0 - so 1.3 is a high value, but acceptable.
Zitat Ende
(Hervorhebung bzgl. der Threads von mir)
Parent - - By Peter Martan Date 2020-01-29 06:41 Edited 2020-01-29 06:47
Wolfgang Battig schrieb:

u.a. zur Hardware (ich zitiere und hoffe, dass Stefan nix dagegen hat):

Zitat
"Hardware: i7-8750H (Hexacore) Notebook with RTX 2060 GPU, Windows 10 64bit, 16GB RAM
CPU-Speed: Stockfish with 97% CPU-Speed (to switch off the Intel Turbo Boost): 7.5 MN/s in starting-position, running on 11 threads.
GPU (used by LC Zero): Nvidia RTX 2060 (6GB). LC Zero calculates around 11500 n/s in the starting position (I used the MSI-Afterburner-tool to reduce the speed of the RTX-Card as far as possible) (measured with "go infinte") with Net 32930 (Netsize 20x256), which means a Leela-Ratio (what is Leela Ratio? look here) of 1.3.The Leela-Ratio-value of AlphaZero (used a 20x256 net, too) in the match vs. Stockfish 8 was 1.0 - so 1.3 is a high value, but acceptable.
Zitat Ende
(Hervorhebung bzgl. der Threads von mir)

Wobei ich mich frage, ob 11 Threads eines 6Kerners wirklich genau so viel relative Leistung bringen, wie man sich da erhofft, wenn der 12. Thread gleichzeitig an eine andere Aufgabe vergeben ist.

Es wird ein einzelner virtueller Thread an LC0 abgegeben, nehme ich an, ob da der "eine Kern, der für beide Seiten arbeitet" (so muss es ja aber eben nicht sein) wirklich die Leistung gleichmäßig aufteilt oder vielleicht doch je nach Anfragen an die CPU, alle 12 mal etwas mehr an die eine und mal mehr an die andere Engine zuteilen, als man vermutet, kann man vielleicht nicht wirklich sicher sagen, glaube ich halt, selbst wenn man das während des Matches ständig beobachtete, was man natürlich nicht tut, auf irgend einen Task- Manager kann man sich da wohl auch nicht verlassen.

Irgendwo glaube ich gehört zu haben, dass virtuelle Threads nicht verschiedenen Aufgaben zugewiesen werden sollen, wenn nicht eine Reserveleistung der Gesamt- CPU im Wert eines Threads übrig bleibt, anders ausgedrückt, man soll an ganzzahligen Kernzahlen teilen, nicht an virtuellen Threadzahlen.

Aber vielleicht stimmt das so ja auch nicht (mehr), ich halte mich halt immer dran, drum würde es mich ohnehin interessieren, ob's nur ein Irrtum von mir ist.
Parent - - By Michael Scheidl Date 2020-01-29 07:58
Zitat:
Wobei ich mich frage, ob 11 Threads eines 6Kerners wirklich genau so viel relative Leistung bringen, wie man sich da erhofft, wenn der 12. Thread gleichzeitig an eine andere Aufgabe vergeben ist.
Diese frage raubt mir auch schon seit jahren den schlaf
Parent - By Peter Martan Date 2020-01-29 08:02
Na, dann wäre eine Antwort drauf aber auch für dich eine große Erleichterung.
Morgähn!
Parent - - By Stefan Pohl Date 2020-01-29 12:08
Peter Martan schrieb:

Wolfgang Battig schrieb:

u.a. zur Hardware (ich zitiere und hoffe, dass Stefan nix dagegen hat):

Zitat
"Hardware: i7-8750H (Hexacore) Notebook with RTX 2060 GPU, Windows 10 64bit, 16GB RAM
CPU-Speed: Stockfish with 97% CPU-Speed (to switch off the Intel Turbo Boost): 7.5 MN/s in starting-position, running on 11 threads.
GPU (used by LC Zero): Nvidia RTX 2060 (6GB). LC Zero calculates around 11500 n/s in the starting position (I used the MSI-Afterburner-tool to reduce the speed of the RTX-Card as far as possible) (measured with "go infinte") with Net 32930 (Netsize 20x256), which means a Leela-Ratio (what is Leela Ratio? look here) of 1.3.The Leela-Ratio-value of AlphaZero (used a 20x256 net, too) in the match vs. Stockfish 8 was 1.0 - so 1.3 is a high value, but acceptable.
Zitat Ende
(Hervorhebung bzgl. der Threads von mir)

Wobei ich mich frage, ob 11 Threads eines 6Kerners wirklich genau so viel relative Leistung bringen, wie man sich da erhofft, wenn der 12. Thread gleichzeitig an eine andere Aufgabe vergeben ist.

Es wird ein einzelner virtueller Thread an LC0 abgegeben, nehme ich an,


Das ist doch völlig falsch. Ich spiele doch ohne pondern. Wenn Stockfish mit 11 Threads läuft, ruht Lc0. Ich gebe nur deswegen nicht alle 12 Threads an Stockfish, damit Windows etwas Kapazität hat und Stockfish nicht einbremst. Lc0 spielt, wenn es denn rechnet, ganz normal mit den 2 defaultmäßig eingestellten Threads. Was auch völlig reicht, weil die CUDA-Leistung der RTX Karte dann immer auf 99%-100% steht. Die RTX Karte ist zudem abgebremst mit dem Afterburner-Tool (um ca. 30%), eben damit ich eine noch vernünftige Leela-Ratio von 1.3 bekomme. Andernfalls wäre die mobile RTX 2060 zu schnell für den Hexacore-Prozessor, auf dem Stockfish läuft, wo ich ja den Turbo-Boost abgeschaltet habe.
Und alle Tests aus meinem longthinking Testrun liefen so. Wäre da irgendwas krumm zuungunsten von Stockfish wäre, wie kommt es dann, daß Stockfish Fat Fritz mit 61%-39% beerdigt hat???
Zudem lief auch meine Bullet-Testliste mit den NNs auf dieser Hardware und mit dieser Konfiguration. Nur mit nur einem Zehntel Bedenkzeit.
Parent - - By Peter Martan Date 2020-01-29 13:42 Edited 2020-01-29 13:44
Stefan Pohl schrieb:

Das ist doch völlig falsch. Ich spiele doch ohne pondern.

Uups, das war dann mein Irrtum, ich dachte, mit. Darum ging's mir nur, ich dachte, du hast den einen Restthread für LC0 und ponder on, sorry, hätte wohl mal wieder deine ganze HP lesen sollen.

Dann könnte man höchstens noch einwenden, dass das Spielen mit Pondern meiner Erfahrung nach wegen der immer noch schlechten Zeiteinteilung von LC0 eher SF helfen würde, andersrum, ponder off für LC0 besser ist.
Bin neugierig, ob auf TCEC diesmal endlich mit pondern gespielt werden wird zwischen A-B und NN- Engines.
Parent - - By Michael Scheidl Date 2020-01-29 14:21
Zitat:
Bin neugierig, ob auf TCEC diesmal endlich mit pondern gespielt werden wird zwischen A-B und NN- Engines.

Das ist nicht zu erwarten. Ich kann's aber verstehen, denn wenn beide enginetypen im selben turnier vorhanden sind, müßte man ja je paarung ständig die konfiguration ponder on/off anpassen, je nachdem ob sie auf dem selben computer laufen oder nicht... vermutlich nicht praktisch machbar.
Parent - - By Eduard Nemeth Date 2020-01-29 14:38
Schade. Ich frage mich auch wofür Pondern erfunden wurde? Sollte Pondern die Spielstärke positiv beeinflussen, dann ist es schon irgendwie nachlässig, das nicht zu gebrauchen bzw. zu testen. Auf den Online Servern wird nur mit Pondern gespielt. Spiele ohne Pondern kann ich mir dort nicht vorstellen. Wenn ich nämlich zuschaue, ist es total spannend zu sehen was die eigene Engine berechnet während der Gegner am Zug ist. Ohne Pondern wäre es gähn langweilig warten zu müssen bis die eigene Engine am Zug ist. Schön dass es wenigsten auch einige wenige Ranglisten mit Ponder On gibt.
Parent - By Michael Scheidl Date 2020-01-29 14:50
Da bin ich ganz deiner meinung. Die veranstalter machen sich da meines erachtens zu viele sorgen wegen etwaiger schädlicher wechselwirkungen oder so. Es würde insbesondere das zuschauererlebnis fördern, könnte man live sehen wie sich eine engine worauf vorbereitet usw. Aber daß in der computerschachszene mitunter ein gewisser "starrsinn" vorherrscht, das sind wir ja gewohnt.
Parent - - By Michael Bechmann Date 2020-01-30 13:32 Edited 2020-01-30 13:48

>"Wobei ich mich frage, ob 11 Threads eines 6Kerners wirklich genau so viel relative Leistung bringen, wie man sich da erhofft, wenn der 12. Thread gleichzeitig an eine andere Aufgabe vergeben ist."


Würde ich eine solche Frage äußern, hieße es wieder, dass ich also doch offensichtliche Denkweise hätte, die mit Autismus und Asbachersyndrom zu tun hätten und wann ich zuletzt mit 11 oder 12 Menschen auf einmal zu tun hätte. 
Parent - By Peter Martan Date 2020-01-30 13:53
Michael Bechmann schrieb:

Würde ich eine solche Frage äußern, hieße es wieder, dass ich also doch offensichtliche Denkweise hätte, die mit Autismus und Asbachersyndrom zu tun hätten

Entweder du meinst Asperger Syndrom, oder du hattest ein paar Asbach Uralt zuviel.
Parent - - By Benno Hartwig Date 2020-01-29 06:39

> aber es ist halt kein Gleichstand.


Was muss eigentlich erfüllt sein, damit man von "Gleichstand" sprechen kann?
Welche Kriterien könnten für dich solch eine Wertung rechtfertigen?
Parent - - By Benno Hartwig Date 2020-01-29 12:43
"The hypothesis is that if those [nps-] ratios are the same, then the results would be comparable."

Na, das halte ich aber mal für eine gewagte und sehr bauchgegriffene Hypothese.
Parent - - By Peter Martan Date 2020-01-29 13:36
Ich will nicht wieder die Sache mit der "Leela- Ratio" lostreten, aber hast du eine bessere (Hypothese)?
Wenn du nämlich nicht die Knoten/Zeit nimmst, was nimmst du dann?

Und wenn du sie nicht zwischen einem bestimmten SF und einer bestimmten NN- Engine- Netz- Kombi nehmen willst, wieso kann man sie dann zwischen verschiedenen NN- Engine- Netz- Kombis nehmen?

Du bist dir schon im Klaren darüber, dass die einzige Richtlinie, die wir derzeit bei den NN- Engine- Hardware- Netz- Kombis haben, besagte "Leela-Ratio" ist, und dass die ausschließlich auf Knotenzahlen basiert, ja?
Parent - By Benno Hartwig Date 2020-01-29 19:21 Edited 2020-01-29 19:24

> Wenn du nämlich nicht die Knoten/Zeit nimmst, was nimmst du dann?


Die Erstehungskosten der kompletten Maschine wären für mich das wohl wichtigste Kriterium.
Wenn ich beispielsweise für je 2000 Euro Maschinen kaufe
- eine optimiert für AB-Engines (tolle CPU, viel schneller Speicher, schlappe Grafik)
- eine optimiert für NN-Engines (tolle Grafikkarte, "ausreichend" CPU und Speicher)
Dann habe ich zwei Systeme, deren Vergleich mich wirklich besonders interessiert.


Und falls in 2 Jahren die AB-Systeme doppelt so schnell sind und die NN-Systeme 10 mal so schnell dann haben wir zu jenem Zeit punkt eben diese Systeme als "vergleichbar" vor uns.

Warum sollte mich beispielsweise ein Vergleich von Engines mit ähnlichen nps-Werten interessieren, wenn die Kosten dafür horrend auseinanderliegen, oder wenn die Spielstärke sehr unterschiedlich wäre? Das Kriterium nps gibt aus meiner Sicht nicht wirklich was Taugliches für "Vergleichbarkeit" her. Genau so wenig halt wie "Erreichte Tiefe bei Zeit X" oder die "Programmgröße".
Parent - - By Reinhold Stibi Date 2020-01-29 07:34
Wolfgang, mein Xeon Computer mit 2 X5680 Prozessoren hat 12 echte Kerne und weitere 12 in Hyperthreading.

Mit 12 CPUs (als echte Kerne) mit Stockfish 11  in der Grundstellung mit Fritz 15 GUI  knapp 15.000 kN/s

Mit 24 Threads                                "                                 "                                             20.000 kN/s.

1 CPU (echter Kern)                        "                                 "                                 ca.          1.250 kN/s.

Nach Adam Riese entspricht 24 Threads  ca. 16 echten Kerne.

Damit schätze ich das die Ratio zur RTX 2070   1,0 ist.

Stefan Pohl hat eine RTX 2060 gegenüber einer CPU mit 8 echten Kernen. Das ist etwas wenig im Vergleich
zur RTX 2060, die kaum schlechter ist wie eine RTX 2070. 
Deine Äußerung dazu mit "´kompletter Unsinn" ist unangebracht und grenzt an Beleidigung. Aber wir kennen dich
ja wie du auf den Putz hauen kannst.

Gestern war in eurer Rangliste noch Leelenstein 13, die m.E. das beste Lc0 Netz ist, noch in der Rangliste deutlich
hinter Stockfish 10.

Wie du ja selber angeführt hast, ist das Problem von vielen Testern dass die CPU Leistung gegenüber der GPU Leistung viel zu schwach ist.

Ich schätze Stefan Pohl als Schachcomputerexperte sehr. Er hat auch öfters viele nützliche Ratschläge mitgeteilt.
Trotzdem hat er nicht immer Recht, wie in diesem Fall.

Sein unglaubliches Ergebnis könnte er ja überprüfen mit Stockfish 11 und seinen 4 Züge-Vorgabeeröffnungen.
Ich denke, da würde in etwa auch Gleichstand herauskommen zwischen Lc0 und Stockfish 11.

Von seinen jetzigen Eröffnungsvorgaben halte ich nicht viel, weil sie zu sehr eingeschränkt sind.

Sein Enthusiasmus für Lc0 ist ja bekannt. Ich bin ein Lc0 und ein Stockfish Fan.
Parent - - By Tom Paul Date 2020-01-29 09:21
Ich finde seine Stellungsvorgaben sind bzw. führen zu sehr scharfen Stellungen, wo meistens Stockfish aufgrund seiner Taktik im Vorteil ist.
Und auch die sehr kurze Bedenkzeit ist besser für Stockfish geeignet.

Wenn LC0 trotzdem gewonnen hat, dann ist eigentlich alles klar.
Parent - By Lothar Jung Date 2020-01-29 09:46
Sehe ich auch so.
Parent - - By Klaus S. Date 2020-01-29 11:49 Edited 2020-01-29 11:53
Errechnet ja?
Denn 1250kn/s mal 12core ist exact 15000kn/s

Reinhold Stibi schrieb:
> Mit 12 CPUs (als echte Kerne) mit Stockfish 11  in der Grundstellung mit Fritz 15 GUI  knapp 15.000 kN/s

> Mit 24 Threads                                "                                 "                                             20.000 kN/s.

> 1 CPU (echter Kern)                        "                                 "                                 ca.          1.250 kN/s.

Diese Rechnung (Messung) kann nicht stimmen.
Wenn bei dir 1 Kern 1250kn/s hat, haben 12 Kerne höchstens 12000kn/s
Parent - By Reinhold Stibi Date 2020-01-29 13:35
Da ist nichts errechnet.

Das zeigt mir die Fritz 15 GUI an.

Es ist erstaunlich dass Mehrkernprozessoren inzwischen die Leistung so gut umsetzen können.

Ich habe auch geschrieben knapp 15.000 kN/s, und wenn es 14.550 kN/s sind ist doch der Unterschied unbedeutend.

Du hast doch selber ein Computer und kannst feststellen wie gut Stockfish  die Leistung auf Mehrkernprozessoren umsetzen können,
darum wundert mich dein Einwand.
Parent - - By Stefan Pohl Date 2020-01-29 12:16 Edited 2020-01-29 12:35
Reinhold Stibi schrieb:


Stefan Pohl hat eine RTX 2060 gegenüber einer CPU mit 8 echten Kernen. Das ist etwas wenig im Vergleich
zur RTX 2060, die kaum schlechter ist wie eine RTX 2070. 


Deswegen bremse ich meine RTX 2060 (mobile, das ist schon mal langsamer als die stationäre Version) noch mit dem Afterburner Tool ab, was übrigens auch auf meiner Website zu lesen wäre. Sodaß eben eine Leela-Ratio von 1.3 herauskommt. Weniger geht nicht, da ich die RTX Karte so weit bremse, wie es überhaupt möglich ist (ca. -30%). Sicher wäre eine Leela-Ratio von 1.0 besser, aber das ist auf meiner Hardware nun mal nicht zu machen. Aber 30% mehr oder weniger spielt gerade bei meiner relativ langen Bedenkzeit keine nenneswerte Rolle.

Reinhold Stibi schrieb:

Ich schätze Stefan Pohl als Schachcomputerexperte sehr. Er hat auch öfters viele nützliche Ratschläge mitgeteilt.
Trotzdem hat er nicht immer Recht, wie in diesem Fall.


Sicher hab ich nicht immer Recht. Aber in diesem Fall schon.

Reinhold Stibi schrieb:

Sein unglaubliches Ergebnis könnte er ja überprüfen


Das Ergebnis ist nicht unglaublich. Thomas Zipproth hat mich darauf hingewiesen, daß in seinen Tests von Lc0 und den NNs (er braucht Lc0 ja für seine Cerebellum Kalkulationen), das Netz t40-1541 20x256 von S.Vieri am besten abgeschnitten hat. Also hab ich das getestet. Und genau das kam raus. Aber das Ergebnis ist keinesfalls unglaublich. Es ist ganze +11 Elo besser als mein Ergebnis von Lc0 Kiudee mit Leelenstein 12.2. Und liegt damit in einem völlig erwartbaren Rahmen. Jetzt teste ich ja Leelenstein 13 mit Lc0 Kiudee, vielleicht zieht das sogar noch vorbei. Das kann man jetzt noch nicht sagen. Der Start war aber super.

Reinhold Stibi schrieb:

Sein Enthusiasmus für Lc0 ist ja bekannt. Ich bin ein Lc0 und ein Stockfish Fan.


Und? Das würde nie meine Testarbeit oder meine Ergebnisse beeinflussen.
Parent - By Reinhold Stibi Date 2020-01-29 13:53
Bisher hatte ich sehr gute Übereinstimmung der Test nach deiner bisherigen Testmethode
deshalb ist es schon verwunderlich dass nach der neuen Testmethode ein Unterschied von 49 Elos besteht.

Natürlich ist mir deine Leela Ratio mit deinem Notebook  und wie sie errechnet wurde bekannt. Aber bei mir ist sie bei meinem
Computersystem mit 1.0 eben besser.

Die Auswertung deiner Testspiele ist schon sehr neumodisch. Neuer ist nicht immer besser, oft ist das Ältere überlegen.

Leider sind bei vielen Testergebnissen ungleiche Voraussetzungen gegeben und Lc0 wird in der Regel von der Hardware
deutlich bevorzugt.

Ob jetzt Lc0 oder Stockfish die Nr. 1 ist, ist noch viel zu wenig ausgetestet und viele Tests sind wegen unfairer Verhältnisse
nicht brauchbar
Parent - By Benno Hartwig Date 2020-01-29 12:39

> ...Nach Adam Riese entspricht 24 Threads  ca. 16 echten Kerne.
> Damit schätze ich das die Ratio zur RTX 2070   1,0 ist.


Sorry, ich habe es einfach nicht begriffen:
warum schätzt du bei diesen Gegenebenheiten auf den Wert 1,0? Warum nicht 0,5? Oder warum nicht 2,0? Oder sonstwas?
Parent - By Patrick Götz Date 2020-01-29 14:56
Reinhold Stibi schrieb:

Stefan Pohl hat eine RTX 2060 gegenüber einer CPU mit 8 echten Kernen. Das ist etwas wenig im Vergleich
zur RTX 2060, die kaum schlechter ist wie eine RTX 2070. 

Stefans  i7-8750H hat nur 6 echte Kerne (12 Threads).
Parent - By Stefan Pohl Date 2020-01-31 09:02 Edited 2020-01-31 09:17
Reinhold Stibi schrieb:


Sein unglaubliches Ergebnis könnte er ja überprüfen mit Stockfish 11 und seinen 4 Züge-Vorgabeeröffnungen.
Ich denke, da würde in etwa auch Gleichstand herauskommen zwischen Lc0 und Stockfish 11.


Von Andreas (FGRL) auf talkchess:

GeForce RTX 2060, 10 Core Intel E5-2680v2 @ 2.80 GHz
Openings: Hert_250_lowdraws.pgn
TC: 60 sec + 0.6 sec
250 games,
SF mit Contempt 0 und Lc0 mit Kiudee Settings.

Lc0 0.23.2 256x20-T40-1541   +40  +51/=177/-22 55.80%  139.5/250
Stockfish 11                 -40  +22/=177/-51 44.20%  110.5/250

+40 Elo. Mit Hert-Eröffnungen. Leicht weniger als bei mir (+49 Elo), wegen der vielen Remisen und des Bullet-Tempos, letzteres begünstigt eher SF im Spiel gegen Lc0, aber ein ebenso klarer, eindeutiger Sieg.

Na sowas aber auch... noch ein "unglaubliches Ergebnis" von Lc0 Kiudee mit diesem Netz...mit Standard-Eröffnungen und SF mit Contempt 0, statt +15, wie bei mir. Sachen gibts.

Bleibt zu hoffen, daß Andreas diese Engine/Netz-Kombination (also Lc0 0.23.2kiudee t40-1541 (20x256)) in seiner NN-Bulletrangliste komplett durchtestet. Da erwarte ich eine klare Nummer 1 Position.
Parent - - By Clemens Keck Date 2020-01-29 07:26
ich bekomme auch oft abweichende Ergebnisse von Stefans Tests.
Ich denke aber das es an meinem Setup liegt. So eine Testumgebung ist wie ein kleiner Kosmos.
Meine HW ist wesentlich stärker für Stockfish. Die Spiele starten alle so mit ca. 18.000 kNs und sind schnell weit über 20.000 kNs.
Und ich habe immer noch der contempt=0 in Verdacht , mit den SF einfach stärker spielt gegen Lc0. Vielleicht auch das pondern.

Egal, es ist verführerisch die Tests zu vergleichen, auch CEGT, CCRL oder Fast GM. Das sind immer jeweils komplett andre setups.
Deswegen stimmen sie für mich im einzelnen, aber zum Vergleich untereinander taugen sie nicht.

C.K.
Parent - - By Stefan Pohl Date 2020-01-29 12:44 Edited 2020-01-29 12:47
Clemens Keck schrieb:

ich bekomme auch oft abweichende Ergebnisse von Stefans Tests.
Ich denke aber das es an meinem Setup liegt. So eine Testumgebung ist wie ein kleiner Kosmos.
Meine HW ist wesentlich stärker für Stockfish. Die Spiele starten alle so mit ca. 18.000 kNs und sind schnell weit über 20.000 kNs.
Und ich habe immer noch der contempt=0 in Verdacht , mit den SF einfach stärker spielt gegen Lc0. Vielleicht auch das pondern.



Daß Kiudee mindestens +30 Elo bringt, zeigen nicht nur meine Tests. Sondern auch der große Vergleichsrun bei potatochess auf Twitter und diverse andere Tests auf discord oder von Laskos auf talkchess. Die mit verschiedenen Netzen und Netzgrößen abliefen. Und verschiedenen Bedenkzeitstufen Und alle brachten deutliche Elogewinn mit Kiudee von mindestens +30 Elo, verglichen mit den Lc0 default-Settings.
Daran kann es also statistisch keinen ernsthaften Zweifel geben.

Mein großer Contempt-Testrun läuft noch (Halbzeit!), und ich kann jetzt schon sagen, daß Contempt 0 und Contempt +15 (das hab ich ja bei SF für meine longtime Testruns eingestellt) praktisch keinen nennenswerten Unterschied machen.
Parent - By Lothar Jung Date 2020-01-29 12:49
Den Kiudee-Zugewinn sieht man mit 3 verschiedenen T60-Netzen beim Edosani-Tunier deutlich.
Parent - - By Clemens Keck Date 2020-01-29 16:42
Stefan Pohl schrieb:


Mein großer Contempt-Testrun läuft noch (Halbzeit!), und ich kann jetzt schon sagen, daß Contempt 0 und Contempt +15 (das hab ich ja bei SF für meine longtime Testruns eingestellt) praktisch keinen nennenswerten Unterschied machen.


wieder Mal ein schwacher Vergleich, der mich nicht überzeugt.
90% der Tester spielen mit default contempt, und der ist 24.
Und das scheint nun mal einen Unterschied zu machen im Direktvergleich SF vs Lc0. Nicht SF vs SF !
Ich vermisse wirklich die Neutralität in solchen "Beweisen"
Da steckt schon ein Bissl "Glaube" drinne. 
Dann werden Listen aufgeführt, die ganz andre Test setups fahren.
Das wird aber nicht erwähnt ...

Ich kuck mir das nochmal genauer an. Sind halt wieder 2 Rechner beschäftigt, 8 Tage.

Was hier alles so verglichen wird und die MEGA Überschriften....

Phuuuu
ich glaube aus wissenschaftlicher Sicht verschwenden wir hier jede Menge Zeit und Strom und sind weit weg von Professionalität.
Und ich meine wir, also mich auch

C.K.
Parent - - By Stefan Pohl Date 2020-01-31 08:45
Clemens Keck schrieb:

Stefan Pohl schrieb:


Mein großer Contempt-Testrun läuft noch (Halbzeit!), und ich kann jetzt schon sagen, daß Contempt 0 und Contempt +15 (das hab ich ja bei SF für meine longtime Testruns eingestellt) praktisch keinen nennenswerten Unterschied machen.


wieder Mal ein schwacher Vergleich, der mich nicht überzeugt.
90% der Tester spielen mit default contempt, und der ist 24.
Und das scheint nun mal einen Unterschied zu machen im Direktvergleich SF vs Lc0. Nicht SF vs SF !
Ich vermisse wirklich die Neutralität in solchen "Beweisen"
Da steckt schon ein Bissl "Glaube" drinne. 
Dann werden Listen aufgeführt, die ganz andre Test setups fahren.
Das wird aber nicht erwähnt ...

Ich kuck mir das nochmal genauer an. Sind halt wieder 2 Rechner beschäftigt, 8 Tage.

Was hier alles so verglichen wird und die MEGA Überschriften....

Phuuuu
ich glaube aus wissenschaftlicher Sicht verschwenden wir hier jede Menge Zeit und Strom und sind weit weg von Professionalität.
Und ich meine wir, also mich auch

C.K.


Äh, meine großer Vergleich umfaßt ja mehr Contempts: -40, -24, -15, 0 +15, +24 und +40. Und es geht ja um den Vergleich der Contempts bei annähernd gleich starken Engines, also ob SF vs. SF oder SF vs. Lc0 dürfte diesbezgl. keinen nennenswerten Unterschied machen. Und da man mit Lc0 nicht mehrere Partien parallel auf einem PC spielen lassen kann, kann ich Lc0 für so einen Vergleich nicht nutzen, das würde viel zu lange dauern. Immerhin lasse ich über 30000 Partien für diesen Vergleich durchlaufen.
Parent - By Tom Paul Date 2020-01-31 09:37
Stefan Pohl schrieb:

Äh, meine großer Vergleich umfaßt ja mehr Contempts: -40, -24, -15, 0 +15, +24 und +40. Und es geht ja um den Vergleich der Contempts bei annähernd gleich starken Engines, also ob SF vs. SF oder SF vs. Lc0 dürfte diesbezgl. keinen nennenswerten Unterschied machen. Und da man mit Lc0 nicht mehrere Partien parallel auf einem PC spielen lassen kann, kann ich Lc0 für so einen Vergleich nicht nutzen, das würde viel zu lange dauern. Immerhin lasse ich über 30000 Partien für diesen Vergleich durchlaufen.


Ich kann mich nicht erinnern bei dir LC0 vs Stockfish 11 mit negativem Contempt gesehen zu haben.
Parent - By Lothar Jung Date 2020-01-31 10:05
Bei Mattblachess Tunieren zwischen T60 und SF11 hat T60 nicht so doll abgeschnitten.
Es spielten auch weniger starke NNs.

**Match:** lc0.23.2.62131 vs Stockfish 10 4CPU - 100 rapid games
**LC0-version:** v23.2 cuda
**LC0-options:** --backend=multiplexing  --cpuct=2.147 --cpuct-factor=2.815  --cpuct-base=18368  --fpu-value=0.443 --policy-softmax-temp=1.607   (kuidee "bonus" settings)
**Time control:** 15min + 2s  (CCRL 40/40)
**Hardware:** CPU i7-8700 4 cores vs 1070Ti GPU
**Book:** Custom short lines played from both sides ever test (!sheet4 for opening list)
**Tablebase:** 6 piece syzygy (DTZ + WDL) for both engines
**Software:** Arena
**Speed:** Leela ratio ~0.85; Lc0 npm~200K, SF npm~200M  (based on 24x256 nets, T60 is slower)
**Context:** !sheet4 for test history
```lc0.23.2.62131 - Stockfish_11_x64_bmi2. : 47.5/100 10-15-75 (===0=====0==========0=10=0===010=====0======10==1=1=======10==1=10===01==0====0=====1==========0====)  48%  -> 3477 ordo score```
Ordo w/ comparison to previous T60 scores:
```diff
# PLAYER                      :  RATING  ERROR  POINTS  PLAYED   (%)  CFS(%)    W    D    L  D(%)
- 1 Stockfish_11_x64_bmi2    :  3495.0   ----    52.5     100    53      86   15   75   10    75
  2 lc0.23.2.62091                  :  3487.8   32.1    49.0     100    49     ---   11   76   13    76
+ 3 lc0.23.2.62131 **new*    :  3476.6   32.8    47.5     100    48     ---   10   75   15    75```
Parent - - By Eduard Nemeth Date 2020-01-29 08:29
Ich stimme dir zu. Mir wäre ein Test mit normalen Zügen viel lieber. Eine gute Mischung aus kurzen und langen Varianten sehe ich auch für sinnvoller. Damit jede Engine ihre Stärke besser ausspielen kann. Lc0 spielt am Liebsten ohne viel Zugvorgabe, Stockfish mag längere Varianten, die auch in der Praxis vorkommen. Stockfish mag Taktik, Lc0 hat am Liebsten Seeschlangen und geschlossene Systeme. Ich hatte einst mal den V. Rajlich gefragt weshalb seine damals Rybka 1.1 taktisch etwas schwächer sei als einige vorherigen Beta Versionen. Geantwortet hat er mit dem Satz "Schach besteht nicht nur aus Taktik". Das stimmt. Umgekehrt darf man aber auch sagen finde ich, "Schach besteht nicht nur aus "Positionsspiel". Taktik ist ein großer Teil des Schachs. Eine Engine muss sich auch darin bewähren. Die Testumgebung muss gerecht und Praxisnah sein. Wieviele Remis dabei rauskommen ist mir egal.
Parent - - By Stefan Pohl Date 2020-01-29 12:22 Edited 2020-01-29 12:39
Eduard Nemeth schrieb:

Ich stimme dir zu. Mir wäre ein Test mit normalen Zügen viel lieber...Wieviele Remis dabei rauskommen ist mir egal.



Mir wären "normale" Eröffnungsvorgaben auch lieber. Aber es ist für das Testen eben nicht egal, wieviele Remisen herauskommen. Das muß man nun hier endlich mal verstehen. Remisen drücken Ergebnisse Richtung der 50%-50% Ergebnismarke und bügeln damit Unterschiede glatt. Und, wenn man Unterschiede messen will, ist es prinzipiell Gift, wenn ein einziges Ergebnis stark gehäuft auftritt! Unterschiede kann man nunmal nur mit unterschiedlichen Ergebnissen messen. Und um Unterschiedsmessungen geht es beim Testen!
Ich habe für meine longtime-Testruns zunächst testweise die HERT-Eröffnungen benutzt. Da bekam ich bei meiner langen Bedenkzeit (8'+5'') Remisqouten von über 85%. Das ist fürs Testen unbrauchbar. Denn wie ich hier schon mal ausgeführt habe, kann man Unterschiede in der Spielstärke nicht bestimmen, wenn man fast nur ein einziges Ergebnis (in diesem Fall Remis) herausbekommt. Für Unterschiedsmessungen braucht man auch unterschiedliche Ergebnisse, idealerweise welche, die entweder für Engine A oder B gut sind, also von der 50%-50% Ergebnismarke wegführen (was Remisen eben nicht tun, im Gegenteil). Und, wenn man nur 15% nicht-Remisen bekommt, kann man sich die Testruns auch schenken.
Deswegen bin ich auf die SALC Armageddon Vorgehensweise umgeschwenkt. Und diese ist perfekt. Ich zitiere mal die Gesamtauswertung aller bisher gespielten longtime Partien:

Games        : 2400 (finished)

White Wins   : 1216 (50.7 %)
Black Wins   : 1184 (49.3 %)
Draws        : 0 (0.0 %)

Besser geht es zum Testen nicht:  Es gibt zwei verschiedene Ergebnisse, die zudem etwa gleichoft auftreten und jedes Ergebnis ist gut für Engine A und schlecht für Engine B (oder umgekehrt). Das ist für Unterschiedsmessungen perfekt.
Parent - By Michael Scheidl Date 2020-01-29 13:13
Na so schlecht sind Remisen auch wieder nicht; in Wien kann man sogar eine mieten:

https://www.wienerlinien.at/eportal3/ep/channelView.do/pageTypeId/66526/channelId/-54229

Parent - - By Eduard Nemeth Date 2020-01-29 13:45
Partien mit diesen Vorgaben sehen schrecklich aus. Ich kann mir einfach nicht vorstellen dass man daran Spass haben kann. Ich sehe lieber 100 faszinierenden Remispartien zu, als nur einer von diesen. Du willt etwas beweisen, und findest diese Stellungen besser. Fragst du dich auch für wen du das machst? Schachspieler lieben Neuerungen, aber nicht solche. Auf Chess.com erfindet man ständig Neues. Und ich schaue deshalb immer weniger hin. Einmal haben sie kürzlich ohne den weissen c-Bauern spielen lassen, für mich hatte das mit Schach wenig zu tun, und ähnlich erging es mir küzlich als ohne Rochaden gespielt wurde. Weiss ich wirklich durch deine sowie diese Neuentdeckungen welche Engine besser für die Analyse taugt oder für das Turnierspiel auf dem Server? Was nützt es mir zu wissen dass Lc0 nun mit Armageddon 30 Elo besser ist als Stockfish? Mir ist es lieber, Lc0 liegt nur 5 Elo vorne bei normalen Eröffnungen. Davon habe ich persönlich mehr.
Parent - - By Reinhold Stibi Date 2020-01-29 14:46
Ganz deiner Meinung.

Es ist überhaupt nicht notwendig künstliche Stellungstypen zu erzeugen die im normalen Schach äußerst selten vorkommen. Tatsache ist dass in der Regel kurz
rochiert wird weil vielleicht zu 80 oder 90 % besser.

Die Remispartien nicht zu werten finde ich nicht gut; sie gehören zum Schach dazu.

Außerdem ist die Remisquote bei Standard Eröffnungsvorgaben noch  nicht all zu hoch. Bei meinen Tests nicht über 80 % und bei schwächeren Gegners
vielleicht 60 %.
Parent - By Michael Scheidl Date 2020-01-29 15:02
Meiner langjährigen erfahrung nach gibt's allerdings engines, die eine sehr, sehr starke abneigung dagegen haben lang zu rochieren. Es wär lustig zu sehen das mit  ein paar dutzend teststellungen abzufragen. Also wo O-O-O ganz klar der beste zug ist aber die engine dafür zu blöd ist.

( In manchen fällen mag es sein daß die lange rochade aus effizienzgründen gar nicht reinprogrammiert wurde?! )
Parent - - By Tom Paul Date 2020-01-29 15:21
Reinhold Stibi schrieb:

Die Remispartien nicht zu werten finde ich nicht gut; sie gehören zum Schach dazu.


+50 =20000 -0
Das ergibt 1 ELO Unterschied.

Schach ist nun mal Remis aber die Engine mit den 50 Siegen ist klar besser.

Oder nimmt hier jemand die Engine mit den 0 Siegen lieber, wegen der Begründung das zwischen den beiden Engines nur 1 ELO Unterschied liegt?

PS. bei +100 anstatt +50 oder =10000 anstatt =20000 wäre der Unterschied schon 2 ELO.
Parent - By Benno Hartwig Date 2020-01-29 21:11

> +50 =20000 -0
> Das ergibt 1 ELO Unterschied.
> Schach ist nun mal Remis aber die Engine mit den 50 Siegen ist klar besser.


Dann ist die Engine eben nur 1 Elo besser.
Und dieses "besser Sein"  mag man ja angesichts der Partienumfangs als klar empfinden und es auch so nennen.
Tatsache ist aber auch, dass die schwächere Engine dann ja gegen die stärkere immerhin 20000 Remis erkämpfen konnte.

+1 Elo bedeutet ja nicht "ungefähr gleich stark"  im Sinne von "es kann ungefähr jeder gewinnen".
Mit welcher Wahrscheinlichkeit stimmt (d.h.: "wie klar es ist"), das die um 1 Elo erfolgreichere Engine wirklich die bessere Engine ist, wird ja beispielsweise durch die Errorbar beschrieben.
Up Topic Hauptforen / CSS-Forum / Das Stockfish nicht mehr die Nr.1 sein soll ist voreilig.

Powered by mwForum 2.29.3 © 1999-2014 Markus Wichitill