Not logged inCSS-Forum
Forum CSS-Online Help Search Login
CSS-Shop Impressum Datenschutz
Up Topic Hauptforen / CSS-Forum / Fat Fritz (in lc0)
1 2 Previous Next  
- - By Eduard Nemeth Date 2019-11-11 21:32
Bisher gute Fights auf dem Server, 50% im Blitz sind cool. Und wie man einen 12 Kerne Brainfish besiegt, seht selbst:

Event:
Ort:
Datum:

Weiss:
Schwarz:

Ergebnis
Board


Tolle Endspielbehandlung übrigens.
Parent - - By Heinz Hagenstein Date 2019-11-12 00:33
In einer geschlossenen Stellung gegen Fat Fritz füllte sich der Gegner mit 8.99 im Plus,es ging Remis aus,Wahnsinn.
Parent - - By Eduard Nemeth Date 2019-11-12 01:43
Hast Du die Stellung?
Parent - - By Heinz Hagenstein Date 2019-11-12 02:24
ja aber mit meinen 80 Jahren kann ich das nicht präsentieren.
Parent - - By Eduard Nemeth Date 2019-11-12 13:20 Edited 2019-11-12 13:23
Klasse Partie von Fat Fritz auf dem Server! Beim Kiebitzen mit dem Laptop sah ich soeben diese Partie:

[Event "5 min, rated"]
[Site "Engine Room"]
[Date "2019.11.12"]
[Round "?"]
[White "xxxx, Fat Fritz (in lc0) c"]
[Black "xxxx, Stockfish SL 071019 "]
[Result "1-0"]
[WhiteElo "2419"]
[BlackElo "2485"]
[PlyCount "63"]
[EventDate "2019.11.12"]
[EventType "blitz"]

1. e4 {0.36/10 4} e5 {B 0} 2. Nf3 {0.41/13 3} Nc6 {B 0} 3. Bb5 {0.44/13 4} a6 {
B 0} 4. Ba4 {0.45/15 3} Nf6 {B 0} 5. O-O {0.47/15 5} Be7 {B 0 (b5)} 6. Re1 {
0.55/14 8} b5 {B 0} 7. Bb3 {0.55/15 3} d6 {B 0 (0-0)} 8. c3 {0.54/14 7} O-O {
B 0} 9. h3 {0.54/14 4} Nb8 {B 0 (Lb7)} 10. d4 {0.56/12 10} Nbd7 {B 0} 11. Nbd2
{0.57/12 8} Bb7 {B 0} 12. Bc2 {0.58/12 2} Re8 {B 0} 13. Nf1 {0.58/11 4} Bf8 {
B 0} 14. Ng3 {0.56/11 6} g6 {B 0} 15. Bg5 {0.52/12 10} h6 {B 0} 16. Bd2 {
0.49/13 1} Bg7 {B 0} 17. Qc1 {0.38/14 14} Kh7 {0.10/26 10} 18. b3 {0.49/14 0
(a4)} exd4 {0.00/26 5 (a5)} 19. cxd4 {0.48/14 4} c5 {0.00/30 0} 20. d5 {
0.50/13 3} b4 {-0.12/30 36 (a5)} 21. Bf4 {0.71/13 8} a5 {-0.53/26 0 (Dc7)} 22.
Qd1 {0.35/12 15 (Qd2)} Nb6 {-0.49/23 3 (Db6)} 23. Rc1 {0.49/12 4} Qd7 {0.00/31
25 (La6)} 24. Bb1 {0.59/10 8 (Nh4)} a4 {0.00/28 6} 25. Qc2 {0.62/11 3 (Nh4)}
Rec8 {-0.37/22 4} 26. Qd1 {0.55/11 5} Qd8 {-0.34/23 0 (Te8)} 27. Nh4 {0.96/12
6 (Bd3)} Nfxd5 {-0.44/22 3 (axb3)} 28. Nxg6 {2.05/15 5 (exd5)} fxg6 {3.01/28 20
} 29. exd5 {2.25/20 0} Nxd5 {4.03/29 11} 30. Bxg6+ {2.23/16 0} Kh8 {4.37/28 8
(Kxg6)} 31. Re8+ {2.46/15 5} Qxe8 {4.36/30 0} 32. Bxe8 {2.50/14 3 xxxx,
Stockfish SL 071019 resigns (Lag: Av=0.25s, max=1.2s)} 1-0

Hier sieht sich Stockfish SL 071019 sogar im Vorteil:



Analysis by BrainFish X 1.5 64-bit POPCNT:

27...Sfxd5 28.exd5 Dxh4 29.Lxd6 Dd8 30.Lxc5 Sxd5 31.Df3 Dd7 32.Sh5 axb3 33.axb3 Lh8 34.Tc4 Kg8 35.Dg3 Te8 36.Txe8+ Dxe8 37.Kh2 Le5 38.f4 Lh8 39.Le4 Tc8 40.Ld3 La6 41.Te4 Dd8 42.Lxa6 Txc5 43.Lc4 Kh7 44.Te1 Dd7 45.Dd3 f5 46.Sg3
  =/+ (-0.67 ++)  Tiefe: 28/48   00:00:32  78813kN, tb=7
27...Sfxd5 28.exd5 Dxh4 29.Lxd6 Dd8 30.Lxc5 Sxd5 31.Df3 Dd7 32.Sh5 axb3 33.axb3 Lh8 34.Tc4 Kg8 35.Dg3 Te8 36.Txe8+ Dxe8 37.Kh2 Le5 38.f4 Lh8 39.Le4 Tc8 40.Ld3 La6 41.Te4 Dd8 42.Lxa6 Txc5 43.Lc4 Kh7 44.Te1 Dd7 45.Dd3 f5 46.Sg3
  -/+ (-0.77 ++)  Tiefe: 28/48   00:00:32  79124kN, tb=7
27...Sfxd5 28.exd5 Dxh4 29.Lxd6 Dd8 30.Lxc5 Sxd5 31.Df3 Dd7 32.Sh5 axb3 33.axb3 Lh8 34.Tc4 Kg8 35.Dg3 Te8 36.Txe8+ Dxe8 37.Kh2 Le5 38.f4 Lh8 39.Le4 Tc8 40.Ld3 La6 41.Te4 Dd8 42.Lxa6 Txc5 43.Lc4 Kh7 44.Te1 Dd7 45.Dd3 f5 46.Sg3
  =/+ (-0.47 --)  Tiefe: 28/48   00:00:34  84175kN, tb=7
27...Sfxd5 28.Sxg6
  = (-0.10 --)  Tiefe: 28/48   00:00:40  99165kN, tb=7
27...Sfxd5 28.Sxg6
  = (0.00 --)  Tiefe: 28/48   00:00:46  112MN, tb=7
27...Sfxd5 28.Sxg6
  +/= (0.35 --)  Tiefe: 28/48   00:01:08  166MN, tb=9

Es braucht relativ lange bis die Bewertung stürzt. Fat Fritz spielt dann auch Nxg6!
Parent - - By Tom Paul Date 2019-11-12 16:10
LC0 30x384 (1178) erkennt von Anfang an, dass die Stellung ausgeglichen ist und bleibt dabei:

1...axb3 2.axb3 Nh5 3.Nxg6 Nxg3 4.Nh4 Ne2+ 5.Qxe2 Qxh4 6.Bxd6 Ra1 7.Rxc5 Bc3 8.Rxc8 Nxc8 9.Bg3 Qg5 10.Rd1 Kg7 11.h4 Qg6 12.Bc2 Rxd1+ 13.Qxd1 Nb6 14.Bf4 h5 15.Bg5 Bc8 16.Bd2 Qf6 17.Bg5 Qg6 18.Bd2 Qf6 19.Bg5 Qg6
Die Stellung ist ausgeglichen: = (0.04)  Tiefe: 36/71   00:14:52  13891kN, tb=53891

Der Fehler Sfxd5 wird auch sofort bestraft:

2.Nxg6 fxg6 3.exd5 Nxd5 4.Bxg6+ Kxg6 5.Re6+ Kf7 6.Rxd6 Nxf4 7.Rxd8 Rxd8 8.Qg4 Nd3 9.Nh5 Bd4 10.Qf5+ Ke7 11.Qh7+ Ke6 12.Rd1 axb3 13.axb3 Nxf2 14.Nf4+ Kf6 15.Qxh6+ Kf5 16.Rxd4 Rxd4 17.Ne2 Rd7 18.Qf4+ Ke6 19.Qxf2 Kd6 20.Nf4 Kc6 21.Ne6 Rd5 22.Qf7 Rc8 23.h4
Weiß steht deutlich besser: +/- (1.40)  Tiefe: 20/43   00:00:01  50kN
Parent - By Eduard Nemeth Date 2019-11-12 16:19
Fat Fritz sieht vermutlich schon vor "27. Nh4" dass ein Opfer auf g6 geht, sonst hätte er das wohl nicht gespielt. Stockfish aber hat Nh4 nicht erwartet.
Parent - - By Arno Nickel Date 2019-11-12 17:55 Upvotes 1
Dass die Stellung im Lot ist, sieht auch Stockfish (schon vor 26...Dd8) mit ein bisschen mehr Rechentiefe. Solche banalen Horizonteffekte im Blitz haben für mich deshalb wenig Aussagekraft - Brillanz geht anders.
Parent - - By dkappe Date 2019-11-19 02:58
Arno Nickel schrieb:

Dass die Stellung im Lot ist, sieht auch Stockfish (schon vor 26...Dd8) mit ein bisschen mehr Rechentiefe. Solche banalen Horizonteffekte im Blitz haben für mich deshalb wenig Aussagekraft - Brillanz geht anders.


Brillanz ist ein Horizonteffekt der erst nach ein paar Wochen bewältigt wird?
Parent - - By Arno Nickel Date 2019-11-19 19:03 Upvotes 1
Wir reden über Sekunden und Minuten, nicht über Wochen. Was jemand im Schach schön findet und wovon er sich beeindrucken lässt, muss jeder für sich selbst entscheiden. Ich für meinen Teil erwarte, dass starke Züge objektiv stark sind, unabhängig davon, ob der Gegner die richtige Antwort findet. Als nächstes müsste man fragen, ob sie zwingend sind (z.B. einzige Gewinn- oder Remiszüge). Allerdings interessieren mich Blitz- und Schnellschachpartien weniger, weil dort der Zeitfaktor einen zu großen Einfluss hat. Natürlich gibt es Ausnahmen, die aber statistisch gesehen selten sind. Wenn man Blitz- und Schnellschach als Spaß betrachtet, also nicht zu hoch hängt (keine zu große Aussagekraft hineinlegt), dann kann man die natürlich auch hin und wieder als brillant betrachten, dann am besten sogar, wenn beide Seiten stark und originell gespielt haben.
Parent - - By Stefan Pohl Date 2019-11-20 09:57 Edited 2019-11-20 10:17
Arno Nickel schrieb:

Allerdings interessieren mich Blitz- und Schnellschachpartien weniger, weil dort der Zeitfaktor einen zu großen Einfluss hat. Natürlich gibt es Ausnahmen, die aber statistisch gesehen selten sind. Wenn man Blitz- und Schnellschach als Spaß betrachtet, also nicht zu hoch hängt (keine zu große Aussagekraft hineinlegt), dann kann man die natürlich auch hin und wieder als brillant betrachten, dann am besten sogar, wenn beide Seiten stark und originell gespielt haben.


Nun, das gilt aber nur für Menschpartien. Man muß sich immer wieder vor Augen führen, daß Computer heutzutage infernalisch schnell geworden sind.
Nehmen wir einen wirklich starken Brettcomputer, den Genius 68030. Der rechnet so ca. 10000 n/s. Also auf Turnierstufe ungefähr 1800000 n/s (knapp 2 Millionen Knoten) pro gespieltem Zug auf dem Brett. Das schaffen Stockfish & Co heutzutage auf einem CPU-Kern in weniger als einer Sekunde(!) - ganz davon abgesehen, daß die Engines selbst schon hunderte von Elos durch trickreiche Programmierung dazugewonnen haben. Selbst im Bulletspeed ist also das schachliche Niveau mit einer guten Engine auf einer guten Hardware mit Sicherheit auf dem Niveau von Magnus Carlsen (wenn er Turnierbedenkzeit hat) - vorsichtig geschätzt. Sofern mit Inkrement gespielt wird, ist auch immer eine genügend große Sockel-Rechenzeit gegeben, damit dieses Niveau auch konstant gehalten werden kann. Dieser Art des Computerschachs also "keine zu große Aussagekraft" zu unterstellen, ist schlicht falsch. Es ist im Gegenteil so, daß lange Bedenkzeiten im Computerschach Ergebnisse produzieren, denen man keine allzu große Aussagekraft beimessen sollte, weil
a) aufgrund der langen Partiedauer meist sehr wenige Partien gespielt werden, sodaß die Ergebnisse statistisch praktisch wertlos sind.
b) aufgrund extrem steigender Remisqouten bei langer Bedenkzeit, die Ergebnisse in einem Enginezweikampf stark in die Richtung der 50%-50% Ergebnisse gedrückt werden, selbst wenn die Engines durchaus unterschiedlich stark sind. Auch das verschlechtert die statistische Ergebnisqualität noch zusätzlich, weil Ergebnisse in die Errorbar gedrückt werden...

Schau dir auf meiner Website doch mal ein paar Siege von Lc0 gegen Stockfish an. Kannst du direkt auf der Website ansehen und auch Fritz als Analysengine mitlaufen lassen. Bedenkzeit 50''+500ms, also ca. 1 Sekunde Rechenzeit pro gespieltem Zug... Also ich finde das recht überzeugend, was Lc0 da so spielt...Besonders in Anbetracht des Märchens, das kursiert, daß lc0 nur mit langer Bedenkzeit ordentlich spielen könne.

https://www.sp-cc.de/view-lc-zero-games.htm
Parent - - By Arno Nickel Date 2019-11-20 11:51
Ich habe keinen Zweifel, dass Deine Tests und die vieler anderer sehr geeignet sind, um die Spielstärke der Engines bezogen auf einen bestimmten Zeitrahmen zu messen, und ich halte das für eine sehr verdienstvolle Arbeit, ebenso übrigens wie die Entwicklung von Stellungstests.
Desweiteren bezweifle ich natürlich auch nicht die gigantische Spielstärke der Engines selbst im 1-Minuten Blitz. Vor 2-3 Jahren hat man ja gesehen, wie ein 2600er GM mit Turnierbedenkzeit gegen einen stark gehandikapten Komodo mit Blitzbedenkzeit "baden" gegangen ist. Da gab es auch den einen oder anderen brillanten Zug, mit dem die Engine auf zwingende Weise ein schwieriges Stellungsproblem löste.

Was die Kriterien für starke und sehenswerte Züge bzw. Spielpläne betrifft, bleibe ich aber dabei, dass diese sich in erster Linie an einer objektiven Stellungsanalyse orientieren und erst in zweiter Linie Einflussfaktoren (wie Zeitmodi) berücksichtigen sollten. Unter dieser Prämisse schaue ich mir gern auch mal ein paar der von Dir angebotenen Beispiele aus Blitzpartien an, wobei es allerdings hilfreich wäre, konkrete Anhaltspunkte zu haben, über welche Stellungen wir reden wollen.

Nach meinem Eindruck und vielen Analysen mit LeelaZero ist es übrigens nicht so, dass ich die Engine bei "längeren Bedenkzeiten" (damit meine ich jetzt Analysezeiten von mehreren Minuten, vielleicht auch Stunden pro Zug, also länger als Turnierbedenkzeit)  für besonders stark halte, sondern eher im Gegenteil. Es sieht es für mich so aus, dass Leela nach wenigen Minuten meistens stagniert, während Stockfish u.a. AB Engines noch zulegen und manche Fehlbewertungen korrigieren können. Das darzulegen, erfordert allerdings einige Zeit. Ich werde das später (möglicherweise erst in 1-2 Jahren) mal tun.
Parent - By Stefan Pohl Date 2019-11-20 13:55
Arno Nickel schrieb:


Nach meinem Eindruck und vielen Analysen mit LeelaZero ist es übrigens nicht so, dass ich die Engine bei "längeren Bedenkzeiten" (damit meine ich jetzt Analysezeiten von mehreren Minuten, vielleicht auch Stunden pro Zug, also länger als Turnierbedenkzeit)  für besonders stark halte, sondern eher im Gegenteil. Es sieht es für mich so aus, dass Leela nach wenigen Minuten meistens stagniert, während Stockfish u.a. AB Engines noch zulegen und manche Fehlbewertungen korrigieren können. Das darzulegen, erfordert allerdings einige Zeit. Ich werde das später (möglicherweise erst in 1-2 Jahren) mal tun.


Das wäre auch denkbar. Gemäß des Standpunktes: Wenn das Netz für irgendwas zu doof ist, hilft auch rechnen nicht... Andererseits ist es sicher so, daß die taktische Komponente bei lc0 ein Schwachpunkt ist. Insofern Rechnen schon was bringen sollte. Eventuell sogar mehr, als bei AB-Engines. Möglicherweise ist es auch so, daß sich die beiden eben genannten Effekt irgendwie "ausgleichen" und schlußendlich lc0 mit mehr Zeit etwa genausoviel zulegt, wie AB-Engines es tun.
Ein kleiner Vergleich, den ich auch auf meiner Website habe, scheint in diese Richtung zu deuten, aber sicher ist da noch nichts. NN-Engines sind eben noch Neuland.
Einfach auf der NN-Testseite ganz runter scrollen:
https://www.sp-cc.de/lc0-testing.htm
Parent - - By Guenter Stertenbrink Date 2019-11-20 15:10 Edited 2019-11-20 15:12
allerdings war ja Lc0 bei TCEC (~2 Stunden,50 Kerne) staerker als StockFish und im Blitz eher unterlegen
oder gleichstark oder jedenjalls nur wenig staerker (12 Elo ? )
Ich erinnere da die Tests die zur Wahl des Netzes fuehrten, welches das TCEC-14 sufi spielen sollte
mit zigtausend "Bullet" Partien pro Netz gegen StockFish.

Der ganze Trainingsmodus ist ja wohl abgestimmt auf die Bedenkzeit des A0-StockFish  Vergleichs.
(1 min pro Zug , 64 Kerne afair)
Parent - - By Thorsten Czub Date 2019-11-24 21:08 Upvotes 2
Das Schlimme ist m.E. nur das die Programmierer die enormen Ressourcen und die enorme Geschwindigkeitssteigerung dafür verwenden total sinnlose Dinge zu machen die wohl der ELO helfen, aber nicht der KI.

Statt die Programme intelligenter zu machen, machen sie sie schneller.

D.h. mehr NPS, mehr CPUs oder GPUs und weniger Sinn.

Ist bei den Autos ja genauso. Mehr PS , mehr km/h , grösser, schwerer, ...

Aber machen die heutigen Autos Sinn ?
Sie verpesten mehr Umwelt. Sie sind absurd schnell. Nehmen zuviel Raum ein.
Sind wie rollende Panzer.
Parent - By Guenter Stertenbrink Date 2019-11-25 03:54 Edited 2019-11-25 04:14
'n Schachprogramm ist doch kein Auto.
(Die im Durchschnitt immer sparsamer und kleiner werden)

Und du sagst das zu einem Zeitpunt, wo just ein neuer, "intelligenter"
Ansatz auftaucht, der merkwuerdigerweise all die Jahrzehnte vorher
verborgen war.

Zu minem Posting darueber, auf das du -jedenfalls formal in der Forumshierarchie-
formal antwortetest moechte ich noch diesen Chart aus dem a0-Paper  ins Bewusstsein
zurueckrufen : http://magictour.free.fr/a0-scale.PNG :

------------------edit---------------
PKWs werden nicht leichter in De im Durchschnitt, fand ich nu
(trotz City-cars,Kleinwagen,Elektroautos)
Parent - By Benno Hartwig Date 2019-11-25 19:53
Man muss sich halt überlegen, welche Kriterien man ganz persönlich für wichtig hält.
Man kann den Spaß im Spiel gegen die Engine in den Vordergrund stellen (1),
oder die bunte Grafik (2)
die Spielstärke im Spiel gegen Menschen (Stickwort Remisvermeidung) (3) bzw. gegen schwächere Engines
oder eben die Spielstarke gegen gleichstarke Engines. (4)
Oder auch eine besondere Spielweise (5)
oder besondere Features. (6)
Jedem das seine!

Und (4) ist eben ein Kriterium, welches gerade in diesem Forum viel Interesse findet. Mich wundert dies nicht.
- - By Guenter Stertenbrink Date 2019-11-23 08:23 Edited 2019-11-23 09:01
sp-cc : 36 Elo hinter Lc0-21.3-42850 in 3000 games
ccc : Lco-FatFritz=26.5/23.5(+20elo, 84% Remisquote) auf ccc
20 Elo hinter Lc0-22.0-2019/09/09
cegt : 7  Fat Fritz 1.0 (in lc0) Cuda  3443  27  27  364  52.6%  3424  75.0%
8 Elo hinter Lc0-21.2-42668 in 364 games
ccc: StockFish_19/11/19 - FatFritz_v266=56-46(+34 Elo)
ccc: Lc0_22.0_2019/09/09  43 Elo besser als StockFish_19/11/19 in 48 games
aber 79 Elo schwaecher als StockFish_2019/07/11 in 44 Partien=games in der Vorrunde
und 16 Elo schwaecher als StockFish_2019/09/10  in 44 Partien in Qualification
:
Parent - - By Eduard Nemeth Date 2019-11-23 08:58 Edited 2019-11-23 09:14
Hast du auch die Spielstufen dazu? Bei Stefan Pohl kenne ich sie. Mir persönlich ist das wichtig. Ich spiele online, und  möchte FF oder auch ein Lc0 NN da vorrangig bei längeren Zeitkontrollen einsetzen (ab 16 Minuten).

Es ist auch zu widerlegen dass FF auf einer RTX 2060 und nur cuda, bei Stufe 20 Minuten + 10s besser ist als Stockfish 10 auf einem Ryzen 3000.

Gibt es Ergebnisse auf solcher Sufe?
Parent - - By Guenter Stertenbrink Date 2019-11-23 09:05 Edited 2019-11-23 09:16
leicht unterschiedliche Spielstufen und Hardware.
Darum vergleiche ich Lc0 mit Fat_Fritz, die haben vermutlich in diesen Turnieren
jeweils identische Hardware.
Und vermutlich ist das "scaling" der beiden aehnlich

In deinem Beispiel wuerde ich das LR=Leela-Ratio berechnen und vergleichen mit CEGT :

3451,LCZero 0.21.2 Cuda (42668)  3451  16  16  1578  64.6%  3336  59.1%
3443,Fat Fritz 1.0 (in lc0) Cuda  3443  27  27  364  52.6%  3424  75.0%
3516,Stockfish 10.0 x64 8CPU  3516  21  21  640  65.2%  3403  63.6%
3416,Stockfish 10.0 x64 1CPU  3416  11  11  3250  66.4%  3282  53.2%

LR=1.2 , GTX 1060 , 40/20
Parent - - By Eduard Nemeth Date 2019-11-23 09:11
ccc meinst du damit chess.com oder ccc Forum?
Parent - - By Eduard Nemeth Date 2019-11-23 09:24
Auf Schach.de spielen fast alle NN Liebhaber nun mit Lc0 v0.23 Rc1. Und da sieht man leider nicht (weil es keiner anzeigen will) mit welchem Netz gespielt wird. So kann man nun auch nicht wissen wo FF evtl. eingebunden ist. Seit dieser neuen 0.23 Rc1 Version geht ja das FF Netz auch unter Lc0.
Parent - - By Guenter Stertenbrink Date 2019-11-23 09:29
gibt'd denn da auch so eine Art Ratingliste oder Statistik der Engines ?
Parent - - By Eduard Nemeth Date 2019-11-23 09:45 Edited 2019-11-23 09:49
Eine Rangliste, nur der Spieler. Da aber mit unterschiedlicher Hardware gespielt wird, hat das nicht viel Aussagekraft. Bisher ist es aber so, dass Lc0 auf Blitzstufen ohne Bonuszeit höchstens mithalten kann und da nur mit Super GPU. Einen für mich nicht unwesentlichen Unterschied gibt es: Wir spielen ALLE mit Ponder ON, und das ist viel besser und auch spannender für mich, weil Zeit wird niemals verschenkt.

Auf Chess.com läuft gerade ein Match zwische Lc0 und FF bei Stufe 5+5 (allerdings Ponder OFF). Lc0 führt mit +3 nach 55 von 100 Partien.
Parent - By Eduard Nemeth Date 2019-11-23 09:57
Fat Fritz spielt in der Version 266. Die gibt es derzeit nur noch in der Engine Cloud von ChessBase.
Parent - - By Peter Martan Date 2019-11-23 09:42 Edited 2019-11-23 09:54
Guenter Stertenbrink schrieb:

Und vermutlich ist das "scaling" der beiden aehnlich

Vermutlich ist deine Vermutung ein schiere solche, und nicht nur vermutlich sondern sogar ganz sicher müsste man sie für je zwei bestimmte Software- Hardware- TCs für bestimmte einzelne Eröffnungen testen.
Wenn du nämlich mit Scaling auch nur annähernd etwas ähnliches meinst wie ich, nämlich im Sinn einer schachlich relevanten Zeit- Leistung, nicht einfach irgendwelcher völlig irrelevanter und gerade zwischen so verschiedenen Engines wie einer A-B und einer NN, absolut unvergleichbarer Parameter wie Knoten/Zeit oder Time to Depth.
Selbst solche Ersatzparameter kannst du als "Scaling"- Messungen nicht einmal mehr zwischen verschieden großen und verschieden trainierten NNs heranziehen, geschweige denn das, was als schachlich relevantes "Scaling" bei verschiedenen TCs und wirklich verschiedenen Eröffnungsstellungen hinten heraus kommt.
Aber die Kernerkenntnis: du kannst es bei TCs einer Länge, die über Schnellschach hinaus geht, nicht mehr statistisch signifikant überprüfen, du kriegst mit der steigenden Remishäufigkeit keine ausreichende Partiezahl zusammen.
Period.

Als Alternative zu Unmengen von Partien, die mit langer TC sowieso nicht machbar sind, rate ich zu Time to Solution- Messungen anhand von gut durchanalysierten Lösungsvarianten oder Lösungsvarianten- Bäumen. Gern darfst du daraus dann wieder deine eigenen Elo- Berechnungen anstellen, da wären wir uns dann wenigstens vermutlich doch wieder rasch darüber einig, dass derlei rein Engine- Zeit- Stellungs- abhängige Tests auch in Elo messbar wären, nur absolut nix mit den Elo zu tun hätten, die du dir sonst so aus den Fingern saugst.

P.S. Du, nicht die Leute, die die realen Testmatches in kurzer TC machen und sich im Klaren darüber sind, dass sie nur sehr bedingt (und weniger und weniger) extrapolierbar sind auf andere Engines, Settings, TCs und Eröffnungen.
Parent - - By Guenter Stertenbrink Date 2019-11-23 10:01
es ist immerhin dasselbe executable, derselbe algorithmus, da liegt es nahe, dass auch das sclaing aehnlich ist.
Ich meine, _noch_ aehnlicher als bei anderen Vergleichen ...

Fuer deine Vermuting, dass das alles nicht so gut funktioniert,
haben wir ja nun gar keine Beispiele.
Parent - - By Peter Martan Date 2019-11-23 10:36 Edited 2019-11-23 10:40
Guenter Stertenbrink schrieb:

es ist immerhin dasselbe executable, derselbe algorithmus, da liegt es nahe, dass auch das sclaing aehnlich ist.
Ich meine, _noch_ aehnlicher als bei anderen Vergleichen ...

Fuer deine Vermuting, dass das alles nicht so gut funktioniert,
haben wir ja nun gar keine Beispiele.

Ich sag dir doch, meine Vermutung ist auch nur eine von vielen möglichen, zum Unterschied von dir gebe ich mich damit zufrieden, dass es schiere Vermutung ist.
An diesem Punkt waren wir auch schon öfters gemeinsam, du stellst Behauptungen auf, von denen du zwar zugibst, dass es sich eigentlich um Vermutungen handelt, bleibst also ruhig in diesem Sinn auch jeden Beweis schuldig, wenn andere das tun, wirfst du es ihnen vor.

Ich habe meine eigenen Vermutungen, sie fußen auf dem, was in einzelnen Stellungen aus Eröffnung, Mittel- und Endspiel als Output und ausgespielten Zügen von bestimmten Engines und bestimten Hardware-Zeit-Kombis geboten wird, dass das dir noch weniger sagt, als deine Statistiken, dafür kann ja nun ich wirklich nichts.

Nicht um dir irgendein Gegenteil ("vermutlich ähnlich" ist einfach quantitativ nichtssagend, nicht nur vermutlich, es sagt einfach quantitativ nix) deiner Vermutungen zu beweisen, bringe ich in solchen Zusammenhängen keine Partie- und Stellungs- Analyse- Beispiele, sondern weil ich die Erfahrung gemacht habe, die werden von den "Statistikern" immer wieder einfach sowieso nicht gelten gelassen, man sieht's an den vielen Beispielen von Eduard hier in der letzten Zeit. Er bringt eine Partie mit interessenanten Stellungen, du kommst mit einer Vermutung, die du aus irgendwelchen Statistiken herausliest, um was eigentlich damit ihn Hinblick auf seine Partie zu sagen? Was hat das als Antwort auf sein Posting für eine Relevanz?

Ich weiß schon, dass Statistiken nichts über einzelne zu erwartende Ereignisse aussagen, und einzelne Ereignisse (Partien, Stellungen) keine Statistik hergeben.
In jeder vernünftigen Wissenschaft zählen aber außer Statistiken sehr wohl Case Reports, gut dokumentierte einzelne Beispiele für was auch immer.
Sie zählen dann in der good scientific practice mehr als Statistiken, wenn es keine ordentlich dokumentierten, randomisierten, durchgerechneten unbiased Daten als Grundlage für Statistiken gibt.

Du verlässt dich lieber auf deine Vermutungen, ich mich lieber auf meine, ich vermute, wir liegen schachlich gar nicht weit auseinander, während ich aber weiß, dass ich über die Größe der Unterschiede, von denen wir eigentlich reden oder reden sollten, nix weiß, tust du immer wieder so, als wüsstest du.
Mach ruhig, ich gehe davon aus, dass es dir Spaß macht, und das ist allemal das einzig Wichtige an einer Sache, die etwas anderes als Spaß sowieso praktisch nicht hergibt. Mir macht's halt auch immer wieder mal Spaß, darüber etwas vor mich hin zu schreiben. Ok, Thema verfehlt, dann du aber auch.
Parent - - By Guenter Stertenbrink Date 2019-11-23 13:27
es ist doch alles eine Frage der Wahrscheinlichkeit.
Vermutung ist eben nicht gleich Vermutung, manche sind wahrscheinlicher
[richtig] als andere. Und ein "Beweis" im ueblichen Sprachgebrauch, ausserhalb der Mathematik,
ist nur "hinreichend hohe Evidenz".
Sagen wir, die Wahrheit liegt innerhalb der Errorbar meiner Vermutung.
Ich gab mehrere Beispiele, Charts, Statistiken fuer meine Vermutungen.

Ich habe die Vermutung, dass meine Vermutungen auf Statistiken vieler Partien basieren,
waehrend deine Vermutungen auf ausgewaehlten Stellungsproblemen basieren ?!
Parent - - By Peter Martan Date 2019-11-23 17:24 Edited 2019-11-23 17:30
Guenter Stertenbrink schrieb:

Ich habe die Vermutung, dass meine Vermutungen auf Statistiken vieler Partien basieren,
waehrend deine Vermutungen auf ausgewaehlten Stellungsproblemen basieren ?!

Genau, deine Vermutungen basieren auf Statistiken vieler Partien, die zwischen anderen Engines, (als Grundlage der Eichung der Werte, gehst du von ganz anderen Ausgangswerten aus, sind deine Endwerte automatisch falsch mit an Sicherheit grenzender Wahrscheinlichkeit ), auf anderer Hardware, mit anderen TCs und anderen Eröffnungen gespielt wurden.

Meine ausgewählten einzelnen Stellungen geben für genau die Engines, die mich interessieren, auf genau der Hardware, die ich hernehme mit genau den Zeiten, die ich untersuche, genau den oder jenen Output und oder spielen genau die eine oder andere Partie aus.
Jetzt kann ich mehr oder weniger Stellungen nehmen, mehr oder weniger oft wiederholen, mehr oder weniger Partien zu genau den Stellungen spielen lassen oder mehr oder weniger ähnlich bewertete Lines vergleichen.

Deine Vermutungen lassen jeden Zusammenhang zwischen dem, was untersucht wird und dem was du daraus folgerst vermissen, meine sind rein stellungsabhängig.

In Eduards Posting, auf das du geantwortet hast, ging's um genau eine Partie mit genau den Stellungen, die darin vorkamen, du hast darauf mit schieren Vermutungen und Statistiken reagiert, die, selbst wenn sie einen konkret nachvollziehbaren Zusammenhang mit deinen Vermutungen hätten, über das Einzelereignis einzelne Partie und einzelne Stellung bekanntlich just gar nix aussagen hätten können.

Worauf ich immer wieder hinaus will, was du aber immer wieder nicht zur Kenntnis nehmen willst, Statistiken sagen über das Einzelereignis genau nichts aus, wenn 32x Rot im Roulette gekommen ist, ist die Wahrscheinlichkeit, dass jetzt Schwarz kommt, genau so groß wie beim 32. Mal. Du kannst mit der Wahrscheinlichkeitsrechnung das Einzelereignis genau nicht vorhersagen, nicht nur nicht genau, sondern genau gar nicht.

Das ist das Eine, was hinlänglich über Statistiken bekannt ist, das andere ist, dass deine Statistiken vermutlich einen Zusammenhang mit den Vermutungen, die du daran anknüpfst haben werden, wie genau oder wie genau daneben du vermutest, das ist schiere Vermutung, es ist quantitativ einfach nichtssagend.
Du sagst,
Zitat:
Sagen wir, die Wahrheit liegt innerhalb der Errorbar meiner Vermutung

das würde heißen, sie kann genau so gut wahr wie falsch sein, aber auch, wenn du vielleicht gemeint hast, sie läge außerhalb, mit Eduards Partie hat sie so und so nix zu tun, und die für dich wahrscheinlich relevantere Frage, weil du dich halt (im Moment gerade) mit einzelnen Stellungen und einzelnen Partien nicht auseinandersetzen willst, weil dich andere statistische Fragen (die könntest du auch an einzelne Stellungen knüpfen, interessiert dich nicht, macht auch nichts) mehr interessieren, genau die Antwort auf deine Frage (auch wenn du sie dir nicht stellst und sie dir hartnäckig von mir nicht stellen lassen willst), liege ich (liegst du) mit deiner Vermutung innerhalb oder außerhalb der "Errorbar", genau die Antwort kannst du vermuten, aber nicht einmal irgendwie schlüssig quantitativ geben.

Wissen ist Macht, ich weiß nichts, macht auch nichts, vermute ich halt einfach mal statt dessen wieder irgendwas.
Parent - By Peter Martan Date 2019-11-23 18:30 Edited 2019-11-23 18:32
Peter Martan schrieb:

Guenter Stertenbrink schrieb:

Ich habe die Vermutung, dass meine Vermutungen auf Statistiken vieler Partien basieren,
waehrend deine Vermutungen auf ausgewaehlten Stellungsproblemen basieren ?!

Wissen ist Macht, ich weiß nichts, macht auch nichts, vermute ich halt einfach mal statt dessen wieder irgendwas.

Und mit dem alten Burner "Stellungstests" kann man mich halt auch immer wieder am besten triggern.

Thorsten Czub schreibt z.B. auch immer wieder, Schach sei kein Stellungstest. Aber doch, genau das ist Schach. Es ist ein Stellungstest der Grundstellung und der aus ihr hervorgehenden Stellungen, die durch Züge von der Grundstellung aus erreicht werden.
Nicht mehr und nicht weniger als das ist Schach.

Anstelle von Zügen für die eine und die andere Seite abwechselnd, kannst du Nullzugkaskaden, genannt Pläne, schmieden, und du kannst deine Testmatches immer wieder von willkürlich ausgewählten Eröffnungsstellungen ausspielen lassen, die du den Engines anstelle der Grundstellung vorsetzt. Aber wer von uns beiden testet denn da dann "ausgewählte Stellungsprobleme"?
Doch der, der die Probleme mit den ausgewählten Eröffnungsstellungen auswählt, wer stellt denn da willkürlich Probleme?

Entweder du lässt immer wieder von der Grundstellung aus spielen und ignorierst die Dubletten (was haben die denn bitte für eine statistische Relevanz? Doch nur genau dieselbe wie die Nichtdubletten, oder sogar eine größere, weil sie nicht nur einzeln vorkommen, was dafür spricht, dass sie Gründe für die Häufung haben.

Oder du suchst willkürlich Eröffnungsstellungen aus, von denen du dir erhoffst, du sparst damit Dubletten, Remis, 1-1-Paare, was auch immer du nicht so gern in deiner Partiensammlung haben willst, auf die du dann deine Berechnungen gründest, aber es ist einfach genau das: das künstliche Schaffen von Stellungsproblemen, die du nicht hättest, wenn du nicht willkürlich Eröffnungsstellungen auswähltest.

Alle Stellungen, die du ausgespielt oder nicht, fernab von der Grundstellung und ungeachtet des Weges, auf dem du sie von ihr aus erreicht hast, als Ausgangspunkte deiner Tests und Statistiken hernimmst, sind in Hinblick auf den einzig wirklich relevanten Stellungstest, den der Grundstellung, bias, bias im schönsten Sinn des Wortes, selection bias, das Gegenteil von Randomisierung.
Period.
Machst du gleich außer Eröffnungsstellungstests auch Mittelspielstellungstests und Endspielstellungstests, trägst du dem Umstand Rechnung, dass in jedem anderen Fall, wenn du von Grundstellungs- nahen Eröffnungsstellungen immer wieder neue startest, die Eröffnungsstärke der Engines 3x testest, in der Eröffnung, im Mittelspiel (das durch die Eröffnungsstellungen und die Eröffnungsstärke der spielenden Engines selektiert wird) und noch einmal im Endspiel, das wieder außer der Mittel- und Endspielstärke die Eröffnungsstellungen und die Eröffnungen testet, die die Engines daraus machen.

Deine Statistiken kranken an der Überselektion von bestimmten willkürlich gewählten Eröffnungsstellungen, jeder andere Stellungs- abhängige Test auch, man kann dem in den Ergebnissen Rechnung tragen oder nicht, du tust es nicht, dann wirf es bitte wenigstens nicht mir vor, dass ich es tue.

Ist doch wahr, musste doch auch endlich mal wieder gesagt werden.
Parent - - By Guenter Stertenbrink Date 2019-11-24 04:51
du suggerierst, (ohne konkrete Beispiele) dass die Ratings stark von den Bedingungen wie Eroeffnungswahl,
Hardware,Gegner-Auswahl,Bedenkzeit abhaengt.
Einfach , weil nach deinem "Gefuehl" dieses eine grosse Rolle spielen sollte.

Das ist aber doch nicht das, was wir sehen, All die verschiedenen Ratinglisten zeigen sehr aehnliche
Elozahlen - im Rahmen der Errorbars - unabhaengig von den Konditionen.
Und auch die Stellungstest-"Elozahlen"/Ranglisten sind sehr aehnlich dazu, siehe die Eret-Postings hier
oder meine 1231-asmFish charts.
Parent - By Peter Martan Date 2019-11-24 07:30 Edited 2019-11-24 07:53 Upvotes 1
Guenter Stertenbrink schrieb:

All die verschiedenen Ratinglisten zeigen sehr aehnliche
Elozahlen - im Rahmen der Errorbars - 

Genau. So lange alles in diesem Rahmen bleibt, sagt das alles genau nix. Kann sein wahr, kann sein Error. Drum heißt's ja Errorbar und nicht Konfidenzintervall, in dem wär's nämlich, wenn's innerhalb der Errorbar wäre, genau nicht.

Wir streiten wieder mal um Kaisers Bart, Günter, du bist mit halb voll vollauf zufrieden, mir kommt's drauf an, dass voll oder leer keine Rolle spielt, wenn man das halb wenigstens ernst nimmt und nicht ständig behauptet, es wäre ganz oder vermutlich mindestens dreiviertel, wenn man eine Errorbar von einem Viertel hat. Dann könnte es nämlich, wenn man halb vermutet, genau so gut nur viertel voll oder dreiviertel leer sein.
Alle Tests sind immer stellungsabhängig, Punkt. Das ist keine statistische Frage, so sehr du auch eine draus machen willst, statistisch wird's frühestens bei der Frage, wie stellungsabhängig sind welche Tests von welchen Stellungen aus.

Der einzige unbiased zählende Test wäre der von der Grundstellung, das hättest du dann nämlich für alle Partien und alle Engines und jede Hardware- TC genau dieselbe Ausgangsstellung, dann hängt's so aber natürlich erst recht wieder davon ab, wie gut spielen die Engines, die du testest, von der aus ohne jedes Buch und ohne alle Vorgaben. Bei dem hast du also erst recht wieder die Eröffnungsstärke dreimal drin.

Jetzt hast du dich mit dir selbst geeinigt, das macht nix, das gehört so, ok, dann musst du's aber auch im Kopf behalten, dass es Willkür ist, was du zugrunde legst und nicht "overall playing strength" im schachlichen Sinn, die du misst, sondern:
du machst ausgespielte Stellungstests von ausgewählten Teststellungen aus.

Mache ich ausgespielte oder nicht ausgespielte Stellungstests von Mittel- und Endspielstellungen aus, ist's für dich auf einmal etwas anderes, weil dass da dann immer dieselben Elo rauskämen wie im Grundstellungsmatch oder im willkürlich aufgesetzten Match von ausgeglichenen grundstellungsnahen Stellungen aus, so ist's halt nicht, drum sagen wir dann einfach willkürlich, so und so nahe der Grundstellung und so und so ausgeglichen dürfen die Stellungen sein, damit's noch ins "Elo- Schema" passt. Du machst passend, was dir nicht passt, dass das dann für dich als Grundlage weiter reichender Vermutungen vermutlich auch passen wird, sei dir gegönnt.
Parent - - By Guenter Stertenbrink Date 2019-11-26 02:20 Edited 2019-11-26 02:51 Upvotes 1
auf CCRL 40/4 ist FatFritz jetzt die neue Nummer 1 !
15 Elo vor Lc0 auf gleicher Hardware (RTX2080)
700 Partien

-4 gegen 4 NNs
+8 gegen 4 ABs
68% Remisquote

http://www.computerchess.org.uk/ccrl/404/

-------------------------------------------

auf CEGT 40/20 ein Eloechen hinter LCZero 0.21.2 Cuda (42668)

3456 gegen 5 ABs
3446 gegen 3 NNs
74% Remisquote

600 Partien

http://www.cegt.net/40_40%20Rating%20List/40_40%20SingleVersion/rangliste.html
Parent - - By Eduard Nemeth Date 2019-11-26 07:16 Edited 2019-11-26 07:29 Upvotes 1
Bei Stefan spielte "Lc0 0.21.3 42850" und dieses ist bei ihm klar besser als Fat Fritz. Da sehe ich nicht unwesentliche Unterschiede. Beim CCC-Match zuletzt "Lc0 vs Fat Fritz", spielte ein Spezialnetz von Jhorthos, und
in der Grösse 320x24 (J13B.2-188). Da hat Lc0 ziemlich klar gewonnen. Allerdings liefen die beiden NN Engines auf 3x RTX 2080 Ti. Und: Bei CCRL läuft Stockfish ja nur auf einem 2,4 GHz Athlon 4 Kerner, die NN Engines aber auf RTX 2080.
Parent - - By Guenter Stertenbrink Date 2019-11-26 07:37 Edited 2019-11-26 07:43
Lc0 und FatFritz liefen auf derselben Hardware - egal was die AB-engines hatten.
Und FatFritz schnitt besser ab mit ca.7Elo in 1300 Partien zusammen (CEGT+CCRL) !

Waere einigermassen plausibel, wenn FatFritz mit schwaecherer Hardware/kuerzerer Bedenzeit
zulegt im Vergleich zu Lc0, wegen der "minderwertigen" Menschen-Partien im FatFritz/DeusX-Training.
Parent - - By Eduard Nemeth Date 2019-11-26 08:45 Edited 2019-11-26 08:54
Stockfish (und daher auch die anderen AB Engines) liefen auf klar schwächerer Hardware. Dass LC0 gegen schwächere Gegner schlechter punktet, kann sein. Trotzdem scheinen für mich die letzten Ergebnisse bei CCC Turnier und bei Stefan Pohl eher zueinander zu passen. Allerdings läuft LC0 bei Stefan auf RTX 2060 und AB immerhin auf 6 Kernen, während bei CCRL RTX 2080 gegen CPU 4 Kerne spielen darf. Der Unterschied zwischen RTX 2080 und Athlon 4x 2,4 GHz ist schon sehr krass. Angemessen zu RTX 2080 ist ein aktueller 12 Kerner. Mich irritiert daher solch eine Rangliste wo das nicht einmal halbwegs gegeben ist.
Parent - - By Eduard Nemeth Date 2019-11-26 10:53
Was mich etwas überrascht, Allie spielt bei CCRL mit dem gleichen Netz wie LC0. Da Allie bei Turnieren schon von Anfang an mit Leelenstein spielt, und vermutlich darauf genunt ist,  hätte dieses Netz mehr Sinn gemacht. Es gibt sogar ein frei verfügbares 10.2 Netz. Fakt ist, Stefan macht sich mehr Mühe, er drosselt sogar die Hardware bei einer RTX 2060, obwohl seine CPU nicht schwächer ist als die bei CCRL wo mit RTX 2080 testet wird. Ich habe mich schon wegen der Spielstufe von 50+1 geärgert, aber irgendwie passen die Ergebnisse bei ihm zu später stattgefundenen Turnieren, wie LC0 vs Fat Fritz bei Chess.com. Ich habe dort einige Partien live geschaut, und LC0 war leider besser als FF.

Ich kann CCRL nicht mehr ernst nehmen.
Parent - - By Peter Weise Date 2019-11-26 11:43
Es ist doch völlig Pappe mit welchem Netz und welcher Version getestet wird, Hauptsache es steht dabei. Die CCRL macht sich sehr viel Arbeit mit den ganzen Tests (die CEGT ebenso) und die Resultate decken sich mit meinen kleineren Testläufen. Wer was anderes will und besseres kann sollte selbst Hand anlegen!
Parent - - By Eduard Nemeth Date 2019-11-26 12:38
Jeder habe seine Meinung. Viel Mühe machen sich andere auch. Das darf aber kein Alibi sein, damit man Zitronen und Orangen in gleichen Topf geben darf! Früher gab es Engines die nur auf Single CPU liefen, also hat man so getestet, und auf 2 CPU, und auf 4 CPU alle MP Versionen. ALLE Engines wurden gleich getestet. Damit war die Rangliste auch OK. Jetzt nicht mehr.
Parent - - By Guenter Stertenbrink Date 2019-11-26 12:47 Edited 2019-11-26 12:56
hier mal die Ergebnisse, wenn man nur jeweils Partien gegen dieselben Gegner beruecksichtigt.
Beim Test der top3 untereinander faellt SF stark ab bei CCRL und FF bei CEGT und top5
(wegen des schlechten Ergebnisses gegen Komodo dort)

Code:

sp-cc,2019/11/26

SF     ,3532,
6Lc0   ,3507,
FF     ,3479,
Allie  ,3483,
Scorpio,3367,
Houdini,3448,
Komodo ,3426,
Fire   ,3320,

CCRL,2019/11/26

               FF, lc0,  SF,alli,
----------------------------------
FF     ,3617,50.0,51.9,43.2,35.9
Lc0    ,3602,48.1,50.0,48.3,45.0
SF     ,3615,56.8,51.7,50.0,42.1
Allie  ,3572,64.1,55.0,57.9,50.0
Stoof  ,3550,60.2,57.4,54.0,56.0
Komodo ,3531,66.3,65.9,64.7,63.3
Houdini,3520,69.1,62.6,66.7,62.5
Fire   ,3428.76.5,75.6,78.9,68.6
--------------------------------
             61,4,58.8,58.0,52.9

top3         51.6,51.2,47.2,41.0
bottom5      67.2,63.3,64.4,60.1

-------------------------------------------------

CEGT,2019/11/26

               FF, Lc0,  SF,Stoof,
-----------------------------------------
FF     ,3450,50.0,51.1,51.6,45.4
Lc0    ,3451,48.9,50.0,50.5,43.2
SF     ,3485,48.4,49.5,50.0,42.6
Stoof  ,3404,54.6,56.8,57.4,50.0
Komodo ,3405,48.4,57.5,59.5,52.4
Houdini,3425,53.2,60.0,59.3,45.7
Scorpio,3386,60.5,----,----,47.5
Fire   ,3309,----,66.0,74.6,66.5
-----------------------------------
top5         50.6,54.2,54.7,46.6
top3         49.1,50.2,50.7

Parent - By Eduard Nemeth Date 2019-11-26 12:53 Edited 2019-11-26 12:57
Fat Fritz, the top rated engine in the world
https://en.chessbase.com/post/optimizing-fat-fritz

Ja genau, FF ist besser als Stockfish.
Parent - - By Stefan Pohl Date 2019-11-26 13:13 Edited 2019-11-26 13:37
Eduard Nemeth schrieb:

Jeder habe seine Meinung. Viel Mühe machen sich andere auch. Das darf aber kein Alibi sein, damit man Zitronen und Orangen in gleichen Topf geben darf! Früher gab es Engines die nur auf Single CPU liefen, also hat man so getestet, und auf 2 CPU, und auf 4 CPU alle MP Versionen. ALLE Engines wurden gleich getestet. Damit war die Rangliste auch OK. Jetzt nicht mehr.


Die Frage ist eben, wie eigentlich die Leela-Ratio in der CCRL ist? Ich denke auch, daß diese viel zu hoch ist. Denn eine non-mobile RTX-2080 gegen einen Quadcore (i7-6700K) ist heftig.
Auf dieser CPU dürfte Stockfish auf ca. 17.000.000 n/s kommen (ein schnellerer Intel i7 8700K @4.7Ghz ist bei ipman mit gut 18.000.000 n/s gelistet). Auf einer non-mobile RTX 2080 sollte Fat Fritz so auf c. 36000 n/s kommen. Daraus würde ich eine Leela-Ratio von 1.85 errechnen. Das ist sehr heftig viel. Bei mir sind es schon 1.3 (weniger bekomme ich nicht hin, da ich meine mobile RTX 2060 schon maximal (-30%) abgebremst habe).
Aber mit 1.85 ist es kein Wunder, daß Fat Fritz sich im Ranking knapp vor Stockfish schiebt. Und lc0 ist dort nur mit Net 49921 gelistet, welches sicher nicht das Stärkste ist.
Zudem hat Fat Fritz nur knapp 700 Partien gemacht. Was auch sehr wenig ist. Hohe Errorbar (+/- 20 Elo). Bestes Beispiel mein Testrun vom Netz 61211, der gerade durch ist. Nach 590 Partien war der so bei +2 oder +3 Elo zum Netz 60891. Nach den vollen 3000 Partien sind es jetzt +24 Elo (!!!) Zuwachs geworden. Genau wegen solcher Schwankungen auch jenseits der 500er-Partien Marke, habe ich meine Testruns auf kurze Bedenkzeit und 3000 Partien pro Testrun umgestellt. 700 Partien reichen einfach nicht aus für ein stabiles Ranking. Insofern halte ich das CCRL-Ergebnis aus den genannten Gründen für sehr fragwürdig. Aber kein Wunder, daß Chessbase daraus gleich einen Jubel-Artikel auf ihrer Website macht. Naja. In meiner Rangliste hat Fat Fritz mit der Nummer 1 mal so gar nichts zu tun. Und zu Stockfish (ältere Dev vom Juni, nicht mal die aktuellste) fehlen auch noch 50 Elo.

Ich teste jetzt mal lc0 0.22.0 mit dem 49921 Netz, welches ja als einziges in der CCRL getestet wurde. Mal sehen, wie stark das überhaupt ist.
Parent - - By Eduard Nemeth Date 2019-11-26 13:30 Edited 2019-11-26 13:34
Wie kommst Du auf i7? Ich sehe dort Athlon 64 X2 4600+ (2.4 GHz).

Ist das wenigstens ein quad core? Wikipedia sagt mir 2 Kerne.
Parent - - By Stefan Pohl Date 2019-11-26 13:34 Edited 2019-11-26 13:37
Eduard Nemeth schrieb:

Wie kommst Du auf i7? Ich sehe dort Athlon 64 X2 4600+ (2.4 GHz).


http://www.computerchess.org.uk/ccrl/404/cgi/engine_details.cgi?print=Details&each_game=1&eng=Fat%20Fritz%20RTX2080#Fat_Fritz_RTX2080

Zitat:
"Games played on an RTX2080 in an Intel Core i7-6700K machine."

Mußt mal etwas genauer lesen. Auf der Hauptseite steht:
"Equivalent to 40 moves in 4 minutes on Athlon 64 X2 4600+ (2.4 GHz)"

Heißt, die Zeitkontrollen auf den Test-PCs werden so gewählt, daß das in der Knotenzahl pro gespieltem Zug auf dem Brett etwa 40/4 auf einem Athlon 64 X2 4600+ entspricht. Es heißt nicht, daß auf dieser CPU getestet wird.
Parent - - By Eduard Nemeth Date 2019-11-26 13:46 Edited 2019-11-26 13:51
Knotenzahl von was? Hat man den FatFritz quasi gedrosselt, bzw. ihm weniger Zeit gegeben? Wie viel weniger? Der Athlon ist verglichen eine Schnecke. Die RTX 2080 schafft um die 30 Kns. Mein Ryzen 2600 macht in der Grundstellung nur 15000 kns. ein i7 ist schwächer als meiner.
Parent - - By Stefan Pohl Date 2019-11-26 13:49
Eduard Nemeth schrieb:

Knotenzahl von was? Hat man den FatFritz quasi gedrosselt, bzw. ihm weniger Zeit gegeben? Wie viel weniger?


Hier geht es um die Knotenzahlen der AB-Engines und ihrer Eichung an 40/4 auf dem Athlon 64 X2 4600+ (2.4 GHz). Ob Fat Fritz gedrosselt wurde oder weniger Zeit bekam, weiß ich nicht.
Parent - - By Eduard Nemeth Date 2019-11-26 13:54 Upvotes 1
So habe ich es auch verstanden. Es geht im Prinzip um RTX 2080 gegen AB auf Athlon.
Parent - - By Wolfgang Battig Date 2019-11-26 14:23 Edited 2019-11-26 14:30
Nein, niemand spielt dort "RTX gegen (Ur-Alt)Athlon".
Es hat dort auch niemand mehr einen dieser Athlons im Einsatz, darauf würde ich wetten.

CCRL nutzt einen Benchmark (soviel ich weiß von Crafty) um die Bedenkzeit auf den schnelleren Maschinen festzulegen.
Basis ist das Ergebnis des alten Athlons in diesem Bench.
Erreicht der Athlon z.B. den Wert 30 (fiktiv) und der verwendete PC 15 (ebenfalls fiktiv) findet das Match mit 40/20 bzw. 40/2 im Blitz statt. Dazwischen gibt es reichlich Abstufungen gemäß einer Excel-Tabelle.

Die Formulierung lautet daher sinngemäß: "40 moves / xy minutes" adapted to 40/40 on Athlon...." oder "equivalent to..."
Es geht also nur um die Ermittlung der Bedenkzeit (für beide!)!!

So versucht man die Generationen an PCs vergleichbar(er) zu machen. 40/40 auf einem modernen i7 ist ja deutlich länger als 40/40 auf dem Athlon.
Kann man so machen, muss man aber nicht. Wichtig(er) zumindest für mich ist, dass die Hardware ausgeglichen ist. Bei AB gegen AB keine Problem, mit den NN auf Grafikkarten schon.

Die HArdware auf der 2008 oder so getestet wurde interessiert heute nicht mehr und die damaligen Engines auch nicht mehr wirklich. Sollte ich wirklich mal so einen Oldie hervorkramen, läuft er jetzt halt auf schneller(er) Hardware. So what?

Ob CCRL irgendwie drosselt weiß ich nicht, aber Stefan hat schon recht. RTX2080 gegen i7 aus der 6. Serie kann nicht ausgeglichen sein. Da ist die Grafikkarte klar im Vorteil.
Up Topic Hauptforen / CSS-Forum / Fat Fritz (in lc0)
1 2 Previous Next  

Powered by mwForum 2.29.3 © 1999-2014 Markus Wichitill